본문 바로가기

금융 및 데이터

[R] 데이터 분석 코딩

728x90

기술통계 

 

다음과 같은 excel 파일이 있을 때 

이런 식으로 분포를 구할 수 있다.

또 이런 식으로 상관관계와 분산, 표준편차를 구할 수 있다.

 

데이터 편집

 

 

그룹별 평균 구하기 : 성별로 월급 데이터와 경력별 월급이 있습니다. 이 기준으로 평균 월급을 구함

우선 열 이름이 한글이기 때문에 영어로 바꾸어준다.

 

tapply : sex 를 기준으로 salary의 mean을 구한다.

 

melt : 데이터 프레임의 행열을 바꾼다.

salary 가 2000000보다 높은 사람만 추출하라

 

이상치 찾기와 제거하기

이와 같은 데이터 프레임이 있을 때 우선 boxplot으로 시각화를 해본다.

boxplot(DF$age)

아웃라이어가 존재하는 것을 확인할 수 있다.

IQR 함수는 3분위 값에서 1분위 값을 차감한 값이다. 즉 1분위 값은 55이고 3분위 값을 72이기 때문에 17이 나온다. 

이처럼 1분위 값에 distIQR*1.5 를 한 값을 빼서 하한값을 정하고 3분위 값에 distIQR*1.5 한 값을 더해서 상한 값을 정한 다음

subset 함수를 사용하여 Outlier를 추출한다.