금융 및 데이터
[R] 데이터 분석 코딩
Bono-Dev
2021. 12. 14. 20:42
기술통계
다음과 같은 excel 파일이 있을 때
이런 식으로 분포를 구할 수 있다.
또 이런 식으로 상관관계와 분산, 표준편차를 구할 수 있다.
데이터 편집
그룹별 평균 구하기 : 성별로 월급 데이터와 경력별 월급이 있습니다. 이 기준으로 평균 월급을 구함
우선 열 이름이 한글이기 때문에 영어로 바꾸어준다.
tapply : sex 를 기준으로 salary의 mean을 구한다.
melt : 데이터 프레임의 행열을 바꾼다.
salary 가 2000000보다 높은 사람만 추출하라
이상치 찾기와 제거하기
이와 같은 데이터 프레임이 있을 때 우선 boxplot으로 시각화를 해본다.
boxplot(DF$age)
아웃라이어가 존재하는 것을 확인할 수 있다.
IQR 함수는 3분위 값에서 1분위 값을 차감한 값이다. 즉 1분위 값은 55이고 3분위 값을 72이기 때문에 17이 나온다.
이처럼 1분위 값에 distIQR*1.5 를 한 값을 빼서 하한값을 정하고 3분위 값에 distIQR*1.5 한 값을 더해서 상한 값을 정한 다음
subset 함수를 사용하여 Outlier를 추출한다.
728x90
반응형