728x90
기술통계
다음과 같은 excel 파일이 있을 때
이런 식으로 분포를 구할 수 있다.
또 이런 식으로 상관관계와 분산, 표준편차를 구할 수 있다.
데이터 편집
그룹별 평균 구하기 : 성별로 월급 데이터와 경력별 월급이 있습니다. 이 기준으로 평균 월급을 구함
우선 열 이름이 한글이기 때문에 영어로 바꾸어준다.
tapply : sex 를 기준으로 salary의 mean을 구한다.
melt : 데이터 프레임의 행열을 바꾼다.
salary 가 2000000보다 높은 사람만 추출하라
이상치 찾기와 제거하기
이와 같은 데이터 프레임이 있을 때 우선 boxplot으로 시각화를 해본다.
boxplot(DF$age)
아웃라이어가 존재하는 것을 확인할 수 있다.
IQR 함수는 3분위 값에서 1분위 값을 차감한 값이다. 즉 1분위 값은 55이고 3분위 값을 72이기 때문에 17이 나온다.
이처럼 1분위 값에 distIQR*1.5 를 한 값을 빼서 하한값을 정하고 3분위 값에 distIQR*1.5 한 값을 더해서 상한 값을 정한 다음
subset 함수를 사용하여 Outlier를 추출한다.
'금융 및 데이터' 카테고리의 다른 글
[Python] FinanceDataReader 데이터 Mysql DB에 적재하기 (0) | 2023.05.25 |
---|---|
Harry Markowitz의 포트폴리오 이론과 효율적 투자선 (0) | 2021.07.27 |
[Python] 뉴스 감성지수 분류 모델 (6) | 2021.06.17 |
Swap curve & Curve fitting (0) | 2021.06.14 |
[Python] Random Forest 모델 기반 변수 중요도 산출하기 (0) | 2021.06.13 |