이상값 (Outlier) 란 정상의 범주 (데이터의 전체적 패턴) 에서 벗아난 값.
[주요 개념 정리]
<> 단변수 이상치 (Univariate Outlier) : 하나의 데이터 분포에서 발생하는 이상치
<> 다변수 이상치 (Multivariate Outlier) : 복수의 연결된 데이터 분포간에 발생하는 이상치
<> 이상치 발생 원인 (비자연적 이상치)
a. 입력실수 (Data Entry Error)
b. 측정오류 (Measurement Error) : 측정장치 이상작동 (고장)
c. 실험오류 (Experiment Error) : 실험환경에 따른 문제점
d. 의도적 이상치 (Intentional Outlier) : 자기 보고 측정 (Self-reported Measure) 에서 발생하여 의도가 포함된 이상치
e. 자료처리오류 (Data Processing Error)
f. 표본오류 (Sampling Error)
g. 상기 항목에 포한되지 않는 이상치는 자연적 이상치라고 함.
<> 이상치가 발생될 때 문제점
a. 기초(통계적) 분석결과의 신뢰도 저하 : 평균, 분산 등에 영향을 준다.
b. 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하 : 검정, 분류, 회귀분석 등의 고급 통계 알고리즘 처리에 영향을 받는다.
<> 이상치 탐색 방법
a. 시각화된 그래프를 통한 분석 방법 : 시각화된 그래프나 모양을 보고 판별하는 방법 (비모수적, 단변량(2변량)의 경우)
- 대표적인 시각화 기법 : 박스 플롯, 줄기-잎-그림 (Stem and Leaf Diagram) , 스캐터 플롯
b. Z-Score 통한 방법 (모수적 단변량 또는 저변량의 경우)
- 정규화를 통해 특정 threshold 를 벗어난 경우를 이상치로 판별한다.
d. 고립의사나무방법 (Isolation Forest)
출처) 이기적 빅데이터분석기사 2023
2023 이기적 빅데이터분석기사 필기 기본서 : 네이버 도서 (naver.com)
'Statistics' 카테고리의 다른 글
[통계] 왜도와 첨도 (0) | 2023.04.01 |
---|---|
[통계] 빅데이터 변수 (0) | 2023.04.01 |
[통계] Min Max 정규화 (0) | 2023.04.01 |
[통계] 탐색적 데이터 분석 (EDA) (0) | 2023.04.01 |
[통계] 상자 수염 그림 as 박스 플롯 (Box Plot) (0) | 2023.04.01 |