Statistics

[통계] 이상값 (Outlier)

Any Developer 2023. 4. 1. 14:42

이상값 (Outlier) 란 정상의 범주 (데이터의 전체적 패턴) 에서 벗아난 값.

 

Scatter Plot with Linear Regression - Outlier

 

 

Box Plot - outlier

[주요 개념 정리]

 

<> 단변수 이상치 (Univariate Outlier) : 하나의 데이터 분포에서 발생하는 이상치

 

<> 다변수 이상치 (Multivariate Outlier) : 복수의 연결된 데이터 분포간에 발생하는 이상치

 

<> 이상치 발생 원인 (비자연적 이상치)

  a. 입력실수 (Data Entry Error)

  b. 측정오류 (Measurement Error) : 측정장치 이상작동 (고장)

  c. 실험오류 (Experiment Error) : 실험환경에 따른 문제점

  d. 의도적 이상치 (Intentional Outlier) : 자기 보고 측정 (Self-reported Measure) 에서 발생하여 의도가 포함된 이상치

  e. 자료처리오류 (Data Processing Error)

  f. 표본오류 (Sampling Error)

  g. 상기 항목에 포한되지 않는 이상치는 자연적 이상치라고 함.

 

<> 이상치가 발생될 때 문제점

  a. 기초(통계적) 분석결과의 신뢰도 저하 : 평균, 분산 등에 영향을 준다.

  b. 기초통계에 기반한 다른 고급 통계분석의 신뢰성 저하 : 검정, 분류, 회귀분석 등의 고급 통계 알고리즘 처리에 영향을 받는다.

 

<> 이상치 탐색 방법

  a. 시각화된 그래프를 통한 분석 방법 : 시각화된 그래프나 모양을 보고 판별하는 방법 (비모수적, 단변량(2변량)의 경우)

     -  대표적인 시각화 기법 : 박스 플롯, 줄기-잎-그림 (Stem and Leaf Diagram) , 스캐터 플롯

  b. Z-Score 통한 방법 (모수적 단변량 또는 저변량의 경우)

     - 정규화를 통해 특정 threshold 를 벗어난 경우를 이상치로 판별한다.

  c. 밀도기반클러스팅방법 (DBSCAN)

  d. 고립의사나무방법 (Isolation Forest) 

 

 

출처) 이기적 빅데이터분석기사 2023

2023 이기적 빅데이터분석기사 필기 기본서 : 네이버 도서 (naver.com)

 

 

'Statistics' 카테고리의 다른 글

[통계] 왜도와 첨도  (0) 2023.04.01
[통계] 빅데이터 변수  (0) 2023.04.01
[통계] Min Max 정규화  (0) 2023.04.01
[통계] 탐색적 데이터 분석 (EDA)  (0) 2023.04.01
[통계] 상자 수염 그림 as 박스 플롯 (Box Plot)  (0) 2023.04.01