Statistics 6

[통계] 왜도와 첨도

■ 왜도 - 분포의 대칭/비대칭 경향을 나타낸 통계적 척도 - 정규분포는 왜도가 0 이다. ※ 왜도 > 0 이면 최빈값 < 중앙값 < 평균 (평균이 가장 크다) ※ 왜도 = 0 이면 최빈값 = 중앙값 = 평균 ※ 왜도 < 0 이면 평균 < 중앙값 < 최빈값 (평균이 가장 작다) ■ 첨도 (Kurtosis) - 분포의 뾰족한 정도를 나타내는 통계적 척도 - 평균을 중심으로 데이터 분포가 모일 수록 첨도값은 더 커진다.

Statistics 2023.04.01

[통계] 빅데이터 변수

■ 용어 정리 - 데이터 : 사실과 자료를 기호화, 수치화한 자료. - 단위 : 관찰되는 항목이나 대상. - 관측값 : 단위별 기록정보 또는 특징. - 변수 : 단위에서 측정된 특성의 결과. - 원자료 : 가공하기 전 원시자료. ■ 종류 - 단변량자료 : 특성을 대표하는 특성 변수가 하나인 자료. - 다변량자료 : 특성을 대표하는 특성 변수가 두가지 이상인 자료. - 질적자료 (Qualiative Data) : 정성적자료 또는 범주형자료 → 명목자료, 서열자료 - 수치자료 (Quantitative Data) : 정량적자료 또는 연속형자료 → 구간자료, 비율자료 - 시계열자료 (Time Series Data) : 시간개념이 포함된 자료. - 횡적자료 (Cross Sectional Data) : 한개의 시점..

Statistics 2023.04.01

[통계] 탐색적 데이터 분석 (EDA)

탐색적 데이터 분석 (EDA : Exploratory Data Analysis) 다양한 방법으로 분석할 데이터를 관찰하고 이해하는 과정. 데이터의 구체적인 모델링 이전에 자료를 사전 분석하는 과정. 왜 하는가? 모델링 이전에 데이터 분포와 경향을 이해할 수 있다. 발견되는 문제점을 파악하고 대체할 수 있다. 예측하지 못한 양상 발견시 가설을 수정할 수 있다. 과정 분석 목적은 무엇인가? 데이터 결측치, 이상치 부분 파악 분포를 확인함. 상관관계 등을 파악한다.

Statistics 2023.04.01

[통계] 이상값 (Outlier)

이상값 (Outlier) 란 정상의 범주 (데이터의 전체적 패턴) 에서 벗아난 값. [주요 개념 정리] 단변수 이상치 (Univariate Outlier) : 하나의 데이터 분포에서 발생하는 이상치 다변수 이상치 (Multivariate Outlier) : 복수의 연결된 데이터 분포간에 발생하는 이상치 이상치 발생 원인 (비자연적 이상치) a. 입력실수 (Data Entry Error) b. 측정오류 (Measurement Error) : 측정장치 이상작동 (고장) c. 실험오류 (Experiment Error) : 실험환경에 따른 문제점 d. 의도적 이상치 (Intentional Outlier) : 자기 보고 측정 (Self-reported Measure) 에서 발생하여 의도가 포함된 이상치 e. 자료..

Statistics 2023.04.01