[통계] 왜도와 첨도 ■ 왜도 - 분포의 대칭/비대칭 경향을 나타낸 통계적 척도 - 정규분포는 왜도가 0 이다. ※ 왜도 > 0 이면 최빈값 < 중앙값 < 평균 (평균이 가장 크다) ※ 왜도 = 0 이면 최빈값 = 중앙값 = 평균 ※ 왜도 < 0 이면 평균 < 중앙값 < 최빈값 (평균이 가장 작다) ■ 첨도 (Kurtosis) - 분포의 뾰족한 정도를 나타내는 통계적 척도 - 평균을 중심으로 데이터 분포가 모일 수록 첨도값은 더 커진다. Statistics 2023.04.01
[통계] 빅데이터 변수 ■ 용어 정리 - 데이터 : 사실과 자료를 기호화, 수치화한 자료. - 단위 : 관찰되는 항목이나 대상. - 관측값 : 단위별 기록정보 또는 특징. - 변수 : 단위에서 측정된 특성의 결과. - 원자료 : 가공하기 전 원시자료. ■ 종류 - 단변량자료 : 특성을 대표하는 특성 변수가 하나인 자료. - 다변량자료 : 특성을 대표하는 특성 변수가 두가지 이상인 자료. - 질적자료 (Qualiative Data) : 정성적자료 또는 범주형자료 → 명목자료, 서열자료 - 수치자료 (Quantitative Data) : 정량적자료 또는 연속형자료 → 구간자료, 비율자료 - 시계열자료 (Time Series Data) : 시간개념이 포함된 자료. - 횡적자료 (Cross Sectional Data) : 한개의 시점.. Statistics 2023.04.01
[통계] Min Max 정규화 ■ Min Max 정규화란 - 통계분석 목적 등에 의해 데이터를 0~1 사이 구간 분포로 변화화는 것. - 데이터 구간의 최소값이 0, 최대값을 1로 두어 데이터값을 0.xxxx 등으로 표현. - Max, Min 을 추출하는 과정에서 이상치 (Outlier) 값의 영향을 많이 받는다. - 비교적 간단한 수식으로 변수 처리가 가능하다. Statistics 2023.04.01
[통계] 탐색적 데이터 분석 (EDA) 탐색적 데이터 분석 (EDA : Exploratory Data Analysis) 다양한 방법으로 분석할 데이터를 관찰하고 이해하는 과정. 데이터의 구체적인 모델링 이전에 자료를 사전 분석하는 과정. 왜 하는가? 모델링 이전에 데이터 분포와 경향을 이해할 수 있다. 발견되는 문제점을 파악하고 대체할 수 있다. 예측하지 못한 양상 발견시 가설을 수정할 수 있다. 과정 분석 목적은 무엇인가? 데이터 결측치, 이상치 부분 파악 분포를 확인함. 상관관계 등을 파악한다. Statistics 2023.04.01
[통계] 상자 수염 그림 as 박스 플롯 (Box Plot) Box Plot 을 통해 알 수 있는 것 a. 이상치 존재 여부 b. 데이터 분포의 최소값, 제1분위 (Q1), 중앙값, 제3분위 (Q3), 최대값 사분위범위는 제3분위에서 제1분위를 뺀값 (Q3-Q1) 이다. Statistics 2023.04.01
[통계] 이상값 (Outlier) 이상값 (Outlier) 란 정상의 범주 (데이터의 전체적 패턴) 에서 벗아난 값. [주요 개념 정리] 단변수 이상치 (Univariate Outlier) : 하나의 데이터 분포에서 발생하는 이상치 다변수 이상치 (Multivariate Outlier) : 복수의 연결된 데이터 분포간에 발생하는 이상치 이상치 발생 원인 (비자연적 이상치) a. 입력실수 (Data Entry Error) b. 측정오류 (Measurement Error) : 측정장치 이상작동 (고장) c. 실험오류 (Experiment Error) : 실험환경에 따른 문제점 d. 의도적 이상치 (Intentional Outlier) : 자기 보고 측정 (Self-reported Measure) 에서 발생하여 의도가 포함된 이상치 e. 자료.. Statistics 2023.04.01