■ 용어 정리
- 데이터 : 사실과 자료를 기호화, 수치화한 자료.
- 단위 : 관찰되는 항목이나 대상.
- 관측값 : 단위별 기록정보 또는 특징.
- 변수 : 단위에서 측정된 특성의 결과.
- 원자료 : 가공하기 전 원시자료.
■ 종류
- 단변량자료 : 특성을 대표하는 특성 변수가 하나인 자료.
- 다변량자료 : 특성을 대표하는 특성 변수가 두가지 이상인 자료.
- 질적자료 (Qualiative Data) : 정성적자료 또는 범주형자료 → 명목자료, 서열자료
- 수치자료 (Quantitative Data) : 정량적자료 또는 연속형자료 → 구간자료, 비율자료
- 시계열자료 (Time Series Data) : 시간개념이 포함된 자료.
- 횡적자료 (Cross Sectional Data) : 한개의 시점에서 여러 대상 취합
- 종적자료 (Longitudinal Data) : 시계열 자료 + 횡적자료 결합, 여러 개체를 여러 시점에서 수집한 자료.
■ 데이터 정제의 필요성
- 데이터 정제는 데이터를 다듬는 과정이며 이 과정이 없으면 데이터의 일관성이 없으므로 분석 처리에 어려움이 발생할 수 있다.
- 도출한 결과의 신뢰성 문제가 발생할 수 있다.
'Statistics' 카테고리의 다른 글
[통계] 왜도와 첨도 (0) | 2023.04.01 |
---|---|
[통계] Min Max 정규화 (0) | 2023.04.01 |
[통계] 탐색적 데이터 분석 (EDA) (0) | 2023.04.01 |
[통계] 상자 수염 그림 as 박스 플롯 (Box Plot) (0) | 2023.04.01 |
[통계] 이상값 (Outlier) (0) | 2023.04.01 |