Statistics

[통계] 빅데이터 변수

Any Developer 2023. 4. 1. 16:51

■ 용어 정리

 - 데이터 : 사실과 자료를 기호화, 수치화한 자료.

 - 단위 : 관찰되는 항목이나 대상.

 - 관측값 : 단위별 기록정보 또는 특징.

 - 변수 : 단위에서 측정된 특성의 결과.

 - 원자료 : 가공하기 전 원시자료.

 

■ 종류

 - 단변량자료 : 특성을 대표하는 특성 변수가 하나인 자료.

 - 다변량자료 : 특성을 대표하는 특성 변수가 두가지 이상인 자료.

 - 질적자료 (Qualiative Data) : 정성적자료 또는 범주형자료 → 명목자료, 서열자료

 - 수치자료 (Quantitative Data) : 정량적자료 또는 연속형자료 → 구간자료, 비율자료

 - 시계열자료 (Time Series Data) : 시간개념이 포함된 자료.

 - 횡적자료 (Cross Sectional Data) : 한개의 시점에서 여러 대상 취합

 - 종적자료 (Longitudinal Data) : 시계열 자료 + 횡적자료 결합, 여러 개체를 여러 시점에서 수집한 자료.

 

■ 데이터 정제의 필요성

 - 데이터 정제는 데이터를 다듬는 과정이며 이 과정이 없으면 데이터의 일관성이 없으므로 분석 처리에 어려움이 발생할 수 있다.

 - 도출한 결과의 신뢰성 문제가 발생할 수 있다.

 

 

'Statistics' 카테고리의 다른 글

[통계] 왜도와 첨도  (0) 2023.04.01
[통계] Min Max 정규화  (0) 2023.04.01
[통계] 탐색적 데이터 분석 (EDA)  (0) 2023.04.01
[통계] 상자 수염 그림 as 박스 플롯 (Box Plot)  (0) 2023.04.01
[통계] 이상값 (Outlier)  (0) 2023.04.01