Python

[파이썬] 외부 데이터 (Gibhub) 불러오기와 정보 확인하기

Any Developer 2023. 5. 4. 19:16

1. 개요 및 목표

 - 판다스 패키지에서 제공하는 read_csv 메소드를 이용해서 외부 데이터를 불러오기.

 - 불러온 외부 데이터 (데이터 프레임 형태) 의 컬럼 정보, 데이터타입, 결측치 정보, 기초 통계량 확인하기 예제 수행.

 

1-1. 사용 도구

 - Google Colaboratory

 

2-1. 작성 코드

'''
[목표]
1. 판다스 패키지 임포트하기
2. 판다스 패키지 내에 read_csv 메소드 사용하기
3. 데이터 프레임 정보 확인하기기
'''

import pandas as pd  # 판다스 패키지 임포트

df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")  # 타이타익 데이터 읽기 || 판다스 데이터프레임

df.info()  # 정보 확인

 

2-1-1. 코드 실행 결과

2-1-2. 해설

- 코드 실행결과로 CSV 파일을 데이터프레임 형태로 불러왔다.

- 각 열(Column) 에 대한 정보와 결측값 정보, 데이터 타입 정보를 확인할 수 있다.

 

 

2-2. 작성코드

import pandas as pd  # 판다스 패키지 임포트

df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")  # 타이타익 데이터 읽기 || 판다스 데이터프레임

df.head(20)  # 20개 정보 확인하기

 

2-2-1. 실행결과

2-2-1. 해설

- 데이터 프레임의 20개 정도만 대략적인 내용이나 패턴을 파악하기 위한 메소드 head() 를 사용해 보았다.

 

2-3. 작성코드

import pandas as pd  # 판다스 패키지 임포트

df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")  # 타이타익 데이터 읽기 || 판다스 데이터프레임

df.describe(include='all')  # 간단한 통계 정보 확인하기

2-3-1. 실행결과

2-3-2. 해설

 - describe(include='all') 을 통해 데이터 프레임의 간략한 통계 정보 (기초통계량)를 한눈에 파악할 수 있다.

 - 결측치를 제외한 데이터의 갯수(count),

 - 범주형 데이터의 개수 (unique),

 - 범주형 데이터에서 가장 많이 출현한 데이터 값 (top),

 - 범주형 데이터에서 가장 많이 출현한 데이터의 개수 (freq),

 - 연속형 데이터의 산술평균 (mean)

 - 연속형 데이터의 표준편차 (std)

 - 연속형 데이터의 최소값 (min)

 - 연속형 데이터의 1분위수 (25%)

 - 연속형 데이터의 2분위수 (50%)

 - 연속형 데이터의 3분위수 (75%)

 - 연속형 데이터의 최대값 (max)

 

[통계] 상자 수염 그림 as 박스 플롯 (Box Plot) (tistory.com)

 

[통계] 상자 수염 그림 as 박스 플롯 (Box Plot)

Box Plot 을 통해 알 수 있는 것 a. 이상치 존재 여부 b. 데이터 분포의 최소값, 제1분위 (Q1), 중앙값, 제3분위 (Q3), 최대값 사분위범위는 제3분위에서 제1분위를 뺀값 (Q3-Q1) 이다.

iotcyuty.tistory.com