빅데이터분석 5

[Python] Matplotlib.pyplot 상자수염 그래프 그리기

1. 목표 - 데이터프레임의 지정 열 (Column) 의 사분위 수를 확인한다. - 중복열의 조건을 탐색하여 데이터를 분리한다. - 결과 데이터를 상자수염 그래프 (Box Plot) 그래프를 그려본다. 2. 도구 - Google Colaboratory - Github 타이타닉 데이터 "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv" 3. 사전 정보 확인 [Python] Matplotlib.pyplot 히스토그램 그래프 그리기 (tistory.com) [Python] Matplotlib.pyplot 히스토그램 그래프 그리기 1. 목표 - 데이터프레임의 지정 열 (Column) 값을 히스트그램 그래프를 그려본다. 2..

Python 2023.05.08

[파이썬] 외부 데이터 (Gibhub) 불러오기와 정보 확인하기

1. 개요 및 목표 - 판다스 패키지에서 제공하는 read_csv 메소드를 이용해서 외부 데이터를 불러오기. - 불러온 외부 데이터 (데이터 프레임 형태) 의 컬럼 정보, 데이터타입, 결측치 정보, 기초 통계량 확인하기 예제 수행. 1-1. 사용 도구 - Google Colaboratory 2-1. 작성 코드 ''' [목표] 1. 판다스 패키지 임포트하기 2. 판다스 패키지 내에 read_csv 메소드 사용하기 3. 데이터 프레임 정보 확인하기기 ''' import pandas as pd # 판다스 패키지 임포트 df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv") # 타이타익 데이터..

Python 2023.05.04

[통계] 왜도와 첨도

■ 왜도 - 분포의 대칭/비대칭 경향을 나타낸 통계적 척도 - 정규분포는 왜도가 0 이다. ※ 왜도 > 0 이면 최빈값 < 중앙값 < 평균 (평균이 가장 크다) ※ 왜도 = 0 이면 최빈값 = 중앙값 = 평균 ※ 왜도 < 0 이면 평균 < 중앙값 < 최빈값 (평균이 가장 작다) ■ 첨도 (Kurtosis) - 분포의 뾰족한 정도를 나타내는 통계적 척도 - 평균을 중심으로 데이터 분포가 모일 수록 첨도값은 더 커진다.

Statistics 2023.04.01

[통계] 탐색적 데이터 분석 (EDA)

탐색적 데이터 분석 (EDA : Exploratory Data Analysis) 다양한 방법으로 분석할 데이터를 관찰하고 이해하는 과정. 데이터의 구체적인 모델링 이전에 자료를 사전 분석하는 과정. 왜 하는가? 모델링 이전에 데이터 분포와 경향을 이해할 수 있다. 발견되는 문제점을 파악하고 대체할 수 있다. 예측하지 못한 양상 발견시 가설을 수정할 수 있다. 과정 분석 목적은 무엇인가? 데이터 결측치, 이상치 부분 파악 분포를 확인함. 상관관계 등을 파악한다.

Statistics 2023.04.01