데이터분석 프로젝트 과정
EDA(Exploratory Data Analysis)
“탐색적 데이터분석은 우리가 존재한다고”
- 데이터과학 과정의 핵심적인 부분으로 데이터에 대한 이해를 높이는것
- 모델링에 앞서 선행되는 작업으로 데이터의 분포나 변수간 관계 파악
EDA의 기본 도구는 도표(plot), 그래프(graph), 요약통계(summary statistics)
- e
데이터 시각화
Matplotlib 기초개념
- 2차원 데이터를 시각화하기 위한 패키지
- 다양한 출력 형식(PNG, SVG, JPG 등)으로 저장 가능
1
2
3
4
5
6
7
8
9
10
%matplotlib inline # 주피터 내부에 출력하겟다는 뜻
import matplotlib.pyplot as plt
fig = plt.figure()
ax = fig.add_sublplt(111)
data = [0,1]
ax.plot(data)
plt.show()
fig.savefig('image.png') # 이미지 저장
Figure와 Subplot
- Figure: 서브 플롯 작성하는 틀
- Subplot: 그래프를 작성하기 위한 영역
- Axes: Figure 안의 (Sub)Plot들은 각각의 Axes 객체 속함
- Axix: 플롯의 가로 축이나 세로 축을 의미