데이터분석 프로젝트 과정

EDA(Exploratory Data Analysis)

“탐색적 데이터분석은 우리가 존재한다고”

  • 데이터과학 과정의 핵심적인 부분으로 데이터에 대한 이해를 높이는것

  • 모델링에 앞서 선행되는 작업으로 데이터의 분포나 변수간 관계 파악

  • EDA의 기본 도구는 도표(plot), 그래프(graph), 요약통계(summary statistics)

  • e

데이터 시각화

Matplotlib 기초개념

  • 2차원 데이터를 시각화하기 위한 패키지
  • 다양한 출력 형식(PNG, SVG, JPG 등)으로 저장 가능
%matplotlib inline  # 주피터 내부에 출력하겟다는 뜻
import matplotlib.pyplot as plt
 
fig = plt.figure()
ax = fig.add_sublplt(111)
data = [0,1]
ax.plot(data)
 
plt.show()
fig.savefig('image.png')  # 이미지 저장

Figure와 Subplot

  • Figure: 서브 플롯 작성하는 틀
  • Subplot: 그래프를 작성하기 위한 영역
  • Axes: Figure 안의 (Sub)Plot들은 각각의 Axes 객체 속함
  • Axix: 플롯의 가로 축이나 세로 축을 의미