#0 개요
3장은 문제 해결 프로세스를
4장은 EDA 단계에서 기본적인 시각화를 다룬다.
#3장 문제 해결 프로세스 및 체크리스트
p66: 일반적으로 정형 데이터에는 머신러닝이, 비정형 데이터에는 딥러닝이 활용된다.
p68 머신러닝 문제해결 프로세스 표
p69 머신러닝 문제해결 체크리스트
p72 딥러닝 문제해결 프로세스 표
p74 딥러닝 문제해결 체크리스트
#4장 주요 시각화 그래프
p78 수치형 데이터 = 사칙연산이 가능한 데이터. 숫자 데이터라고 다 수치형 데이터 아님.
우편번호 같은 건 사칙연산이 불가능하고, 범주형 데이터에 속한다.
p81~ 수치형 데이터 시각화:
histplot() : 히스토그램
kdeplot() : 커널밀도추정 함수 그래프
displot() : 분포도
rugplot() : 러그플롯
p88~ 범주형 데이터 시각화:
barplot()
pointplot()
boxpolt()
violinplot() : 바이올린 플롯은 커널 밀도 추정함수 그래프와 박스 플롯을 합쳐놓은 구조이다.
countplot()
matplotlib의 plt.pie() : 파이 그래프. seaborn에 없음.
p96~ 데이터 관계 시각화: 여러 데이터 사이의 관계를 살펴보기 위한 그래프.
판다스의 pivot함수를 활용해서 데이터 구조를 바꿔준 후 시각화 수행.
pivot() 함수는 index와 columns 파라미터에 전달한 피처를 각각 행과 열로 지정하고, values 파라미터에 전달한 피처를 합한 표를 반환.
heatmap()
lineplot()
scatterplot()
regplot()
'데이터분석 > 캐글' 카테고리의 다른 글
NLP1: Spooky Author Identification (0) | 2024.11.11 |
---|---|
Must-have 캐글: 2부 7장 이진분류 (0) | 2024.09.29 |
Must-have 캐글: 2부 6장-자전거 대여 수요 예측 (2) (0) | 2024.09.23 |
Must-have 캐글: 2부 6장-자전거 대여 수요 예측 (1) (0) | 2024.09.22 |
Must-have 캐글: 1부 캐글에 대하여 (0) | 2024.09.15 |