now is better than never
[쇼핑데이터를 활용한 머신러닝] 2. 정형 데이터 소개 및 EDA (2) 본문
2. 탐색적 자료 분석 (1)
1) EDA (Exploratory Data Analysis)
- EDA
- 데이터를 탐색하고 가설을 세우고 증명하는 과정
- 다양한 시각을 통해 데이터를 이해하고 특징을 찾아내는 과정
- 특징들을 시각화, 통계량으로 표현 -> 다각도로 데이터를 이해
- 데이터의 특징과 문제들을 직관적으로 이해
- 새로운 아이디어를 만들어내는 과정
- 모든 정형, 비정형 데이터는 분석에 앞서 EDA 과정 필수적
- 주어진 문제를 데이터를 통해 해결하기 위해 데이터를 이해하는 과정
-> 문제에 대한 이해와 데이터에 대한 이해를 통해 적절한 전처리, 방법론들을 선택 - 데이터를 통한 문제를 해결하기 위해 데이터를 이해하고 적절한 방법들을 적용
- 탐색하고 생각하고 증명하는 과정의 반복
- EDA 과정
- Data 에 대한 가설 혹은 의문
- 시각화 혹은 통계량, 모델링을 통한 가설 검정
- 위의 결론을 통해 다시 새로운 가설 혹은 문제해결
(문제해결까지 1, 2 반복)
- 데이터마다 도메인이 상이하고 해결하고자 하는 문제가 다름
- 데이터의 종류, 사용하게 되는 모델에 따라 EDA 방향성은 달라짐
- 금융, 제조, 보건 등 데이터는 고유의 도메인을 가진
- 일반화가 어렵고 정해진 답이 없음
- -> 최대한 많은 가설을 세우고 풀어나가는 것이 좋음
- EDA 시작
- 개별 변수의 분포 (Variation)
- 변수간의 분포와 관계 (Covariation)
- histogram, countplot, correlation heatmap
2) EDA titnanic data
- 데이터 파악
- Passenger ID, Ticket 은 필요없는 데이터
- 개별변수
- 연속형 데이터
- 범주형 데이터
- 변수간의 관계
- 생존률 : 여성 > 남성
-> 여성 내에서는 생존률 차이가 없었을까?
-> 결혼 유무에 따른 생존률 분석
- 기혼 여성의 생존률이 좀 더 높음
-> 미혼과의 생존률 비교?
-> 가족 수에 따른 생존률? - SibSp + Parch = 0 -> Solo
'Python > [코칭스터디 10기] Beyond AI Basic' 카테고리의 다른 글
[쇼핑데이터를 활용한 머신러닝] 6. 머신러닝 기본개념 (1) (0) | 2023.05.08 |
---|---|
[쇼핑데이터를 활용한 머신러닝] 5. 정형 데이터 전처리 (2) (0) | 2023.05.08 |
[쇼핑데이터를 활용한 머신러닝] 4. 정형 데이터 전처리 (1) (0) | 2023.05.04 |
[쇼핑데이터를 활용한 머신러닝] 3. 정형 데이터 소개 및 EDA (3) (0) | 2023.05.04 |
[쇼핑데이터를 활용한 머신러닝] 1. 정형 데이터 소개 및 EDA (1) (1) | 2023.05.03 |