Python/[코칭스터디 10기] Beyond AI Basic
[쇼핑데이터를 활용한 머신러닝] 3. 정형 데이터 소개 및 EDA (3)
김초송
2023. 5. 4. 18:35
2. 탐색적 자료 분석 (2)
3) EDA our data
- 문제 이해
- Aggregation?
- Time Series? (시계열 분석)
- Aggregation + Time Series?
- 가설 세우기
- 이전 달의 total 이 영향을 끼치지 않을까?
- 작년 12월 달의 total 이 영향을 끼치지 않을까?
- 거주 국적에 따른 영향?
- 고객마다 주로 구매하는 품목?
-> target 에 어떤 영향? - 2011 년 12 월 데이터 = 예측해야 할 test 데이터
-> 2011 년 11 월 구매액 데이터로 target label 을 만들어서 EDA 진행
- 가설 검정
- 개별 연속형 변수
- total
: 주문번호가 c 로 시작하면 환불 -> 구매액 - (마이너스)
- 오른쪽 : 환불을 제외한 total
-> 대부분 0 과 200 사이
- 결과
- 환불 건수 보다는 구매 건수 자체가 유의미
- 구매건수가 높을 수록 환불건수가 높음
- 환불비율을 보면 total 과 상관관계가 0 에 가까움
- 구매 건수와 target 은 유의미한 상관관계를 가짐
- total
- 연속형 변수간의 관계 -> 시계열 데이터
- 2011 년 11 월 total 에 영향을 주는 월은 무엇일까?
- 결과
- 2011 년 11 월의 total 과 작년 11 월의 total 이 높은 상관관계
-> 고객이 소매상이라 11 월에 미리 구매하는 것이 아닌가?
- 2011 년 11 월의 total 과 작년 11 월의 total 이 높은 상관관계
- 개별 범주형 변수
- country: 국가별로 월별 total 패턴이 다를까? -> 크게 차이는 안 남
- product id
: 5 digit number, 예외사항은 무슨 뜻일까? -> 21, 22 대부분
숫자의 앞부분은 상품의 대분류를 나타내지 않을까? -> 워드클라우드로 시각화 -> 비슷한 상품들
-> word2vec 으로 유사도를 보면 상품 간 관계 파악
고객별 히트맵 그래프 -> 어떤 상품을 자주 구매하는지 - description (NLP) : 피쳐를 뽑아서 모델에 활용할 수 있을 것
- Summary
- EDA
- 데이터를 이해하고 문제를 해결하는 과정에서 데이터를 통해 고민하는 모든 과정
- 데이터적 통찰력
- 데이터적 상상력