Python/[코칭스터디 10기] Beyond AI Basic

[쇼핑데이터를 활용한 머신러닝] 3. 정형 데이터 소개 및 EDA (3)

김초송 2023. 5. 4. 18:35

2. 탐색적 자료 분석 (2)

3) EDA our data

- 문제 이해

  • Aggregation?
  • Time Series? (시계열 분석)
  • Aggregation + Time Series?

- 가설 세우기

  • 이전 달의 total 이 영향을 끼치지 않을까?
  • 작년 12월 달의 total 이 영향을 끼치지 않을까?
  • 거주 국적에 따른 영향?
  • 고객마다 주로 구매하는 품목?
    -> target 에 어떤 영향?
  • 2011 년 12 월 데이터 = 예측해야 할 test 데이터
    -> 2011 년 11 월 구매액 데이터로 target label 을 만들어서 EDA 진행

- 가설 검정

  1. 개별 연속형 변수
    • total
      : 주문번호가 c 로 시작하면 환불 -> 구매액 - (마이너스)
    • 오른쪽 : 환불을 제외한 total
      -> 대부분 0 과 200 사이
    • 결과
      • 환불 건수 보다는 구매 건수 자체가 유의미
      • 구매건수가 높을 수록 환불건수가 높음
      • 환불비율을 보면 total 과 상관관계가 0 에 가까움
      • 구매 건수와 target 은 유의미한 상관관계를 가짐
  2. 연속형 변수간의 관계 -> 시계열 데이터
    • 2011 년 11 월 total 에 영향을 주는 월은 무엇일까?
    • 결과
      • 2011 년 11 월의 total 과 작년 11 월의 total 이 높은 상관관계
        -> 고객이 소매상이라 11 월에 미리 구매하는 것이 아닌가?
  3. 개별 범주형 변수
    • country: 국가별로 월별 total 패턴이 다를까? -> 크게 차이는 안 남
    • product id
      : 5 digit number, 예외사항은 무슨 뜻일까? -> 21, 22 대부분
      숫자의 앞부분은 상품의 대분류를 나타내지 않을까? -> 워드클라우드로 시각화 -> 비슷한 상품들
                                                                                          -> word2vec 으로 유사도를 보면 상품 간 관계 파악
       고객별 히트맵 그래프 -> 어떤 상품을 자주 구매하는지
    • description (NLP) : 피쳐를 뽑아서 모델에 활용할 수 있을 것

 

- Summary

  • EDA
    • 데이터를 이해하고 문제를 해결하는 과정에서 데이터를 통해 고민하는 모든 과정
    • 데이터적 통찰력
    • 데이터적 상상력