now is better than never

[쇼핑데이터를 활용한 머신러닝] 2. 정형 데이터 소개 및 EDA (2) 본문

Python/[코칭스터디 10기] Beyond AI Basic

[쇼핑데이터를 활용한 머신러닝] 2. 정형 데이터 소개 및 EDA (2)

김초송 2023. 5. 3. 19:40

2. 탐색적 자료 분석 (1)

1) EDA  (Exploratory Data Analysis)

- EDA 

  • 데이터를 탐색하고 가설을 세우고 증명하는 과정
  • 다양한 시각을 통해 데이터를 이해하고 특징을 찾아내는 과정
  • 특징들을 시각화, 통계량으로 표현 -> 다각도로 데이터를 이해
  • 데이터의 특징과 문제들을 직관적으로 이해
  • 새로운 아이디어를 만들어내는 과정
  • 모든 정형, 비정형 데이터는 분석에 앞서 EDA 과정 필수적
  • 주어진 문제를 데이터를 통해 해결하기 위해 데이터를 이해하는 과정
    -> 문제에 대한 이해와 데이터에 대한 이해를 통해 적절한 전처리, 방법론들을 선택
  • 데이터를 통한 문제를 해결하기 위해 데이터를 이해하고 적절한 방법들을 적용
  • 탐색하고 생각하고 증명하는 과정의 반복

- EDA 과정

  1. Data 에 대한 가설 혹은 의문
  2. 시각화 혹은 통계량, 모델링을 통한 가설 검정
  3. 위의 결론을 통해 다시 새로운 가설 혹은 문제해결
    (문제해결까지 1, 2 반복)
  • 데이터마다 도메인이 상이하고 해결하고자 하는 문제가 다름
    • 데이터의 종류, 사용하게 되는 모델에 따라 EDA 방향성은 달라짐
    • 금융, 제조, 보건 등 데이터는 고유의 도메인을 가진
    • 일반화가 어렵고 정해진 답이 없음
    • -> 최대한 많은 가설을 세우고 풀어나가는 것이 좋음
  • EDA 시작
    • 개별 변수의 분포 (Variation)
    • 변수간의 분포와 관계 (Covariation)
    • histogram, countplot, correlation heatmap

2) EDA titnanic data

- 데이터 파악

  • Passenger ID, Ticket 은 필요없는 데이터

- 개별변수

  • 연속형 데이터

  • 범주형 데이터

- 변수간의 관계

  • 생존률 : 여성 > 남성
    -> 여성 내에서는 생존률 차이가 없었을까? 
    -> 결혼 유무에 따른 생존률 분석

Mrs, Mme, the Countess, Dona = married(Yes)

  • 기혼 여성의 생존률이 좀 더 높음
    -> 미혼과의 생존률 비교?
    -> 가족 수에 따른 생존률?
  • SibSp + Parch = 0 -> Solo