Python/[코칭스터디 9기] 인공지능 AI 기초 다지기
[인공지능(AI) 기초 다지기] 4. 기초튼튼, 수학튼튼 (6)
김초송
2023. 2. 22. 20:20
6) 통계학 맛보기
- 모수적 방법론 (Parametric)
- 통계적 모델링은 적절한 가정 위에 확률분포를 추정(inference)하는 것
- 모집단의 분포를 정확하게 알아낸다는 것은 불가능 -> 근사적으로 확률분포를 추정
- 예측의 불확실성을 최소화하는 것만으로 충분함
- 데이터가 특정 확률 분포를 따른다고 가정 = a priori
그 분포를 결정하는 모수를 추정하는 방법 = 모수적 방법론 - 비모수 방법론 : 특정확률분포를 가정하지 않고 모델의 구조 및 모수의 개수가 데이터에 따라 바뀜
=/ 모수가 없다, = 모수가 무수히 많거나 바뀜
기계학습의 많은 방법론이 비모수 방법론
- 확률분포 가정
- 히스토그램으로 모양 관찰
데이터가
- 2개의 값(0 또는 1) : 베르누이 분포
- n 개의 이산적인 값 : 카테고리 분포, 다항 분포
- [0, 1] 사이의 값 : 베타분포
- 0 이상의 값 : 감마분포, 로그정규분포
- R 전체에서 값, 실수 전체 : 정규분포, 라플라스 분포
- 모수 추정
- 확률분포를 가정하면 모수를 추정할 수 있음
- 정규분포는 평균μ과 분산σ^2의 모수를 가짐
- 통계량의 확률분포 = 표집분포(sampling distribution)
=/ 표본분포 (sample distribution), 표본분포를 아무리 많아도 정규분포를 따르지 않음 - 표본평균의 표집분포는 N이 커질수록 정규분포를 따름
모집단의 분포가 정규분포를 따르지 않아도 성립 = 중심극한정리 (Central Limit Theorem) - 이항분포에서 계산한 통계량 = 표본평균의 확률분포는 정규분포로 감 = 중심극한정리
- N이 늘어나면 표본평균의 분산이 0에 수렴

- 최대가능도 추정법 (Maximum Likelihood Estimation, MLE)
- 가장 가능성이 높은 모수를 추정하는 방법
- 가능도(likelihood) 함수 : L(θ; x)
데이터가 주어져 있는 상황에서 θ를 변형시킴에 따라 값이 바뀌는 함수
모수 θ를 따르는 분포 x를 관찰할 가능성 (=/ 확률, θ에 대해 적분했을 때 다 더한 값이 1이 되는 것 아님)
θ에 대해 대소비교가 가능한 함수

- 데이터 집합 X가 독립적으로 추출되었을 때 로그가능도를 최적화함
- 로그가능도를 사용하는 이유?
- 로그가능도를 최적화하는 모수 -> 가능도를 최적화하는 MLE
- 만약 데이터의 숫자가 수억 단위가 된다면 컴퓨터의 정확도로는 가능도를 계산하는 것이 불가능
- 데이터가 독립일 경우, 로그를 사용하면 가능도의 곱셈을 로그가능도의 덧셈으로 바꿀 수 있기 때문에 컴퓨터 연산 가능
덧셈일 경우 곱셈일 때의 연산의 오차가 너무 작아지는 것을 방지 -> 원하는 목적식 최적화 가능 - 미분 연산량 = O(n^2) -> 로그가능도 연산량 = O(n)
+ 연산의 오차범위 내에서 계산 가능 - 대개 손실함수의 경우 경사하강법 사용 = 미분 사용,
음의 로그가능도(negative log-likelihood) 최적화하게 됨
- MLE : 데이터가 주어진 상황에서 likelihood를 최적화하는 θ 를 찾는 것
- 최대가능도 추정법 : 정규분포
- 평균, 분산 두 개의 모수 (parameter)를 가짐
- P(xi|θ) : 정규분포의 확률밀도함수
- 두 미분이 모두 0이 되는 평균값(μ, 뮤) 에서 표준편차(σ, 시그마) 를 찾으면 가능도를 최대화하는 모수를 찾게 됨
