목록머신러닝 & 딥러닝 (26)
now is better than never

가설 검정 표본을 뽑아서 표본의 통계값으로 모집단을 통계를 추정 T 검정 모집단의 표준편차를 모를 때, 정규분포의 모집단에서 샘플(표본)의 평균값에 대한 가설 검정 방법 두 집단이 같은지 다른지를 비교하기 위해서 사용 귀무가설 : p_value 가 0.05보다 클 때 채택되는 가설 대립가설 : p_value 가 0.05보다 작을 때 채택되는 가설 # 1. 표본 생성 rnorm2

앙상블 (Ensemble) 주어진 자료를 이용하여 여러가지 분석 예측 모형들을 만들고 해당 예측 모형들을 결합하여 최종적인 하나의 예측 모형을 만드는 방법 여러 모형의 평균을 취할 시 균형적인 결과 -> 오버피팅 방지 분류 : 다수결 수치 예측 (회귀) : 평균 정확도가 높아짐 -> 집단지성! ret_err 0.36 3 ---> 0.216 4 ---> 0.4752 5 ---> 0.33696 ... 46 ---> 0.8906704 47 ---> 0.8643612 48 ---> 0.8966186 49 ---> 0.8718449 50 ---> 0.9021926 배깅 (Bagging) 복원 추출 방법으로 데이터를 샘플링, 모델링한 수 전체 결합하여 결과를 평균냄 의사결정트리 + 배깅 = 랜덤 포레스트 부트스트랩..
홀드아웃 (Hold Out) 홀드아웃 : 훈련 데이터와 테스트 데이터로 분할하는 것 k-홀드 교차검정 (k-hold) : 훈련 데이터 일부를 검정 데이터로 사용하여 최적의 하이퍼 파라미터를 발견할 수 있도록 검정 데이터를 교차해서 검정하는 방법 = 훈련 데이터 / 검정 데이터 / 테스트 데이터 3개로 분할 훈련데이터 : 공부할 데이터 (기출) 검정 데이터 : 훈련 데이터의 일부를 검정 데이터로 사용 (모의고사) 테스트 데이터 : 시험 볼 데이터 (수능) R 로 k-hold 교차 검증 구현 데이터 로드 전체 데이터의 일부를 테스트 데이터로 분리 훈련 데이터 전체에 대해서 10개의 교차검증을 위한 행번호 생성 하나의 폴드를 검정 데이터로 하고 나머지를 훈련 데이터로 생성 10개의 폴드를 교차검증해서 훈련 데..
머신러닝 모델 평가 = 정확도 + 다른 성능 척도 성능척도 : 카파 통계량, 민감도, 특이도, 정밀도, 재현율, Roc 곡선, F1 score 카파 통계량 두 관찰자간의 측정 범주값에 대한 일치도를 측정하는 방법 예측값과 실제값의 일치도 kappa = Pr(a) - Pr(e) / 1 - Pr(e) Pr(a) : 데이터에서 관찰된 2명의 평가자들의 일치 확률 Pr(e) : 2명의 평가자들이 데이터로부터 계산된 확률적 일치 확률 ( 우연히 일치할 확률 ) 0 이면 완전불일치, 1 이면 완전 일치 kappa 일치정도 0.0 ~ 0.2 거의 일치하지 않음 0.2 ~ 0.4 어느정도 일치 0.4 ~ 0.6 보통 일치 0.6 ~ 0.8 좋은 일치 0.8 ~ 1.0 매우 좋은 일치 평가자 B 평가자 A 합격 불합격 ..
군집분석 주어진 각 객체들의 유사성을 분석해 유사성이 높은 대상끼리 일반화된 그룹으로 분류 데이터와 데이터 사이의 거리를 계산해서 가장 가까운 거리에 있는 데이터끼리 묶어줌 암판별 머신러닝 : 지도학습과 비지도학습을 같이 사용해서 모델의 정확도를 높임 마케팅 세그멘테이션 (segmentation) 보험사 맞춤형 보험상품 개발 및 광고 텔레콤 기지국 위치 선정 유클리드 거리 군집분석에서 데이터 거리를 계산할 때 사용하는 수학식 군집분석의 척도 2차원 공간에서의 피타고라스 정리로 측정 L2 거리 K-Means Clustering 주어진 데이터를 K 개의 클러스터로 분할 군집하는 알고리즘 각 클러스터간의 거리 차이의 분산을 최소화하는 군집분석 분석 전에 군집의 수를 정해놓고 군집의 중심으로 부터 가까운 순으로..
머신러닝 3가지 종류 3가지 지도학습 : 정답이 있는 데이터로 기계를 학습 비지도학습 : 정답이 없는 데이터로 기계를 학습 ex) 연관규칙, k-means 강화학습 연관규칙 둘 이상의 거래, 사건에 포함된 항복들의 관련성을 파악하는 탐색적 데이터 분석 기법 컨텐트 기반 추천 머신러닝 알고리즘 DNA 패턴, 단백질 서열 분석 사기성 신용카드 거래 패턴 장바구니 분석 OTT 콘텐츠 추천 지지도 (support) 전체 거래 중 A 상품과 B 상품을 동시에 포함하는 거래 비율 support(X) = count(X) / N = X 상품의 거래 건수 / 전체 거래 건수 support(X, Y) = count(X ∩ Y) / N = X 상품과 Y 상품을 포함하는 거래 건수 / 전체 거래 건수 신뢰도 (confiden..