목록전체 글 (137)
now is better than never

언더피팅 문제 해결 1. 배치 정규화 층이 깊어질수록 정규분포 모양이 틀어지는 것을 막는 방법 신경망에 들어오는 데이터에 대한 학습 가중치(W) 에 대해서 강제로 정규성을 유지함 활성화함수 전에 실행 import tensorflow as tf # 텐써 플로우 2.0 from tensorflow.keras.datasets.mnist import load_data # 텐써플로우에 내장되어있는 mnist 데이터를 가져온다. from tensorflow.keras.models import Sequential # 모델을 구성하기 위한 모듈 from tensorflow.keras.layers import Dense, Flatten, BatchNormalization # 완전 연결계층을 구성하기 위한 모듈 from ..

1. Tree Model 1) 의사결정나무 (Decision Tree) 컬럼 값들을 어떠한 기준으로 group 을 나누어 목적에 맞는 의사결정을 만드는 방법 하나의 질문으로 yes / no 로 decision 을 내려 분류 모든 데이터셋을 사용하여 tree 생성 스무고개로 데이터를 분류, 예측 -> 일련의 규칙을 찾는 알고리즘 특정 기준에 따라 데이터를 구분하는 모델 정답이나 질문은 노드로 표현 2) Bagging & Boosting 여러 개의 Decision Tree 를 이용하여 모델 생성 bagging 과 boosting 의 차이는 train data 를 어떻게 활용하느냐 radom forest - bagging XGboost, LightGBM, CatBoost - boosting - Bagging ..

2. Validation Strategy 1) Validation Strategy - Test Data Set 프로젝트 결과물과 직결되는 데이터셋 최대한 전체 데이터셋을 대표할 수 있는 데이터가 좋음 지속적으로 바꾸는 것은 프로젝트 진행에 좋지 못함 -> 필요할 경우 validation data set 을 control - Validation Data Set 머신러닝 모델을 test data set 에 적용하기 전에 모델의 성능을 파악하기 위해서 선정 이를 이용하여 Early Stop, 기타 Regularization 기법을 사용 Test data set 과 최대한 유사하게 구성하는 것이 좋음 Test data set 의 정보를 알 수 없을 경우 전체 데이터셋과 유사하게 - Train Data Set 머..

1. Underfitting & Overfitting 1) Underfitting 데이터를 설명하지 못함 방지하는 방법 더 많은 데이터를 더 오래 학습 feature 를 더 많이 반영 various 가 높은 머신러닝 모델 사용 2) Overfitting 데이터를 과하게 설명함 Regularization Early Stopping Parameter norm penalty Data Augmentation Noise Robustness Label Smoothing Dropout Batch Normalization 1, 2, 3, 6 은 정형데이터에서 사용 가능한 방법 - Early Stopping validation error 가 지속적으로 증가하는 시점에서 stop trade off 관계에 있다고 표현 - ..

3) 결측치 처리 - Pattern 파악 Random -> 단변량, 다변량 기법 사용 Rule -> 데이터를 직접보고 파악 - Univariate 결측치 패턴이 랜덤한 경우 변수를 사용해서 결측치를 채우는 방법 제거 변수 제거 : 해당 변수의 결측치 비율이 클 경우 사용 데이터 포인트 제거 : 데이터가 충분히 많지 않으면 X 평균값 삽입 중위값 삽입 상수값 삽입 문제점 : 상관계수가 1인 데이터에 결측치를 평균으로 채움 -> 오른쪽 아래처럼 분포 망가짐 결측치가 많은 상태에서 결측치를 채우면 target 과 상관관계가 많이 떨어짐 - Multivariate 회귀분석 머신러닝 모델을 사용해서 주변 변수들의 값을 이용해 결측치 예측 KNN nearest 결측치가 가진 sample 과 가장 유사한 sample..

1. 데이터 전처리 (1) - 데이터 전처리(Preprocessing) 머신러닝 모델에 데이터를 입력하기 위해 데이터를 처리하는 과정 EDA 에 따라 달라지는 데이터 전처리 모델, 목적에 따라 달라지는 데이터 전처리 선형 모델? 트리? 딥러닝? 전처리의 목적 : 머신러닝 모델에 데이터를 입력할 수 있도록 하는 것 1) 연속형 - Scaling 데이터 단위 혹은 분포를 변경 선형 기반의 모델 (선형 회귀, 딥러닝 등) 경우 변수들 간의 스케일을 맞추는 것이 필수적 Min Max Scaling (x - 최소) / (최대 - 최소) Standard Scaling (x - 평균) / 표준편차 Robust Scaling (x - 중위값) / (3사분위 수 - 1사분위 수) - Scaling + Distributi..