목록Python (52)
now is better than never

2. 탐색적 자료 분석 (1) 1) EDA (Exploratory Data Analysis) - EDA 데이터를 탐색하고 가설을 세우고 증명하는 과정 다양한 시각을 통해 데이터를 이해하고 특징을 찾아내는 과정 특징들을 시각화, 통계량으로 표현 -> 다각도로 데이터를 이해 데이터의 특징과 문제들을 직관적으로 이해 새로운 아이디어를 만들어내는 과정 모든 정형, 비정형 데이터는 분석에 앞서 EDA 과정 필수적 주어진 문제를 데이터를 통해 해결하기 위해 데이터를 이해하는 과정 -> 문제에 대한 이해와 데이터에 대한 이해를 통해 적절한 전처리, 방법론들을 선택 데이터를 통한 문제를 해결하기 위해 데이터를 이해하고 적절한 방법들을 적용 탐색하고 생각하고 증명하는 과정의 반복 - EDA 과정 Data 에 대한 가설 ..

https://www.boostcourse.org/ai224 쇼핑데이터를 활용한 머신러닝 부스트코스 무료 강의 www.boostcourse.org 1. 정형데이터란? 1) 정형 데이터 - 정형 데이터 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을 수 있는 데이터 행(row) 과 열(column) 로 표현 가능한 데이터 하나의 행 = 하나의 데이터 인스턴스 열 = 데이터 피쳐 많은 부분들이 정형데이터로 기록됨 -> 분야를 막론하고 많은 데이터가 정형 데이터 범용적인 데이터 = 가장 기본적인 데이터 = 필수적인 데이터 - 비정형 데이터 이미지, 비디오, 음성, 자연어 등 정제되지 않은 데이터 하나의 데이터 인스턴스로 표현하기 위해 2차원, 3차원이 필요함 이미지 : 자율주행자동차, 사물인식 음성 :..

7 - 2) MNIST Introduction - MNIST 손으로 쓰여진 데이터셋 28 x 28 image = reshape input image into [batch_size by 784] -> view 함수 사용 1 channel gray image 0 ~ 9 digits - Torchvision 파이토치의 다양하고 유명한 데이터셋, 딥러닝 모델 아키텍처, 데이터에 적용하는 트랜스폼(전처리)를 쓸 수 있는 패키지 # Reading Data import torchvision.datasets as dsets from torchvision import transforms mnist_train = dsets.MNIST(root="MNIST_data/", train=True, transform=transfo..

7-1) Tips - MLE (Maximum Likelihood Estimation) 최대 우도/가능도 추정 압정이 바닥에 떨어졌을 때 가능성 2가지 = 예측해야 하는 값 2가지 -> 베르누이 분포 (이항 분포) -> binary classification 100번 던졌을 때 class 1이 27번 = observation (관찰값) Binomial distribution 우리가 알고싶은 것 : θ 만약 가우시안 분포(연속적)을 따른다면 θ는 µ와 σ가 됨 θ 따른 어떤 값 = likelihood y 값이 최대가 되는 어떤 지점 θ = observation을 가장 잘 설명하는 θ MLE : 관찰한 데이터를 가장 잘 설명하는 어떤 확률 분포 함수의 parameter를 찾아내는 과정 기울기가 양수면 큰 값으..

6) Softmax Classification - Discrete Probability Distribution (이산 확률 분포) ex) 주사위, 가위바위보 PDF(확률밀도함수, 정규분포) 는 함수의 면적이 확률값 point 자체는 확률이 아님, 알 수 없음 PMF(확률질량함수, 이산적인 확률 분포) 에서는 어떤 값 = 확률 - Softmax max 를 soft 하게 뽑는다 = 합쳐서 1이 되는 값으로 나타냄 = 확률값 [1, 2, 3] -> max : (0, 0, 1) -> softmax : (0.0900, 0.2447, 0.6652) 가위를 냈을 때 주먹 / 가위 / 보 를 낼 확률 소프트맥스 값은 확률값이 됨 - Cross Entropy 두 개의 확률 분포가 주어졌을 때 확률 분포가 얼마나 비슷한지..

5) Logistic Regression (Logistic/Binary Classification) - Computing Hypothesis 어떤 값이 1일 확률 : P(x=1) = 1 - P(x=0) 시그모이드 함수 : -는 0, +는 1에 가깝게 해주는 함수 시그모이드 함수를 이용해서 H(x)가 0 과 1에 근사하도록 = P(x=1) H(x) = P(x=1;W) : H(x) 는 logistic regression 모델 parameter W가 주어졌을 때 x의 값이 1일 확률 = 1 - P(x=0;W) : 1에서 W라는 weight parameter가 주어졌을 때 x가 0일 확률을 뺌 - Weight Update via Gradient Descent weight parameter W에 대해서 미분한 것..