분류 이산값
회귀 연속값
시그모이드함수 최적선 통과 하면 0에서 1사이의 값으로 조정됨
y값은 0과 1사이값 반환
회귀값은 -1 을 곱하기때문에 사용시 -1 다시 곱해야함
pca 주성분분석
기존피처를 저차원의 중요피처로 압축(축소)
중요피처 : 분산이 높은 데이터
회귀에서 오차 계산하는 함수 : 손실함수
머신러닝 프로세스
문제정의 및 데이터 준비하기 -> 학습하기- >추론 및 평가
용어
데이터준비하기
클래스 불균형 : 글래스 불균형 분포
과소표집 : 상대적으로 많이 나타난 클래스 개수 줄이는것
균형 유지 but 유용한 정보 버려짐
과대표집 : 데이터 복제 (과적합 문제포함)
원핫인코딩 : 하나의 클래스만 1 이고 나머지 클래스는 전부 0
값의 크기가 학습에 영향을 미쳐서 실행함
교차검증
홀드아웃 : 무작위로
보통 80,20 비율로 학습데이터세트와 검증 데이터 세트로 분리하여 검증
3개로 나누면 학습, 검증, 테스트
K-폴드교차검증기법
k개의 그룹으로 나눔
k- 1 개 학습데이터로 사용 하나는 검증데이터
학습하기
하이퍼파라미터 : 직접 세팅값 ,경험에 의해 결정되는 요소
ex 학습률, 배치크기, 드롭아웃 ..
학습률 보통 0.001 로 잡음
하이퍼파라미터 튜닝 : 그리드서치, 랜덤서치 등
배치
데이터 1000개일때 배치가 10 : 배치당 100개 데이터
배치크기 2 제곱수
에폭
전체 데이터 사용하여 학습하는 횟수
지도학습
학습데이터에 정답 포함
비지도학습
학습데이터에 정답 포함 x
과대적합
학습 데이터에서는 좋은성능 ,새로운데이터에대해 좋은성능 x
과소적합
학습데이터 충분히 학습 x , 성능 나쁨
평가하기
혼동행렬
정확도
acc = TP +TN / TP +TN +FP + FN
정밀도
prec = TP / TP+FP
재현율
recall = TP / TP + FN
재현율 올라가면 정밀도 내려감
F1스코어
2*precision * recall / precision * recall
ROC곡선
왼쪽
특이도
TN/ FP +TN
신경망
퍼셉트론 :여러개신호 입력받아 하나신호 출력
x * 가중치 w 곱한 값 (행렬곱) 한값 모두 더함 ( 시그마)
= y 값으로 만듬
입력값과 가중치 곱하여 모두 더한값
옵티마이저
최적화 방법 설정
최적의 오솔길 찾기
코드 넣기 순서
단층퍼셉트론 xor 해결 x - > 다층퍼셉트론
tf.random.uniform ((5,3))
5행 3열 짜리로 만듬
uniform : 균등분포 0~1사이값
nomal은 정규분포
activation 활성화 함수
sigmoid 0 ~ 1사이 값
하이퍼볼릭탄센트 tanh -1 ~ 1사이 값
Relu 음수는 0 으로 처리 음수아니면 그대로
소프트맥스 다 더 하면 1
경사하강법
가중치초기화
역전파
순전파
딥러닝
딥러닝 2일차
728x90
728x90