머신러닝 (6) 썸네일형 리스트형 머신러닝 6일차 회귀분석 복습 분류 이산값 회귀 연속값 시그모이드함수 최적선 통과 하면 0에서 1사이의 값으로 조정됨 y값은 0과 1사이값 반환 회귀값은 -1 을 곱하기때문에 사용시 -1 다시 곱해야함 ---------------------------------------------------------------------------------------------------------------------- 차원축소 PCA 주성분분석 기존피처를 저차원의 중요피처로 압축(축소) 중요피처 : 분산이 높은 데이터 높은 분산을 가지는 데이터 축 찾아 차원축소 첫번째 벡터 축: 가장 큰 데이터 변동성기반 생성 두번째 벡터 축: 위 벡터에 직각이되는 벡터 축 생성 세번째 벡터 : 두번째 축과 직각이되는 벡터 축 생성 생성된 축.. 머신러닝 5일차 GBoost import xgboost as xgb from xgboost import XGBClassifier ##피터 중요도 시각화 해주는 모듈 from xgboost import plot_importance import pandas as pd import numpy as np from sklearn.datasets import load_breast_cancer from sklearn.model_selection import train_test_split ##e두개 나와서 이진분류 인거 확인 df['target'].value_counts() 결과 1 357 0 212 Name: target, dtype: int64 #objective : 0이나 1인 이진 분류이므로 이진로지스틱 #오류함수 평가성능지표.. 머신러닝 4일차 결정트리 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리기반 분규규칙 만듬 규칙 많으면 -> 분류 결정 방식 복잡 -> 과적합 으로 이어짐 깊이가 깊어질 수록 예측성능 저하됨 적은 결정 노드 가지려면 데이터 분류시 생성되는 결정노드 규칙 정해줘야함 균일한 데이터 세트 구성하도록 분할! 균일도 측정 방법 : 엔트로피 이용한 정보이득 지수 : 1- 엔트로피지수 정보이득이 높은 속성 기준으로 분할 지니 계수 : 지니계수 낮을 수록 데이터 균일도 높음 , 낮은 속성 기준으로 분할 결정트리 파라미터 min_samples_split : 노드 분할 위한 최소한의 샘플 데이터 수로 과적합제어 min_samplts_leaf : 리프노드가 되기 위한 최소한 샘플데이터 수 max_features : 최대 피처개수 디.. 머신러닝 3일차 사이킷런 제공 임곗값 변화에 따른 평가지표 API precision_recall_curve() from sklearn.metrics import precision_recall_curve #앞인덱스0 , 뒤인덱스 1인거 가져옴 #레이블값 1일때 예측확률값 pred_proba()의 반환 ndarray 두번째 칼럼(칼럼인덱스 1) pred_proba[:,1] ##실제값 데이터세트와 위 값(레이블값1일때 예측확률 precision_recall_curve(y_test,pred_proba[:,1]) #실제값 데이터세트, 예측확률 def precision_recall_curve_plot(y_test,pred_proba): #thresholds에 따른 정밀도, 재현율 추출 precisions,recalls,thresh.. 머신러닝 2일차 TN: 예측값 0 , 실제값 0 FP : 예측값 1 , 실제값 0 FN: 예측값 0, 실제값 1 TP: 예측값 1, 실제값 1 정확도 = (TN+TP)/(TN+FP+FN+TP) 정밀도, 재현율 정밀도 = TP/ (FP+TP) 재현율 = TP/(FN+TP) ML 1일차 사이킷런 iris 데이터분류모델 from sklearn.datasets import load_iris ##붓꽃품종분류 데이터 불러오기 사이킷런 라이브러리에 내장됨 from sklearn.tree import DecisionTreeClassifier ##사이킷런 라이브러리 결정트리분류모델 from sklearn.model_selection import train_test_split ##데이터 나누기 계층적 데이터 추출 옵션 - 여러 층으로 분할 후 각 층별로 랜덤 데이터 추출 import pandas as pd from sklearn.metrics import accuracy_score ##평가지표 정확도 측정 결정트리분류기 DecisionTreeClassifier(criterion, splitter, m.. 이전 1 다음