본문 바로가기

분류 전체보기317

[Python] Matplotlib 상관계수 구하기 corr() 파이썬 Matplotlib 상관계수 구하기 상관계수는 -1부터 1까지의 값을 갖는다 1일 때 완벽한 양의 상관관계가 되고, -1일 때 완벽한 음의 상관관계가 된다 0이라면 별다른 상관관계가 없음을 의미한다 .corr() : 상관계수 구하기 # 데이터 프레임의 전체 상관계수 구하기 >>> df.corr() # 두 컬럼간의 상관계수 구하기 >>> df[['컬럼1','컬럼2']].corr() 구한 상관계수를 보기 편하게 히트맵으로 만들기 df_corr = df[['컬럼1', '컬럼2', '컬럼3', '컬럼4']].corr() sb.heatmap(data= df_corr, annot=True, fmt='.1f', cmap= 'coolwarm', linewidths= 0.7, vmin= -1, vmax= 1) p.. 2022. 12. 2.
[Machine Learning] 성능향상 GridSearchCV() 📝머신러닝 그리드서치 from sklearn.model_selection import GridSearchCV 파라미터의 값을 리스트로 입력하면 값에 대한 경우의 수마다 예측성능을 측정 평가하여 비교해 최적의 값을 찾는다 ※ 홈페이지 참고(https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) # 사용할 조합(리스트) 생성 param_grid = { 'kernel' : ['liner', 'rbf', 'ploy'], 'C' : [0.1, 1, 10], 'gamma' : [0.01, 0.1, 1] } # 인공지능 입력 / 사용할 조합(리스트변수)입력 grid = GridSearchCV( SVC(), .. 2022. 12. 2.
[Machine Learning] 분류예측 Support Vector Machine 📝머신러닝 Support Vector Machine from sklearn.svm import SVC SVC(Support Vector Classification) # 변수에 저장하여 사용 # kernel='linear' or 'rbf' classifier = SVC(kernel='linear') classifier = SVC(kernel='rbf') classifier = SVC(kernel='linear', random_state=1) # 학습, 테스트 classifier.fit(X_train, y_train) y_pred = classifier.predict(X_test) # 예측 from sklearn.metrics import confusion_matrix, accuracy_score confu.. 2022. 12. 2.
[Machine Learning] 분류예측 K-Nearest Neighbor(K-NN) 📝머신러닝 K-Nearest Neighbor(K-NN) from sklearn.neighbors import KNeighborsClassifier KNeighborsClassifier() : 가장 가까운 n개 데이터(이웃데이터)로 분류 # 가장 가까운 n개 데이터로 분류 classifier = KNeighborsClassifier(n_neighbors= n) # n_neighbors= 몇개의 데이터로 분석할건지 입력(이웃갯수) 디폴트값은 5 classifier = KNeighborsClassifier() classifier.fit(X_train, y_train) y_pred = classifier.predict(X_test) from sklearn.metrics import confusion_matrix.. 2022. 12. 2.
[데이터 전처리] 데이터 불균형 맞추기 SMOTE() 📝데이터 불균형 맞추기 from imblearn.over_sampling import SMOTE ※ 라이브러리 설치 안되어 있을 경우 pip install 검색 (https://pypi.org/project/imblearn/) SMOTE() # 변수에 저장하여 사용 sm = SMOTE(random_state=2) X, y = sm.fit_resample(X, y) 2022. 12. 2.
[Python] Library googlemaps(구글맵) 📝파이썬 구글맵라이브러리 구글맵 라이브러리 설치 방법 2가지 > conda install googlemaps > pip install(파이썬 공식라이브러리 설치프로그램) googlemaps >>> import googlemaps >>> gmaps_key = " " # 구글맵 key를 입력 >>> gmaps = googlemaps.Client(key=gmaps_key) # 변수에 저장해서 사용 >>> gmaps.geocode('지도에서 검색할 곳 입력', language='ko') # language='ko' 한국어 결과의 구조를 파악해서 원하는 값을 데이터 엑세스해서 활용 (google에 json online editor 검색 https://jsoneditoronline.org/#right=local.c.. 2022. 12. 2.
[Machine Learning] 성능측정 confusion_matrix() 📝머신러닝 인공지능 confusion_matrix 성능측정 from sklearn.metrics import confusion_matrix, accuracy_score confusion_matrix(실제값, 예측값) : 실제값과 예측값을 행, 열로 셋팅해서 결과값 반환 accuracy_score(실제값, 예측값) : 정확도값 반환 # 실제값, 예측값을 입력하면 결과값 반환 confusion_matrix(y_test, y_pred) # 실제값, 예측값 입력하면 결과값(정확도값) 반환 accuracy_score(y_test, y_pred) classification_report() # 실제값, 예측값 입력 print (classification_report(y_test, y_pred)) 시각화는 heatma.. 2022. 12. 2.
[Machine Learning] 분류예측 LogisticRegression 📝머신러닝 로지스틱 리그레이션 모델링하기 from sklearn.linear_model import LogisticRegression LogisticRegression() # 변수에 저장해서 사용한다 classifier = LogisticRegression(random_state=1) # random_state= 시드값 # 학습용과 테스트용으로 나눴던 데이터중 학습용 데이터를 입력해 학습시킨다 classifier.fit(X_train, y_train) classifier.coef_ : 셋팅된 a값을 반환 classifier.intercept_ : 셋팅된 b값을 반환 이렇게 학습이 끝나면 이 인공지능을 테스트 해봐야 한다(테스트용 데이터인 X_test로 테스트) classifier.predict(테스트값 .. 2022. 12. 1.
[Machine Learning] LinearRegression 인공지능과 변수를 파일로 저장하기 joblib.dump() 📝머신러닝 리니어 리그레이션 인공지능과 변수를 파일로 저장하기 import joblib joblib.dump() : 저장할 변수, 저장할 파일명을 입력하면 해당 변수 데이터를 저장해준다 # 인공지능 변수, 저장할 파일명 입력.피클 joblib.dump(regressor, 'regressor.pkl') # 예측에 필요한 변수, 저장할 파일명 입력.피클 joblib.dump(ct, 'ct.pkl') 2022. 12. 1.
[Machine Learning] LinearRegression 인공지능 실제 예측해보기 📝머신러닝 리니어 리그레이션으로 만든 인공지능 실제 예측해보기 예측할 값 데이터를 df 컬럼의 순서대로 입력(예측할 값 제외)한 리스트를 넘파이 어레이로 생성한다 생성한 데이터는 1차원 데이터이기 때문에 2차원으로 변경한다 reshape 인공지능 만들때 기존에 만들었던 변수 ct에 transform() 함수를 사용해 문자열을 숫자로 바꿔준다 만들어두었던 regressor 변수에 predict() 함수를 이용해 값을 예측한다 # 예측할 값에 필요한 데이터를 넘파이 어레이로 생성후 변수에 저장 >>> new_data = np.array([130000, 150000, 400000, 'Florida']) # 생성한 변수를 2차원 데이터로 변경 >>> new_data = new_data.reshape(1,4) #.. 2022. 12. 1.