7월 4일 ML 마무리 이진 분류에서의 평가 정확도 (Accuracy) 혼동 행렬 (Confusion Matrix) 성능 점수(F1 Score) AUC-ROC DL 파트 시작 ANN(Artificial Neural Network) 인간 개입의 여부 ...
22년 7월 1주차 주간 회고
1. 백준 하루에 한 문제도 진짜 겨우 풀었음.. 단순 구현문제들이지만 시간이 없어서 겨우 풀고 있는거 같음 2. Machine Learning 오버샘플링이라던지, 이상치 탐색, 성능 평가 함수 등을 하나 만들어서 사용하니 굉장히 편했음 계속해서 사용하는 부분들이니, 제대로 정리를하고 함수를 작성해 패키지로 두고 불러와서 사용할 예정 기존에 사용하던...
DACON 병원 개업/폐업 분류 예측 경진대회
DACON 병원 개/폐업 분류 예측 경진대회 DACON 병원 개/폐업 분류 예측 경진대회 EDA를 좀 더 꼼꼼하고 자세하게 하자.. Catboost를 사용해보는것도 괜찮았을꺼 같기도하고.. 사용 라이브러리 import numpy as np import pandas as pd import seaborn as sns import matplotlib...
멋쟁이 사자처럼 AI Shcool 9주차
6월 27일 범위 변환(Scaling) fit은 train에만 진행하고, test에는 진행하지 않음 transform은 양쪽 모두에 적용 fit_transform을하고 train에만 transform을하는 방식 2개의 데이터가 합쳐져있는 경우에는 함께 진행 각각의 평균과 표준편차가 다...
불균형 데이터 다뤄보기 - 오버 샘플링과 언더 샘플링
불균형 데이터 다뤄보기 Kaggle - Credit Card Fraud Detection Kaggel - Credit Card Fraud Detection 참고 | 파이썬 머신러닝 완벽 강의 (권철민 저) Under-Sampling and Over-Sampling 레이블이 불균형한 분포를 가진 데이터 세트를 학습시킬 때 예측 성능의 문제가 발생 가능...
Warning 메시지 무시하기
곧 삭제 예정인 기능들을 사용하면 경고 메시지를 보내는데, 경고 메시지를 안띄우기 위해 일일히 다 설정을 바꾸기는 복잡해서 경고 메시지를 무시하는 방법을 선택했다. import warnings warnings.filterwarnings('ignore')
Kaggle Santander Customer 기본 모델(XGBoost, LightGBM)
Kaggle Santander Customer Satisfaction 대부분이 만족이고 불만족인 데이터는 일부일 것이기에 정확도 수치보다는 ROC-AUC가 더 적합함 별다른 전처리 없이 기본적인 분류 모델을 인기있는 2가지 부스팅 계열 알고리즘으로 만들었음 import numpy as np import pandas as pd import seabor...
DACON 해외 축구 선수 이적료 예측하기 - LightGBM
DACON 해외 축구 선수 이적료 예측 Regression - LightGBM 참고 노트북 데이터 셋 DACON 이상치를 제거하면 성능이 올라갈꺼 같은데 어떻게 처리해야할지 잘 모르겠다.. 추가적으로 시도하고 정리해본 것들 사용 라이브러리 import numpy as np import pandas as pd import seaborn as sns...
22년 6월 4주차 주간 회고
1. 백준 그냥 구현 문제들만 풀고 있음 2. Machine Learning Kaggle이랑 DACON의 종료된 대회들 필사나 응용해서 해보는 중인데 재미있는거 같음 점수가 막 높게 나오는건 아닌데, 개선해나갈때마다 성취감이 있는거 같음 3. 정규식 필요할꺼라고 생각해본적이 없어서 제대로 공부해 본적은 없었는데, 이번에 조금 해봤더니 역시나 어려웠...
멋쟁이 사자처럼 AI Shcool 8주차
6월 20일 Kaggle Titaninc 데이터를 이용한 실습 엔트로피(entropy) 배깅(bagging) 부트스트랩을 통해 조금씩 다른 훈련 데이터에 대해 훈련된 기초 분류기들을 결합 시키는 방법 6월 21일 랜덤 포레스트 (Random Forest) 배깅은 병렬로, 부스팅은 순차적으로 실...