Scikit-learn : 데이터 분석에 필요한 다양한 머신러닝 알고리즘을 제공하는 라이브러리
다양한 분류, 회귀, 클러스터링 알고리즘과 데이터 전처리, 모델 선택, 평가 등 제공
데이터 전처리 함수 - StandardScaler() : 각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 동일한 크기를 갖게 데이터를 표준화한다. - MinMaxScaler() : 모든 특성이 정확하게 0과 1사에 위치하도록 데이터 조정한다. - OneHotEncoder() : 범주형 변수를 원-핫 인코딩으로 변환한다 - LabelEncoder() : 범주형 변수를 정수로 인코딩한다.
분류 알고리즘 LogisticRegression() : 로지스틱 회귀를 통해 이진 분류 또는 다중 클래스 분류를 수행한다. DecisionTreeClassifier() : 결정 트리 알고리즘을 이용하여 분류 문제를 해결한다. RandomForestClassifier() : 앙상블 알고리즘 중 하나인 랜덤 포레스트로 분류 문제를 해결한다. SVC() : 서포트 벡터 머신을 이용하여 분류 문제를 해결한다.
모델 평가 1) 모델 선택 - train_teset_split() : 데이터를 학습 세트와 테스트 세트로 분리한다. - GridSearchCV() : 주어진 매개변수 값들의 조합 중에서 최적의 매개변수를 찾는다. - cross_val_score() : K-겹 교차 검증을 수행하여 모델의 성능을 평가한다. 2) 모델 평가 - accuracy_score() : 분류 모델의 정확도를 계산한다. - confusion_matrix() : 분류 모델의 혼동 행렬을 생성한다. - mean_squared_error() : 회귀 모델의 평균 제곱 오차를 계산한다. - r2_score() : 회귀 모델의 결정 계수를 계산한다.
회귀 알고리즘 - LinearRegression() : 선형 회귀를 통해 연속형 변수의 값을 예측한다. - Ridge() : 리지 회귀를 통해 과적합을 방지하고 연속형 변수의 값을 예측한다. - Lasso() : 라쏘 회귀를 통해 특성 선택이 가능하게 하고 과적합을 방지한다. -ElasticNet() : 리지 회귀와 라쏘 회귀의 결합으로 과적합을 방지하고 연속형 변수의 값을 예측한다.
클러스터링 알고리즘 KMeans() : K-평균 클러스터링 알고리즘을 이용하여 비지도 학습으로 데이터를 그룹화한다. DBSCAN() : 밀도 기반 클러스터링 알고리즘을 이용하여 데이터를 그룹화한다. AgglomerativeClustering() : 계층적 클러스터링 알고리즘을 이용하여 데이터를 그룹화한다.