상세 컨텐츠

본문 제목

[2024.02.20] Python 머신러닝 공부 중... 글 수정하고있습니당

개발관련

by 지연_츄츄맘 2024. 2. 20. 12:59

본문

Scikit-learn : 데이터 분석에 필요한 다양한 머신러닝 알고리즘을 제공하는 라이브러리

        다양한 분류, 회귀, 클러스터링 알고리즘과 데이터 전처리, 모델 선택, 평가 등 제공

 

  1. 데이터 전처리 함수
    - StandardScaler() : 각 특성의 평균을 0, 분산을 1로 변경하여 모든 특성이 동일한 크기를 갖게 데이터를 표준화한다.
    - MinMaxScaler() : 모든 특성이 정확하게 0과 1사에 위치하도록 데이터 조정한다.
    - OneHotEncoder() : 범주형 변수를 원-핫 인코딩으로 변환한다
    - LabelEncoder() : 범주형 변수를 정수로 인코딩한다.

  2. 분류 알고리즘
    LogisticRegression() : 로지스틱 회귀를 통해 이진 분류 또는 다중 클래스 분류를 수행한다.
    DecisionTreeClassifier() : 결정 트리 알고리즘을 이용하여 분류 문제를 해결한다.
    RandomForestClassifier() : 앙상블 알고리즘 중 하나인 랜덤 포레스트로 분류 문제를 해결한다.
    SVC() : 서포트 벡터 머신을 이용하여 분류 문제를 해결한다.

  3. 모델 평가
    1)
    모델 선택
    - train_teset_split() : 데이터를 학습 세트와 테스트 세트로 분리한다.
    - GridSearchCV() : 주어진 매개변수 값들의 조합 중에서 최적의 매개변수를 찾는다.
    - cross_val_score() : K-겹 교차 검증을 수행하여 모델의 성능을 평가한다.
    2) 모델 평가
    - accuracy_score() : 분류 모델의 정확도를 계산한다.
    - confusion_matrix() : 분류 모델의 혼동 행렬을 생성한다.
    - mean_squared_error() : 회귀 모델의 평균 제곱 오차를 계산한다.
    - r2_score() : 회귀 모델의 결정 계수를 계산한다.

  1. 회귀 알고리즘
    - LinearRegression() : 선형 회귀를 통해 연속형 변수의 값을 예측한다.
    - Ridge() : 리지 회귀를 통해 과적합을 방지하고 연속형 변수의 값을 예측한다.
    - Lasso() : 라쏘 회귀를 통해 특성 선택이 가능하게 하고 과적합을 방지한다.
    -ElasticNet() : 리지 회귀와 라쏘 회귀의 결합으로 과적합을 방지하고 연속형 변수의 값을 예측한다.


클러스터링 알고리즘
KMeans() : K-평균 클러스터링 알고리즘을 이용하여 비지도 학습으로 데이터를 그룹화한다.
DBSCAN() : 밀도 기반 클러스터링 알고리즘을 이용하여 데이터를 그룹화한다.
AgglomerativeClustering() : 계층적 클러스터링 알고리즘을 이용하여 데이터를 그룹화한다.

참고 자료 : 


 

활용 

관련글 더보기