실무에 쓰는 머신러닝 기초

카테고리 없음

실무에 쓰는 머신러닝 기초 - 앙상블 기법

iron-min 2025. 12. 26. 17:15

1. 앙상블 기법

여러 개의 모델을 조합하여, 하나의 모델보다 더 좋은 예측 성능을 내는 방법

왜 사용하는가?
- 서로 다른 관점(모델)을 결합함으로써 오류를 줄일 수 있음
- 개별 모델의 편향(Bias)과 분산(Variance)을 상호 보완

① 배깅

원리
- 학습 데이터를 무작위로 여러 부분 샘플(부트스트랩)로 나누어 각각 독립적으로 모델을 학습
- 예측 시에는 여러 모델의 결과를 평균(회귀) 혹은 다수결(분류)로 결정

예시
- 랜덤 포레스트(Random Forest) - 분류, 회귀 모두 가능

장점
- 각 모델이 독립적으로 학습되므로 병렬 처리 가능 (학습 속도가 상대적으로 빠름)
- 모델 간 상호 간섭이 적어 안정적
- 과적합을 줄여주는 효과 (예측의 분산 감소)

단점
- 많은 수의 모델을 학습해야 하므로 메모리 사용량이 많아질 수 있음
- 해석이 어려움

코드예시)

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# 1. 데이터 로드
data = load_breast_cancer()
X = data.data
y = data.target

# 2. 학습/테스트 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

# 3. 랜덤 포레스트 모델 생성
# n_estimators는 사용할 트리의 개수, max_depth는 각 트리의 최대 깊이를 의미하며
# 위 2개의 값을 높일 수록 시간과 연산량은 늘어나지만 더욱 복잡한 특징을 잡을 수 있음
rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=None,
    random_state=42
)

# 4. 모델 학습
rf_model.fit(X_train, y_train)

# 5. 예측
y_pred = rf_model.predict(X_test)

# 6. 성능 평가
acc = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)

print(f"Accuracy: {acc:.4f}")
print("Confusion Matrix:\n", cm)
print("Classification Report:\n", report)

② 부스팅

원리
- 순차적으로 모델을 학습하면서 이전 모델이 만든 예측 오류를 보정하도록 설계
- 각각의 모델은 이전 모델이 틀린 부분에 가중치를 더 둬서 학습

원리
- 순차적으로 모델을 학습하면서 이전 모델이 만든 예측 오류를 보정하도록 설계
- 각각의 모델은 이전 모델이 틀린 부분에 가중치를 더 둬서 학습

대표 알고리즘 - 분류 회귀 모두 가능
1. XGBoost (Extreme Gradient Boosting)
2. LightGBM
3. CatBoost

장점
- 높은 정확도 달성 가능
- 각 단계에서의 오류를 보정하기 때문에, 복잡한 데이터 패턴을 잘 포착

단점
- 순차적(Sequential)으로 학습하므로 병렬화가 쉽지 않음
- 하이퍼파라미터가 많고 튜닝이 까다롭다

작동 예시(XGBoost) 간단 시나리오
1. 기본 모델(약한 결정 트리) 훈련 → 예측 오류 확인
2. 예측 오류가 컸던 샘플에 높은 가중치 부여
3. 다음 모델(결정 트리) 훈련 → 다시 오류 보정
4. 이 과정을 여러 번 반복하여, 최종 예측 시에는 모두 합산

코드예시)

# 1. 데이터 준비 (Titanic 예시: 범주형 컬럼 존재)
from sklearn.datasets import fetch_openml
import pandas as pd
import numpy as np

# OpenML에서 Titanic 데이터셋 로드
titanic = fetch_openml('titanic', version=1, as_frame=True)
df = titanic.frame

# 주요 컬럼만 사용하고, 결측치가 있는 행 제거(XGB와 Light GBM을 위해)
# pclass(객실 등급, 범주형), sex(성별, 범주형), age(나이, 연속형), fare(티켓 요금, 연속형)
# embarked(탑승항구, 범주형), survived(생존 여부, 타깃)
df = df[['pclass', 'sex', 'age', 'fare', 'embarked', 'survived']]
df.dropna(inplace=True)

# 입력(X), 타깃(y) 분리
X = df.drop('survived', axis=1)
y = df['survived'].astype(int)  # survived 컬럼을 int형으로 변환

print(X.shape)
print(y.shape)

# 2. 데이터 전처리
#    XGBoost/LightGBM은 숫자형 입력만 허용하므로, 범주형 칼럼을 인코딩
from sklearn.preprocessing import LabelEncoder

cat_cols = ['sex', 'embarked']  # 범주형으로 간주할 컬럼들
for col in cat_cols:
    le = LabelEncoder()
    X[col] = le.fit_transform(X[col])

# 3. 학습/테스트 데이터 분할
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

# 4. XGBoost 실습
# (설치가 필요할 수 있습니다) ! pip install xgboost
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

xgb_model = XGBClassifier(random_state=42)
xgb_model.fit(X_train, y_train)
y_pred_xgb = xgb_model.predict(X_test)

print("=== XGBoost ===")
print("Accuracy:", accuracy_score(y_test, y_pred_xgb))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_xgb))
print("Classification Report:\n", classification_report(y_test, y_pred_xgb))

# 5. LightGBM 실습
# (설치가 필요할 수 있습니다) ! pip install lightgbm
from lightgbm import LGBMClassifier

lgb_model = LGBMClassifier(random_state=42)
lgb_model.fit(X_train, y_train)
y_pred_lgb = lgb_model.predict(X_test)

print("\n=== LightGBM ===")
print("Accuracy:", accuracy_score(y_test, y_pred_lgb))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_lgb))
print("Classification Report:\n", classification_report(y_test, y_pred_lgb))

CatBoost 예시)

# cat_features 인덱스: 'sex', 'embarked' 컬럼(원본 df에서의 컬럼 인덱스)
# DataFrame 사용 시에는 컬럼 이름이 아니라 "열의 위치"를 지정해야 함
#   - pclass : 0, sex: 1, age: 2, fare: 3, embarked: 4
cat_features_idx = [1, 4]

X_cat_train, X_cat_test, y_cat_train, y_cat_test = train_test_split(
    X_cat, y_cat, test_size=0.2, random_state=42, stratify=y_cat
)

cat_model = CatBoostClassifier(
    cat_features=cat_features_idx,
    verbose=1,           # 학습과정 확인 가능
    random_state=42
)
cat_model.fit(X_cat_train, y_cat_train)
y_pred_cat = cat_model.predict(X_cat_test)

print("\n=== CatBoost ===")
print("Accuracy:", accuracy_score(y_cat_test, y_pred_cat))
print("Confusion Matrix:\n", confusion_matrix(y_cat_test, y_pred_cat))
print("Classification Report:\n", classification_report(y_cat_test, y_pred_cat))

2. 과적합(Overfitting) vs 과소적합(Underfitting)

① 과적합

학습 데이터에는 지나치게 최적화되었지만, 새로운 데이터(테스트/실제 환경)에는 성능이 떨어지는 현상

1) 원인

모델의 파라미터(자유도)가 너무 많아서 복잡도 과다
학습 데이터 수가 충분하지 않음
너무 많은 에폭(딥러닝 등)으로 학습
노이즈가 많은 훈련 데이터에서 패턴을 ‘과하게’ 학습

2) 해결방법

정규화(Regularization) 기법
- 예) L1, L2 정규화 : 가중치(모델 파라미터)에 패널티를 줘서 과도한 학습 억제
드롭아웃(Dropout, 딥러닝에 주로 사용)
- 학습 시 일부 뉴런을 확률적으로 비활성화 → 과적합 완화
데이터 증강(Data Augmentation)
- 이미지 데이터의 경우, 회전·이동·반전 등으로 새 데이터를 생성
- 자연어 데이터에도 유사한 패턴으로 증강 가능
- 신호 데이터의 경우 가우시안 노이즈를 추가하여 증강 가능
조기 종료(Early Stopping)
- 학습 도중 검증 손실이 증가하기 시작하면 학습을 중단
앙상블(Ensemble)
- 서로 다른 모델을 결합하여 과적합 위험을 줄임

② 과소적합

모델이 데이터의 패턴을 충분히 학습하지 못해, 학습 데이터조차도 충분히 맞추지 못하는 현상

해결방법

모델 복잡도 증가
더 오래 학습
모델 구조 변경 (더 깊은 신경망, 더 많은 트리 등)

3. 하이퍼파라미터 튜닝

① 개념 : 모델이 학습을 시작하기 전에 사람이 설정해야 하는 값 (ex: 결정 트리의 최대 깊이(max_depth), 학습 횟수 등)

② 하이퍼파라미터 튜닝을 위한 준비

1) 데이터셋 분할(Training/Validation/Test)

Training Set: 모델 학습에 직접 사용
Validation Set: 하이퍼파라미터 튜닝이나 모델 선택을 위해 사용
Test Set: 최종 성능 평가(훈련/검증 단계에 절대 포함되면 안 됨)

2) 교차검증

데이터를 훈련 세트와 검증 세트로 여러 번 겹치지 않게 나누어 사용
K-Fold Cross-Validation:
- 데이터를 K개의 폴드(Fold)로 나누어, 순차적으로 한 폴드를 검증 세트로 사용하고 나머지를 훈련에 사용
- 평균 성능을 최종 모델의 성능으로 본다
장점: 데이터가 적은 상황에서도 안정적인 성능 평가 가능

③ 튜닝방법

1) Grid Search

미리 정의된 하이퍼파라미터 후보들의 ‘모든 조합’을 시도
장점: 완전 탐색이므로 최적값을 놓치지 않음
단점: 후보가 많아질수록 연산량이 급격히 증가

코드예시)

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 1. 데이터 로드
iris = load_iris()
X = iris.data
y = iris.target

# 2. 학습/테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y
)

# 3. 하이퍼 파라미터 후보군 설정
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 5, 10]
}

# 4. GridSearchCV 생성
rf = RandomForestClassifier(random_state=42)
grid_search = GridSearchCV(
    estimator=rf,
    param_grid=param_grid,
    cv=5,              # 교차검증(fold) 횟수
    scoring='accuracy',
    n_jobs=-1,          # 병렬 처리(가능한 모든 코어 사용)
)

# 5. 학습(그리드서치 수행)
grid_search.fit(X_train, y_train)

# 6. 최적 파라미터 및 성능 확인
print("Best Parameters:", grid_search.best_params_)
print("Best CV Score:", grid_search.best_score_)

# 7. 테스트 데이터 성능 확인
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
test_acc = accuracy_score(y_test, y_pred)
print("Test Accuracy:", test_acc)

2) Randomized search

임의로 샘플링된 하이퍼파라미터 조합을 일정 횟수만 시도
장점: 다양한 영역을 빠르게 탐색 가능, 속도 빠름
단점: 최적 조합을 정확히 찾지 못할 수도 있음

3) 베이지안 최적화(Bayesian Optimization)

과거의 탐색 결과를 바탕으로 ‘가장 유망한 하이퍼파라미터 범위’를 중점적으로 탐색
장점: 탐색 시간이 더 짧고 효율적
단점: 구현 복잡도가 높음

4. 머신러닝 추가 개념

① 최적화 (Optimization)

하이퍼파라미터 튜닝(GridSearchCV, RandomizedSearchCV 등)
피처 엔지니어링(새로운 파생 변수 생성, 불필요한 변수 제거)
과적합 방지(교차검증, 규제 적용, 드롭아웃 등)

② 배포 (Deployment)

학습 완료 모델을 운영 환경에 배포
API 서버 구축, 클라우드(AWS, GCP) 또는 엣지 디바이스(임베디드 환경)
지속적 모니터링으로 모델 성능이 저하될 경우 재학습 주기 설정

③ MLOps(머신러닝 운영)란?

Machine Learning + DevOps의 합성어
머신러닝 모델 개발부터 배포, 모니터링, 재학습, 롤백(Rollback) 등 전 과정을 자동화하고 효율적으로 운영하는 방법론

④ MLOps(머신러닝 운영)은 왜 중요할까?

프로젝트 완성 → 실제 운영 단계에서 지속적인 모니터링과 데이터/모델 업데이트가 필요

5. 추가 Q&A 정리

Q1: 배깅(Bagging)과 부스팅(Boosting)의 가장 큰 차이점은 무엇인가요?

A1: 배깅은 여러 모델을 ‘병렬적으로’ 독립 학습시킨 뒤 결과를 결합(평균/투표)하는 방식이고, 부스팅은 모델을 ‘순차적으로’ 학습하면서 이전 모델의 오류를 단계적으로 보정해 나가는 방식입니다.

Q2: 로지스틱 회귀보다 랜덤 포레스트나 XGBoost가 항상 더 좋나요?

A2: 그렇지 않습니다. 랜덤 포레스트나 XGBoost는 복잡한 비선형 관계를 잘 학습하지만, 데이터 양이 많거나 모델 복잡도가 증가하면 튜닝(파라미터 설정)과 계산 비용이 커집니다. 반면 로지스틱 회귀는 빠르고 해석이 용이하기 때문에, 문제 규모와 목적(해석력 vs. 예측력)에 따라 모델 선택이 달라집니다.

Q3: 앙상블 모델(랜덤 포레스트, XGBoost 등)은 언제 쓰면 좋나요?

A3: 높은 예측 성능이 필요하고, 데이터 패턴이 복잡하거나 단일 모델로는 성능이 충분하지 않을 때 사용합니다. 예측 정확도를 최대화해야 하는 프로젝트(예: 금융 사기 탐지, 의료 진단)에서 자주 쓰이는 방법입니다.

Q4: 과적합을 빠르게 판단할 수 있는 방법은 무엇인가요?

A4: 학습 데이터와 검증(또는 테스트) 데이터의 성능 지표를 비교하는 것이 일반적입니다. 만약 학습 정확도(또는 점수)는 높지만, 검증이나 테스트 정확도가 낮다면 과적합을 의심할 수 있습니다.

Q5: 하이퍼파라미터를 튜닝할 때 GridSearchCV와 RandomizedSearchCV 중 어떤 것을 사용하면 좋나요?

A5: 탐색해야 할 파라미터 범위가 좁고, 후보가 적을 때는 GridSearchCV가 효율적이며, 후보 범위가 매우 넓고 많은 경우에는 RandomizedSearchCV로 무작위 샘플링을 활용하여 탐색 시간을 줄이는 것이 좋습니다.

Q6: 부스팅 기법(XGBoost, LightGBM 등)에서 자주 보는 ‘학습률(learning_rate)’은 무엇이고 어떻게 설정해야 하나요?

A6: 학습률은 각 단계별 모델이 학습된 결과를 어느 정도 비율로 반영할지를 결정하는 하이퍼파라미터입니다. 일반적으로 학습률을 너무 크게 설정하면 학습 과정이 불안정해지고, 너무 작게 설정하면 학습 속도가 매우 느려집니다. 보통 0.1~0.01 사이를 시작점으로 잡고 실험하면서 조정합니다.