ML 최적화 목표

2023. 6. 28. 14:53학습/Data Engineering

Google Cloud 에서 Vertex AI 의 Model Development에서 AutoML을 통한 학습 실행을 만들다보면

최적화 목표를 설정해야 한다.

 

최적화 목표의 각 항목에 대해서 좀더 자세히 알아보았다.

 

 

 

1. AUC ROC (Area Under the Receiver Operating Characteristic Curve) :
- 이진 분류 모델의성능을 평가하는 데 사용되는 지표입니다. ROC 곡선은 모델의 참 양성률(True Positive Rate, TPR)을 거짓 양성률(False Positive Rate, FPR)에 대해서 그린 곡선입니다.
- AUC는 ROC 곡선 아래의 면적으로, 0과 1 사이의 값을 가지며, 값이 클수록 분류기의 성능이 좋습니다.
상황: 불균형한 클래스 비율이 있는 데이터셋에서 모델의 전반적인 성능을 평가할 때 사용됩니다.


2. 로그 손실 (Log Loss) :
- 분류 모델에서 사용되며, 모델이 예측한 확률과 실제 라벨 간의 차이를 측정합니다.
- 로그 손실은 낮을수록 모델의 성능이 좋습니다.
상황: 모델이 높은 정확도를 가질 뿐만 아니라 확률 추정치의 정확도도 중요한 경우에 사용됩니다.

 

3. AUC PRC (Area Under the Precision-Recall Curve) :
- 정밀도와 재현율 그래프 아래의 영역을 의미합니다. 이진 분류에서 사용되며, 불균형한 데이터셋에서 특히 유용합니다.
- AUC PRC의 값이 클수록 모델의 성능이 좋습니다.
상황: 불균형한 데이터셋에서 양성 클래스에 대한 모델 성능을 평가할 때 사용됩니다.

 

4. 재현율의 정밀도 (Recall of Precision) :
- 재현율은 참 양성(TP) 샘플 중에서 실제로 양성으로 분류된 샘플의 비율입니다.
상황: 놓칠 수 없는 양성 클래스를 판별해야 하는 경우에 사용됩니다. 예를 들어, 암 진단이나 신용카드 이상 거래 탐지와 같은 경우가 있습니다.

 

5. 정밀도의 재현율 (Precision of Recall) :
- 정밀도는 모델이 예측한 양성 샘플 중 실제 양성 샘플의 비율입니다.
상황: 거짓 양성(FP)이 큰 영향을 미치지 않는 상황에서 사용되며, 결과의 정확성에 중점을 둡니다. 예를 들어, 추천 시스템에서 추천 항목의 정확성이 중요한 경우가 있습니다.

728x90