2023. 6. 28. 14:53ㆍ학습/Data Engineering
Google Cloud 에서 Vertex AI 의 Model Development에서 AutoML을 통한 학습 실행을 만들다보면
최적화 목표를 설정해야 한다.
최적화 목표의 각 항목에 대해서 좀더 자세히 알아보았다.
1. AUC ROC (Area Under the Receiver Operating Characteristic Curve) :
- 이진 분류 모델의성능을 평가하는 데 사용되는 지표입니다. ROC 곡선은 모델의 참 양성률(True Positive Rate, TPR)을 거짓 양성률(False Positive Rate, FPR)에 대해서 그린 곡선입니다.
- AUC는 ROC 곡선 아래의 면적으로, 0과 1 사이의 값을 가지며, 값이 클수록 분류기의 성능이 좋습니다.
상황: 불균형한 클래스 비율이 있는 데이터셋에서 모델의 전반적인 성능을 평가할 때 사용됩니다.
2. 로그 손실 (Log Loss) :
- 분류 모델에서 사용되며, 모델이 예측한 확률과 실제 라벨 간의 차이를 측정합니다.
- 로그 손실은 낮을수록 모델의 성능이 좋습니다.
상황: 모델이 높은 정확도를 가질 뿐만 아니라 확률 추정치의 정확도도 중요한 경우에 사용됩니다.
3. AUC PRC (Area Under the Precision-Recall Curve) :
- 정밀도와 재현율 그래프 아래의 영역을 의미합니다. 이진 분류에서 사용되며, 불균형한 데이터셋에서 특히 유용합니다.
- AUC PRC의 값이 클수록 모델의 성능이 좋습니다.
상황: 불균형한 데이터셋에서 양성 클래스에 대한 모델 성능을 평가할 때 사용됩니다.
4. 재현율의 정밀도 (Recall of Precision) :
- 재현율은 참 양성(TP) 샘플 중에서 실제로 양성으로 분류된 샘플의 비율입니다.
상황: 놓칠 수 없는 양성 클래스를 판별해야 하는 경우에 사용됩니다. 예를 들어, 암 진단이나 신용카드 이상 거래 탐지와 같은 경우가 있습니다.
5. 정밀도의 재현율 (Precision of Recall) :
- 정밀도는 모델이 예측한 양성 샘플 중 실제 양성 샘플의 비율입니다.
상황: 거짓 양성(FP)이 큰 영향을 미치지 않는 상황에서 사용되며, 결과의 정확성에 중점을 둡니다. 예를 들어, 추천 시스템에서 추천 항목의 정확성이 중요한 경우가 있습니다.
'학습 > Data Engineering' 카테고리의 다른 글
Hadoop - 작동 원리, 장단점 (0) | 2023.08.29 |
---|---|
E-R 모델에서 Relation Type 이 속성을 가질 수 있는 이유 (0) | 2023.08.01 |
회귀(Regression) 방법을 사용하여 결측치를 처리 (0) | 2023.06.26 |
2단계(프로그래밍 언어)와 3단계(데이터 모델링 및 설계)를 연습할 수 있는 프로젝트 (0) | 2023.05.06 |
데이터 엔지니어링 로드맵 2023 (0) | 2023.05.06 |