EDA 매뉴얼
2023. 5. 9. 17:25ㆍ학습
- 데이터 이해하기
- 먼저, 대회와 관련된 정보를 충분히 숙지하고 데이터에 대한 이해를 높이세요. 문제 정의, 평가 지표, 데이터의 특성 등을 파악해야 합니다.
- 필요한 라이브러리 임포트
- Pandas, NumPy, Matplotlib, Seaborn 등 EDA에 필요한 라이브러리를 불러옵니다.
- 데이터 로드 및 확인
- 데이터를 로드하고, 간단하게 데이터의 모양(shape), 변수 타입(dtype), 결측치(missing value) 등을 확인합니다.
- 기술통계 분석
- 데이터의 기초 통계량을 확인하고, 변수들의 중심 경향, 분산, 왜도(skewness), 첨도(kurtosis) 등을 파악합니다.
- 변수별 상관관계 분석
- 변수들 간의 상관계수(correlation coefficient)를 계산하여, 변수들 간의 관계를 파악합니다. 이를 통해 다중공선성(multicollinearity) 문제가 있는지 확인할 수 있습니다.
- 탐색적 시각화
- 변수별 분포를 확인하기 위해 히스토그램, 박스 플롯, 바 플롯 등 다양한 시각화 방법을 사용합니다.
- 범주형 변수와 수치형 변수의 관계를 확인하기 위해 바이올린 플롯, 스웜 플롯 등을 사용합니다.
- 변수 간의 관계를 확인하기 위해 산점도(scatter plot), 페어 플롯(pair plot) 등을 사용합니다.
- 이상치 탐지
- 시각화를 통해 이상치(outlier)를 탐지하고, 적절한 처리 방법을 선택합니다. 이상치 제거, 대치, 변환 등 다양한 방법이 있습니다.
- 피처 엔지니어링
- 기존 변수들을 조합하여 새로운 변수를 생성하거나, 변수의 스케일을 조정하는 등 데이터를 머신러닝 모델에 적합하게 변환합니다.
- 결론 도출 및 다음 단계 계획
- EDA를 통해 얻은 인사이트를 바탕으로 문제 해결에 도움이 될 수 있는 다음 단계를 계획합니다. 이를통해 효과적인 머신러닝 모델링 및 하이퍼파라미터 튜닝 전략을 세울 수 있습니다.
- 머신러닝 모델링
- EDA를 통해 얻은 인사이트와 피처 엔지니어링을 바탕으로 머신러닝 모델을 구축합니다. 여러 모델을 실험하며 최적의 모델을 찾아봅니다.
- 모델 평가 및 하이퍼파라미터 튜닝
- 교차 검증(cross-validation) 등의 방법을 사용하여 모델의 성능을 평가하고, 그 결과를 바탕으로 하이퍼파라미터를 튜닝하여 최적의 모델을 찾습니다.
- 앙상블 기법 적용
- 여러 모델을 결합하여 앙상블 기법을 적용해 보세요. 배깅(bagging), 부스팅(boosting), 스태킹(stacking) 등 다양한 앙상블 기법이 있습니다.
- 최종 모델 평가 및 제출
- 최적의 모델과 하이퍼파라미터를 결정한 후, 테스트 데이터에 대한 예측을 수행합니다.
- 결과 공유 및 토론
- 자신의 EDA, 모델링, 평가 및 튜닝 과정을 다른 참가자들과 공유하고 토론을 통해 서로의 지식을 높이는 것도 중요합니다.
EDA를 통해 데이터에 대한 깊은 이해를 기르고, 이를 바탕으로 활용합시다!
728x90
'학습' 카테고리의 다른 글
Release, Deploy, Distribute (0) | 2023.05.11 |
---|---|
TIL 230510 ( 귀무가설, 기술 통계 분석, REFUND 에 대한 생각) (0) | 2023.05.10 |
MacOS , WSL(Windows Subsystem for Linux) 개발환경 비교 (0) | 2023.05.07 |
git) `checkout` 과 `switch` 의 차이 (0) | 2023.05.01 |
212 (0) | 2023.04.30 |