EDA 매뉴얼

2023. 5. 9. 17:25학습

  1. 데이터 이해하기
    • 먼저, 대회와 관련된 정보를 충분히 숙지하고 데이터에 대한 이해를 높이세요. 문제 정의, 평가 지표, 데이터의 특성 등을 파악해야 합니다.
  2. 필요한 라이브러리 임포트
    • Pandas, NumPy, Matplotlib, Seaborn 등 EDA에 필요한 라이브러리를 불러옵니다.
  3. 데이터 로드 및 확인
    • 데이터를 로드하고, 간단하게 데이터의 모양(shape), 변수 타입(dtype), 결측치(missing value) 등을 확인합니다.
  4. 기술통계 분석
    • 데이터의 기초 통계량을 확인하고, 변수들의 중심 경향, 분산, 왜도(skewness), 첨도(kurtosis) 등을 파악합니다.
  5. 변수별 상관관계 분석
    • 변수들 간의 상관계수(correlation coefficient)를 계산하여, 변수들 간의 관계를 파악합니다. 이를 통해 다중공선성(multicollinearity) 문제가 있는지 확인할 수 있습니다.
  6. 탐색적 시각화
    • 변수별 분포를 확인하기 위해 히스토그램, 박스 플롯, 바 플롯 등 다양한 시각화 방법을 사용합니다.
    • 범주형 변수와 수치형 변수의 관계를 확인하기 위해 바이올린 플롯, 스웜 플롯 등을 사용합니다.
    • 변수 간의 관계를 확인하기 위해 산점도(scatter plot), 페어 플롯(pair plot) 등을 사용합니다.
  7. 이상치 탐지
    • 시각화를 통해 이상치(outlier)를 탐지하고, 적절한 처리 방법을 선택합니다. 이상치 제거, 대치, 변환 등 다양한 방법이 있습니다.
  8. 피처 엔지니어링
    • 기존 변수들을 조합하여 새로운 변수를 생성하거나, 변수의 스케일을 조정하는 등 데이터를 머신러닝 모델에 적합하게 변환합니다.
  9. 결론 도출 및 다음 단계 계획
    • EDA를 통해 얻은 인사이트를 바탕으로 문제 해결에 도움이 될 수 있는 다음 단계를 계획합니다. 이를통해 효과적인 머신러닝 모델링 및 하이퍼파라미터 튜닝 전략을 세울 수 있습니다.
  10. 머신러닝 모델링
    • EDA를 통해 얻은 인사이트와 피처 엔지니어링을 바탕으로 머신러닝 모델을 구축합니다. 여러 모델을 실험하며 최적의 모델을 찾아봅니다.
  11. 모델 평가 및 하이퍼파라미터 튜닝
    • 교차 검증(cross-validation) 등의 방법을 사용하여 모델의 성능을 평가하고, 그 결과를 바탕으로 하이퍼파라미터를 튜닝하여 최적의 모델을 찾습니다.
  12. 앙상블 기법 적용
    • 여러 모델을 결합하여 앙상블 기법을 적용해 보세요. 배깅(bagging), 부스팅(boosting), 스태킹(stacking) 등 다양한 앙상블 기법이 있습니다.
  13. 최종 모델 평가 및 제출
    • 최적의 모델과 하이퍼파라미터를 결정한 후, 테스트 데이터에 대한 예측을 수행합니다. 
  14. 결과 공유 및 토론
    • 자신의 EDA, 모델링, 평가 및 튜닝 과정을 다른 참가자들과 공유하고 토론을 통해 서로의 지식을 높이는 것도 중요합니다.

EDA를 통해 데이터에 대한 깊은 이해를 기르고, 이를 바탕으로 활용합시다!

728x90