데이터 엔지니어링 로드맵 2023

2023. 5. 6. 22:49학습/Data Engineering

데이터 엔지니어링 분야는 지속적으로 발전하고 있으며, 새로운 기술과 도구들이 생겨나고 있습니다.

2023년 데이터 엔지니어 로드맵을 기본적인 학습 경로와 주요 기술 및 도구를 업데이트하여 아래와 같이 정리할 수 있습니다.

 

  1. 기본 지식 및 소양
    • 컴퓨터 과학 및 프로그래밍 기본 지식
    • 데이터 구조 및 알고리즘
    • 운영 체제 및 네트워킹
    • 데이터베이스 및 SQL
    • 분산 시스템 기본 개념
  2. 프로그래밍 언어
    • Python
    • Java 혹은 Scala
    • SQL
    • 선택적으로: Go, JavaScript, R
  3. 데이터 모델링 및 설계
    • 관계형 데이터베이스
    • NoSQL 데이터베이스
    • 데이터 웨어하우스
    • 데이터 레이크
    • 스키마 설계 및 정규화
  4. 데이터 저장소 및 처리
    • 관계형 데이터베이스: PostgreSQL, MySQL, Microsoft SQL Server, Oracle 등
    • NoSQL 데이터베이스: MongoDB, Cassandra, Couchbase, Redis 등
    • 데이터 웨어하우스: Google BigQuery, Amazon Redshift, Snowflake 등
    • 데이터 레이크: Apache Hadoop, Amazon S3, Delta Lake 등
    • 데이터 처리 프레임워크: Apache Spark, Apache Flink, Apache Beam, Dask 등
  5. 데이터 파이프라인 및 ETL
    • 배치 처리: Apache NiFi, Apache Airflow, Luigi, Prefect 등
    • 스트리밍 처리: Kafka Streams, Apache Flink, Apache Samza, Apache Nifi 등
    • 클라우드 기반 솔루션: AWS Glue, Google Dataflow, Azure Data Factory 등
  6. 데이터 통합 및 가상화
    • 데이터 카탈로그: Apache Atlas, DataHub, AWS Glue Data Catalog, Google Data Catalog 등
    • 데이터 가상화: Denodo, Dremio, Apache Drill 등
  7. 데이터 인프라 및 운영
    • 클라우드 플랫폼: AWS, Google Cloud, Microsoft Azure, IBM Cloud 등
    • 컨테이너화: Docker, Kubernetes, Apache Mesos 등
    • 데이터 보안: 데이터 암호화, IAM, 데이터 마스킹 등
    • 모니터링 및 로깅: ELK 스택(Elasticsearch, Logstash, Kibana), Grafana, Prometheus 등
  8. 머신러닝 엔지니어링
    • 머신러닝 프레임워크: TensorFlow, PyTorch, Scikit-learn 등
    • 머신러닝 파이프라인: MLflow, Kubeflow, Apache Airflow, TFX (TensorFlow Extended) 등
    • 모델 서빙 및 배포: TensorFlow Serving, NVIDIA Triton Inference Server, Seldon Core 등
    • 특성 저장소: Feast, Tecton, Hopsworks Feature Store 등
    • 실험 관리 및 모델 모니터링: MLflow, Weights & Biases, Neptune.ai
    • 클라우드 기반 머신러닝 서비스: AWS SageMaker, Google AI Platform, Microsoft Azure ML 등
  9. 실시간 분석 및 데이터 시각화
    • 실시간 분석: Apache Druid, Pinot, ClickHouse, TimescaleDB 등
    • 데이터 시각화 도구: Tableau, Power BI, Looker, Apache Superset, Metabase 등
    • 대시보드 및 리포트 생성: Grafana, Kibana, Redash 등

이러한 기술 및 도구들을 숙지하고 실습 경험을 쌓는 것이 데이터 엔지니어로 성장하는 데 중요한 역할을 합니다. 또한, 협업 능력, 지속적인 학습, 문제 해결 능력 등의 소프트 스킬도 중요합니다. 최신 기술 트렌드에 유의하고 새로운 도구 및 플랫폼을 지속적으로 학습하자!

 

 

읽어볼만한 글

https://tech.kakao.com/2020/11/30/kakao-data-engineering/

 

데이터 엔지니어링이란

안녕하세요, 데이터정보플랫폼팀 kenny입니다.카카오는 매년 신입 개발자 공채와 인턴 프로그램을 진행합니다. 카카오 그리고 데이터 엔지니어링에 관심 있는 주니어 개발자 또는 예비 개발자분

tech.kakao.com

 

728x90