데이터 엔지니어링 로드맵 2023
2023. 5. 6. 22:49ㆍ학습/Data Engineering
데이터 엔지니어링 분야는 지속적으로 발전하고 있으며, 새로운 기술과 도구들이 생겨나고 있습니다.
2023년 데이터 엔지니어 로드맵을 기본적인 학습 경로와 주요 기술 및 도구를 업데이트하여 아래와 같이 정리할 수 있습니다.
- 기본 지식 및 소양
- 컴퓨터 과학 및 프로그래밍 기본 지식
- 데이터 구조 및 알고리즘
- 운영 체제 및 네트워킹
- 데이터베이스 및 SQL
- 분산 시스템 기본 개념
- 프로그래밍 언어
- Python
- Java 혹은 Scala
- SQL
- 선택적으로: Go, JavaScript, R
- 데이터 모델링 및 설계
- 관계형 데이터베이스
- NoSQL 데이터베이스
- 데이터 웨어하우스
- 데이터 레이크
- 스키마 설계 및 정규화
- 데이터 저장소 및 처리
- 관계형 데이터베이스: PostgreSQL, MySQL, Microsoft SQL Server, Oracle 등
- NoSQL 데이터베이스: MongoDB, Cassandra, Couchbase, Redis 등
- 데이터 웨어하우스: Google BigQuery, Amazon Redshift, Snowflake 등
- 데이터 레이크: Apache Hadoop, Amazon S3, Delta Lake 등
- 데이터 처리 프레임워크: Apache Spark, Apache Flink, Apache Beam, Dask 등
- 데이터 파이프라인 및 ETL
- 배치 처리: Apache NiFi, Apache Airflow, Luigi, Prefect 등
- 스트리밍 처리: Kafka Streams, Apache Flink, Apache Samza, Apache Nifi 등
- 클라우드 기반 솔루션: AWS Glue, Google Dataflow, Azure Data Factory 등
- 데이터 통합 및 가상화
- 데이터 카탈로그: Apache Atlas, DataHub, AWS Glue Data Catalog, Google Data Catalog 등
- 데이터 가상화: Denodo, Dremio, Apache Drill 등
- 데이터 인프라 및 운영
- 클라우드 플랫폼: AWS, Google Cloud, Microsoft Azure, IBM Cloud 등
- 컨테이너화: Docker, Kubernetes, Apache Mesos 등
- 데이터 보안: 데이터 암호화, IAM, 데이터 마스킹 등
- 모니터링 및 로깅: ELK 스택(Elasticsearch, Logstash, Kibana), Grafana, Prometheus 등
- 머신러닝 엔지니어링
- 머신러닝 프레임워크: TensorFlow, PyTorch, Scikit-learn 등
- 머신러닝 파이프라인: MLflow, Kubeflow, Apache Airflow, TFX (TensorFlow Extended) 등
- 모델 서빙 및 배포: TensorFlow Serving, NVIDIA Triton Inference Server, Seldon Core 등
- 특성 저장소: Feast, Tecton, Hopsworks Feature Store 등
- 실험 관리 및 모델 모니터링: MLflow, Weights & Biases, Neptune.ai 등
- 클라우드 기반 머신러닝 서비스: AWS SageMaker, Google AI Platform, Microsoft Azure ML 등
- 실시간 분석 및 데이터 시각화
- 실시간 분석: Apache Druid, Pinot, ClickHouse, TimescaleDB 등
- 데이터 시각화 도구: Tableau, Power BI, Looker, Apache Superset, Metabase 등
- 대시보드 및 리포트 생성: Grafana, Kibana, Redash 등
이러한 기술 및 도구들을 숙지하고 실습 경험을 쌓는 것이 데이터 엔지니어로 성장하는 데 중요한 역할을 합니다. 또한, 협업 능력, 지속적인 학습, 문제 해결 능력 등의 소프트 스킬도 중요합니다. 최신 기술 트렌드에 유의하고 새로운 도구 및 플랫폼을 지속적으로 학습하자!
읽어볼만한 글
https://tech.kakao.com/2020/11/30/kakao-data-engineering/
728x90
'학습 > Data Engineering' 카테고리의 다른 글
Hadoop - 작동 원리, 장단점 (0) | 2023.08.29 |
---|---|
E-R 모델에서 Relation Type 이 속성을 가질 수 있는 이유 (0) | 2023.08.01 |
ML 최적화 목표 (0) | 2023.06.28 |
회귀(Regression) 방법을 사용하여 결측치를 처리 (0) | 2023.06.26 |
2단계(프로그래밍 언어)와 3단계(데이터 모델링 및 설계)를 연습할 수 있는 프로젝트 (0) | 2023.05.06 |