학습/Data Engineering(13)
-
리눅스에 아파치(apache) 서버 설치
환경: ubuntu 22.04.3 git bash - ssh로 linux 에 접근 1. 아파치 서버 설치 sudo apt-get install apache2 y 설치되었는지 확인하기 cd /etc ls 2. 아파치 서버 시작하기 sudo service apache2 start apache2 켜진지 확인하기 ps aux | grep apache2 ps aux | grep 의 자세한 설명 더보기 ps: 'Process Status'의 약자로, 시스템에서 현재 실행 중인 프로세스에 대한 정보를 보여주는 명령어 aux: ps 명령어의 옵션 a: 모든 사용자의 프로세스를 보여줌 u: 사용자/소유자별 프로세서 사용 상황을 보여줌 x: 터미널에 연결되지 않은 프로세스까지 포함하여 보여줌 | : 파이프라고 부르며, 한..
2023.08.29 -
Hadoop - 작동 원리, 장단점
간단요약) Hadoop 1. 데이터 파일을 여러 컴퓨터에 나누어 저장, 2. 이것을 병렬 처리하는 구조 -> 데이터 양이 방대해도 유연하게 다룰 수 있음. 하둡(Hadoop)은 Apache Software Foundation에서 개발한 오픈 소스 프레임워크로, 대용량 데이터를 분산된 환경에서 처리할 수 있도록 설계되었다. 작동원리 HDFS(Hadoop Distributed File System) HDFS는 하둡의 핵심 구성 요소 중 하나로, 대용량 파일을 여러 노드에 걸쳐 분산 저장합니다. 각 데이터는 블록 단위로 나누어지고, 이 블록들은 네트워크상의 다른 컴퓨터에 분산 저장된다. MapReduce MapReduce는 하둡이 대규모 데이터를 처리하는 방식입니다. 'Map' 단계에서 각 노드는 자신에게 할..
2023.08.29 -
E-R 모델에서 Relation Type 이 속성을 가질 수 있는 이유
ER(Entity-Relationship) 모델에서 Relation Type은 개체 간의 관계를 나타냅니다. Relation Type이 속성을 가질 수 있는 이유는 개체들 간의 관계를 더 구체적이고 정확하게 설명하기 위함입니다. 이러한 속성은 관계의 성격과 깊이를 더 잘 나타낼 수 있게 하며, 데이터베이스 모델의 이해를 향상시킵니다. ER모델에서 Relation Type 이 속성을 가질 수 있는 이유는 다음과 같습니다. 관계형 데이터베이스에서 관계는 엔티티 간의 연관 관계를 나타내며, 관계는 엔티티 간의 연관 관계에 대한 정보를 저장합니다. 관계의 속성은 관계에 대한 정보를 더 자세히 설명하는 데 사용됩니다. 예를 들어, "주문" 관계는 "주문 번호", "주문 날짜", "주문 금액" 등의 속성을 가질 수..
2023.08.01 -
ML 최적화 목표
Google Cloud 에서 Vertex AI 의 Model Development에서 AutoML을 통한 학습 실행을 만들다보면 최적화 목표를 설정해야 한다. 최적화 목표의 각 항목에 대해서 좀더 자세히 알아보았다. 1. AUC ROC (Area Under the Receiver Operating Characteristic Curve) : - 이진 분류 모델의성능을 평가하는 데 사용되는 지표입니다. ROC 곡선은 모델의 참 양성률(True Positive Rate, TPR)을 거짓 양성률(False Positive Rate, FPR)에 대해서 그린 곡선입니다. - AUC는 ROC 곡선 아래의 면적으로, 0과 1 사이의 값을 가지며, 값이 클수록 분류기의 성능이 좋습니다. 상황: 불균형한 클래스 비율이 있..
2023.06.28 -
회귀(Regression) 방법을 사용하여 결측치를 처리
회귀(Regression) 방법을 사용하여 결측치를 처리 이 방법은 기본적으로 다른 변수들과의 관계를 통해 결측치가 있는 변수의 값을 예측하는데 중점을 둡니다. 연속형 데이터에 적합한 방법으로, 변수 간의 상관관계가 높을 때 예측 정확도가 높아집니다. 회귀 방법으로 결측치 처리 과정은 다음과 같습니다: 1. 데이터 준비 결측치가 있는 변수를 종속변수로 설정합니다. 다른 변수들(결측치가 없는 변수들)을 독립변수로 설정합니다. 2. 데이터 분할 전체 데이터를 두 부분으로 나눕니다. 하나는 결측치가 있는 데이터셋이고 다른 하나는 결측치가 없는 데이터셋입니다. 3. 회귀 모델 학습 결측치가 없는 데이터셋을 사용하여 회귀 모델을 학습시킵니다. 이 과정에서 독립변수를 사용해 종속변수를 예측하는 모델을 생성합니다. ..
2023.06.26 -
2단계(프로그래밍 언어)와 3단계(데이터 모델링 및 설계)를 연습할 수 있는 프로젝트
https://parkpakrsu.tistory.com/236 데이터 엔지니어링 로드맵 2023 데이터 엔지니어링 분야는 지속적으로 발전하고 있으며, 새로운 기술과 도구들이 생겨나고 있습니다. 2023년 데이터 엔지니어 로드맵을 기본적인 학습 경로와 주요 기술 및 도구를 업데이트하여 parkpakrsu.tistory.com 2~3단계에서 할만한 프로젝트! +4(데이터 저장소 및 처리) , +5(데이터 파이프라인 및 ETL).. 개인용 관계형 데이터베이스 구축 자신의 관심사(영화, 음악, 도서 등)에 대한 데이터를 수집하여 관계형 데이터베이스에 저장하고, 이를 조회/수정/삭제하는 간단한 웹 애플리케이션을 개발합니다. 사용할 수 있는 기술: Python, Flask, PostgreSQL, MySQL, HTM..
2023.05.06