본문 바로가기

데엔(Data-Engineering)18

Data infra, Data platform, Data pipeline, 데이터 플랫폼(Data Platform) 데이터 플랫폼은 데이터를 수집, 저장, 처리 및 관리하는 데 사용되는 종합적인 기술 스택 또는 솔루션을 의미합니다. 데이터 플랫폼은 기업이나 조직에서 다양한 데이터 소스로부터 데이터를 효율적으로 수집하고, 이를 통합하여 다양한 응용 프로그램이나 분석에 사용할 수 있도록 합니다. 데이터 플랫폼은 대규모 데이터 처리, 데이터 저장, 데이터 품질 관리, 보안 등 다양한 기능을 제공합니다. 특징 다양한 데이터 소스로부터 데이터 수집과 통합을 지원한다. 대규모 데이터 저장과 처리를 위한 확장성을 갖추고 있다. 데이터의 품질 관리와 보안을 보장한다. 데이터를 다양한 시스템이나 응용 프로그램으로 배포할 수 있다. 분석, 시각화, 인공지능 등 다양한 데이터 활용 기능을 제공한다.. 2023. 7. 31.
에어플로우 기초 1.워크플로우 : 여러 개의 DAG들을 묶어서 큰 규모의 비즈니스 프로세스를 관리하는 개념 일련의 작업들을 통해 비즈니스 프로세스를 수행하는 전체적인 흐름을 의미한다. workflow는 여러 개의 DAG들로 구성될 수 있고, DAG 간의 종속성을 관리하여 전체적인 작업 흐름을 제어하고 모니터링할 수 있다. workflow는 에어플로우에서 여러 개의 DAG들을 논리적으로 묶어서 관리하고, 큰 규모의 비즈니스 프로세스를 효율적으로 실행하고 관리하는 데 사용된다. 2. DAG (Directed Acyclic Graph - 방향이 있는 순환되지 않는 그래프) : 작업 흐름을 정의하고 관리하는 개별적인 그래프 모델 에어플로우에서 작업 흐름을 정의하는 그래프 형태의 모델로, 작업(task)들이 노드(node)로 표.. 2023. 4. 12.
Airflow 윈도우 설치 (+ 가상환경) 설치 과정) Airflow 는 파이썬 기반의 데이터 워크플로우 관리도구 ※아쉽게도 Airflow는 Windows 버전의 공식 설치를 지원하지 않기 때문에 다른 방법을 통해 설치해야 한다. Windows에서는 크게 아래 2가지 방법으로 에어플로우를 설치할 수 있다. (1) WSL 로 설치 (2) Docker 를 이용해 설치 ※ WSL이란 윈도우에서 Ubuntu, CentOS 등의 리눅스 커널(의 일부)을 사용할 수 있게 해주는 시스템) 대부분의 윈도우에서의 airflow설치 과정을 가상환경을 통해 리눅스 기반의 환경을 구축하고 그 위에 airflow를 설치하는 방식이었다. 블로그와 영상들로 안내된 방법들 중 가장 간편하고 깔끔했던 방법으로 진행했다. 1. microsoft Store에서 WSL 설치 2. .. 2023. 4. 12.
Failover controller란? 💡 Failover controller란 주키퍼가 active NN에 문제가 발생하는 경우 active를 내리고 standby상태에 있는 NN을 active로 전환 시키는 기능을 말한다. 주키퍼 장애 복구 컨트롤러 ZKFC ( ZookeeperFailoverController ) 는 Zookeepr Client 로써 동작한다. 자신이 실행되고 있는 서버 위에서 실행되는 Name Node 의 상태를 heartbeat 를 통해 모니터링 한다. (네임 노드가 동작하는 서버에 zkfc 도 같이 동작하면서 네임 노드 상태를 모니터링함) 또한 평소(Name Node 가 정상 동작할 때)에 Zookeeper 와 zkfc 간 세션을 유지. 주키퍼 Failover controller → ZKFC 라고 한다. 특징) 1... 2023. 4. 9.