데이터 엔지니어란,
: 회사마다 사람마다 조금씩 다를 수 있지만 크게 데이터를 수집, 변환, 저장하여 데이터가 필요한 다른 분들(ex.분석가 ) 이 쉽게 가져다 사용할 수 있게끔 관리 & 제공하는 것이 데이터 엔지니어의 주 역할이라고 생각한다.
하둡(Hadoop)
: 큰 규모의 데이터를 클러스터화된 범용적 컴퓨터로 처리한다. 분산처리를 위한 오픈소스 프레임워크이다.
하이브(Hive)
- 아파치HDFS, HBase 와 같은 저장소에 저장된 대용량 데이터 집합 분석
- 하둡에서 정형화된 데이터를 처리하기 위한 인프라.
- 하둡에서 동작하는 데이터웨어하우스 인프라 구조로써 데이터 요약, 질의 및 분석 기능을 제공한다.
HBase
- HDFS위에 구축된 DB, (하둡 자체의 기능이 유연하지 못해서 탄생)
- 빠른 테이블 조회 가능(하둡과 다르게 배치 단위로 처리하지 않고 각 row에 빠른 접근 가능)
스파크(Spark)
: 빅데이터 분석 프레임 워크로 하둡의 실시간 서비스 제공이 불가능한 문제 때문에 탄생.
하둡은 배치 단위로 일을 처리한다. Map함수 실행이 끝나면 디스크에 데이터를 저장하고 이후 Reduce함수를 통해 디스크에서 꺼내온다. 이 과정이 유연하지 못한 반면에 스파크는 Map함수가 끝나지 않아도 결과를 스트리밍이 가능하다. 인메모리 동작 방식으로 실시간 데이터 처리 Streaming Service가 가능하다.
주키퍼(Zookeeper)
: 하둡(코끼리), 하이브(벌), HBasse(범고래)를 관리하는 사육사라고 생각하면 될것 같다. 분산 시스템에서 발생하는 문제들을 해결해주는 '분산 코디네이션 서비스' 시스템이다.
Flink
: Spark와 비슷한 Stream처리 프레임 워크이다.(실시간 처리 시스템)
데이터 처리 시스템이며 하둡 MapReduce 구성 요소의 대안이다.
Kafka
- 대규모 대용량 메시지 데이터를 빠르게 처리할 수 있도록 개발된 메시지 플랫폼
- 스트림 파이프 라인을 통해 실시간 데이터 관리 및 전송을 위하 분산 스트리밍 플랫폼이다.
- 데이터 생성 application과 데이터 소비 application간의 중재자 역할(데이터 전송 제어, 처리, 관리 역할)
'데엔(Data-Engineering)' 카테고리의 다른 글
Data infra, Data platform, Data pipeline, (0) | 2023.07.31 |
---|
댓글