다양한 빅데이터 관련 툴에 대한 개념(하둡,하이브,스파크,HBase, 주키퍼, Kafka, Flink 등)
데이터 엔지니어란, : 회사마다 사람마다 조금씩 다를 수 있지만 크게 데이터를 수집, 변환, 저장하여 데이터가 필요한 다른 분들(ex.분석가 ) 이 쉽게 가져다 사용할 수 있게끔 관리 & 제공하는 것이 데이터 엔지니어의 주 역할이라고 생각한다. 하둡(Hadoop) : 큰 규모의 데이터를 클러스터화된 범용적 컴퓨터로 처리한다. 분산처리를 위한 오픈소스 프레임워크이다. 하이브(Hive) - 아파치HDFS, HBase 와 같은 저장소에 저장된 대용량 데이터 집합 분석 - 하둡에서 정형화된 데이터를 처리하기 위한 인프라. - 하둡에서 동작하는 데이터웨어하우스 인프라 구조로써 데이터 요약, 질의 및 분석 기능을 제공한다. HBase - HDFS위에 구축된 DB, (하둡 자체의 기능이 유연하지 못해서 탄생) - 빠..
2022. 9. 4.