본문 바로가기

데엔(Data-Engineering)18

Why Hadoop? 저장소와 분석의 문제 💡 디스크의 용량에 비해 데이터를 읽는 속도는 그에 미치지 못했다. 단일 디스크의 데이터를 읽는 데 너무 많은 시간이 걸리고, 심지어 쓰는 것은 더 느리다. 이에 시간을 줄이기 위한 방법으로 여러 개의 디스크에서 동시에 데이터를 읽는 방식이 출현했다. 100개의 디스크에서 각 디스크 별로 100분의 1씩 데이터가 있으며 병렬적으로 작업 시 그 속도는 매우 빨라질 것이다. 디스크에 100분의 1만 활용, 사용하는 것은 물론 낭비이다. 하지만 1테라바이트의 데이터셋 100개를 디스크에 나눠 저장하고 서로 공유가 가능하다면 이야기가 달라진다. 이러한 병렬, 분산처리시스템은 사용자에게 매우 빠른 분석을 지원하고 고르게 분산되어 서로 큰 방해도 없을 것이다. 하둡(Hadoop)이란? 대용량의.. 2022. 11. 8.
다양한 빅데이터 관련 툴에 대한 개념(하둡,하이브,스파크,HBase, 주키퍼, Kafka, Flink 등) 데이터 엔지니어란, : 회사마다 사람마다 조금씩 다를 수 있지만 크게 데이터를 수집, 변환, 저장하여 데이터가 필요한 다른 분들(ex.분석가 ) 이 쉽게 가져다 사용할 수 있게끔 관리 & 제공하는 것이 데이터 엔지니어의 주 역할이라고 생각한다. 하둡(Hadoop) : 큰 규모의 데이터를 클러스터화된 범용적 컴퓨터로 처리한다. 분산처리를 위한 오픈소스 프레임워크이다. 하이브(Hive) - 아파치HDFS, HBase 와 같은 저장소에 저장된 대용량 데이터 집합 분석 - 하둡에서 정형화된 데이터를 처리하기 위한 인프라. - 하둡에서 동작하는 데이터웨어하우스 인프라 구조로써 데이터 요약, 질의 및 분석 기능을 제공한다. HBase - HDFS위에 구축된 DB, (하둡 자체의 기능이 유연하지 못해서 탄생) - 빠.. 2022. 9. 4.