하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션이다.
하이브의 특징
- RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공.
- 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공
- mapreduce 처리 가능 → 대용량 분석에 용이, 추가적인 설정 & 기능 필요 없음
데이터 처리 정리
인메모리 기반 데이터 처리 Spark, Presto- 메모리 관리 이슈가 중요하다. 여러 번 이용하는 데이터는 캐시에 올리거나 디스크에 스왑해 메모리 해제하는 등의 제어가 필요하다.
디스크 기반 데이터 처리 | MapReduce, Hive(내부에서 MapReduce 동작하므로) |
Hive 구성요소
- UI
- 사용자가 쿼리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스
- CLI, Beeline, JDBC 등
- Driver
- 쿼리를 입력받고 작업을 처리
- 사용자 세션을 구현하고, JDBC/ODBC 인터페이스 API 제공
- Compiler
- 메타 스토어를 참고하여 쿼리 구문을 분석하고 실행계획을 생성
- Metastore
- 디비, 테이블, 파티션의 정보를 저장
- Execution Engine
- 컴파일러에 의해 생성된 실행 계획을 실행
하이브 실행 순서
- 사용자가 제출한 SQL문을 드라이버가 컴파일러에 요청하여 메타스토어의 정보를 이용해 처리에 적합한 형태로 컴파일
- 컴파일된 SQL을 실행엔진으로 실행
- 리소스 매니저가 클러스터의 자원을 적절히 활용하여 실행
- 실행 중 사용하는 원천데이터는 HDFS등의 저장장치를 이용
- 실행결과를 사용자에게 반환
'데엔(Data-Engineering) > 하이브(Hive)' 카테고리의 다른 글
Hive 동적 파티션 작업 (0) | 2023.04.09 |
---|---|
파티션 (0) | 2022.12.30 |
댓글