본문 바로가기

데엔(Data-Engineering)/하이브(Hive)3

Hive 동적 파티션 작업 상황) 원활한 데이터 분석을 위해 ‘시-분-초’ 기준으로 데이터를 분할 저장한다. 조회 결과 상황) 원활한 데이터 분석을 위해 ‘시-분-초’ 기준으로 데이터를 분할 저장한다. 조회 결과 💡 시-분-초 값을 포함하여 파티션을 나누면 중복 값이 없어서 데이터 수 만큼의 경로(디렉토리)가 만들어질 것으로 예상된다. 시 분 초 데이터를 제거 후 연월일 값으로 파티션 테이블 생성해보자 의문점 : 데이터 셋에 중복 데이터는 어떻게 처리될까? 2개의 경로? 파일 2개 생성? 2. 개인 실습 💡 시도해 볼 것) 연-월-일 기준으로 파티션을 나누어 데이터 저장 중복데이터 어떻게 처리되는지 확인 train데이터 중 1000개의 데이터로 실습을 진행 경로nn1 : ~ train1000.csv 실습 진행할 DB 생성 #HIV.. 2023. 4. 9.
파티션 더보기 파티션은 데이터를 디렉토리로 분리하여 저장하는 것을 말한다. 하이브 같은 파일 기반 테이블은 기본적으로 테이블의 모든 roww 정보를 읽기 때문에 데이터가 많아지면 속도가 느려진다. 파티션 칼럼은 where 조건에서 컬럼 처럼 이용할 수 있기 때문에 처음에 읽어 들이는 데이터를 줄여서 처리 속도를 향상 시켜 준다. 파티션 종류 고정 파티션(static) 고정 파티션은 테이블에 데이터를 입력하는 시점에 파티션 정보를 전달하기 때문에 입력되는 파티션을 알 수 있다. 동적 파티션(dynamic) 동적 파티션은 칼럼의 정보를 이용하여 동적으로 파티션이 생성되기 때문에 쿼리 시점에는 파티션을 알 수 없다. 데이터를 입력할 때 고정 파티션, 동적 파티션을 단독으로 이용할 수도 있고, 고정과 동적 파티션을 혼.. 2022. 12. 30.
하이브란? 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션이다. 하이브의 특징 RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공. 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공 mapreduce 처리 가능 → 대용량 분석에 용이, 추가적인 설정 & 기능 필요 없음 데이터 처리 정리 인메모리 기반 데이터 처리 Spark, Presto- 메모리 관리 이슈가 중요하다. 여러 번 이용하는 데이터는 캐시에 올리거나 디스크에 스왑해 메모리 해제하는 등의 제어가 필요하다. 디스크 기반 데이터 처리 MapReduce, Hive(내부에서 MapReduce 동작하므로) Hive .. 2022. 12. 30.