본문 바로가기

전체 글83

HDFS 휴지통 💡 HDFS는 사용자의 실수에 의한 파일 삭제를 방지하기 위해서 휴지통 기능을 제공한다. 휴지통 기능이 설정되면 HDFS에서 삭제한 파일은 바로 삭제되지 않고, 각 사용자의 홈디렉토리 아래 휴지통 디렉토리(/user/유저명/.Trash)로 이동된다. 이때 휴지통 아래의 파일은 복구 가능하다. 휴지통 디렉토리는 지정한 간격으로 체크포인트가 생성되고, 유효 기간이 만료되면 체크포인트를 삭제합니다. 삭제 되면 해당 블록을 해제하고, 사용자에게 반환한다. 설정 설정값 비고 fs.trash.interval 체크포인트를 삭제하는 시간 간격(분). 0이면 휴지통 기능을 끔. fs.trash.checkpoint.interval 체크포인트를 확인하는 간격(분). fs.trash.interval과 같거나 작아야 함. 체크.. 2023. 4. 9.
Hive 동적 파티션 작업 상황) 원활한 데이터 분석을 위해 ‘시-분-초’ 기준으로 데이터를 분할 저장한다. 조회 결과 상황) 원활한 데이터 분석을 위해 ‘시-분-초’ 기준으로 데이터를 분할 저장한다. 조회 결과 💡 시-분-초 값을 포함하여 파티션을 나누면 중복 값이 없어서 데이터 수 만큼의 경로(디렉토리)가 만들어질 것으로 예상된다. 시 분 초 데이터를 제거 후 연월일 값으로 파티션 테이블 생성해보자 의문점 : 데이터 셋에 중복 데이터는 어떻게 처리될까? 2개의 경로? 파일 2개 생성? 2. 개인 실습 💡 시도해 볼 것) 연-월-일 기준으로 파티션을 나누어 데이터 저장 중복데이터 어떻게 처리되는지 확인 train데이터 중 1000개의 데이터로 실습을 진행 경로nn1 : ~ train1000.csv 실습 진행할 DB 생성 #HIV.. 2023. 4. 9.
네임노드 & 데이터노드 HDFS클러스터는 Master 역할을 가지고 있는 네임노드와 Worker 역할을 가지고 있는 데이터노드로 구성되어 있다. HDFS(Hadoop Distributed File System)는 마스터(master)-슬레이브(slave) 구조로 되어 있다. 즉 마스터 역학을 하는 네임노드(NameNode) 서버 한 대에 슬레이브 역할을 하는 데이ㅁ터노드(DataNode) 서버 여러 대로 구성된다. 네임노드) 💡 네임노드의 주요 역할은 메타데이터 관리와 데이터노드의 관리이다. 파일 시스템의 Name Space를 관리하며 모든 파일과 디렉터리에 대한 메타 데이터를 관리 DN에게 주기적으로 블록 위치 정보를 받아, 클러스터에 저장하고 있는 모든 블록이 어느 DN에 있는지 파악 DN이 주기적으로 전달하는 하트비트(3.. 2023. 4. 8.
Manager 전환 이슈 문제 상황) 부팅 시 리소스매니저와 노드매니저가 바뀌는 현상을 보고, yarn 에 문제가 있다고 생각했다. 결과) 처음에는 네임노드와 데이터노드를 설정해주는 것 처럼 기본 고정 값이 있다고 생각했다. 자료를 살펴보니... 매니저의 경우 yarn이 상황에 따라서 그때그때 매니저를 지정하기 때문에 yarn클러스터 실행 시 달라질 수 있다고 안내되어 있었다. Active, Standby ResourceManager 확인 방법 $ yarn rmadmin -getServiceState rm1 $ yarn rmadmin -getServiceState rm2 ※ Tip ※ 💡 Yarn의 리소스 매니저는 DFSZKFailoverController가 내장되어 있어서, HDFS 처럼 따로 서비스를 띄울 필요가 없다. Ya.. 2023. 4. 8.