본문 바로가기

데엔(Data-Engineering)/하둡(Hadoop)6

HDFS 저장 용량 확보 과정 결론 HDFS 파일 시스템에서 용량을 확보하기 위해서는 휴지통도 비워야 한다. 문제 상황) 여러 번 실습을 반복하는 과정에서 어느 순간 Data가 업로드가 되지 않았다. HDFS 가용 공간은 (30GB*3) 총 90GB 로 현재 프로젝트를 진행하는데 문제없는 용량이었다. 지금은 용량이 11G 정도로 보이지만 내가 오류를 겪었을 때는 600MB 정도 밖에 남아있지 않았다. 그러니 5GB 용량의 데이터 셋을 hdfs에 업로드 하려고 해도 업로드가 되지 않았던 것이다… 문제 해결 과정) 시도1 HDFS에 있는 파일을 삭제했다. 기존에 실습 과정에서 테스트 과정도 여러 번 진행하는 바람에 불필요한 데이터가 쌓였다고 생각했다. 결과1 하지만 여전히 같은 이유로 데이터가 업로드 되지 않았다. 시도2 현 상황을 구글.. 2023. 4. 8.
Why Hadoop? 저장소와 분석의 문제 💡 디스크의 용량에 비해 데이터를 읽는 속도는 그에 미치지 못했다. 단일 디스크의 데이터를 읽는 데 너무 많은 시간이 걸리고, 심지어 쓰는 것은 더 느리다. 이에 시간을 줄이기 위한 방법으로 여러 개의 디스크에서 동시에 데이터를 읽는 방식이 출현했다. 100개의 디스크에서 각 디스크 별로 100분의 1씩 데이터가 있으며 병렬적으로 작업 시 그 속도는 매우 빨라질 것이다. 디스크에 100분의 1만 활용, 사용하는 것은 물론 낭비이다. 하지만 1테라바이트의 데이터셋 100개를 디스크에 나눠 저장하고 서로 공유가 가능하다면 이야기가 달라진다. 이러한 병렬, 분산처리시스템은 사용자에게 매우 빠른 분석을 지원하고 고르게 분산되어 서로 큰 방해도 없을 것이다. 하둡(Hadoop)이란? 대용량의.. 2022. 11. 8.