본문 바로가기

데엔(Data-Engineering)/스파크(Spark)5

[Spark] 01. 스파크 기초 (동작 과정) 스파크란? 빅데이터 처리를 위한 오픈소스 고속 분산처리 엔진이다. ※Hadoop의 연산엔진(MR)을 대체하는 분산처리 [플랫폼 / 엔진 / 프로젝트 / 프레임워크 / 솔루션] ※ 많은 기업에서 사용한다. 왜? 빅데이터의 문제 + 기존 시스템 개선 규모 : 데이터의 크기가 증가 속도 : 데이터가 생성되는 속도 증가 다양성 : 데이터의 종류 증가 기존 Hadoop의 연산엔진(MR) DISK I/O 작업 방식을 개선하기 위해 (속도 문제) 하둡은 크게 3부분으로 나뉜다. 파일시스템(hdfs), 연산엔진(mapreduece), 리소스관리(yarn) 이들 중 스파크는 연산엔진을 대체하는 플랫폼이다. 위 사진과 같이 디스크 작동은 느리다. HDD/SDD 부터 CPU까지의 거리?도 문제지만 hadoop의 MR 은 h.. 2023. 2. 6.

이전 1 2 다음

티스토리툴바