본문 바로가기
기타

카카오의 빅데이터 엔지니어란?

by KwonSoonBin 2022. 12. 5.

셰프가 요리를 하기 위해서 도구와 공간이 필요하듯이 데이터 사이언티스트와 데이터 엔지니어가 데이터를 마음껏 주무를 수 있는 공간을 플랫폼이라고 하는데요. 이 플랫폼을 설계하고 구축하고 운영하는 일을 데이터 플랫폼 엔지니어링이라고 합니다. 


하둡엔지니어링파트에서는  빅데이터 플랫폼 엔지니어링을 수행하고 있습니다.
왜 하둡 사용?)
 - 여러 개발자들이 동시에 작업할 수 있는 나아가 섬세한 작업이 가능한 플랫폼이어야 한다. 가장 오래되고 보편적이며 가장 검증된 플랫폼인 하둡을 빅데이터 플랫폼으로 선택

카카오의 빅데이터 플랫폼 엔지니어는 이 하둡 플랫폼을 안정적으로 제공하기 위해서 엔지니어링을 수행하는 것 입니다.


구조적으로 정의한다면..

  • Data Science: 데이터를 수학적, 또는 통계학적 방법으로 분석하고 비즈니스 도메인과 연결하고 이를 모델링하는 것
  • Data Engineering: 데이터를 수집, 가공, 그리고 적재하는 것
  • Data Platform Engineering: 위 두 업무가 가능하도록 아키텍처를 만들고 이를 적용할 플랫폼을 개발하여 이를 카카오의 환경에 녹이고 운영하는 것


따라서 데이터 플랫폼 엔지니어링은 데이터 분야의 SRE(Site Reliability Engineering), 즉 신뢰성 엔지니어링을 수행하고 있습니다.

SRE는 구글 엔지니어링이 창안한 엔지니어링 방식으로 IT 운영에 대한 소프트웨어 엔지니어링 접근 방식이다.

 

 

Big Data Platform Engineer가 하는 일

하둡은 여러개의 컴퓨터를 묶어 빅데이터를 처리하는 기술 중 하나입니다.
이런 걸 분산 컴퓨팅이라고 하는데요.

하둡은 결국 빅데이터 처리를 위한 분산 컴퓨팅의 프레임워크라는 본질적인 특성을 가지고 있습니다. 일종의 빅데이터 클라우드라고 할 수 있죠. 하지만 분산 컴퓨팅을 구현할 때 고려해야 할 요소 중 가장 중요한 것은 규모입니다. 하둡 클러스터는 수천대 또는 수만 대로도 구성할 수 있는데요. 이렇게 많은 자원을 동시에 제어하기 위해서는 기술력에 더해 오랜 경험과 노하우가 필요합니다. 

카카오는 이를 플랫폼으로 개발해서 운영하고 있는데요.
바로 KHP(Kakao Hadoop Platform)입니다.

하둡 생태계에는 하둡 에코 시스템이라고 불리는 많은 분석 도구들이 있는데요.

우리는 이를 평가하고 쓸만한 것을 골라 카카오에 이식할 수 있도록 준비한 후 패키징합니다. 이렇게 탄생한 결과물을 배포판이라고 합니다. (khp-package)

-

-

-

다시 한 번 말씀드리지만 이건 빙산의 일각에 불과하며 빅데이터 플랫폼 엔지니어가 하고 있는 모든 활동은, “어떻게 하면 우리 크루들에게, 카카오에게 더 좋은 데이터 분석 플랫폼을 제공할 수 있을까?”라는 질문에 대한 대답으로 이해할 수 있습니다.

더 좋은 데이터 분석 플랫폼을 크루들에게 제공하는 것. 바로 우리 파트가 궁극적으로 실현해야 할 미션이자 비전입니다.


Scale에 대해서

서울대학교 산업공학과 이정동 교수님은 “우리나라의 10년 차 엔지니어는 그냥 10년 차 엔지니어이고, 100년이 된 글로벌 기업의 10년 차 엔지니어는 110년 차 엔지니어”라고 하셨습니다.

무엇이 이런 초인류 기업과 그렇지 않은 기업의 차이를 만든 걸까요? 바로 선배들이 쌓아온 경험과 시간 그리고 그 경험을 어떻게 쌓아왔느냐의 차이입니다. 바로 스케일의 차이죠. 스케일에는 공간적인 개념뿐만 아니라 시간적인 개념이 포함돼 있습니다. 

자, 우리 부서에 지원하시게 되면 대한민국 최대 규모의 빅데이터 플랫폼이라는 물리적인 스케일을 가져갈 수 있습니다. 더하여, 선배들이 겪었던 많은 시행 착오와 경험 그리고 노하우를 얻어 가실 수 있습니다. 

비록 길지않은 인턴십 기간일지라도 여러분들이 이런 스케일을 경험할 수 있도록 열심히 준비하고 있으니 많은 지원 부탁드릴게요.

감사합니다.

 

 

QnA

DB는 카카오의 프론트엔드 서비스와 접점이 있으며, 하둡(빅데이터플랫폼)의 경우 응용분석팀이나 광고추천팀이 사용하듯이 데이터 분석 또는 데이터 사이언스를 위해 필요한 기술

 

어떤 프로젝트인가 보다 그 프로젝트로 인해 얻게 된 경험, 지식 등을 물어볼 것 같습니다. 그 경험과 지식을 실제 업무에 어떻게 반영할 수 있을지가 더 중요한 것 같습니다.

 

잘 배울 수 있는 사람을 원하고 있습니다. 환경을 경험하기 힘든 것이 사실이기에 경험과 지식보다는 새로운 환경에서 얼마나 빠르게 자신의 것으로 만들고 관련 아이디어를 낼 수 있는 사람인지를 보려고 합니다. 처음 사회로 나오시는 분들이기에 높은 수준의 난이도를 요구하고 있지 않습니다.

'기타' 카테고리의 다른 글

Shell Script?  (0) 2023.04.09
BI (Business Intelligence)  (0) 2022.01.25
개발자 해외취업  (0) 2022.01.19

댓글