본문 바로가기
정리

데이터엔지니어란?

by KwonSoonBin 2023. 1. 31.

1.역할

데이터를 대상으로 목적으로 가지고 작업을 하는 담당자
- DB, file , log 쓰기 좋게, 보기 좋게 만드는 작업
- 매일 수 TB씩 발생하는 데이터를 어떻게 하면 좀 더 편하게 관리할 수 있을까?
=> 데이터 엔지니어는 데이터를 기준으로 업무를 수행하는 사람
=> 분석 및 기획단계에서 필요한 정보와 데이터를 가공하여 해당 업무를 수행할 수 있게 도와주는 업무
=> 데이터 엔지니어는 데이터에 기반한 의사결정을 돕는 모든 업무에 관여합니다.

 

#관리 관점의 DE

=> 관리 관점에서 데이터 엔지니어는 사고가 나더라도 대응할 수 있는 환경을 구축하는데 중점을 둡니다.

 

#수립/구축 관점의 DE
=> DE 영역은 데이터를 가치 있게 만들 수 있는 분야와 협업을 통해 그 목표를 달성해 나갑니다.

 


2. 실무 경험을 이끌어 낼 수 있는 방법

포트폴리오
- DE에게 알파이자 오메가 ETL
- 어떻게 추출?, 어떻게 변환?, 어떻게 저장?
=> DE는 데이터를 쓰기 좋게 만드는 모든 업무에 관여합니다.
기본CS
- CS기초는 최대한 열심히 하더라도 과하지 않다.
- Product환경에서 개발하는 분들과 협업이 많다.
(DB, 자료구조, 알고리즘, 네트워크까지는 할 수 있는 범위까지)
 3 Tier 아키텍쳐 + RDBMS
- 웹 서비스에 대한 기본적인 구조와 레이어 별 역할에 대한 이해가 매우 중요하다.

 


3. 서류 작성 TIP

ETL 프로세스 기반 포폴 구성
- 결국 DE는 데이터를 어떻게 가져와서 어떻게 보내는지를 고민하는 사람이다.

 

프로젝트로 처음부터 끝까지 한번 구성해보기
=>데이터 받고, 가공하고, 보내고, 그리는 구조 구축


- 포폴 구성 및 형상관리(git)까지 깔끔하게
- 정해진 시점마다 동작하는 스케줄링으로 구성
- 만약에 장애가 난다면 어떻게 대응해야 하는지 까지 고민할 것(자연재해, 물리적 문제 등)
- 화면은 화려하진 않아도 되지만 의미 있는(당위성) 차트로 구성해보기
=> 포폴의 핵심은 처음부터 끝까지 프로세스를 구현하는 과정을 수립하는 것.

 

질문은 구체적으로(사람한테나 구글한테나)

내가 뭘 모르는지 정확하게 파악하기
- airflow에서 mysql 연결 어떻게 해요? (X)
- airflow에서jdbc로 mysql에connection을 맺으려고하는데 access denied가 나옵니다. 어디를살펴봐야할까요?

 

 

4. 기타

 

#Datamart : 분석용 DB , 운영x
분석가들에게 필요한, BI 데쉬보드 작업에 필요한  영역을 수립
=> 데이터 마트 구축은 운영에는 관여하지 않지만 필요한 데이터 영역을 만들어 가는 과정입니다.

#ETL구현 포트폴리오 꼭 만들기
수집 - 가공 - 적재 - 시각화
(RDB) mariaDB, - Airflow - Superset(BI)   ( + Batch, interactive )
원천에서 어떻게 가공하고 적재할 것인지
최종적으 어떤 화면(대시보드)로 구현되는지

RDBMS + ETL 프로세스 + Dashboard

'정리' 카테고리의 다른 글

Git , Github 차이  (0) 2022.11.27
파이썬의 자료구조(List, Tuple, Set, Dictionary)  (0) 2022.04.10

댓글