본문 바로가기
데엔(Data-Engineering)

Data infra, Data platform, Data pipeline,

by KwonSoonBin 2023. 7. 31.

데이터 플랫폼(Data Platform)

데이터 플랫폼은 데이터를 수집, 저장, 처리 및 관리하는 데 사용되는 종합적인 기술 스택 또는 솔루션을 의미합니다. 데이터 플랫폼은 기업이나 조직에서 다양한 데이터 소스로부터 데이터를 효율적으로 수집하고, 이를 통합하여 다양한 응용 프로그램이나 분석에 사용할 수 있도록 합니다. 데이터 플랫폼은 대규모 데이터 처리, 데이터 저장, 데이터 품질 관리, 보안 등 다양한 기능을 제공합니다.

 

특징

  • 다양한 데이터 소스로부터 데이터 수집과 통합을 지원한다.
  • 대규모 데이터 저장과 처리를 위한 확장성을 갖추고 있다.
  • 데이터의 품질 관리와 보안을 보장한다.
  • 데이터를 다양한 시스템이나 응용 프로그램으로 배포할 수 있다.
  • 분석, 시각화, 인공지능 등 다양한 데이터 활용 기능을 제공한다.

 

데이터 파이프라인(Data Pipeline)

데이터 파이프라인은 데이터가 소스에서 목적지까지 흐르는 경로로서 데이터 플랫폼의 핵심 구성 요소 중 하나입니다. 데이터 파이프라인은 데이터 플랫폼의 기능을 구현하는 방법 중 하나로, 데이터의 추출, 변환, 적재(ETL)를 자동화하여 데이터를 효율적으로 이동하고 처리하는 데 사용됩니다.

 

특징

  • 데이터 흐름을 자동화하여 데이터 소스에서 데이터 저장소 또는 데이터 웨어하우스로 데이터를 전송한다.
  • 데이터 변환과 가공을 통해 데이터를 정제하고, 필요한 형식으로 변환하여 저장한다.
  • 데이터 파이프라인은 스트리밍 방식 또는 일괄 처리 방식으로 동작할 수 있다.
  • 실패나 중단 시 재시작하거나 오류 처리를 수행하는 기능을 제공한다.

 

데이터 인프라(Data Infrastructure)

데이터 인프라는 데이터를 저장하고 처리하기 위한 하드웨어, 소프트웨어, 네트워크, 저장소 등의 기술적 구성 요소를 가리킵니다. 데이터 인프라는 데이터 플랫폼을 구축하고 운영하는 데 필요한 모든 기술적인 요소를 포함합니다. 데이터 플랫폼과 데이터 파이프라인을 구축하기 위해 데이터 인프라가 필수적입니다.

 

특징

  • 빠른 데이터 액세스와 처리를 위한 하드웨어 구성 요소를 포함한다.
  • 데이터를 저장, 백업 및 관리하기 위한 데이터 저장소를 포함한다.
  • 데이터 처리, 분석 및 기타 작업을 위한 소프트웨어 플랫폼을 포함한다.
  • 데이터 보안과 개인정보 보호를 위한 기술적인 구성 요소를 포함한다.

요약하자면,

데이터 플랫폼은 데이터를 종합적으로 관리하고 활용할 수 있는 기술 스택을 의미하며

데이터 파이프라인은 데이터의 흐름을 자동화하여 효율적으로 이동하고 처리하는 방법을 의미합니다.

데이터 인프라는 데이터 플랫폼과 데이터 파이프라인을 구축하고 운영하기 위한 하드웨어와 소프트웨어 등의 기술적 구성 요소를 포함합니다. 이들은 모두 데이터 관리와 분석을 위해 상호 보완적인 역할을 수행합니다.

또한,

데이터 인프라 안에는 데이터 플랫폼이 있고, 데이터 플랫폼 안에는 데이터 파이프라인이 존재하는 것으로 이해할 수 있습니다. 이들은 데이터 관리와 분석을 위해 상호 의존적으로 동작하며, 종합적으로 데이터를 관리하고 활용하는 데 기여합니다.

댓글