본문 바로가기
CS

[CS] 빅데이터란

by KwonSoonBin 2022. 11. 18.

스키마의 유무?

 

배경

최근에 빅데이터가 많은 관심을 받기 시작한 이유는 다음과 같다.

  • 데이터 양의 증가와 데이터 저장기술 발달
    • SNS등장, 스마트 기기 보급으로 발생하는 데이터의 양이 증가
    • 디지털 저장기술과 장치의 발달
  • 경제적 타당성 증가 / 저장장치의 가격 인하
    • 1980년대 1G 10억 이상이던 메모리 가격이 2010년대 100원 미만으로 떨어짐
    • 대용량의 데이터를 저장하여도 경제성이 있음
  • 데이터 처리기술 발달
    • 분산 병렬처리 기술의 발달로 합리적인 시간 안에 데이터 분석이 가능해짐
    • CPU 발전, 클라우드 컴퓨팅, 하둡 등 오픈소스 활성화로 스케일 아웃이 편리해짐

정의

빅데이터는 우리가 매일 사용하는 컴퓨터와 모바일 기기, 기계 센서에서 흘러나오는 방대한 양의 데이터로 구성된 정보의 바다를 가리킨다.

데이터의 양으로 빅 데이터 여부를 구분한다는 것은 무리가 있다.

나 역시 처음에 단순히 생각해 봤을 때 "빅데이터" 의 의미는 엄청난 데이터 양을 의미한다고 생각했다.

하지만 기관, 사이트 별로 다양한 "빅데이터"의 정의가 조금씩 달랐고, 또 방대한 양의 기준은 초기 부터 현재까지  테라바이트 - 페타 바이트 - 제타 바이트 규모로 점점 규모가 커져가는 추세이다.

  • DB등 기존의 데이터 처리 응용 소프트웨어로는 수집·저장·분석·처리하기 어려울 정도로 방대한 양의 데이터를 의미
  • 대량의 정형 , 비정형의 데이터 집합
  • 데이터로부터 가치를 추출하고 결과를 분석하는 기술

빅데이터는 단지 양이 많다는 점 뿐만 아니라 특성의 다양성과 복잡성으로 인해 "빅"으로 정의된다.

 

특징

  • 초기 빅데이터의 특징 (3V) : 규모(Volume), 다양성(Variety), 속도(Velocity)
  • 빅데이터를 통한 가치 창출이 중요해지면서 정확성(Veracity)과 가치(Value)를 추가한 5V로 표현

현재는 5V로 규모(Volume), 다양성(Variety), 속도(Velocity), 정확성(Veracity)과 가치(Value) 를 포함

이미지 출처 : https://ikkison.tistory.com/66

1. 용량Volume

빅 데이터를 피라미드로 생각하면 용량은 그 넓은 기반을 형성할 것입니다. 전 세계 기업이 관리하는 데이터의 용량은 조직이 매일 3백만 개 이상의 데이터를 수집하기 시작한 2012년경부터 급증하기 시작했습니다. 안토니오 데 네브리자 대학교(Antonio de Nebrija University)의 MBA 교수에 따르면 그 이후로 용량은 약 40개월마다 두 배로 증가하는 것으로 추정됩니다.

2. 속도Velocity

'속도'라는 용어는 데이터가 생성되는 속도를 나타냅니다.

자산이 될 수 있는 것은 빅 데이터의 용량만이 아닙니다. 데이터가 얼마나 빨리 흐르는지, 즉 속도도 중요합니다. 실시간에 가까울수록 실행 가능하고 가치 있는 통찰력을 추출하려는 기업의 경쟁 우위 측면에서 더 유리합니다.

음식 배달 회사가 주요 스포츠 경기 시작 45분 후 판매 데이터를 기반으로 Google Ads 캠페인을 구매하기로 결정한 것이 그 예입니다. 이 판매 데이터는 몇 시간 후에 관련성을 잃게 됩니다.

빠른 데이터에 대한 이러한 요구를 구동하는 기술에는 RFID 태그, 스마트 미터링 및 다양한 종류의 센서가 포함됩니다.

3. 다양성Variety

다양성은 회사가 빅 데이터를 획득할 수 있는 소스의 범위와 빅 데이터가 표시될 수 있는 대량 형식을 나타냅니다. 여기에는 스마트폰, 사내 장치, 소셜 미디어 채팅 프로그램, 주식 시세 데이터 및 금융 거래 데이터와 같은 장소가 포함됩니다. 소스는 특히 데이터를 수집하는 기업의 성격과 관련이 있어야 합니다. 예를 들어, 소매 회사는 최근에 출시된 의류 라인에 대해 소셜 미디어에서 사용자가 말하는 내용에 주의를 기울여야 합니다. 제조 회사의 경우에는 소셜 미디어를 팔로우하는 데 내재된 가치가 적을 것입니다.

다양한 데이터는 조직이 고객 프로필과 사람들을 이해하는 데 도움이 되도록 확장될 수도 있습니다. 예를 들어, 회사는 얼마나 많은 사람들이 뉴스레터를 보는 지에 대해서 뿐만 아니라 뉴스레터를 보는 이유와 독자의 특성을 파악하는 것이 도움이 된다는 것을 알게 될 것입니다.

4. 진실성Veracity

진실성은 데이터의 품질과 정확성에 이의를 제기합니다. 클린 데이터가 가장 신뢰할 수 있습니다. 조직은 데이터를 신뢰하기 위해 시스템 전체에서 데이터를 연결, 정리 및 변환해야 합니다. 조직에서 데이터를 계속 제어하려면 계층 구조와 여러 데이터 연결이 필요합니다.

5. 가치Value

피라미드의 정점에는 수많은 데이터로부터 실행 가능한 비즈니스 통찰력을 추출할 수 있는 능력인 가치가 자리 잡고 있습니다.

가치를 통해 얼마나 많은 신규 회원이 웹사이트에 가입할 것인지, 얼마나 많은 고객이 보험 정책을 갱신할 것인지, 예상되는 주문 수는 얼마인지 등을 예측할 수 있습니다. 가치는 최고의 고객이 누구이며 누가 몇 주 또는 몇 달 안에 탈퇴하여 다시는 돌아오지 않을 것인지 아는 것입니다.

기업은 빅 데이터가 제공하는 통찰력을 수익화하는 능력을 통해 가치를 얻습니다. 그들은 고객에 대해 더 잘 알게 되었고 더 관련성 높은 제품을 계속 제공합니다.

 

 

데이터의 종류

데이터는 수집 형태에 따라 정형, 반정형, 비정형으로 구분된다.

빅데이터는 정형 데이터보다는 비정형, 반정형의 데이터가 더 많이 수집된다.

  • 정형
    • 데이터베이스, CSV, 엑셀과 같이 칼럼 단위의 명확한 구분자와 형태가 존재하는 데이터
  • 반정형
    • XML, HTML, JSON 형태와 같이 여러 가지 형태가 있을 수 있지만, 메타데이터나 스키마가 존재하는 데이터
  • 비정형
    • 동영상, SNS 메시지, 사진, 오디오, 음성 데이터처럼 형태(규칙, 스키마)가 존재하지 않는 데이터

 

 

 

 

 

 

참고 :

https://modulabs.co.kr/blog/big-data/

https://ko.wikipedia.org/wiki/%EB%B9%85_%EB%8D%B0%EC%9D%B4%ED%84%B0

https://www.tibco.com/ko/reference-center/what-is-big-data

 

댓글