1. 빅데이터의 등장 배경

1990년 이후 인터넷이 급속도로 확산되기 시작하면서, 정형화된 데이터와 비정형화된 데이터의 양이 폭발적으로 늘어나기 시작했습니다. 참고로 정형화된 데이터란 고정된 필드로 저장 가능한 데이터를 뜻하며 MySQL, 엑셀과 같은 도구로 관리되며, 비정형화된 데이터는 이미지, 텍스트 문서, 음성, 동영상과 같은 고정된 필드에 저장되어 있지 않은 데이터를 뜻합니다.

2. 빅데이터의 결과

이제는 이러한 빅데이터의 등장으로 어떠한 개념이 새롭게 등장했고, 어떤 기술들이 앞으로 핵심 기술로 자리 잡을지에 대해 알아보도록 하겠습니다.

1) 사물 인터넷(IoT: Internet of Things)

  • 모든 사물, 즉 다양한 장치들이 인터넷으로 연결되어 정보를 공유하고 처리할 수 있게 됩니다.
  • 가전제품, 자동차 등과 같은 제품들이 허브 역할을 하는 핸드폰과 연결되어 핸드폰으로 제어할 수 있게 됩니다.

2) 인공지능

  • 인간이 직접 프로그래밍 하고 알고리즘을 짜는 시대에서 벗어나, 데이터를 적절히 사용함으로써 기존의 복잡한 알고리즘에서 벗어날 수 있도록 합니다.

3) 클라우드

  • 빅데이터와 관련된 여러 가지 서비스를 제공해 줍니다.
  • Iaas(Infrastructure as a service): 하드웨어, 소프트웨어를 모두 포함하는 서비스를 제공
  • paas(Plattform as a service): 개발 또는 서비스 환경 지원
  • saas(Software as a service): 다양한 응용 소프트웨어 제공

4) 가상현실과 증강현실

  • 가상현실: 사이버 공간에서 실제와 같은 체험을 할 수 있도록하는 기술
  • 증강현실: 현실을 기반으로 하되 추가되는 정보만 가상으로 만들어서 보여주는 기술(ex. 포켓몬고)

3. 빅데이터 이전과 이후

4. 빅데이터의 속성

  • 규모(Volume): 빅데이터는 분산 환경을 지원하는 플랫폼에서 여러 하드웨어 및 소프트웨어 자원들을 이용하여 저장, 관리되어야 합니다.
  • 다양성(Variety): 정형데이터 뿐 아니라, 비정형 데이터도 저장 관리될 수 있는 데이터 베이스가 필요합니다.
  • 속도(Velocity): 데이터가 실시간으로 처리되는 기술이 요구됨에 따라 빠르게 처리, 분석할 수 있는 방법이 필요합니다

5. 빅데이터의 저장, 관리

1) NoSQL 데이터 모델

  • 키-값 모델: 정해진 필드가 아닌 임의로 키를 정하고 그에 해당하는 값을 관계지어 놓기만 하면 되어 유연성이 높다(ex. Riak, Dynamo)
  • 문서형 모델: 키-값 모델의 집합을 문서로 저장한 형태(ex. MongoDB)
  • 컬럼형 모델: 데이터의 저장을 열(Column)단위로 처리하는 모델(ex. HBase, Cassandra)

2) 분산 파일 시스템

  • 파일 시스템: 윈도우, 리눅스 등의 운영체제가 보조기억장치인 하드디스크에 파일을 어떤 방식으로 저장하느냐를 정해놓은 규칙(NAS: Network Attached Server)
  • 분산 파일 시스템: 기존의 방식이 아닌 대용량 데이터를 여러 노드에서 저장, 관리하기 위해 새롭게 요구되는 파일 시스템(HDFS: Hadoop Distributed File System)

3) HDFS

  • Google의 GFS(Google File System)를 기반으로 개발
  • 대용량의 원본 데이터를 다수의 데이터 블록(의 크기는 기본적으로 128MB) 으로 분할해 DataNode에 분산 저장
  • 다수의 데이터 블록이 어디에 저장되어 있는지는 NameNode에 메타데이터로 저장
  • HDFS의 구조

    • 원본 데이터인 Data가 Client를 통해 입력되면, 기본 Replication Factor에 의해 ‘A’, ‘B’, ‘C’의 3개로 분할되고, 데이터의 분실을 대비해 DataNode에 복제 저장함
    • Secondary NameNode는 NameNode 운용 장애 발생시, 대신 동작하도록 하기 위해 NameNode의 메타데이터를 동기화, 저장함

6. 빅데이터의 활용

  • 공공 분야: 수자원 관리, 스마트 그리드, 전기차 충전소 입지 선정
  • 의료 분야: 의료 데이터 활용하여 질병 예측
  • 정보통신 분야: 주변 위치와 행동 패턴 분석하여 유용한 정보 제공
  • 제조 분야: 오류, 불량 데이터 이용해 설비 진단 정보 제공

Tags:

Categories:

Updated: