한국은 빅데이터 금광, 캐내야 보배
최근 '빅데이터 경영의 석학’으로 주목 받고 있는 톰 데이븐포트 미국 밥슨칼리지 교수 방한 인터뷰에서 "한국은 그야말로 빅데이터의 '금광'을 깔고 앉아 있는데도 그걸 제대로 캐내지 못하는 것 같아 안타깝다"고 말해 화제가 된 바 있다.
한국은 인터넷과 스마트폰 보급률 세계 1위이며, 공공 인프라도 모두 전산화되어 있고, 신용카드를 이용한 전자결제망도 소규모 상점까지 모두 깔려 있는 등 사회 곳곳에서 실시간으로 막대한 양의 자료가 쏟아지고 있다. 활용 가능한 양질의 데이터가 무궁무진하다는 말이다. 이제 중요한 것은 ‘분석’이다.
현존하는 데이터베이스 중 가장 빠른 성능, 파스트림
대용량 데이터를 신속하게 처리 할 수 있는 ‘분석 속도’가 이제 빅데이터 산업에 가장 중요한 키워드다. 그렇다면 데이터 분석용 데이터베이스(이하 DB) 중 속도로 주목 받고 있는 플랫폼은 무엇이 있을까. 대용량 데이터 처리 및 속도 관점에서 기존 DB와 실시간 사물인터넷 분석 DB인 파스트림을 비교한 결과 파스트림이 현존하는 DB 중에서 가장 빠른 성능을 보였다.
이는 아래 파스트림만의 6가지 특징 때문에 가능한 것이다.
- 적재와 동시에 빠른 쿼리가 가능한 롹리스 아키텍처(Lockless Architecture)
- 압축된 상태에서 빠르게 검색할 수 있는 HPCI(High Performance Compressed 인덱스) 특허 기술
- JDBC/ODBC 등 표준 API 제공
- 데이터 위치 분산 및 Shared Nothing 방식의 클러스터인 MPP(Massively Parallel Processing)
- 수만 컬럼의 데이터 수용이 가능한 컴럼(Columnar) 기반
- 리눅스 기반의 표준 하드웨어(H/W) 사양으로 저렴한 x86, 가상화 머신에 설치 가능한 낮은 TCO
R 기반의 대용량 데이터 분석
파스트림은 데이터 분석을 위한 통계분석 툴인 R 연동을 지원하고 DB의 병렬처리 기능에 탑재되어 대용량 데이터 통계분석이 가능하다. R 연동은 JDBC/ODBC을 이용한 싱글노드(Single Node), 클러스터 노드에 탑재되어 분산처리, R 스크립트를 DB에 직접 생성 후 SQL에 적용할 수 있다.
싱글노드로 R을 이용한 데이터 분석 시 대량의 데이터를 클라이언트 PC의 메모리에 올려서 분석 할 수 없는 단점이 있고, 대량의 데이터를 R 분석 시 클러스터 노드에서 분산 및 병렬처리 함으로 대량의 데이터 분석 시 필수적 요소 기능이다
MPREIS, 파스트림 적용 후 4억 건 분석에서 500억 건 실시간 분석 가능
리테일 분야 오스트리아 엠피알리스(MPREIS)사의 POS 정보 분석 시스템의 경우 기존 RDBMS에서는 4억 건을 데이터분석 하였으나 파스트림 적용 후 500억 건의 판매정보를 실시간으로 분석할 수 있었다. 또한, 기존 시스템에서는 과거 2주치 데이터를 분석하였으나 파스트림 적용 후 과거 6개월 데이터를 분석할 수 있었다.
웹 분석 분야 독일 이트래커(etracker)의 웹 분석의 경우 50,000개 도메인에서 발생하는 100억 건의 웹 클릭을 실시간으로 분석하고 2초 이내의 응답속도, 100개의 인터렉티브(Interactive) 사용자, 캠페인 스티어링 기능을 구현했다.