위키피디아에서는 빅 데이터(Big data)를 아래와 같이 정의하고 있습니다.
빅 데이터란 기존 데이터베이스 관리 도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 다양한 종류의 대규모 데이터에 대한 생성, 수집, 분석, 표현을 그 특징으로 하는 빅 데이터 기술의 발전은 다변화된 현대 사회를 더욱 정확하게 예측하여 효율적으로 작동케 하고 개인화된 현대 사회 구성원 마다 맞춤형 정보를 제공, 관리, 분석 가능케 하며 과거에는 불가능했던 기술을 실현시키기도 한다.
이같이 빅 데이터는 정치, 사회, 경제, 문화, 과학 기술 등 전 영역에 걸쳐서 사회와 인류에게 가치있는 정보를 제공할 수 있는 가능성을 제시하며 그 중요성이 부각되고 있다.
미국의 시장조사기관 가트너는 "데이터는 미래 경쟁력을 좌우하는 21세기 원유"라고 하였으며, 21세기 기업에서 가장 중요한 자산은 '데이터'이며 여기서 가치를 이끌어 내지 못하면 경쟁에서 살아남을 수 없습니다.
Intel의 조사에 따르면 빅데이터는 내부 데이터 외에도 소셜 미디어 등 내외부 모든 데이터가 수집 대상이 되고 있습니다.
빅데이터를 보다 심도있게 논의하기 위해 아래와 같은 생각을 해 볼 필요가 있습니다.
- 얼마나 많은 데이터를 저장할 것인가(How we store that much data)
- 얼마나 많은 데이터를 이동할 것인가(How we move that much data)
- 얼마나 많은 데이터를 추출하고 로딩하고 변형할 것인가(How we extract, load & transform that much data)
- 얼마나 많은 데이터를 탐색하고 분석할 것인가(How we explore and analyze that much data)
- 얼마나 많은 데이터터로부터 의미있는 정보를 추출할 것인가(How we process and get meaningful insights from that much data)
여기서 빅데이터(Big data)에 대한 분석과 탐색에 대한 차이를 먼저 짚고 넘어갈 필요가 있습니다.
분석(Analysis)
- 텍스트 마이닝: 자연어 처리기술 기반(비정형 데이터에서 의미 추출)
- 평판 분석: 소비자 의견 수렴(형태소 분석, 선호 결과)
- 소셜 네트워크 분석: 고객 행동패턴 분석(감성 분석)
- 연관 분석: 데이터 간의 유사도 및 연관 관계 정의
탐색(Exploration)
- Data Unlock: 다양한 데이터 소스 연결 방안 제공(Connectivity) 및 데이터 내용을 손쉽게 가시화(Visualization)
- Clustering: 검색된 결과에 대한 자동 분류 및 Grouping
- Fast Index 생성: 크롤링(Crawling)된 데이터의 빠른 검색을 위한 인덱싱
- Federation: 이기종 또는 분산된 시스템의 데이터를 연합하여 검색
일반적으로 빅데이터를 처리하는 프로세스는 Acquisition(실시간 데이터 수집) -> Marshaling(데이터 분석을 위한 저장, 정렬 등) -> Analysis(데이터로부터 의미있는 정보 추출) -> Action(최적화된 신규 비즈니스 프로세스 분석 결과 도출) 단계를 거치며, 이를 통해 최종적으로 신규 비즈니스를 창출하는데 그 의미가 있습니다.
빅 데이터(Big Data)를 처리하는 기술은 크게 Fast data, Big Analytics, Depp Insight로 구분할 수 있습니다.
- Fast Data: 원하는 데이터를 빠른 시간 내에 수집하기 위한 기술
- Big Analytics: 기존 데이터의 혼합(Combination) 또는 새로운 접근법을 이용하여 의미있는 정보를 추출하는 과정
- Deep Insight: 비즈니스 측면에서 의미있는 정보를 가져오기 위한 기술
이처럼 대량의 데이터를 저장/수집/추출/분석을 통해 신규 비즈니스를 위한 의미있는 정보를 분석하는 과정은 모든 사물이 인터넷을 통해 연결되는 IoT(Internet of Things) 시대를 열기위한 핵심 기술 파트라고 할 수 있습니다.
0 개의 댓글:
댓글 쓰기