디지털화 시대가 성큼 다가오고 있습니다. 수많은 센서와 디바이스, 그를 통해 양산되는 대량의 데이터. 뿐만 아니라, 데이터의 발생 위치, 유형 등이 다양해지면서, 분석에 대한 요구도 시시각각 변화해 왔습니다.
Analytics에 대한 패러다임이 어떻게 변화해 왔을까요?
Analytics 1.0 시대는 정형/단기 데이터 중심의 분석, Analytics 2.0시대에는 비정형/장기, 즉 빅데이터 중심의 분석이 핵심이었다면, 지금의 Analytics 3.0에서는 엣지 및 실시간 분석의 중요성이 강조되고 있습니다. 특히 향후 37% 이상의 데이터가 엣지 레벨에서 처리될 것이라고 예측되면서, Analytics 3.0에 대한 필요성과 기술에 대한 고민은 활기를 띄고 있습니다.
엣지 분석, 실시간 처리와 빅데이터
몇년 전부터 시스코가 클라우드 컴퓨팅을 네트워크의 엣지단으로 확장하는 Fog Computing(포그 컴퓨팅)에 대한 메세지를 시장에 전달해오고 있습니다. 엣지 단에서 발생하는 대량의 데이터를 네트워크 비용과 처리 지연 시간을 감내하면서 데이터센터로 통합/분석하기보다는, 발생 지점, 엣지 단에서 빠르게 처리/분석을 수행하고, 필요한 데이터만 중앙으로 전달하는 방식입니다.
만물인터넷 시대에 적합한 Fog computing을 위한 분석 요구 사항은?
“대용량 데이터를, 빠르게 처리한다?”, “실시간으로 처리한다?” 일반적으로 실시간 처리와 빅데이터 볼륨은 상반된 것으로 받아들여지곤 했습니다. 그렇다면 IoT에 적합한 실시간 처리 기술은 뭔가요?
실시간 처리 관점으로만 본다면 데이터 스트림을 데이터베이스 등 구조화된 저장소에 저장하기 이전에 처리, 분석을 수행하기 위하여 통상적으로 1~10 밀리세컨드(millisecond) 미만의 고속의 처리 속도(머신 레벨의 리얼타임)를 구현할 수 있습니다. 이런 기술을 Event Stream Processing 또는 Complex Event Processing 이라고 합니다.
하지만 스트리밍 처리 기술은 일반적으로 수분 내외의 시간 간격 안의 데이터를 가지고 처리하는데 최적화되어 있고, 인메모리 DB는 확장을 하더라도 결국 메모리 사이즈에 제약을 받기 때문에 빅데이터 레벨의 볼륨을 처리하기에는 적합하지 않습니다. 그렇다고 하둡과 같은 빅데이터 기술만으로 실시간 영역까지 지원하기에는 아직은 역부족인 상태입니다.
쿼리 및 응답 시간과 데이터 볼륨에 따른 데이터 처리/분석 기술
만물인터넷을 위한 시스코의 분석 솔루션
그럼 만물인터넷 분석을 위해서 고객은 어떤 선택을 해야 할까요? 시스코의 솔루션을 얘기하기 앞서, 몇가지 질문을 드려봅니다.
“여러분의 마음속에 실시간에 대한 기준은 무엇인가요?”
“실시간은 몇 초를 얘기하는 걸까요?”
“빅데이터 볼륨이라고 하면 얼마 이상을 얘기하는 거죠?”
“엣지는 어디라고 봐야 하나요?”
당연히 정답은 없습니다. 엣지만 해도 해외 공장을 가진 제조사라고 한다면 해외공장, 지사 또는 그쪽에 있는 단위 업무 영역이 엣지가 될 수 있겠고, 스마트 시티를 구축 중인 도시라면 거리의 구역 단위가 엣지가 될 수 있기 때문이죠.
결국 고객이 하고자 하는 바와 서비스 환경 등 다양한 상황에 따라 모든 것이 다르게 정의될 수 밖에 없습니다. 이에 따라 단일 솔루션으로 모든 상황을 100% 만족시키는 것은 불가능해집니다.
시스코는 다양한 만물인터넷 환경에서 활용될 수 있는 데이터 처리, 분석 환경을 위해 대표적으로 다음과 같은 솔루션들을 제공해 왔습니다.
- 엣지 분석을 위한 네트워크 레벨에서의 처리, 분석을 지원하는 데이터 인 모션(Data in Motion (네트워크 장비 레벨에서 처리한다는 관점에서 센터 내에서의 실시간 처리와는 차별화됨)
- 실시간 스트리밍 데이터 처리 엔진 Connected Analytics (구 Prime Analytics)
- 빅데이터를 위한 하둡 플랫폼 지원과 데이터 통합을 위한 가상화 솔루션 DV (Data Virtualization)
만물인터넷 환경에 최적화된 데이터베이스 ParStream
이와 함께 최근 시스코는 만물인터넷 환경에 최적화된 데이터베이스, 분석 플랫폼인 ParStream을 인수했습니다. 모든 것의 핵심이라고 할 수 있는 ParStream DB의 특징은 다음과 같이 요약할 수 있습니다.
- Fast Data / Real-Time Analytics :실시간, 상호 분석을 지원하는 고속 데이터베이스 (특허 인덱스 기술을 통한 빠른 데이터 적재)
- Big Data : MPP(Massive Parallel Processing) 아키텍처를 기반으로 높은 확장성 제공, 3세대 컬럼 기반 데이터베이스로 데이터 분석에 최적화
- Edge Analytics : GDA(Geo-Distributed Analytics)를 통해 여러 위치에 분산되어 있는 다수의 DB를 센터와 연계하여 하이브리드 형태로 분석 지원
앞서 소개해드린 만물인터넷 분석 환경에서의 요구 사항들을 충실히 구현했음을 알 수 있습니다.
ParStream의 엣지 분석
엣지 분석 기능으로 네트워크 트래픽 최소화, 실시간 인사이트 제공
실시간과 대용량의 장기 (Long-Term, Historian) 데이터 분석을 모두 지원할 수 있다는 점과 분석가 등의 데이터 사용자가 가장 친숙한 SQL사용 환경이라는 점도 매우 중요한 포인트입니다.
ParStream 인수를 통해 시스코의 만물인터넷 분석 환경은 기존의 솔루션과 함께 더 풍성해지고, 더욱 다양한 고객 환경을 지원할 수 있게 되었습니다. 실시간 처리 및 빅데이터 관점에서도 머신 레벨의 실시간 처리 요구에 대해서는 Connected Analytics, 준실시간 처리 및 빠른 상호분석을 위해서는 ParStream DB, 비정형데이터 처리 및 페타바이트까지 확장이 필요한 환경 지원을 위한 하둡 기술은 당분간 공존할 것입니다. 그리고 이는 만물인터넷 요구 사항에 따라 선택적으로 사용되고, 상호 연계되는 형태가 될 것입니다.
만물인터넷 환경은 앞으로도 더욱 더 급변할 것이고, 그에 따른 분석에 대한 요구는 함께 다양해 질 것입니다. 시스코는 지금까지 그래왔던 것처럼 한발 앞서 준비함으로써 만물인터넷 분석 환경에 대한 정확한 가이드와 솔루션을 제공해 드리겠습니다.
▶ 칼럼 다운 받기 (클릭) 시스코_디지털화 그리고 Analytics 3.0 시대_시스코 조윤환 빅데이터 솔루션 스페셜리스트.pdf
Cisco IT Connect 시스코 전문가들의 칼럼에 담긴 최신 IT 트렌드! 이 글은 시스코 조윤환 빅데이터 솔루션 스페셜리스트가 작성한 칼럼입니다. |