|
|
|
|
현재 가장 많은 관심을 받고 있는 IT의 화두를 고르자면 ‘대용량 데이터(Big Data)의 처리방안’을 빼 놓을 수 없다. 일반인들의 관심이 집중되고 있는 클라우드 컴퓨팅, 소셜네트워크 관련 IT 비즈니스와는 다르게 전문 IT 인력들 사이에서는 빅데이터에 많은 관심을 갖고 있다. 이는 급변하는 비즈니스 상황에서 남보다 빠른 의사결정을 요구하는, 소위 속도(Speed) 경영을 내세우는 기업에게는 빅데이터가 중요한 비즈니스 전략과 직결되기 때문이다.
윤영웅
HP 비즈니스 크리티컬 시스템사업본부 상무
yuyun@hp.com
BI 관심 급증…왜?
과거에도 이미 의사결정을 지원하기 위한 경영정보시스템(EIS), 전사리스크관리(ERM), 경영계획(BSP), 성과관리(BSC) 등의 솔루션이 비즈니스 인텔리전스(BI) 및 데이터웨어하우스(DW) 솔루션과 연동해 존재해왔다.
하지만 최근 들어서 기업DW(EDW)가 급격하게 금융권을 중심으로 화두가 되고 있는 이유를 짚어보면, 폭발적으로 증가하는 빅데이터들을 어떻게 비즈니스 생산성과 연동할 것인가 하는 마케팅 측면의 연구와 IT의 기술적인 진보와 함께 맞물려 EDW의 고도화 시대가 열렸기 때문이라고 볼 수 있다. 정보의 즉각적인 분석과 예측을 가능하게 하는 BI 솔루션은 더 이상 최고 의사 결정권자들만이 사용하는 한정된 특정 분야가 아니라 모든 비즈니스 영역에서 활용할 수 있는 툴로 사용되고 있다.
가트너그룹에서 발표한 2011 핵심 IT 기술에는 ‘차세대 분석(Next Generation Analytics)’이 포함되어 있는데, 이것이 기존의 BI의 활용론, 즉 데이터를 통합하고 분석 툴을 이용한 실적 파악, 시장 상황에 대한 리포트 정도만으로는 미래의 BI의 요구사항을 해결할 수 없다는 측면에서 ‘Next Generation’의 의미를 생각해 봐야 한다.
그렇다면 Next Generation Analytics가 의미하는 것은 무엇일까?
IT의 기술적 진보에 의해서 데이터 처리 능력의 우수함을 바탕으로 기존 데이터뿐만 아니라 심지어 모바일을 통해 소통하는 모든 정보까지도 흡수해 실시간으로 미래를 예측할 수 있는 모델링 기법과 결과를 산출해야 한다는 것을 의미한다. 최근 들어서는 SNS(Social Network Service)까지 비즈니스의 중요한 패턴을 분석해 결정하기 위한 자료가 되고 있다. 이러한 모든 막대한 양의 데이터들을 어떻게 ‘정보’로 변환해 비즈니스에 활용할 것인가 하는 것이 숙제가 되고 있는 것이다.
특히 우리나라의 경우에는 자본통합법 이후 금융지주회사 체제로 재편되면서 금융업의 4대 핵심사업인 은행, 증권, 보험, 카드사에서 통합된 데이터를 분석해 금융 비즈니스에 활용하려고 하는 것이 모든 산업 군에 확산이 되면서 BI에 대한 관심이 급증하고 있다.
빅데이터 처리…가능한가?
이러한 BI에 대한 관심은 재인식되고 있는 빅데이터와 맞물려 생각해 볼 수 있다. 이미 기존의 데이터들이 존재해 왔지만 활용하고자 하는 정보의 갱신주기, 정보이용자, 의사결정주기, 사용목적, 정보의 성격, 정보의 근원지 등 다양한 BI의 정보를 활용하는 구분의 기준이 바뀌었다. 그러면서 모든 데이터가 비즈니스 활용의 근거로 재인식되고 있을 뿐만 아니라 SNS로부터 발생하는 데이터 및 통폐합 되는 기업 내외의 모든 활용 가능한 기초자료가 되는 것들을 우리는 빅데이터라고 부를 수 있다.
그렇다면, 과연 이 방대한 정보를 활용하는 것이 가능한가 하는 문제에 봉착하게 되는데, 여기서 우리는 먼저 데이터를 처리하기 위한 BI, EDW를 구축하는 환경이 과거와 어떻게 변했는지를 살펴 볼 필요가 있다.
정보의 갱신주기는 과거 일괄작업(Batch)을 통해서 이뤄지던 것이 이제는 실시간(Real Time)으로 변했고 정보이용자 역시 ‘최고 의사결정권자’에서 ‘전사의 모든 직원’으로 확장됐다. 또 의사결정 주기는 리포트로만 활용하기 위한 일/월(Day/Month) 기준에서 이제는 실시간을 만족시켜야만 하는 이벤트 중심(Event Driven) 형태로 바뀌었다.
이렇게 시장의 요구가 변하면서 빅데이터 처리에 대한 여러 가지 기술적인 선결과제를 해결하지 않을 수 없다. 데이터의 정의 및 기존 데이터베이스의 변화 및 관리, 분석체계의 재정비 등 전략적인 측면에서의 기술적인 문제와 빅데이터를 처리할 수 있는 컴퓨팅 파워를 보유하고 있는지, 빅데이터를 실시간으로 처리할 수 있는 데이터베이스(DB) 구조를 갖추고 있는지, 예측이 불가능한 데이터가 증가함에 따라 선형적으로 확장이 가능한지, 데이터 모델링이 얼마나 빠르게 이루어지는지, 프로세싱 중에 노드(node)의 문제(fail)에 대한 대비책은 어떠한지 등 순수하게 하드웨어 벤더가 제공해야 하는 기술적 요건(Technical Feature)에 대한 기술적인 문제로 크게 나누어 생각해 볼 수 있다.
빅데이터 처리를 위해 갖춰야 할 기술적 요건
빅데이터를 처리한다는 것은 단순히 원하는 결과를 얻기 위해 모델링하고 프로세싱만을 의미하는 것이 아니라 반드시 실시간이라는 단서가 붙어야 한다. 즉 사용자가 많아지더라도, 데이터의 양이 증가하더라도 원하는 결과를 빠른 시간 안에 도출해야 한다. 이것은 BI 환경이 이벤트 중심으로 바뀌면서 빠르고 정확한 예측을 통한 즉각 수행을 기반으로 하는 스피드 경영의 축이 되고 있기 때문이다.
과거에는 기존의 OLTP(Online Transaction Processing) 업무에 적합한 전통적인 DB를 BI의 확장 형태로 생각해서 소규모의 EDW 환경을 구축했었으나 빅데이터를 처리하기에는 무리가 있다. 따라서 모든 고객들은 신규로 EDW를 구축하거나 기존 EDW를 ‘고도화’하기 위해 전문 BI 솔루션을 선택하려고 한다.
이제 빅데이터를 처리하기 위한 기술적 요건은 어떤 것이 있는지 알아보자. 대용량 DB 분석 시스템의 성능은 I/O 양을 얼마나 줄일 수 있는가 하는 것이 관건이기 때문에 ‘열 방식 데이터관리시스템(Row based) DBMS’를 사용하기보다는 ‘칸 방식(Column based) DBMS’를 채택해 I/O 횟수를 대폭 줄이고 성능을 증대시켜 실시간을 보장받는 기술적 요건을 갖춰야 한다.
이와 더불어 사용자 측면에서 볼 때도 열 방식 DBMS와 칸 방식 DBMS의 경우는 적은 규모의 동시 사용자 수는 DB 분할(Partitioning), 색인(Indexing), MPP(Message Processing Program) 아키텍처 등에 의해 성능 차이가 미미하지만, 동시 사용자 수가 크게 증가할수록 칸 방식 DBMS의 성능이 월등히 좋기 때문에 다수 사용자 환경에 적합하다는 것을 알 수 있다.
빅데이터의 증가에 따른 선형적인 확장으로 그에 따른 성능을 보장할 수 있어야 한다. 최근 들어 이러한 확장성을 강조하기 위해 칸 방식 DBMS를 MPP( Massively Parallel Processing)방식의 아키텍처를 선택해 노드의 분산처리 및 가용성에 대한 보장을 함께 하는 기술적인 요건을 더해가고 있다.
이런 하드웨어 요건이 뒷받침될 때 비로소 진정한 빅데이터 처리를 위한 하드웨어적인 기술요건을 갖추었다고 말할 수 있다. 기존의 기술들은 새로운 비즈니스의 요구에 최적화 되어 있지 않다. 새로운 비즈니스가 요구하는 것은 기존의 기술에 변화를 주는 새로운 기술로만 채울 수 있는 것을 요구하기 때문이다.
새로운 도전…빅데이터의 시대
빅데이터 시대는 이미 우리에게 주어진 조건들을 어떻게 활용해야 하는지에 대한 숙제를 던지는 새로운 IT의 패러다임을 의미한다. 즉 기존의 방대한 양의 정보들을 어떻게 가공해 결과물을 산출해 정확한 미래를 판단하고 비즈니스 생산성을 향상할 것인가 하는 기본적인 물음에 대한 답을 하기 위해 우리는 빅데이터를 처리하기 위한 이 시대의 EDW 환경의 변화에 적응할 하드웨어 요건에 대해서 알아보았다.
하드웨어의 기술적인 진보를 어떻게 빅데이터 시대에 적절하게 사용할 수 있을까. 이는 물론 고객의 몫이 될 것이다. 하지만 새로운 시대의 요구에 부합하는 최적화된 기술을 적용하는 것이 가장 현명한 답이다.
윤영웅
1988년 대우통신 SI 사업본부에 입사해 통신/제조/공공 부문 영업을 담당했다. 1996년 HP로 자리를 옮겨 2007년까지 통신사업본부에서 근무했다. 207년 말부터 공공/SI 얼라이언스 부문을 거쳐 2011년 5월부터 비즈니스 크리티컬 시스템 사업본부에서 근무하고 있다.