2024.05.19 (일)

  • 맑음속초19.7℃
  • 맑음17.0℃
  • 맑음철원17.2℃
  • 맑음동두천20.0℃
  • 맑음파주17.7℃
  • 맑음대관령20.6℃
  • 맑음춘천18.0℃
  • 맑음백령도16.9℃
  • 맑음북강릉26.1℃
  • 맑음강릉27.5℃
  • 맑음동해26.0℃
  • 맑음서울21.0℃
  • 맑음인천20.2℃
  • 맑음원주19.9℃
  • 맑음울릉도19.3℃
  • 맑음수원20.9℃
  • 맑음영월19.0℃
  • 맑음충주20.1℃
  • 맑음서산22.2℃
  • 맑음울진26.4℃
  • 맑음청주20.8℃
  • 맑음대전21.2℃
  • 맑음추풍령20.8℃
  • 맑음안동20.2℃
  • 맑음상주22.3℃
  • 맑음포항23.4℃
  • 맑음군산20.7℃
  • 맑음대구22.3℃
  • 맑음전주21.5℃
  • 맑음울산23.3℃
  • 맑음창원23.3℃
  • 맑음광주21.0℃
  • 맑음부산23.6℃
  • 맑음통영21.4℃
  • 맑음목포20.2℃
  • 맑음여수19.1℃
  • 맑음흑산도20.6℃
  • 맑음완도20.2℃
  • 맑음고창
  • 맑음순천19.7℃
  • 맑음홍성(예)20.4℃
  • 맑음19.5℃
  • 맑음제주21.1℃
  • 맑음고산23.8℃
  • 맑음성산22.1℃
  • 맑음서귀포25.1℃
  • 맑음진주19.3℃
  • 맑음강화20.0℃
  • 맑음양평19.2℃
  • 맑음이천20.4℃
  • 맑음인제18.1℃
  • 맑음홍천17.7℃
  • 맑음태백23.5℃
  • 맑음정선군20.1℃
  • 맑음제천19.2℃
  • 맑음보은19.5℃
  • 맑음천안20.4℃
  • 맑음보령22.9℃
  • 맑음부여20.3℃
  • 맑음금산18.6℃
  • 맑음21.1℃
  • 맑음부안20.8℃
  • 맑음임실19.5℃
  • 맑음정읍21.5℃
  • 맑음남원19.6℃
  • 맑음장수18.1℃
  • 맑음고창군22.4℃
  • 맑음영광군21.0℃
  • 맑음김해시22.3℃
  • 맑음순창군18.5℃
  • 맑음북창원21.9℃
  • 맑음양산시21.9℃
  • 맑음보성군20.4℃
  • 맑음강진군19.5℃
  • 맑음장흥19.3℃
  • 맑음해남21.6℃
  • 맑음고흥20.7℃
  • 맑음의령군21.0℃
  • 맑음함양군18.8℃
  • 맑음광양시21.6℃
  • 맑음진도군21.6℃
  • 맑음봉화19.5℃
  • 맑음영주19.7℃
  • 맑음문경21.9℃
  • 맑음청송군19.8℃
  • 맑음영덕25.0℃
  • 맑음의성20.6℃
  • 맑음구미21.9℃
  • 맑음영천20.8℃
  • 맑음경주시22.9℃
  • 맑음거창17.9℃
  • 맑음합천21.0℃
  • 구름조금밀양20.0℃
  • 맑음산청18.2℃
  • 맑음거제20.9℃
  • 맑음남해19.0℃
  • 맑음22.2℃
기상청 제공
Business & Issue | New Normal 시대에 맞는 데이터 분석 솔루션의 필요성
  • 해당된 기사를 공유합니다

Business & Issue | New Normal 시대에 맞는 데이터 분석 솔루션의 필요성

   
 
민병기 HP Presales Consulting 사업부장 byoung-ki.min@hp.com 2008년 글로벌 경제 위기 이후 고위험, 저성장, 저소비 등의 경향이 일반 경제뿐만 아니라 IT 업계 에도 불어닥쳤고 이러한 위기 속에서도 신기술을 통한 효율을 지향하는 새로운 패러다임이 필요하게 되었으며 이는 New Normal 시대라는 새로운 표준, 트렌드를 가져왔다. New Normal(시대 변화에 따라 새롭게 부상하는 표준) 시대에서의 최근 IT 업계의 화두는 ‘효율 지향’이다. 이로 인해 서비스로서의 IT를 바라보는 클라우드, 통합의 효과를 극대화하기 위한 가상화 기술 등으로 수렴돼 왔다. 이러한 트렌드는 클라우드, 가상화 기술 등 서비스 및 인프라 분야뿐만 아니라 기업의 효과적인 경영을 위해 가장 중요한 ‘데이터 분석’ 분야에도 영향을 주었다. 해마다 수십 테라바이트씩 늘어나는 기업의 정보는 기본적인 고객 데이터를 넘어서 소셜네트워크와의 연계 등을 통해 과거에 데이터를 활용해 기업의 현재 상황을 정확하게 이해하고 평가하는 데 중점을 뒀다면, 앞으로는 미래 예측까지 범위를 확대하는 비즈니스통합(BI) 3.0 시대를 맞이하게 되었다. 테라바이트 단위를 넘어 페타바이트를 뛰어넘는 방대한 데이터를 저장, 가공, 분석하기 위해서 기업은 지금까지 많은 비용을 지불해야만 해왔고 비용 대비 분석에 대해 날로 강조되고 있는 제시간(Just In Time)에 대한 요구는 과거 기술로 따라가기에는 역부족이었다. 이러한 비즈니스 상황에서 기하급수적으로 늘어나는 데이터를 효율적으로 저장, 빠른 속도로 분석할 수 있는 기술이 필요하게 되었다. 기존 데이터베이스관리시스템(DBMS)의 한계를 뛰어 넘는 대용량 데이터 분석 처리에 최적인 DBMS 기술과 선형적인 확장성과 기존의 분석 시스템에서 찾아 볼 수 없었던 고 가용성을 제공하는 고도병렬처리(MPP, Massively Parallel Processing) 아키텍처와 결합한 것을 수용한(Converged) 기술의 하나로서 HP에서 ‘버티카(Vertica)라는 새로운 개념의 어플라이언스 시스템을 선보였다. 초창기 데이터웨어하우스(DW) 시장에서 기술을 선보였던 벤더 종속적 시스템 세대를 어플라이언스 1.0, 수년 전 x86 시스템을 기반으로 비용효율을 내세웠던 시스템 세대를 어플라이언스 2.0이라고 할 수 있다. 버티카 제품은 기존의 어플라이언스 제품과 비교해서 성능, 서비스 연속성(고가용성), 효율성 등 세 가지 측면에서 일대 혁신을 가져왔다. 이 점에서 보면 어플라이언스 3.0이라고 할 수 있을 만큼 독특한 기술과 장점을 가지고 있다. 다음은 이러한 어플라이언스 3.0 을 대변하는 버티카 제품의 특성과 장점에 대해 기술한 내용이다. 버티카는 크게 세 가지 부분에서 다른 제품과 비교해 볼 때 특징 및 장점을 가지고 있는데 앞서 얘기한 성능, 서비스 연속성(고가용성), 효율성 부분이다. 성능 일반적으로 데이터를 처리하는 방식은 크게 업무 트랜잭션 처리와 업무 분석 처리로 나눌 수 있다. 트랜잭션 처리의 경우 응답시간이 길어야 3초 이내 정도지만 분석의 경우, 특히 비정형 분석인 경우에는 몇 시간이 걸리기도 한다. 그러한 이유는 분석의 경우 많은 양의 데이터를 한꺼번에 처리 하는 경우가 많기 때문이다. 그래서 많은 양의 I/O가 발생하게 되고 또한 최적화된 병렬처리 및 인덱스 구조를 필요로 하게 된다. 이러한 관점에서 버티카 솔루션이 기존 RDBMS와 어플라이언스 대비 성능이 뛰어난 기술적 요소는 크게 △완벽한 Column 기반의 저장 구조 및 병렬 처리 지원 △Just-In-Time BI 환경을 위한 하이브리드 아키텍처 △자동화되고 최적화된 튜닝 기능 등이다. 아래는 위의 세 가지 특징에 대한 설명 내용이다. ■ 완벽한 Column 기반의 저장 구조 및 병렬 처리 지원 대용량 데이터를 관리하는 DW 데이터베이스의 성능은 I/O와 매우 깊은 관련이 있다. HP 버티카의 컬럼(Columnar) DBMS 아키텍처는 쿼리 수행에 필요한 컬럼만을 읽어올 수 있도록 설계되었기 때문에, 쿼리를 요청할 때마다 모든 열을 읽어야 하는 로우(Row) 기반 DBMS와 비교했을 때 I/O 발생량을 획기적으로 줄일 수 있다. 일부 Pseudo-Column 방식의 어플라이언스 제품과 다르게 버티카는 데이터 저장 단계에서부터 DB 구조가 완벽한 컬럼 기반이기 때문에 차별성을 갖고 있다. 완벽한 컬럼 기반 DBMS인 버티카의 특징은 크게 아래와 같은 특징을 갖고 있다. - 압축과 질의가 Column 단위로 가능 - Column 기반 저장 기술에 맞는 Query Optimizer - 병렬 처리(Parallel Execute) 엔진 - 최적화 된 데이터 적재(load)와 트랜잭션(transaction) 처리 - 적은 하드웨어 리소스로 다른 DBMS와 동일한 작업 수행 이렇듯 I/O가 적게 발생하는 컬럼 기반의 DBMS는 로우 기반 DBMS와 비교해 보다 적은 하드웨어 리소스를 이용하면서도 동일한 작업을 수행할 수 있기 때문에 동시 사용자 수가 급격히 증가하는 경우에도 일관된 성능을 제공할 수 있다. ■ Just-In-Time BI 환경을 위한 하이브리드 아키텍처 원천 데이터를 가공해 분석에 활용하는 업무를 DW 또는 BI(Business Intelligence) 라고도 하며 이러한 정보성 업무에서의 응답을 실시간(Real Time)에 준하는 요구 수준에 부합하는 것을 ‘Just-In-Time’이라고 표현하기도 하는데, 버티카는 실시간 BI 환경에서 요구되는 빈번하고 작은 단위의 DML 처리 시의 성능 향상을 위해 하이브리드 아키텍처로 설계되어 있다. 메모리 기반 DB 에 저장된 실시간 분석 데이터는 HP Vertica 의 Tuple Mover 라는 기술에 의하여 자동으로 열 기반으로 변경 및 디스크 스토리지로의 이동이 이루어진다. 실시간 분석을 위한 메모리 기반 DB 영역을 WOS(Write Optimized Store)라고 부르며 대용량 쿼리 작업을 위한 스토리지 기반 DB 영역을 ROS(Read Optimized Store)라고 부른다. ■ 자동화되고 최적화된 튜닝 기능 대용량 데이터에 대한 비정형 분석을 지원하는 DBMS에서 성능에 영향을 주는 매우 중요한 요소는 테이블 설계 단계에서부터 시작된다. 트랜잭션 처리 중심 DB의 테이블 스키마 구조와는 다르게 DW 에서의 구조는 과거부터 Star-Schema, Snowflake-Schema 등이 일반적인 설계 구조로 자리 잡아 왔으며 버티카 역시 이러한 비정형 분석에 최적화된 스키마 구조를 완벽하게 지원한다. 정형화된 트랜잭션 처리 중심 DB 설계에서는 인덱스 설계 등이 성능에 매우 중요한 요소인 반면 비정형 분석을 위한 DW에서는 이러한 인덱스의 설계가 매우 유연해야 하나 기존 DBMS 특성상 이러한 기술이 지원되기는 쉽지 않다. 버티카의 경우에는 이러한 최적화되고 유연한 인덱스 구조를 위해 새로운 개념의 기술을 도입했다. 인덱스라는 용어 대신 ‘프로젝션’이라고 부르는데, 기존의 경직된 인덱스 구조가 아닌 비정형 분석에 최적화된 성능 향상 기술이다. 버티카에서 프로젝션은 크게 두 가지로 나눈다. 슈퍼 프로젝션은 테이블에서 정의된 모든 데이터가 실제로 저장되는 공간이며 프로젝션 데이터는 해쉬 알고리즘(Hash Algorithm)에 의해 전체 노드에 분산 저장되어 동시에 처리될 뿐만 아니라 필요한 열에 대해서만 I/O가 발생하게 되어 별도의 인덱스가 없는 임시 쿼리(Ad-hoc) 수행에서 높은 성능을 제공한다. 쿼리 프로젝션은 버티카에서 쿼리 성능 향상을 위해 사용되는 프로젝션이며, 각각의 쿼리 프로젝션은 쿼리 성능의 최적화를 위해 필요한 열을 선택적으로 저장하고, 데이터는 성능 및 압축률을 최대화할 수 있는 순서 및 압축 알고리즘을 사용하여 저장된다. DB 관리자는 튜닝을 위한 인덱스 생성을 고민할 필요 없이 샘플 데이터와 샘플 쿼리를 DB 디자이너에게 제공함으로써 쿼리 성능, 압축률 및 가용성이 최적화된 쿼리 프로젝션을 생성할 수 있다. 서비스 연속성(고가용성) 최근까지 서비스 연속성은 분석 업무에서는 중요성이 크게 부각되지 않았으나 급변하는 비즈니스 환경에서 신속한 의사결정의 필요성이 점점 증대되고 Real-Time BI 등의 요구가 늘어남에 따라서 분석 업무에서도 서비스 연속성이 매우 중요한 요소로 대두되고 있다. 이러한 이유 때문에 다중 노드의 장점을 살릴 수 있는 MPP 아키텍처를 선호하고 있다. MPP 아키텍처의 경우에도 노드 관리 매커니즘에 따라서 특정 관리 노드(Management Node)가 존재하는 아키텍처와 이보다 더 높은 안정성을 제공하기 위한 모든 노드가 관리 노드 역할을 하는 P2P(Peer-to-Peer) 방식의 아키텍처(Pure MPP)가 있다. 버티카의 경우 별도의 제어 서버가 필요하지 않은 Pure MPP 아키텍처로 설계돼 모든 노드가 동일한 역할을 수행한다. 또한 이러한 버티카의 Shared nothing 아키텍처는 노드 추가에 의한 오버헤드 없는 확장성을 제공할 뿐만 아니라 서비스 중단 없는 장애 극복 기능을 제공할 수 있다. 버티카는 데이터를 저장하는 프로젝션(Projection)의 노드 간 복제 기능을 이용해 성능 향상과 함께 노드 장애시에도 중단 없는 서비스를 가능하게 하며 데이터베이스 용량 확장을 위한 노드 추가 시나 유지보수를 위한 노드 제거시에도 서비스 중단 없이 운영이 가능한 아키텍처이다. 다음은 이러한 버티카의 서비스 연속성을 위한 기술을 네 가지로 압축한 내용이다. - 노드 간 데이터 복제 기술에 의한 노드 장애 무중단 지원 - 데이터베이스 확장을 위한 노드 증설 시에도 서비스 무중단 - 유지 보수를 위한 노드 제거시에도 서비스 무중단 - 스토리지 장애시에도 해당 노드 무중단 (Raid 6 보호 적용) 효율성 솔루션의 효율성 측면은 많은 면에서 고려할 수 있으나 대용량 데이터를 분석하는 업무에서는 폭발적으로 늘어나는 데이터의 용량에 대한 효율성이 반드시 고려해야 한다. 과거에는 분석업무의 데이터가 어느 정도 정형화 되어 있었으나 최근에는 SNS, 이미지, 동영상, 데이터 피드, 이벤트 스트림스 등 과거에 크게 의미 없던 데이터의 저장 및 분석 요구가 폭발적으로 증가했다. 때문에 데이터 용량의 효율성의 중요성이 훨씬 부각되고 있으며 솔루션 선정에 중요한 기술 요소가 되고 있다. 이러한 데이터 용량의 효율성에 가장 큰 영향을 끼치는 요소가 바로 DBMS의 데이터 압축 기술이라 할 수 있다. DBMS의 압축 기술은 과거 메인프레임 때부터 발전해온 기술이다. 대부분의 DBMS에서 제공하는 기술이지만 다양한 압축 알고리즘 및 컬럼 기반의 저장 구조 때문에 버티카는 기존 DBMS 보다 훨씬 뛰어난 획기적인 압축률을 제공한다. 서로 다른 데이터 타입이 혼재되어 있어 압축률이 좋지 않은 로우 기반 DBMS와는 달리 동일한 데이터 타입을 가지는 컬럼 단위로 데이터를 저장하는 컬럼 기반 특성과 함께 내장된 12가지 데이터 인코딩 및 압축 알고리즘은 최대 95% 이상의 압축률을 제공해 스토리지 사용량을 효과적으로 절감할 수 있도록 한다. 압축률 이외에도 효율성에 대한 중요한 요소 중의 하나가 개방적 아키텍처다. 개방적 아키텍처의 근간은 표준화된 기술에 있다. 버티카의 경우 하드웨어 플랫폼뿐만 아니라 운영체제 모두 표준화된 아키텍처를 따르고 있기 때문에 과거 폐쇄적 아키텍처의 대명사인 메인프레임과 같이 타 시스템과의 연계를 위해 추가되는 비효율적 비용을 지불하지 않아도 된다. 이러한 개방적 아키텍처 특징 때문에 버티카는 클라우드와 같이 최신 기술과의 연계가 용이하며 아마존 EC2의 DW 클라우드 서비스에 플랫폼으로 사용되고 있다. 또한 하둡(Hadoop)과 같은 고용량 데이터(Big Data) 분석을 위한 플랫폼과의 연계를 위한 하둡용 버티카 커넥터(Vertica connector for Hadoop) 기술을 제공하고 있다. 민병기 - 1998~2000 LG-EDS (현 LG-CNS) 에서 EDW 프로젝트 수행 - 2001~2002 HP 컨설턴트로 기업은행 CRM 프로젝트 수행 - 2003~2006 삼성 금융 그룹 인프라 아키텍처 관련 지원(서버 통합, 메인프레임 다운사이징 등) - 2007~현재 HP Presales Consulting 사업부장. 국민은행, 신한은행, 기업은행 등 주요 은행 및 금융권 인프라 아키텍처 지원