“분석할 수 있는 환경을 만들자”

즐겨찾기추가

2024.05.20 (월)

기상청 제공

“분석할 수 있는 환경을 만들자”

해당된 기사를 공유합니다
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사
- 가나다라마바사

“분석할 수 있는 환경을 만들자”

현장리포트/Teradata Partners 2014 마지막날

장동인한국테라데이타부사장 기자
등록 2014.10.28 09:46
조회수 1,054

현장리포트/Teradata Partners 2014 마지막날

“분석할 수 있는 환경을 만들자”

장동인 부사장, 한국 테라데이타


▲ 한국테라데이타 장동인 부사장

<미국 테네시 내쉬빌> 항상 몇 일 동안 하는 컨퍼런스의 마지막 날은 거의 파장 분위기이다. 대부분 수요일 마지막에 파티를 하고, 목요일 아침에 떠난다. 그러나, 마지막 날 오전에 중요한 세션이 있어서 필자는 마지막 세션까지 듣기로 했다.

마지막에 들었던 세션은 ‘성공적인 데이터 웨어하우스의 7가지 특성’에 대해서 롭 암스트롱(Rob Armstrong, Director of Teradata Labs)이라는 분이 강의를 했다. 나이에서 오는 원숙함, 열정을 가진 강의, 데이터 베이스, 하둡, 데이터웨어하우스, 빅데이터를 넘나들면서 쌓은 많은 경험들을 토대로 이야기를 풀어나갔다.

이 분의 핵심은 빅데이터이든지, 데이터 웨어하우스든지 간에 결국에는 모든 것이 의사결정을 위한 것이고, 그 의사결정을 제대로 할 수 있는 구조로 빅데이터 및 데이터 웨어하우스의 처음부터 끝까지, 디자인에서 아키텍처까지, 설계에서 활용, 변화관리까지 일괄적으로 의사결정을 위한 관점으로 정렬(alignment)되어야 한다는 것이다. 중요한 포인트만 정리해 본다.

데이터 웨어하우스의 기능이나 리포팅, 분석 등은 끊임없이 변화하므로 특정 사용자 그룹을 위한 모델링은 피해야 한다. 시간은 우리 시대의 돈이기 때문에 적기에 분석결과를 공급해야 한다. 진정한 인텔리전스(intelligence)라는 것은 지식이 아니라 상상력이다. 사용자가 원하는 것은 항상 변한다. 쉽게 변화할 수 있는 아키텍처를 고려해라. 의사결정에 필요 없는 리포팅(reporting)이나 분석은 아예 하지도 말라.

적기에 분석결과를 공급해야

현업 스스로 분석할 수 있는 환경을 만들어라. 분석의 결론에서부터 데이터를 바라 봐라. 거버넌스(governance) 라는 것은 통제하는 것이 아니라 목적을 가지고 가이드하고 돕는 것이다. 사건이 나고 후회하고 고치지 말고, 준비하고 방지해라. 특히 장애복구(disaster recovery)는 장비는 실제 환경에서 정기적으로 테스트하기 전까지는 내 것이 아니다. 내가 받는 교육비용이 비싸다면, 그것을 몰랐을 때 오는 대가와 비교해보라.

사용자 스스로 교육에 대해서 준비하고 실행해야 한다. “우리는 어디에서 시작했는가” 가 중요한 것이 아니라, “어디서 끝났는가” 하는 것이 중요하다. 의사결정을 하고, 비즈니스 액션에 들어가고 결과를 측정해라. 분석에 대한 분석을 하라. 그것이 얼마나 비즈니스 가치를 창출했는지를 파악해야한다. 이것은 참으로 타당한 이야기였다.

최근에 SQL on 하둡분야의 제품들이 많이 나와서 이에 대한 비교를 하는 것이 유용할 것 같아서 소개한다. 하둡에 있는 데이터를 처리하는 방식은 Map and Reduce (이하 MR) 방식이다 그러나, 이 방식대로 개발을 하려고 하면 대단히 많은 양의 코딩을 해야 한다.

파일 내에 단어의 갯수를 세는 프로그램을 짠다고 해도 한 100줄 정도 써야 한다. MR은 일반 기업의 IT 환경에서는 사용할 수 없다. 그래서 누구나 다 아는 SQL을 하둡에서 사용할 수 있도록 한 것이 SQL on 하둡이라는 분야다. 이것은 하둡에서 SQL을 사용할 수 있도록 하는 제품군을 말하는 것이다. 하둡 내에는 hive라는 것이 SQL을 사용할 수 있도록 한다.

Hive도 하둡 내의 제품(소프트웨어)이다. SQL on 하둡 제품군은 당연히 SQL을 어떻게 처리하는가, SQL의 어디까지 지원하는가, 위에서 이야기한MR방식을 사용하는지 아니면 다른 독자적 방식으로 처리하는지, 메모리를 어떻게 활용하는지에 따라서 모두 다르다.

SQL on 하둡이 목표로 하는 것은 SQL을 쉽게 사용할 수 있고, 퍼포먼스가 기존 Hive 보다는 훨씬 빨라야 하고, 지원하는 SQL이 기존 ‘Ansi SQL 92’을 모두 지원해야 하며, 당연히 확장성이 좋아야 한다. 여기서 SQL 중 업데이트는 모든 SQL on 하둡이 지원을 하지 않는다. 하둡의 기본 사상에는 업데이트라는 개념이 아예 없기 때문이다. 이것을 허용하면 퍼포먼스와 확장성이 크게 타격을 입기 때문이다.

사실 SQL on 하둡의 개념은 매우 쉽다. 그러나, 이것을 구현하는 것은 쉽지 않다. 하둡의 파일 시스템인 hdfs(hadoop distributed file system)를 핸들링 해야 하기 때문이다. 특히 여러 명의 사용자가 동시에 두 개 이상의 대형 테이블 조인(join)을 구현하면서도 퍼포먼스가 좋게 하기 위해서는 만만치 않는 노력을 해야 한다.

MapR에서 만든 아파치 드릴(Apache Dril)은 구글의 드레멜(Dremel)을 모형으로 만든 것으로 하둡의 MR 방식을 사용하는 것이 아니라 독자적인 엔진을 사용한다. 마찬가지로 크라우데라의 임팔라(Impala)도 MR 방식을 사용하지 않고, 자체 엔진을 사용하며 Ansi-92 SQL과 DDL을 지원하지만 사용자 정의 함수(UDF)는 지원하지 않는다.

특히 join을 할 경우, 메모리를 활용한다는 점에서 속도가 빠르다는 장점이 있다. IBM의 BigSQL도 MR을 사용하지 않고 자체적인 MPP 엔진을 사용한다. 테라데이터는 기존의 SQL on 하둡 제품군의 SQL-H를 가지고 있었지만 이를 대폭 업그레이드한 쿼리 그리드(Query-Grid)라는 것을 발표했다. 이것은 기존 SQL on 하둡이라는 개념을 뛰어 넘어, 테라데이타 데이터베이스와 테라데이타 애스터(Aster)에서 기존의 오라클 DB, 호톤웍스 하둡, 클라우데라 하둡, 몽고DB를 SQL로 한꺼번에 데이터를 처리하며 쿼리를 사용할 수 있다.

각 시스템에 분산되어 있는 테이블들을 SQL 조인 처리할 수 있는 파워를 가지고 있다. 기존의 하둡, NoSQL DB의 데이터 핸들링이 어려운 점을 뛰어 넘는 상당히 주목되는 제품이라고 할 수 있다. 현재는 테라데이터와 애스터에서 오라클, 호톤웍스의 하둡까지 지원하는데, 내년까지는 위에서 언급한 제품을 지원할 예정이다.

빅데이터 위해서는 개인정보 관리 명확히 해야

빅데이터와 개인의 사생활 문제(privacy)도 상당한 관심을 끌었다. 내가 원했던 것은 미국에서는 빅데이터로 인해서 개인의 사생활을 침해한 사례가 어느 정도로 있었는지를 알고 싶었지만, 그런 발표는 없었고, 전 세계적으로 개인정보보호에 대한 규제법안들은 이야기가 됐다. 글로벌하게 개인정보 보호에 대해 공통적으로 인식되는 조항들을 살펴보면 다음과 같았다.

개인정보에 대해서 처리 정책, 과정, 규정들을 상세하게 정비하고, 문서화하며 각 개인들에게 명확히 전달해야 한다. 개인정보를 수집하고 사용할 때, 개인의 동의를 반드시 취득해야 하며, 개인은 자신의 정보가 사용되는 것에 대한 선택을 할 수 있어야 한다. 개인의 정보를 수집할 때는 분명하고 정해진 목적에만 사용해야 하며 각 개인은 자신의 정보를 볼 수 있으며 변경시킬 수 있어야 한다.

기업이나 기관이 개인정보를 제3자에게 제공할 경우는 정해진 목적을 위해서 사용한다는 전제하에 개인의 동의를 얻어서 제공할 수 있다. 기업이나 기관은 개인의 정보를 외부 또는 내부의 부정사용으로부터 보호해야 하며, 개인 사생활 보호를 정책과 법률에 정해진 대로 수행하는지를 모니터링 해야 한다. 또한 개인의 요청이나 사건이 생길 경우에 이에 대한 대응을 정해진 절차에 따라서 수행해야 한다.

대체적으로 우리나라의 개인정보 보호법과 유사했다. 그런데, 개인정보 보호에 대한 이슈들을 이야기 하는 부분에 있어서 미국에서도 우리나라와 유사한 문제가 있음을 유추할 수 있었다. 예를 들면 다음과 같다.

● 개인정보에 대한 책임자가 없거나 개인정보에 대한 총체적인 거버넌스 프로그램이 없다.

● 개인정보를 접근하는데 있어서 내부 통제가 그다지 없다.

● 개인정보를 취급하는 프로세스나 가이드라인이 존재하지 않는다

● 개인정보의 생성, 변경, 사용 이력이 없거나, 있어도 공인되지 않았다.

개인정보와 빅데이터에 대해서는 일반적인 수준의 논의만 있었던 것이 좀 아쉬웠다.

전반적으로 ‘테라데이타 파트너스 2014’는 매우 수준 높은 빅데이터 컨퍼런스였다. 참가자 규모나 세션의 수에서도 많았지만, 더욱 좋았던 것은 기존 IT 부서의 입장에서 데이터 웨어하우스의 연장선상에서 빅데이터 기술을 어떻게 도입했는지를 많은 사례와 방법론, 툴 등을 통해서 이뤄냈는지를 설명해준 점이다. 중간 중간에 테라데이타의 솔루션과 툴에 대한 이야기들이 많았지만 이번 현장스케치에서는 과감하게 생략했다.

‘Strata Hadoop World’와 ‘티라데이타 파트너스’ 컨퍼런스를 처음부터 끝까지 지켜본 2주에 걸친 긴 출장은 필자에게 우리나라 빅데이터가 앞으로 가야할 방향에 대해 고민하게 하는 계기를 만들어 주었다. 끝까지 애정을 가지고 지켜봐준 독자에게 무한한 감사를 드린다.

장동인한국테라데이타부사장 기자의 전체기사 보기