2024.05.09 (목)

  • 구름많음속초23.5℃
  • 구름많음21.0℃
  • 구름많음철원20.1℃
  • 구름조금동두천20.4℃
  • 맑음파주20.1℃
  • 구름많음대관령16.0℃
  • 구름조금춘천21.0℃
  • 구름많음백령도18.0℃
  • 구름조금북강릉24.2℃
  • 구름조금강릉25.2℃
  • 구름조금동해23.0℃
  • 맑음서울20.5℃
  • 맑음인천17.6℃
  • 구름조금원주20.6℃
  • 구름조금울릉도17.6℃
  • 맑음수원20.3℃
  • 구름조금영월20.8℃
  • 맑음충주20.9℃
  • 맑음서산19.0℃
  • 구름조금울진18.5℃
  • 맑음청주21.4℃
  • 맑음대전21.6℃
  • 맑음추풍령20.3℃
  • 맑음안동20.8℃
  • 맑음상주22.0℃
  • 맑음포항22.9℃
  • 맑음군산19.3℃
  • 맑음대구22.7℃
  • 맑음전주20.8℃
  • 맑음울산19.8℃
  • 맑음창원22.3℃
  • 맑음광주21.9℃
  • 맑음부산19.1℃
  • 맑음통영19.6℃
  • 맑음목포19.4℃
  • 맑음여수19.6℃
  • 맑음흑산도20.3℃
  • 맑음완도22.1℃
  • 맑음고창20.4℃
  • 맑음순천21.6℃
  • 맑음홍성(예)20.1℃
  • 맑음20.3℃
  • 맑음제주19.9℃
  • 맑음고산18.6℃
  • 맑음성산20.6℃
  • 맑음서귀포20.0℃
  • 맑음진주22.2℃
  • 맑음강화18.2℃
  • 맑음양평20.3℃
  • 맑음이천21.8℃
  • 구름조금인제19.3℃
  • 구름조금홍천20.5℃
  • 구름조금태백19.8℃
  • 구름조금정선군22.2℃
  • 구름조금제천19.7℃
  • 맑음보은21.0℃
  • 맑음천안21.5℃
  • 맑음보령18.1℃
  • 맑음부여21.5℃
  • 맑음금산20.9℃
  • 맑음20.8℃
  • 맑음부안20.6℃
  • 맑음임실21.1℃
  • 맑음정읍21.4℃
  • 맑음남원21.6℃
  • 맑음장수20.2℃
  • 맑음고창군21.8℃
  • 맑음영광군20.7℃
  • 맑음김해시21.8℃
  • 맑음순창군21.5℃
  • 맑음북창원23.1℃
  • 맑음양산시22.9℃
  • 맑음보성군23.3℃
  • 맑음강진군22.7℃
  • 맑음장흥22.0℃
  • 맑음해남21.5℃
  • 맑음고흥21.5℃
  • 맑음의령군23.1℃
  • 맑음함양군22.9℃
  • 맑음광양시23.1℃
  • 맑음진도군20.0℃
  • 맑음봉화20.6℃
  • 맑음영주20.5℃
  • 맑음문경21.3℃
  • 맑음청송군21.3℃
  • 구름조금영덕22.6℃
  • 맑음의성21.9℃
  • 맑음구미23.3℃
  • 맑음영천22.4℃
  • 맑음경주시23.7℃
  • 맑음거창23.4℃
  • 맑음합천24.0℃
  • 맑음밀양24.1℃
  • 맑음산청22.6℃
  • 맑음거제21.4℃
  • 맑음남해22.1℃
  • 맑음20.6℃
기상청 제공
현장 리포트/ Strata Hadoop World 2014
  • 해당된 기사를 공유합니다

현장 리포트/ Strata Hadoop World 2014

“빅데이터 활용은 이미 시작됐다” 다양한 분석방법론 논의

현장 리포트

Strata Hadoop World 2014 
 
“빅데이터 활용은 이미 시작됐다” 다양한 분석방법론 논의 
 
장동인 부사장, 한국 테라데이타
 
 
   
▲ 장동인 한국테라데이터부사장
 
 
<미국 뉴욕 자비츠 컨퍼런스 센터>뉴욕에서 매년 열리는‘Strata Hadoop World’는 빅데이터 기술 분야의 세계적인 동향을 알 수 있는 최고의 컨퍼런스이다. 내년 빅데이터 방향을 미리 감지할 수 있는 좋은 기회여서 가기 전부터 많은 기대를 하고 있었다. 이 컨퍼런스는 주로 IT 분야 기술서적을 중심으로 출판을 하는 오라일리 출판사와 하둡 벤더인 클라우데라가 주관을 하고 있다.  3일 동안 진행하는 컨퍼런스에서 첫날의 모습에 대한 인상을 정리했다. 
 
첫날은 주로 특정 주제에 대해서 교육을 하는 튜토리얼에 중점을 두고, 다음날부터  본격적인 컨퍼런스가 열린다. 물론 전시회를 겸하고 있다. 
 
10월15일 첫 번째 날. 오늘의 튜토리얼은 스파크(Spark), 하둡 아키텍처, 데이터 사이언스(Data Science), 사물인터넷, 카산드라와 스파크를 활용한 타임시리즈 분석, 데이터 플랫폼 등에 대한 발표가 있었다. 필자는 하나를 하루 종일 듣는 것 보다는 다양한 세션을 조금씩 들었다. 각 주제에 대해 어느 수준으로 논의하는가가 관심의 대상이 됐기 때문이다.    
 
어떻게 빅데이터를 구성할 것인가
 
   
 
 
미국은 이미 ‘why big data’ 를 고민하는 단계에서 ‘how to do big data’를 고민하고 있는 단계로 넘어갔다. 
 
이것은 당연한 일이긴 하지만, 이제 빅데이터를 시작하고 있는 한국 입장에서 보면 상당히 앞서 나가고 있다는 것을 느낄 수 있었다. 하둡에 데이터를 로딩하는 ETL(데이터 추출)에 대한 다양한 방법과 경험을 이야기하고 나면 무수히 쏟아지는 질문들 속에서 “아, 이들은 이것을 매일 사용해보고 문제의식을 느끼고 있구나” 라는 생각이 든다. 
 
이 컨퍼런스에서는 ‘왜 빅데이터를 해야 하는지’, ‘어떤 분야를 빅데이터로 하면 좋은지’를 묻는 질문을 찾을 수 없었다. 어떻게 하면 좀 더 퍼포먼스를 좋게 할 수 있는지, 어떤 알고리즘을 써야 좀 더 정확한 답을 얻을 수 있는지, 하둡 아키텍처를 어떻게 만들어야 좋은지 등에 대해서 고민하고 있었다.  
 
이 상황에서 하둡은 'clear winner'이다. 세미나 이름 자체가 하둡이어서 결론은 매우 당연하다고 하겠지만 빅데이터 솔루션이 한 두 개가 아닌 상황에서 어떤 솔루션이 앞으로 계속 개발될 것인가 하는 것이 큰 관건이다. 그런 점에서 보면 하둡이 일단 빅데이터의 기본적인 인프라로 자리를 잡아가는 것이 확실하다. 
 
아파치하둡보다는 상용 하둡을 더 활용한다  
 
   
 
 
상용 하둡은 아파치하둡 자체적으로 개발한 모듈을 같이 팔고 있으며, 자체 개발한 부분에 대한 소프트웨어를 판매하는 라이선스 제도와 하둡을 유지 보수해주는 서비스 제도가 공존한다. 그러나, 이마저도 각 벤더마다 다르다. 클라우데라는 라이선스 제도와 유지보수 제도를 같이 가지고 있는 반면에 호턴워크스는 유지보수 제도만 가지고 있다.
 
미국 기업에서는 유지 보수를 해줄 사람과 기업이 없는 아파치하둡 보다는 상용 하둡벤더를  선호한다. 재미있는 점은 우리나라 같으면 이 유지보수 비용을 공짜인 아파치하둡과 비교를 하는데 비해, 미국은 오라클과 같은 관계형데이터베이스 업체의 유지보수 비용과 비교를 한다는 점이다. 
 
스파트에 대한 관심이 쏟아지고 있다
스파크는 올해 아파치 탑 레벨 프로젝트로 부상하면서 전 세계적으로 관심을 끌고 있다. 스파크는 하둡 파일 시스템인 ‘hdfs’를 그대로 사용하면서 모든 데이터 처리를 메모리에서 하기 때문에 상당히 빠르다.
 
인프라로서 하둡을 보완해주는 솔루션으로 각광을 받고 있다. 이 소프트웨어는 버클리 대학에서 만든 것인데, 당시 만든 사람들이 나와서 회사를 차렸다. 이름이 데이터브릭스라는 회사로, 실리콘밸리에서 주목을 받고 있다. 이번 튜토리얼에서도 스파크 캠프를  하루 종일 주도했다. 데이터브릭스는 현재 하둡 상용벤더들로부터 협력에 대한 러브콜을 받고 있는 상황이다. 
 
여기서 관전 포인트는 ‘스파크가 앞으로 어떤 위상을 갖게 되는 것이냐’라는 것이다. 하둡은 데이터를 보관하는 인프라로 남고 실제로 중요한 쿼리나 데이터 처리 작업은 스파크에서 할지 아니면 하둡 자체에서 중요한 쿼리나 작업을 처리하는 ‘SQL on Hadoop’ 이 주도하게 될지, 아니면 스파크가 할 일과 SQL on Hadoop이 할 일을 구분해서 모두 사용이 될지가 매우 궁금해진다.  
 
기존의 관계형 데이터베이스에 있는 정보계 업무를 하둡으로 마이그레이션하고 있다. 이유는 두 가지이다. 하둡은 관계형 데이터베이스 보다 하드웨어와 소프트웨어가 훨씬 저렴하기 때문이며,  테이블 사이즈가 테라바이트급으로 올라가면 관계형 데이터베이스에서 처리하는 것이 점점 어려워지지만 하둡에서는 가능하기 때문이다.
 
이런 점은 우리나라에서도 바로 적용할 수 있다. 한국 대기업의 DW(데이터웨어하우스)에 있는 데이터와 데이터처리 부분을 점점 하둡으로  ‘off-load’ 할 수 있다. 특히 결과 값이 그렇게 정확하지 않아도 되는 부분은 하둡으로 이관할 수 있다. 하둡이 점점 데이터 인프라화 되고 있다는 사실은 부정할 수 없다.    
 
데이터사이언스에 대한 관심 고조 
 
   
 
 
데이터사이언스에  대한 관심이 뜨겁다. 그러나 하둡 진영과는 거리를 좁히려는 노력이 필요하다. 
 
데이터 사이언스 세션에 들어가면, 온통 분석 알고리즘, 머신러닝, 자연어처리에 대한 이야기가 난무하다. 그런데, NoSQL DB인 카산드라와 스파크, 스파크 스트리밍 등을 합해서 타임시리즈 분석을 할 수 있도록 하는 세션이 있었다. 대단히 좋은 시도이다.
 
데이터 사이언스의 핵심은 데이터 분석과 그것을 최적으로 처리할 수 있는 소프트웨어 아키텍처를 같이 제시해 줄 수 있어야 한다. 앞으로 한국에서도 이런 시도가 많이 일어났으면 한다.
 
빅데이터와 사물인터넷 
‘big data + IoT’의 결합은 당연한 것이지만, 최적의 아키텍처 방향을 모색하고 있다. 빅데이터의 킬러앱이 사물 인터넷이라는 사실은 이미 다 알고 있을 것이다.
 
사물인터넷이 활성화되면 데이터를 처리하는 플랫폼이 필요한데, 그것이 빅데이터 플랫폼이 된다는 것은 상식이다. 그러나, 사물인터넷 처리용 빅데이터 플랫폼은 어떤 모습일까? 그것은 대용량 실시간 처리와 비정형 분석으로 요약될 있다.
 
사물인터넷은 사후 처리하는 기존의 빅데이터 성격 보다는 데이터를 실시간으로 처리하는 요건이 훨씬 강화될 것으로 보인다. 또한 실시간 비디오 분석, 머신러닝 등이 주요한 분석 방향이 될 전망이다. 
 
하루 정도의 튜토리얼을 가지고 미국의 빅데이터 동향을 다 알 수는 없겠지만, 그만큼 임팩트가 강했던 하루가 아니었나 하는 생각이 든다. 그리고 미국의 뜨겁고 세밀한 기술이 집약된 빅데이터 동향이 조금은 부럽다는 생각이 들었던 하루였다. 그리고 내일부터 본격적인 세미나의 내용이 점점 더 궁금해진다.