페이지

2012년 2월 25일 토요일

빅데이타 행사 후기

미래의 키워드 vs 일시적 유행어

어제(2012년2월24일 금요일) 어느 일간지를 보니 Digital Biz 섹션에 빅데이타관련 기사가 눈에 띄었다. Big Data 이젠 미래의 키워드로 라는 제목에 "IBM과 구글의 번역 프로그램 대결은 빅 데이터 시대를 보여주는 대표적 사례다. 지난 40년 동안 IT 전문가들은 컴퓨터가 명사·동사·형용사 등 단어를 맥락 속에서 인식하고 번역해내는 프로그램을 개발하기 위해 노력해왔다. IBM과 구글이 대표 기업이었다. 두 회사는 전문가들이 번역한 문서를 데이터베이스에서 통계적으로 분석해 번역 패턴을 만들 수 있다고 생각했다." 라는 기사가 눈에 띄었다.

또 같은 섹션의 다른 컬럼에서는 유비쿼터스 e비즈니스 웹 2.0처럼... 일각에선 일시적인 유행어에 불과하다는 지적도 라는 제목이 있고 "다만 빅 데이터 시대의 주도권을 누가 잡을지에 대한 의견은 분분하다. IBM 같은 시스템 분석 회사가 될지, 구글·애플·아마존·페이스북 등 소비자들의 정보를 직접 모으는 기업이 될지 모른다". 라고 기사화되어있다.

한국IBM 빅데이타 관련 행사


지난 22일에는 한국IBM 이 주체하는 빅데이타관련 행사가 있었다. 그랜드인터컨호텔에서 오후 2시부터 시작된 기조연설에는 IBM 실리콘밸리 연구소의 수석 엔지니어이자 기술 임원인 Stephen Brodsky 박사가 "Turning insight into Action"이라는 주제로 발표가 있었다. 여기에서는 빅데이타의 관리가 필요하게 된 배경과 빅데이타로 특징 지워지는 3V 에 대한 설명 그리고 미국의 퀴즈쇼 "Jeopardy" 에서 퀴즈왕과 대결을 벌인바 있는 '왓슨' 에 대한 소개와 Big Data 로의 활용 그외에 실제사례들로 캐나타 토론토의과대학에서 미숙아의 조기 위험감지에 사용된 사례, 소셜미디어에서 사용된 사례등의 내용이 소개되었다. 왓슨에 대한 비디오 와 토론토대학의 미숙아 관련 비디오 도 기조연설중에 소개되었다. 이외에도 오전에는 기자회견이 있었고 많은 기자분들이 참가했다.

Vestas 풍력발전용 터빈 위치선정에 Big Data 가 활용된 사례

그리고 유렵의 Vestas 사가 풍력발전을 위한 터빈 위치 선정에 Big Data 가 활용된 사례를 소개하였다. 관련 비디오는 여기에 있다. 유럽은 2020년까지 20%를 재생에너지로 해야하는데 이를 위해 Vestas사는 풍력발전을 위한 최적의 장소를 찾기위하여 약 3,5000개의 전세계 기상 측량 정보 송신으로 부터 정보를 분석한다고 한다. 이 양은 2.8 Peta Byte (Peta Byte 는 백만 Giga Byte 에 해당) 에 해당하고 이는 향후 200 Peta Byte 까지 늘어날 것으로 예측한다고 한다.
이렇게 여러 경로부터 취득되는 기상관련 정보로 부터 약 18 ~ 24 Peta Byte 정보를 한번에 분석하는데 이는 70년간의 HD Video 정보를 합쳐 놓은 것과 같다고 한다. IBM 의 하둡기반의 Big Data 엔진인 Infosphere Big Insight 를 사용하는데 과거 3주 걸리던 분석이 이제 15분 만에 처리가 가능하다고 한다.


  당신이 뭘 좋아하는지 기업은 알고 있다

한편 위의 행사와는 별도로 23일자 중앙일보에는 "집으로 날아온 화장품 샘플 … 내가 건성피부인지 어떻게 알았지?" 라는 제목으로 아모레퍼시픽이 고객들의 소위 화장대지수라는 것을 만들게 된 배경을 소개하고 있다. 아모레퍼시픽은 백화점·마트·전문매장·인터넷 같은 유통 채널별로 운영되던 멤버십 카드를 2008년 통합했고 고객들의 구매 이력을 3년간 차곡차곡 쌓았다고 한다. 기존 시스템으론 저장조차 힘들 만큼 데이터 양이 늘자 지난해 한국IBM과 손을 잡고 본격적인 분석 작업에 돌입했다. 고객세분화를 통해 이러한 고객의 소비성향을 파악할 수 있게 되었다고 한다.

빅데이타시대의 주도권

빅 데이타 시대의 주도권을 누가 잡을지에 대한 의견이 분분하다라는 기사를 보면서 생각해 보았다. 웹을 통한 정보가 범람하는 현대에서 구글 이나 아마존과 같이 소비자의 정보를 모으는 기업이 이러한 통찰력을 기반으로 한 경쟁력에서 우월할 것이라는 것은 짐작할 수 있다. 하지만 몇가지 예에서 보듯이 적용되는 산업은 소비자 정보기반의 통찰력의 범위를 넘어 거의 모든 산업에서 적용될 수 있다. 다만 우리들의 상상력의 한계가 어떤 분야에 어떻게 사용될 수 있을지를 제약하고 있는 것은 아닐까 하는 생각을 해 보았다. 조숙아의 몸에서 나오는 센서로 부터의 정보 라든지 그리고 풍력터빈설치를 위해 전세계 3만5천개의 기상정보 원천으로 부터의 정보를 분석하여 최적의 의사결정을 하는 것등은 웹을 통한 정보의 분석 차원을 넘는 것이다. 물론 이러한 웹이나 소셜미디어로 부터의 정보를 분석하려면 '개인 정보 보호' 라는 벽을 넘어야 한다.


혁신의 여정(Paths of Innovation)


  미국 20세기의 기술의 변화 역사를 연구한 David Mowery 와 Nathan Rosenberg 저자들은 혁신의 여정이라는 제목의 책에서 Abramobitz 와 Solow 학자가 연구한 결과를 언급하고 있다. 19세기 후반부터 20세기 전반까지의 측정된 미국 성장의 결과중 15% 정도만이 측정된 자본과 노동의 성장에 기인한다는 것이다. 놀랍게도 이는 20세기 미국 경제 성장의 85%는 경제 구성단위인 자본과 노동의 입력만이 아닌 다른 그 무엇이 작용함을 뜻했고 학자들은 그 원동력이 기술의 혁신에서 기인하다고 생각했다. Kuznet 과 Burns 이 둘의 학자들 역시 1930년대에 새로운 제품의 생산으로 인해 기술의 혁신이 종종 새로운 산업을 창출한다고 지적했다.
우리는 종종 기술의 혁신이 새로운 산업과 새로운 직업을 창출하는 것을 목격해왔다. 기술의 혁신은 종종 우리의 생각의 범위를 넘어 발전하는 경우가 많다. 과거 3주가 걸리던 계산이 15분만에 끝나고 2억페이지분량의 정보를 검색해서 10초안에 질의에 응답하는 기술이나 실시간으로 오는 백만giga byte 분량의 정보를 micro second 내에 처리하는 능력등은 과거에 생각지 못했던 기술들이다. 어쩌면 빅데이타가 일시적 유행에 불과할 수도 있을지 모르지만 글쎄, 기술혁신의 여정이라는 측면에서 보면 우리가 생각하는 어느 시점보다 빠르게 우리 주위에 도래해 있을수도 있을 것이다. 마치 여러 글로벌 IT 업체들이 그렇게 애썼던 비디오 온 디맨드 서비스가 어느날 갑자기 우리집 안방에 떡하니 통신사들의 TV vod 로 나타날 때 처럼 말이다.


***여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다

2012년 2월 18일 토요일

빅데이타 세상을 바꾸다

빅데이타 세상을 바꾸다 (Big Data, Change the World)


KBS 1TV 시사기획 '창' 방송

작년 4사분기부터 시장에서 빅데이타(Big Data) 에 대해 고객들의 관심이 높아지고 있다. 한 컨퍼런스에서 생각보다 많은 고객들이 전시된 Booth 에 와서 많은 질문을 던지는 것을 보았다. 그때가 10월이었는데 그 이후로 빅데이타에 대하여 나도 놀랄만큼 언론이나 업체에서 많은 얘기들이 오갔다. 올해는 빅데이타의 3V 라고 일컫는 Volume, Velocity 그리고 Variety 에 대해 실질적인 고객사례를 보여주는 한해가 될 것으로 업계는 내다보고 있다. 이러한 가운데 KBS 1 TV 시사기획 창' 에서 '빅데이타, 세상을 바꾸다" 라는 제목으로 50분 가량의 방송물이 방영되었다. 전 세계 기업들의 빅 데이터 활용 사례와 공공 등 여러 부분에서의 적용 사례, 앞으로의 전망 등을 살펴보고 2012년 한국 사회가 진화하고 성장하는 데 필요한 해답을 빅 데이터(Big Data)에서 찾는 것으로 소개하고 있다. 여기를 눌러 시청할 수 있다.


오늘 받아본 조선일보 2월 19일자 일간지에도 한 업체의 빅데이타 광고를 볼 수 있었다.

미숙아 생리학 데이타 스트림 모니터링을 통한 신생아 심폐정지 예측



빅데이타가 세상을 바꿀지는 두고 볼 일 이지만 예를 들어 온타리오 대학에서 신생아의 fatal sign 즉 사망에 이를수 있는 위험 신호를 몸에 부착한 센서등을 통하여 숙련된 간호사보다 최대 24시간 이전에 이상 신호을 감지하여 위험을 방지할 수 있다는 내용등은 일반 업체에 몸담은 사람들이 설파하는 내용보다 언론의 감성적인 화면이 훨씬 어필하고 이해도 쉽게 된다는 것을 알게되었다. 여기에는 어느 한 여의사의 미숙아를 병원에서 만나면서 부터 시작하는 애절한 이야기가 숨겨져있다. 집요한 노력끝에 신생아의 몸에 부착된 센서로 부터 오는 정보 즉 생리학 데이터 스트림의 실시간 분석 및 상관관계 분석: 혈압, 체온, 심전도, 혈중 산소 포화도 등으로 부터 생명을 위협할 수 있는 잠재적인 상황을 조기에 감지함으로써, 현재의 의료장비보다 최대 24시간 전에 중환자실에 있는 숙련된 간호사 보다 조기에 위험 상황을 감지하여 조기 개입이 환자의 사망률을 저하시키고 장기적인 증상 개선을 도모함은 물론 스트리밍 기술을 통해서 의료진의 새로운 임상 가설을 검증하는 것도 가능하다는 것이다.

이는 과거 데이터에 대한 분석이 아니라 지금 현재진행형으로 발생하는 이벤트를 감지하고 미리 이상 발생을 예측 할 수 있음을 뜻한다. 스트리밍기술이란 주가나 기후변화등과 같이 실시간으로 날라오는 데이타들을 Microsecond 의 시간범위내에서 data mining 이 일어남을 의미한다. 특징은 데이타를 저장하고 이를 분석하는 전통적인 data warehousing 등의 분석과 달리 저장을 하지않고 날라오는 데이타의 주요 데이타를 중심으로 분석하고 나머지는 버린다는 점이다.


빅데이타의 특성 3V


빅데이타에서 얘기하는 3V 란 크기(Volume), Velocity(속도) 그리고 Variety(다양성) 을 의미하는데, 폭발적으로 증가하는 데이타의 크기 감당하며, 실시간 속도로 분석이 용이하며 그리고 정형.비정형의 유투브, 파일, 소셜미디어등의 다양한 데이타를 다룰 수 있음을 의미한다. 페이스북은 매일 10 terrabyte 의 정보를 생성하며 (terrabyte 는 1000 gigabyte 를 뜻함) 분석보고에 의하면 2009년 80만 Petabyte 의 정보 ( Petabyte 는 백만 gibabyte 이다) 가 2020 년에는 35 Zettabyte (Zettabyte 는 1조 gigabyte 이다) 에 이른다고 한다. 10년 안에 44배의 정보의 증가가 예상되는데 반해, 3명중 1명의 비즈니스 리더는 정보가 없는 상태거나 신뢰할 수 없는 정보기반에서 의사결정을 한다고 한다.


한국IBM 의 빅데이타 관련 행사











이와 관련해서 2월 22일 (수) 삼성동 그랜드 인터컨티넨탈 호텔에서는 한국IBM 이 주최하는 "Information On Demand Comes to you 2012 Korea" 행사가 Big Data 를 주요 테마로 펼쳐진다. 이에 관한 정보나 참가등록은 여기를 눌러 볼 수 있다.

작년에 미국의 퀴즈쇼 'Jeopardy" 에 IBM 의 Watson 이라는 컴퓨터가 세계최고의 퀴즈쇼의 달인 2명과 경쟁에서 이긴 일이 있었다. 여기에도 Watson 이라는 massively parallel system 에 지식기반을 구축하기 위해 빅데이타 기술이 적용되었다. 여기에는 IBM 유닉스컴퓨터의 CPU 에 해당하는 연산장치가 병렬컴퓨터엔진으로 사용되었고 Terabyte 의 저장장치와 맞춤 알고리즘이 필요했다. 이떄 Watson은 저장장치로 부터 읽어 온 정보를 메모리에 로드하는데 걸리는 부하를 분산하기 위해 아파치의 하둡 이라는 개방형 프레임워크를 사용하였다. 하둡은 구글의 분산파일시스템을 기반으로 개방형 표준단체인 아파치가 오픈소스 프로젝트로 발표한 개방형 분산파일시스템으로 대용량의 데이타를 신속하게 처리하는 파일시스템이다.


Watson 과 빅데이타


Jeopardy 퀴즈쇼의 경우 약 2억 페이지 분량의 문자가 검색되어 로드되었다고 한다. 이러한 Watson의 컴퓨팅 기술은 빅데이타의 advanced analytic 분야에서도 통찰력을 얻는데 사용될 수 있을 것으로 보인다. POS 데이타나, CRM 그리고 소셜미디어로 부터의 데이타로 부터 걸러진 정보를 통해 개인의 소비습관이랄지, 소셜에서의 관계, 구매행태등의 통찰력을 얻는데 사용될 수 있을 것이다. 점차 더 나아가 보험회사에서의 보험사기에 대한 정보 그리고 고객이 상품의 웹사이트를 탐색하는 정보를 기반으로한 cross-sell 및 up-sell 정보 제공등의 진보한 분석에 근거한 보다나은 의사결정에 통찰력을 얻는데 이러한 빅데이타가 사용될 수 있을 것이다.


주위에 만나본 고객들은 빅데이타에 대하여 어떻게 사용해야 하는지에 대해 물어온다. 그다음 질문은 투자할 만한 가치가 있느냐 이다. 내 생각으로는 이러한 통찰력이 절대적으로 필요한 수요를 중심으로 참조사례가 만들어지기 시작해야 보고 판단할 거리가 생길것으로 보인다. 상당수의 기업들이 현재 면밀히 검토를 하고 있기 때문에, 기업에서의 경쟁력으로 인식되는데는 조금 시간이 걸릴것으로 생각되지만 아마존의 예에서 보듯이 먼저 움직인 업체는 분명히 first mover advantage 를 누릴 것으로 보인다. 따라서 이러한 득실을 계산하기도 전에 경쟁에 뒤지지 않기위해 곧이어 뛰어드는 동종업체들이 있으리라 생각된다. IBM 의 경우도 100개가 넘는 참조사례를 이미 가지고 있고 이러한 응용분야는 실로 다양해서 외국의 응용사례를 보고 공부하고 검토해서 한국에 적용해야겠지만, 한편 규모의 경제라는 측면에서 미국과는 어느정도의 시차를 가지고 사례가 만들어지지 않을까 하는 생각이 조심스럽게 드는 것도 사실이다. 언젠가는 이러한 시대가 올 것이라는 생각은 막연히 했지만 18년전 데이타베이스 전문위원으로 데이타웨어하우징과 BI 프로젝트를 할때와 비교하면 데이타로 부터의 진정한 통찰력이라는 인지한계를 몸으로 실감하기 이전에 기술은 이미 저만치 눈앞에서 우리의 상상을 넘어 펼쳐내고 있지 않은가 하는 생각이 든다.


앞에 예에서 보듯이 실시간 정보로 부터 예전에 보지 못했던 신생아의 사망을 예견하는 곳에 쓰인다는 점이 어떤면에서는 정보취득의 중요성이 점점 더 사회적으로 중요해 질 수 있다는 뜻일테고 그런 의미에서 KBS1 TV 에서 "빅데이타, 세상을 바꾸다" 라고 타이틀을 걸었는지 모르겠다. 글쎄 세상을 바꾸는 일에 조금이라도 공헌할 수 있다면...얼마나... 신나고... 좋은 일일까?



*** 여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다.