페이지

2012년 12월 6일 목요일

지능정보시스템학회 빅데이터 기조연설

지능정보시스템학회 기조연설


내일 12월 7일 서울대학교 수펙스 경영관에서 지능정보시스템 추계학회에서 "빅데이터 세상을 바꾸다"라는 주제로 기조연설을 하는 영광을 얻었다.  바로 앞에는 엑센츄어코리아의 박영훈대표께서 "기업가치제고를 위한 빅데이터 활용방안"이라는 기조연설을 한다.

이번에는 IBM 의 Academic Initiative 에 대해서도 얘기하려고 한다.  2011년 5월 맥킨지의 New Global Institute Report 에 의하면 2018년까지 분석전문가가 미국에서만 14~19만명이 모자를 것으로 예상하고 있다. IBM 에서는 분석의 폭넓은 범위를 감안할때, (예컨데 낮은 단계인 서술적 분석부터, 예측적 더 나아가 규범적(prescriptive)인 단계까지) Service Science, Smarter Planet, 분석 및 산업적 지식을 통합할 수 있는 넓고 깊은 T-shaped 소양을 가진 탤런트를 육성하기 위하여 그동안 IBM 채용해오던 학교의 범위를 넘어 200개가 넘는 전세계 대학들과 접촉하여 현재 30개가 넘는 대학들이 계약을 체결하였고 향후 NorthWestern Engineering  대학등 추가적으로 대학들이 계약될 예정이다.




Streaming Computing

 아울러 Data at Rest 와 Data in Motion 이 양쪽 영역에서의 분석을 통해 새로운 비즈니스 기회를 찾는 사례들을 공유하려고 한다. 이렇게 소위 Streaming Computing 이라는 기술을 통하여 실시간으로 날라오는 비정형데이터들을 Streaming Processing Language  이라는 언어를 통하여 메모리상에서 여과, 분류, 매팅을 수행하고 조건에 맞는 데이터만 저장함으로써 막대한 데이터를 유지하지 않는 비용절감 대책의 새로운 분석 기술이 등장하고 있다. 즉 전통적 컴퓨팅은 디스크에 저장된 정보 발견 및 분석인데 반해, 스트리밍 컴퓨팅은 움직이는 데이터의 분석으로 저장되기 전에 이루어지는 특징이 있다.

Social Media Micro-Segmentation 과 실시간 상관관계


IBM  의 Infosphere Streams  를 통하여 실시간 움직이는 데이터를 분석하고 또한 Infosphere Big Insights 를 통하여 저장된 데이터를 분석하여 Streams  과 BigInsights 의 공통분석 인프라를 통한 진보된 텍스트분석, 실체(entity)통합 과 예측 모델링이 가능하다. 즉 SNS 에서 발생한 어느 event 에 대해 회사내에 저장된 정보와 entity resolution 을 통해 SNS 상의 event  인물과 회사내의 정보의 사람과 동일인 인지등을 찾아낼 수 있다. 즉 IBM 은 움직이는 데이터와 저장된 데이터 양쪽의 정보를 분석할 수 있는 공통 분석 인프라 이 양쪽을 모두 지원할 수 있는 기술적 역량을 갖추고있다.

IBM Machine Learning 기술

IBM 은 항공으로 찍은 사진들로 부터, 예를 들면 스키를 타는 장면을 기계에 훈련시키면, 정확히 스키타는 장면을 분별해 내는 기술을 개발한 바 있다. 아울러 1000 개의 MP3 곡중에서 'zero' 라는 단어가 들어간 음악을 찾아낼 수 있다고 한다. 이러한 기술은 콜센터의 녹취된 내용등에서 어떤 특정 단어가 녹음 된 레코드를 찾아낼 경우에 유용하게 사용될 수 있다.

***여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다

2012년 10월 25일 목요일

빅데이터를 활용한 개별고객 이해 -1

지난 10월 19-20일에 CIO 와 CMO 분들을 모시고 개별고객의 이해라는 주제로 강연을 하게되는 기회를 가졌다. 아래에 Forbes Korea 11월호에 개재된 내용을 첨부한다. 아래는 1 page 내용이다.

빅데이터를 활용한 개별고객의 이해 - 2

지난 10월 19-20일에 CIO 와 CMO 분들을 모시고 개별고객의 이해라는 주제로 강연을 하게되는 기회를 가졌다. 아래에 Forbes Korea 11월호에 개재된 내용을 첨부한다. 아래는 2 page 내용이다.

***여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다

빅데이터를 활용한 개별고객의 이해 - 3

지난 10월 19-20일에 CIO 와 CMO 분들을 모시고 개별고객의 이해라는 주제로 강연을 하게되는 기회를 가졌다. 아래에 Forbes Korea 11월호에 개재된 내용을 첨부한다. 아래는 3 page 내용이다.


***여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다

2012년 4월 22일 일요일

일요일의 小考

토요일은 아침에 조금 바쁘다. 어느 일간지의 토.일섹션을 읽는 시간이 조금 오래 걸리기 때문이다. 어제도 다 읽지 못하고 일요일에 조금 일찍 일어나 호젓하게 일독하는 호사를 하고있다. 스티브잡스의 전기를 읽을 때 전기를 집필한 윌터 아이작슨이라는 사람이 균형잡힌사람일 거라고 생각들어 관심이 갔는데, 요번주 토일섹션에 잠시 지면으로부터 작가의 생각을 읽을 수 있었다.

 윌터 아이작슨이 잡스와 Whole Foods 에서 스무디를 주문했을때의 일화를 소개하는데, 직원의 동작이 굼뜨자 스티브가 온갖 모욕적인 말로 그 직원을 비난하는 것을 보고 작가는 나는 절대로 아이폰을 발명하지도 못하겠지만, 수퍼마켓에서 스무디를 만드는 직원에게 화를 내지도 않을 것이라고 말한다. 이 작가는 하버드대와 옥스퍼드대를 졸업하고 타임지 편집장과 CNN 대표이사를 지냈고 30년 가까이 저널리스트로 일했다고 한다. 작가의 아버지는 전기 엔지니어로 매우 점잖고 도덕적인 분이었고 과학과 예술, 특히 음악을 사랑하셨으며 누구나 과학과 엔지니어링을 알아야 한다고 믿었고, 작가에게 과학에 감사하는 법을 가르쳐 주었다고 한다. 작가는 벤저민 프랭클린, 아인슈타인 그리고 헨리 키신저의 전기를 썼는데 신문에서 인터뷰한바에 의하면, 이들의 공통점은 작가의 표현을 빌리면, 모두 창의적이고 상상력이 풍부한 사람들이었다고 한다.

 작가 아이작슨은 단지 똑똑한(smart)’ 게 아니라 창의적이고 독창적인(creative and ingenious)’ 사람에게 관심을 갖는다고 말한다. 작가는 잡스를 토머스 에디슨, 헨리 포드, 월트 디즈니와 나란히 미국 역사의 전당에 설 인물이라고 표현한다. “그들은 모두 새로운 것들을 발명했습니다. 그들은 모두 상상력이 풍부했습니다. 스티브가 말한 것처럼 다른 것을 생각했고(think different) 다르게 생각했습니다. 산만하지 않고 무엇이든지 단순화해서 집중했던 사람들입니다.”

 작가는 스티브 잡스는 참을성이 부족하고 종잡을 수 없는 사람이었지만, 점점 더 현명해진 사람이기도 했다고 말한다. ()와 예술에 대한 사랑을 테크놀로지에 대한 사랑과 결합하려고 애쓴 사람, 무엇인가 완벽하게 창조하려 했던 사람…, 그것이 우리가 스티브의 인생에서 배워야 할 교훈이라고 말한다.

 페이지를 넘기니 왠지 이름이 낯설지 않은 톱 이코노미스트 앤디 시에 박사의 세계 경제 진단이라는 기사가 눈길을 끈다. 시에 박사는 일본 경제의 추락이 정치체제의 경쟁력 부재로부터 기인한다는 의견을 피력한다, 인재를 등용할 때, 능력 있는 사람보다 자기가 좋아하는 사람, 즉 자기보다 능력이 떨어지는 사람을 주로 써왔다는 것이다. 지금 중국도 마찬가지라고 한다. 문화혁명 후 1978년에 대학 입시가 부활됐을 때, 당시 인재 발탁은 완전히 공평했다고 한다. 극소수의 대학 졸업 엘리트들이 정부와 국유기업에 들어가 일했다. 하지만 지금은 말 잘 듣고 성실한 후배만 발탁한다. 일본과 중국이 서로 닮은 점은 아무도 결정하지 않고 아무도 결정하길 원하지 않는다라고 말한다.

시에 박사는 미국이 초강대국 지위를 잃을 수 있다고 지적하며, 미국 국내 문제를 봐야 한다며, 핵심적인 것은 일부 극소수가 특출한 경쟁력을 갖고 있을 뿐 대다수의 미국인들의 경쟁력이 없다고 말한다. 로마제국 사례를 보듯, 초강대국은 내부 문제로 무너진다. 미국에서 소득이 높은 사람은 금융인들과 변호사들인데 모두 가치를 창조하는 사람들이 아니다. 중국과 미국의 성공 여부는 내부 개혁에 달려 있다고 말한다.

기업가정신이 충만한 혁신적 리더를 그리며

일요일 새벽, 이 두가지 글들을 읽으며 이런 생각이 들었다. 미국의 극소수가 특출한 경쟁력을 가지고 있는 배경에는 뛰어난 재능도 재능이지만 인생을 우리 모두 여기에 잠깐 머물다 가는 것으로 인식하고 선대의 사람들이 이룩해놓은 것을 거저 얻어서 쓰다가 후대를 위해 뭔가를 이루어 놓는 다는 생각….이러한 생각을 몸소 편집증 환자 만이 살아남듯이실천하는 기업가 정신이 충만한 혁신적 리더들의 존재로 부터 오는 것이 아닐까 하고 말이다.

다른 것을 생각했고(think different) 다르게 생각하며 무엇보다도 고도의 집중력으로 산만하지 않고 단순화해서 집중했던 사람들이 추구하고자 했던 것, 창의적이고 독창적인 가치를 만드는 선구자들이러한 가치는 엔시 박사가 언급했듯이 선진국으로 이양되는 과정에서 필연적으로 부의 혜택을 누리게 되는 변호사나 금융인들 보다는 창의적이고 독창적인기업가(entreprenure) 들, 과학자, 엔지니어들에 의해 개척되는 것이다.
 삶자체를 단순화하고 집중했던 사람들이 이루고자 했던 비전이 일상의 status quo 와 부닥칠 때 느끼는 좌절과 스트레스를 상상하면 스티브 잡스가 일갈한 “stay hungry, stay foolish” 는 그의 드라마틱한 삶 그 자체만큼 우리에게 이 짧은 생을 어떻게 살아야 하는 지를 단순하지만 명료한 짧은 단어로 설파하고 있다.

자기 자신을 돌아보게 했던 말 “ stay hungry, stay foolish” 가 일요일의 느슨함과 함께 나태해 있던 내 가슴속에 다시 공명되어옴을 느끼는 새벽이다.

2012년 3월 21일 수요일

빅데이타가 주는 기회

향후 10년간 지금보다 44배 데이타가 증가

  이렇게 폭발적으로 증가한 데이타는 2020년에 35 Zettabyte 가 될 것이라 한다. Zettabyte 는 1조 Gigabyte 를 의미한다. 새벽 3시40분 부터 보기 시작한 뉴욕 그랜드 하얏트호텔에서의 IBM Smarter Analytic Leadership Summit 의 simulcast 가 끝났다. 창밖에 날이 밝아온다. 예전엔 webcast 라고 하더니 이젠 simulcast 라고 한다. 아마 내가 본 건 조금 늦어서 replay 가 아닐까 한다. 영어로 청취하는데 괜챦으신 분들은 http://bit.ly/y1D605 를 눌러서 등록하시고 보시면 된다. 1시간40분 Summit 행사가 생중계되어 Big Data 가 가져다주는 기회에 대해 관심이 있는 사람은 뉴욕으로부터 최근 동향을 듣는 의미가 있다.

기업 데이타에서 빅데이타로 분석영역이 확장되고 있다


Volume

  매일 12TB 의 트위터가 생산되고 있다. 스마트그리드는 일년에 3조5천개의 미터가 읽혀지고 있다. 이러한 볼륨(크기)의 문제는 이제 더이상 새로운 얘기가 아니다.

그런데 이러한 데이타의 증가가 어느 기업은 골치덩어리가 되는 반면 어느 기업은 기회로 다가오고 있다. 이 광활한 데이타에서 마치 원유를 찾아내듯이 생산성과 경쟁력에 활용하는 기업이 있다. 예를 들면, 마케팅에서 고객의 요구를 파악하기 위해 FGI (Focus Group Interview) 나 설문지등을 그동안 사용했지만, 실제 고객의 심연에 생각하고 있는 바를 이러한 도구로 잡아낼 수 있을지는 사실 오래전 부터 의문시 됐던 문제다.

  소셜미디어에 비교적 일상적인 얘기를 친한 사람들에게 사심없이 들어내놓는 장점에 주목하면, 만약 이러한 트위터의 정보로 부터 고객의 선호도나 제품에 관한 불만 등(sentiment analysis) 을 알아낼 수 있다면 제품개발이나 브랜드 관리에 유용하게 대처할 수 있지 않을까?  마찬가지로 스마터그리드의 미터기로 읽혀진 정보를 통해 기후 변화에 따른 전력사용량을 예측할 수 있으며 수요 대비 공급에 대한 예측과 조치를 통해 전력량의 적절한 배분과 최적화를 도모할 수 있지 않을까?

Velocity

  현재 IBM Real Time Analytic Processing 기술은 초당 1144만개의 메세지를 분석할 수 있다. 이는 예컨데 주식시장에서 어떤 event 가 발생하여 주식을 살지 말지 결정하는데 0.00013초면 충분하다는 것을 뜻한다. 즉 속도다. 동시에 이러한 속도는 카드회사에서 카드오용을 방지하는데 사용하기도 한다. 이경우 카드사기범의 패턴이 기존 사용자와 다른 유형을 보임을 판별하는데 있어서, 광범위한 테이타를 신속하게 분석하는 능력이 요체다.

  통신시장을 보자. 유선통신시장의 경우 하루에 5백만 통화내역(CDR:Call Detail Records)이 저장된다. 무선통신이 통화중 갑자기 끊어지는 것을 분석하기위해 이러한 데이타를 거의 상당부분 분석해야하며 실시간 요금청구의 경우는 엄청난 분석처리능력을 요한다. 최대 통신사의 경우 IP 기반의 무선인터넷 데이타는 초당 500K, 매일 60억 건의 IPDR(Internet Protocol Detail Records) 이 발생한다. 무선중계기가 용량을 못이겨 drop 될 경우 근처의 다른 중계기로 부하를 감안해 재 routing 해주기 위해서는 call record 의 분석이 요구된다. 아울러 통화품질등의 사유로 고객이탈 이유를 분석하는 것 역시 빅데이타를 다루어야 한다. 이역시 속도의 문제다.

Variety

  서울에만 300만개의 CCTV 가 있다고 한다. 뉴스에서 자주 보듯, 통상적으로 범죄가 발생한 경우 CCTV 분석을 통해 사후에 범인을 잡기도 한다. 미국 로체스터 경찰서와 시카고시의 경우  CCTV 에 나타나는 패턴을 사전에 실시간으로 분석하여 범죄가 구성되는 조건이 되면 이를 사전에 경고로 알려주는 시스템을 통하여 범죄예방효과를 톡톡히 보고 있다. 여기에 사용되는 기술이 스트리밍 컴퓨팅이다. 이는 CCTV 나 병원의 계측기들 혹은 자동차의 GPS 나 공장의 센서등에서 나오는 실시간의 엄청난 데이타를 실시간으로 분석처리하는 기술이다.  예를 들면, 스웨덴의 우주물리 연구소(IRF)의 경우 초당 6 Giga Bytes, 시간당 21.6 TB 의 날씨데이타를 분석하여 구름의 이동경로와 영향도를 예측한다.

 이렇듯, 앞으로 폭발적으로 증가가 예산되는 데이타의 80%는 동영상, 계측장비나 센서로 부터의 데이타, 음성, 소셜 미디어 같은 소위 비정형적인 데이타이다.  향후 폭발적으로 늘어나는 데이타중 80% 인 이러한 비정형데이타를 - 그 광범위한 자료를 - 어떻게 다룰지가 큰 과제다. 즉 정형의 데이타뿐 아니라 이러한 비정형데이타를 포함한 즉, 다시 말하면 다양성(Variety)의 데이타를 어떻게 다룰지가, 이 빅데이타의 위기이자 향후 기회의 영역인 것이다.

Watson 을 상용화된 헬스케어 예측분석에 사용

  한국에는 방영되지 않았지만, 미국에는 Jeopardy 라는 TV 퀴즈쇼가 있었다. IBM 의 인공지능 슈퍼컴퓨터 왓슨(Watson)이 미국 TV 퀴즈쇼 '제퍼디(Jeoperdy)' 에 출전해 전설적인 퀴즈달인들인 켄 제닝스와 브래드 루퍼를 제치고 3일간의 접전에서 퀴즈왕에 오른 일이 있었다. 여기를 보시면 관련 동영상을 보실수 있다. 왓슨의 서적 백만권의 가치가 있는 2억 페이지의 컨텐츠를 보유하고 있다고 평가되고 있다. 인간의 미묘한 언어를 이해하고 관련 데이타를 초당 80조의 연산능력으로 처리한다. 놀라운일은 인간의 자연언어의 복잡함을 이해하고 퀴즈를 3초안에 풀어낸다는 점이다.

  퀴즈쇼 우승이후 이것이 산업에 시사하는 점에 주목했다. 소위 Q&A 시스템으로 불리는 왓슨은 이제 헬스케어 분야에서 전문의가 보유하는 모든 지식에 더해, 최근의 의학 논문 그리고 그때 당시의 환경데이타, 뉴스, 날씨 등등의 정보들로 부터 질병을 예방하고 치료하는 곳에 쓰이게 되었다.

 텍사스에서 가장 우수한 의료시스템을 갖춘 의료기관이자, 미국에서 통합 의료 시스템을 가진 100개 병원중 하나인 Seton 헬스케어 그룹은 지난 10월부터 상용화된 Watson 의 헬스케어 시스템을 도입하고 있다. 환자가 미래에 겪을 수 있는 질환이나 증상을 환자의 진단 기록, 가족력, 보험 청구기록, 의학논문 등등의 주변자료로 부터 통합하여 분석함으로써 환자가 병원에 오지 않아도 근처 내과에서 Watson 에게 질의하면 예방적 조치나 치료를 도와줄 수 있는 통합되고 확장된 예방진단 서비스를 제공하려고 한다. 심부전증으로 6개월 안에 병원을 다시 찾는 환자가 50% 에 달한다고 한다. 텍사스시의 경우 이러한 예방진단을 서둘러 도입하지 않으면 5년안에 1200개의 병동이 필요하며 약 10억5천만원의 추가 병원 증설이 필요하다고 한다. 여기를 보시면 3분짜리 동영상을 통해 Seton 의 관계자들의 이야기를 들을 수 있다.

  눈치빠른 분들은 이미 아셨겠지만 Watson 은 향후 이러한 대용량의 전문지식을 통해 해답을 제공해 줄 수 있는 분야, 예를 들면 정부 민원 정보, 법률 서비스, 콜센터 더 나아가서 금융분야의 거래관련 처리등에 활용될 수 있고 검토되고 있다. 하지만 이러한 자연어의 이해를 통한 고급분석이 잘 맞는곳이 있고 그렇지 않은 곳이 있다. 예를 제품개발이나 디자인같은 분야는 창의력이나 독창성을 요구하는 분야인데 Q&A 전문가시스템 적용에 맞지 않는다.

  글쎄, 국내에서 이러한 응용분야가 어디서 나올지 모르겠지만, 이는 기존사례로 부터의 cross-pollination (상호교환)이 필요한 분야라서 세계적인 혁신 아이콘인 IDEO의  Tom Kelly 전사장이 Ten Faces of Innovation 책에서 언급하듯이 관찰과 모방을 통하여 혁신을 이루어나가야 하는 분야가 아닐까 한다.


***여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다

2012년 2월 25일 토요일

빅데이타 행사 후기

미래의 키워드 vs 일시적 유행어

어제(2012년2월24일 금요일) 어느 일간지를 보니 Digital Biz 섹션에 빅데이타관련 기사가 눈에 띄었다. Big Data 이젠 미래의 키워드로 라는 제목에 "IBM과 구글의 번역 프로그램 대결은 빅 데이터 시대를 보여주는 대표적 사례다. 지난 40년 동안 IT 전문가들은 컴퓨터가 명사·동사·형용사 등 단어를 맥락 속에서 인식하고 번역해내는 프로그램을 개발하기 위해 노력해왔다. IBM과 구글이 대표 기업이었다. 두 회사는 전문가들이 번역한 문서를 데이터베이스에서 통계적으로 분석해 번역 패턴을 만들 수 있다고 생각했다." 라는 기사가 눈에 띄었다.

또 같은 섹션의 다른 컬럼에서는 유비쿼터스 e비즈니스 웹 2.0처럼... 일각에선 일시적인 유행어에 불과하다는 지적도 라는 제목이 있고 "다만 빅 데이터 시대의 주도권을 누가 잡을지에 대한 의견은 분분하다. IBM 같은 시스템 분석 회사가 될지, 구글·애플·아마존·페이스북 등 소비자들의 정보를 직접 모으는 기업이 될지 모른다". 라고 기사화되어있다.

한국IBM 빅데이타 관련 행사


지난 22일에는 한국IBM 이 주체하는 빅데이타관련 행사가 있었다. 그랜드인터컨호텔에서 오후 2시부터 시작된 기조연설에는 IBM 실리콘밸리 연구소의 수석 엔지니어이자 기술 임원인 Stephen Brodsky 박사가 "Turning insight into Action"이라는 주제로 발표가 있었다. 여기에서는 빅데이타의 관리가 필요하게 된 배경과 빅데이타로 특징 지워지는 3V 에 대한 설명 그리고 미국의 퀴즈쇼 "Jeopardy" 에서 퀴즈왕과 대결을 벌인바 있는 '왓슨' 에 대한 소개와 Big Data 로의 활용 그외에 실제사례들로 캐나타 토론토의과대학에서 미숙아의 조기 위험감지에 사용된 사례, 소셜미디어에서 사용된 사례등의 내용이 소개되었다. 왓슨에 대한 비디오 와 토론토대학의 미숙아 관련 비디오 도 기조연설중에 소개되었다. 이외에도 오전에는 기자회견이 있었고 많은 기자분들이 참가했다.

Vestas 풍력발전용 터빈 위치선정에 Big Data 가 활용된 사례

그리고 유렵의 Vestas 사가 풍력발전을 위한 터빈 위치 선정에 Big Data 가 활용된 사례를 소개하였다. 관련 비디오는 여기에 있다. 유럽은 2020년까지 20%를 재생에너지로 해야하는데 이를 위해 Vestas사는 풍력발전을 위한 최적의 장소를 찾기위하여 약 3,5000개의 전세계 기상 측량 정보 송신으로 부터 정보를 분석한다고 한다. 이 양은 2.8 Peta Byte (Peta Byte 는 백만 Giga Byte 에 해당) 에 해당하고 이는 향후 200 Peta Byte 까지 늘어날 것으로 예측한다고 한다.
이렇게 여러 경로부터 취득되는 기상관련 정보로 부터 약 18 ~ 24 Peta Byte 정보를 한번에 분석하는데 이는 70년간의 HD Video 정보를 합쳐 놓은 것과 같다고 한다. IBM 의 하둡기반의 Big Data 엔진인 Infosphere Big Insight 를 사용하는데 과거 3주 걸리던 분석이 이제 15분 만에 처리가 가능하다고 한다.


  당신이 뭘 좋아하는지 기업은 알고 있다

한편 위의 행사와는 별도로 23일자 중앙일보에는 "집으로 날아온 화장품 샘플 … 내가 건성피부인지 어떻게 알았지?" 라는 제목으로 아모레퍼시픽이 고객들의 소위 화장대지수라는 것을 만들게 된 배경을 소개하고 있다. 아모레퍼시픽은 백화점·마트·전문매장·인터넷 같은 유통 채널별로 운영되던 멤버십 카드를 2008년 통합했고 고객들의 구매 이력을 3년간 차곡차곡 쌓았다고 한다. 기존 시스템으론 저장조차 힘들 만큼 데이터 양이 늘자 지난해 한국IBM과 손을 잡고 본격적인 분석 작업에 돌입했다. 고객세분화를 통해 이러한 고객의 소비성향을 파악할 수 있게 되었다고 한다.

빅데이타시대의 주도권

빅 데이타 시대의 주도권을 누가 잡을지에 대한 의견이 분분하다라는 기사를 보면서 생각해 보았다. 웹을 통한 정보가 범람하는 현대에서 구글 이나 아마존과 같이 소비자의 정보를 모으는 기업이 이러한 통찰력을 기반으로 한 경쟁력에서 우월할 것이라는 것은 짐작할 수 있다. 하지만 몇가지 예에서 보듯이 적용되는 산업은 소비자 정보기반의 통찰력의 범위를 넘어 거의 모든 산업에서 적용될 수 있다. 다만 우리들의 상상력의 한계가 어떤 분야에 어떻게 사용될 수 있을지를 제약하고 있는 것은 아닐까 하는 생각을 해 보았다. 조숙아의 몸에서 나오는 센서로 부터의 정보 라든지 그리고 풍력터빈설치를 위해 전세계 3만5천개의 기상정보 원천으로 부터의 정보를 분석하여 최적의 의사결정을 하는 것등은 웹을 통한 정보의 분석 차원을 넘는 것이다. 물론 이러한 웹이나 소셜미디어로 부터의 정보를 분석하려면 '개인 정보 보호' 라는 벽을 넘어야 한다.


혁신의 여정(Paths of Innovation)


  미국 20세기의 기술의 변화 역사를 연구한 David Mowery 와 Nathan Rosenberg 저자들은 혁신의 여정이라는 제목의 책에서 Abramobitz 와 Solow 학자가 연구한 결과를 언급하고 있다. 19세기 후반부터 20세기 전반까지의 측정된 미국 성장의 결과중 15% 정도만이 측정된 자본과 노동의 성장에 기인한다는 것이다. 놀랍게도 이는 20세기 미국 경제 성장의 85%는 경제 구성단위인 자본과 노동의 입력만이 아닌 다른 그 무엇이 작용함을 뜻했고 학자들은 그 원동력이 기술의 혁신에서 기인하다고 생각했다. Kuznet 과 Burns 이 둘의 학자들 역시 1930년대에 새로운 제품의 생산으로 인해 기술의 혁신이 종종 새로운 산업을 창출한다고 지적했다.
우리는 종종 기술의 혁신이 새로운 산업과 새로운 직업을 창출하는 것을 목격해왔다. 기술의 혁신은 종종 우리의 생각의 범위를 넘어 발전하는 경우가 많다. 과거 3주가 걸리던 계산이 15분만에 끝나고 2억페이지분량의 정보를 검색해서 10초안에 질의에 응답하는 기술이나 실시간으로 오는 백만giga byte 분량의 정보를 micro second 내에 처리하는 능력등은 과거에 생각지 못했던 기술들이다. 어쩌면 빅데이타가 일시적 유행에 불과할 수도 있을지 모르지만 글쎄, 기술혁신의 여정이라는 측면에서 보면 우리가 생각하는 어느 시점보다 빠르게 우리 주위에 도래해 있을수도 있을 것이다. 마치 여러 글로벌 IT 업체들이 그렇게 애썼던 비디오 온 디맨드 서비스가 어느날 갑자기 우리집 안방에 떡하니 통신사들의 TV vod 로 나타날 때 처럼 말이다.


***여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다

2012년 2월 18일 토요일

빅데이타 세상을 바꾸다

빅데이타 세상을 바꾸다 (Big Data, Change the World)


KBS 1TV 시사기획 '창' 방송

작년 4사분기부터 시장에서 빅데이타(Big Data) 에 대해 고객들의 관심이 높아지고 있다. 한 컨퍼런스에서 생각보다 많은 고객들이 전시된 Booth 에 와서 많은 질문을 던지는 것을 보았다. 그때가 10월이었는데 그 이후로 빅데이타에 대하여 나도 놀랄만큼 언론이나 업체에서 많은 얘기들이 오갔다. 올해는 빅데이타의 3V 라고 일컫는 Volume, Velocity 그리고 Variety 에 대해 실질적인 고객사례를 보여주는 한해가 될 것으로 업계는 내다보고 있다. 이러한 가운데 KBS 1 TV 시사기획 창' 에서 '빅데이타, 세상을 바꾸다" 라는 제목으로 50분 가량의 방송물이 방영되었다. 전 세계 기업들의 빅 데이터 활용 사례와 공공 등 여러 부분에서의 적용 사례, 앞으로의 전망 등을 살펴보고 2012년 한국 사회가 진화하고 성장하는 데 필요한 해답을 빅 데이터(Big Data)에서 찾는 것으로 소개하고 있다. 여기를 눌러 시청할 수 있다.


오늘 받아본 조선일보 2월 19일자 일간지에도 한 업체의 빅데이타 광고를 볼 수 있었다.

미숙아 생리학 데이타 스트림 모니터링을 통한 신생아 심폐정지 예측



빅데이타가 세상을 바꿀지는 두고 볼 일 이지만 예를 들어 온타리오 대학에서 신생아의 fatal sign 즉 사망에 이를수 있는 위험 신호를 몸에 부착한 센서등을 통하여 숙련된 간호사보다 최대 24시간 이전에 이상 신호을 감지하여 위험을 방지할 수 있다는 내용등은 일반 업체에 몸담은 사람들이 설파하는 내용보다 언론의 감성적인 화면이 훨씬 어필하고 이해도 쉽게 된다는 것을 알게되었다. 여기에는 어느 한 여의사의 미숙아를 병원에서 만나면서 부터 시작하는 애절한 이야기가 숨겨져있다. 집요한 노력끝에 신생아의 몸에 부착된 센서로 부터 오는 정보 즉 생리학 데이터 스트림의 실시간 분석 및 상관관계 분석: 혈압, 체온, 심전도, 혈중 산소 포화도 등으로 부터 생명을 위협할 수 있는 잠재적인 상황을 조기에 감지함으로써, 현재의 의료장비보다 최대 24시간 전에 중환자실에 있는 숙련된 간호사 보다 조기에 위험 상황을 감지하여 조기 개입이 환자의 사망률을 저하시키고 장기적인 증상 개선을 도모함은 물론 스트리밍 기술을 통해서 의료진의 새로운 임상 가설을 검증하는 것도 가능하다는 것이다.

이는 과거 데이터에 대한 분석이 아니라 지금 현재진행형으로 발생하는 이벤트를 감지하고 미리 이상 발생을 예측 할 수 있음을 뜻한다. 스트리밍기술이란 주가나 기후변화등과 같이 실시간으로 날라오는 데이타들을 Microsecond 의 시간범위내에서 data mining 이 일어남을 의미한다. 특징은 데이타를 저장하고 이를 분석하는 전통적인 data warehousing 등의 분석과 달리 저장을 하지않고 날라오는 데이타의 주요 데이타를 중심으로 분석하고 나머지는 버린다는 점이다.


빅데이타의 특성 3V


빅데이타에서 얘기하는 3V 란 크기(Volume), Velocity(속도) 그리고 Variety(다양성) 을 의미하는데, 폭발적으로 증가하는 데이타의 크기 감당하며, 실시간 속도로 분석이 용이하며 그리고 정형.비정형의 유투브, 파일, 소셜미디어등의 다양한 데이타를 다룰 수 있음을 의미한다. 페이스북은 매일 10 terrabyte 의 정보를 생성하며 (terrabyte 는 1000 gigabyte 를 뜻함) 분석보고에 의하면 2009년 80만 Petabyte 의 정보 ( Petabyte 는 백만 gibabyte 이다) 가 2020 년에는 35 Zettabyte (Zettabyte 는 1조 gigabyte 이다) 에 이른다고 한다. 10년 안에 44배의 정보의 증가가 예상되는데 반해, 3명중 1명의 비즈니스 리더는 정보가 없는 상태거나 신뢰할 수 없는 정보기반에서 의사결정을 한다고 한다.


한국IBM 의 빅데이타 관련 행사











이와 관련해서 2월 22일 (수) 삼성동 그랜드 인터컨티넨탈 호텔에서는 한국IBM 이 주최하는 "Information On Demand Comes to you 2012 Korea" 행사가 Big Data 를 주요 테마로 펼쳐진다. 이에 관한 정보나 참가등록은 여기를 눌러 볼 수 있다.

작년에 미국의 퀴즈쇼 'Jeopardy" 에 IBM 의 Watson 이라는 컴퓨터가 세계최고의 퀴즈쇼의 달인 2명과 경쟁에서 이긴 일이 있었다. 여기에도 Watson 이라는 massively parallel system 에 지식기반을 구축하기 위해 빅데이타 기술이 적용되었다. 여기에는 IBM 유닉스컴퓨터의 CPU 에 해당하는 연산장치가 병렬컴퓨터엔진으로 사용되었고 Terabyte 의 저장장치와 맞춤 알고리즘이 필요했다. 이떄 Watson은 저장장치로 부터 읽어 온 정보를 메모리에 로드하는데 걸리는 부하를 분산하기 위해 아파치의 하둡 이라는 개방형 프레임워크를 사용하였다. 하둡은 구글의 분산파일시스템을 기반으로 개방형 표준단체인 아파치가 오픈소스 프로젝트로 발표한 개방형 분산파일시스템으로 대용량의 데이타를 신속하게 처리하는 파일시스템이다.


Watson 과 빅데이타


Jeopardy 퀴즈쇼의 경우 약 2억 페이지 분량의 문자가 검색되어 로드되었다고 한다. 이러한 Watson의 컴퓨팅 기술은 빅데이타의 advanced analytic 분야에서도 통찰력을 얻는데 사용될 수 있을 것으로 보인다. POS 데이타나, CRM 그리고 소셜미디어로 부터의 데이타로 부터 걸러진 정보를 통해 개인의 소비습관이랄지, 소셜에서의 관계, 구매행태등의 통찰력을 얻는데 사용될 수 있을 것이다. 점차 더 나아가 보험회사에서의 보험사기에 대한 정보 그리고 고객이 상품의 웹사이트를 탐색하는 정보를 기반으로한 cross-sell 및 up-sell 정보 제공등의 진보한 분석에 근거한 보다나은 의사결정에 통찰력을 얻는데 이러한 빅데이타가 사용될 수 있을 것이다.


주위에 만나본 고객들은 빅데이타에 대하여 어떻게 사용해야 하는지에 대해 물어온다. 그다음 질문은 투자할 만한 가치가 있느냐 이다. 내 생각으로는 이러한 통찰력이 절대적으로 필요한 수요를 중심으로 참조사례가 만들어지기 시작해야 보고 판단할 거리가 생길것으로 보인다. 상당수의 기업들이 현재 면밀히 검토를 하고 있기 때문에, 기업에서의 경쟁력으로 인식되는데는 조금 시간이 걸릴것으로 생각되지만 아마존의 예에서 보듯이 먼저 움직인 업체는 분명히 first mover advantage 를 누릴 것으로 보인다. 따라서 이러한 득실을 계산하기도 전에 경쟁에 뒤지지 않기위해 곧이어 뛰어드는 동종업체들이 있으리라 생각된다. IBM 의 경우도 100개가 넘는 참조사례를 이미 가지고 있고 이러한 응용분야는 실로 다양해서 외국의 응용사례를 보고 공부하고 검토해서 한국에 적용해야겠지만, 한편 규모의 경제라는 측면에서 미국과는 어느정도의 시차를 가지고 사례가 만들어지지 않을까 하는 생각이 조심스럽게 드는 것도 사실이다. 언젠가는 이러한 시대가 올 것이라는 생각은 막연히 했지만 18년전 데이타베이스 전문위원으로 데이타웨어하우징과 BI 프로젝트를 할때와 비교하면 데이타로 부터의 진정한 통찰력이라는 인지한계를 몸으로 실감하기 이전에 기술은 이미 저만치 눈앞에서 우리의 상상을 넘어 펼쳐내고 있지 않은가 하는 생각이 든다.


앞에 예에서 보듯이 실시간 정보로 부터 예전에 보지 못했던 신생아의 사망을 예견하는 곳에 쓰인다는 점이 어떤면에서는 정보취득의 중요성이 점점 더 사회적으로 중요해 질 수 있다는 뜻일테고 그런 의미에서 KBS1 TV 에서 "빅데이타, 세상을 바꾸다" 라고 타이틀을 걸었는지 모르겠다. 글쎄 세상을 바꾸는 일에 조금이라도 공헌할 수 있다면...얼마나... 신나고... 좋은 일일까?



*** 여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다.