향후 10년간 지금보다 44배 데이타가 증가
이렇게 폭발적으로 증가한 데이타는 2020년에 35 Zettabyte 가 될 것이라 한다. Zettabyte 는 1조 Gigabyte 를 의미한다. 새벽 3시40분 부터 보기 시작한 뉴욕 그랜드 하얏트호텔에서의 IBM Smarter Analytic Leadership Summit 의 simulcast 가 끝났다. 창밖에 날이 밝아온다. 예전엔 webcast 라고 하더니 이젠 simulcast 라고 한다. 아마 내가 본 건 조금 늦어서 replay 가 아닐까 한다. 영어로 청취하는데 괜챦으신 분들은 http://bit.ly/y1D605 를 눌러서 등록하시고 보시면 된다. 1시간40분 Summit 행사가 생중계되어 Big Data 가 가져다주는 기회에 대해 관심이 있는 사람은 뉴욕으로부터 최근 동향을 듣는 의미가 있다.
기업 데이타에서 빅데이타로 분석영역이 확장되고 있다
Volume
매일 12TB 의 트위터가 생산되고 있다. 스마트그리드는 일년에 3조5천개의 미터가 읽혀지고 있다. 이러한 볼륨(크기)의 문제는 이제 더이상 새로운 얘기가 아니다.
그런데 이러한 데이타의 증가가 어느 기업은 골치덩어리가 되는 반면 어느 기업은 기회로 다가오고 있다. 이 광활한 데이타에서 마치 원유를 찾아내듯이 생산성과 경쟁력에 활용하는 기업이 있다. 예를 들면, 마케팅에서 고객의 요구를 파악하기 위해 FGI (Focus Group Interview) 나 설문지등을 그동안 사용했지만, 실제 고객의 심연에 생각하고 있는 바를 이러한 도구로 잡아낼 수 있을지는 사실 오래전 부터 의문시 됐던 문제다.
소셜미디어에 비교적 일상적인 얘기를 친한 사람들에게 사심없이 들어내놓는 장점에 주목하면, 만약 이러한 트위터의 정보로 부터 고객의 선호도나 제품에 관한 불만 등(sentiment analysis) 을 알아낼 수 있다면 제품개발이나 브랜드 관리에 유용하게 대처할 수 있지 않을까? 마찬가지로 스마터그리드의 미터기로 읽혀진 정보를 통해 기후 변화에 따른 전력사용량을 예측할 수 있으며 수요 대비 공급에 대한 예측과 조치를 통해 전력량의 적절한 배분과 최적화를 도모할 수 있지 않을까?
Velocity
현재 IBM Real Time Analytic Processing 기술은 초당 1144만개의 메세지를 분석할 수 있다. 이는 예컨데 주식시장에서 어떤 event 가 발생하여 주식을 살지 말지 결정하는데 0.00013초면 충분하다는 것을 뜻한다. 즉 속도다. 동시에 이러한 속도는 카드회사에서 카드오용을 방지하는데 사용하기도 한다. 이경우 카드사기범의 패턴이 기존 사용자와 다른 유형을 보임을 판별하는데 있어서, 광범위한 테이타를 신속하게 분석하는 능력이 요체다.
통신시장을 보자. 유선통신시장의 경우 하루에 5백만 통화내역(CDR:Call Detail Records)이 저장된다. 무선통신이 통화중 갑자기 끊어지는 것을 분석하기위해 이러한 데이타를 거의 상당부분 분석해야하며 실시간 요금청구의 경우는 엄청난 분석처리능력을 요한다. 최대 통신사의 경우 IP 기반의 무선인터넷 데이타는 초당 500K, 매일 60억 건의 IPDR(Internet Protocol Detail Records) 이 발생한다. 무선중계기가 용량을 못이겨 drop 될 경우 근처의 다른 중계기로 부하를 감안해 재 routing 해주기 위해서는 call record 의 분석이 요구된다. 아울러 통화품질등의 사유로 고객이탈 이유를 분석하는 것 역시 빅데이타를 다루어야 한다. 이역시 속도의 문제다.
Variety
서울에만 300만개의 CCTV 가 있다고 한다. 뉴스에서 자주 보듯, 통상적으로 범죄가 발생한 경우 CCTV 분석을 통해 사후에 범인을 잡기도 한다. 미국 로체스터 경찰서와 시카고시의 경우 CCTV 에 나타나는 패턴을 사전에 실시간으로 분석하여 범죄가 구성되는 조건이 되면 이를 사전에 경고로 알려주는 시스템을 통하여 범죄예방효과를 톡톡히 보고 있다. 여기에 사용되는 기술이 스트리밍 컴퓨팅이다. 이는 CCTV 나 병원의 계측기들 혹은 자동차의 GPS 나 공장의 센서등에서 나오는 실시간의 엄청난 데이타를 실시간으로 분석처리하는 기술이다. 예를 들면, 스웨덴의 우주물리 연구소(IRF)의 경우 초당 6 Giga Bytes, 시간당 21.6 TB 의 날씨데이타를 분석하여 구름의 이동경로와 영향도를 예측한다.
이렇듯, 앞으로 폭발적으로 증가가 예산되는 데이타의 80%는 동영상, 계측장비나 센서로 부터의 데이타, 음성, 소셜 미디어 같은 소위 비정형적인 데이타이다. 향후 폭발적으로 늘어나는 데이타중 80% 인 이러한 비정형데이타를 - 그 광범위한 자료를 - 어떻게 다룰지가 큰 과제다. 즉 정형의 데이타뿐 아니라 이러한 비정형데이타를 포함한 즉, 다시 말하면 다양성(Variety)의 데이타를 어떻게 다룰지가, 이 빅데이타의 위기이자 향후 기회의 영역인 것이다.
Watson 을 상용화된 헬스케어 예측분석에 사용
한국에는 방영되지 않았지만, 미국에는 Jeopardy 라는 TV 퀴즈쇼가 있었다. IBM 의 인공지능 슈퍼컴퓨터 왓슨(Watson)이 미국 TV 퀴즈쇼 '제퍼디(Jeoperdy)' 에 출전해 전설적인 퀴즈달인들인 켄 제닝스와 브래드 루퍼를 제치고 3일간의 접전에서 퀴즈왕에 오른 일이 있었다. 여기를 보시면 관련 동영상을 보실수 있다. 왓슨의 서적 백만권의 가치가 있는 2억 페이지의 컨텐츠를 보유하고 있다고 평가되고 있다. 인간의 미묘한 언어를 이해하고 관련 데이타를 초당 80조의 연산능력으로 처리한다. 놀라운일은 인간의 자연언어의 복잡함을 이해하고 퀴즈를 3초안에 풀어낸다는 점이다.
퀴즈쇼 우승이후 이것이 산업에 시사하는 점에 주목했다. 소위 Q&A 시스템으로 불리는 왓슨은 이제 헬스케어 분야에서 전문의가 보유하는 모든 지식에 더해, 최근의 의학 논문 그리고 그때 당시의 환경데이타, 뉴스, 날씨 등등의 정보들로 부터 질병을 예방하고 치료하는 곳에 쓰이게 되었다.
텍사스에서 가장 우수한 의료시스템을 갖춘 의료기관이자, 미국에서 통합 의료 시스템을 가진 100개 병원중 하나인 Seton 헬스케어 그룹은 지난 10월부터 상용화된 Watson 의 헬스케어 시스템을 도입하고 있다. 환자가 미래에 겪을 수 있는 질환이나 증상을 환자의 진단 기록, 가족력, 보험 청구기록, 의학논문 등등의 주변자료로 부터 통합하여 분석함으로써 환자가 병원에 오지 않아도 근처 내과에서 Watson 에게 질의하면 예방적 조치나 치료를 도와줄 수 있는 통합되고 확장된 예방진단 서비스를 제공하려고 한다. 심부전증으로 6개월 안에 병원을 다시 찾는 환자가 50% 에 달한다고 한다. 텍사스시의 경우 이러한 예방진단을 서둘러 도입하지 않으면 5년안에 1200개의 병동이 필요하며 약 10억5천만원의 추가 병원 증설이 필요하다고 한다. 여기를 보시면 3분짜리 동영상을 통해 Seton 의 관계자들의 이야기를 들을 수 있다.
눈치빠른 분들은 이미 아셨겠지만 Watson 은 향후 이러한 대용량의 전문지식을 통해 해답을 제공해 줄 수 있는 분야, 예를 들면 정부 민원 정보, 법률 서비스, 콜센터 더 나아가서 금융분야의 거래관련 처리등에 활용될 수 있고 검토되고 있다. 하지만 이러한 자연어의 이해를 통한 고급분석이 잘 맞는곳이 있고 그렇지 않은 곳이 있다. 예를 제품개발이나 디자인같은 분야는 창의력이나 독창성을 요구하는 분야인데 Q&A 전문가시스템 적용에 맞지 않는다.
글쎄, 국내에서 이러한 응용분야가 어디서 나올지 모르겠지만, 이는 기존사례로 부터의 cross-pollination (상호교환)이 필요한 분야라서 세계적인 혁신 아이콘인 IDEO의 Tom Kelly 전사장이 Ten Faces of Innovation 책에서 언급하듯이 관찰과 모방을 통하여 혁신을 이루어나가야 하는 분야가 아닐까 한다.
***여기에 포스팅한 내용은 개인 차원의 것이며, IBM의 공식적인 입장, 전략, 의견을 반드시 대표하는 것은 아닙니다
댓글 없음:
댓글 쓰기