yamo.net

by yiyamo · 2014/04/02

고영혁의 데이터 인사이트와 서비스 디자인 #1

– 누가 무슨 이야기를 하려는 걸까요? (Part 1) –

1. 데이터에 대한 세상의 관심

요즘에는 ‘데이터(data)’라는 말이 논문이나 연구 보고서만이 아니라 일상생활에서도 종종 사용되는 것 같습니다. 온라인 검색이라는 것이 우리 삶 속에 이미 깊게 파고들어가 있기 때문에 이슈 단어에 대해 검색 트렌드를 살펴보는 것은 그 이슈에 대한 현황을 가늠할 수 있는 하나의 척도가 됩니다. 데이터와 비슷한 단어를 하나 꼽으라면 ‘자료’ 정도가 좋아 보입니다. 한국의 대표적인 검색 서비스이자 인터넷 포털인 네이버(Naver)의 ‘트렌드검색’ 서비스(http://trend.naver.com)를 이용하여 두 단어의 검색 트렌드를 살펴보면 [그림1] 과 같습니다.

[그림1] 네이버 트렌드검색에서 ‘데이터’와 ‘자료’ 비교 결과

과거에는 ‘자료’의 검색량이 ‘데이터’보다 3배 이상 높았습니다만, 점점 사람들이 데이터에 대해 검색하는 경우가 늘어나면서 2013년에 거의 비슷해지더니 그 이후로는 추월하는 모양새입니다. 한국은 네이버를 통한 검색량이 전세계 최대의 검색 서비스인 구글(Google)보다 많지만, 구글에서는 어떤 흐름인지 구글 트렌드(http://www.google.com/trends)를 이용해서 한 번 더 살펴볼까요? 그 결과가 [그림2] 입니다.

[그림2] 구글 트렌드(Google Trend)에서 데이터와 자료를 비교한 결과 (한국 지역 제한)

네이버와는 달리 2005년부터 추이를 보여주고 있으며 ‘데이터’ 의 검색량 변화 추이나 데이터가 자료의 검색량을 추월했던 시점 등에서 네이버와는 약간 다른 모양새를 보여주고 있지만, 현시점에서 데이터라는 말을 자료라는 말보다 많이 검색한다는 점에서는 동일합니다. [그림2] 를 보면 A ,B 같은 알파벳들이 있는데, 트렌드가 의미 있게 변화하는 지점에서 그 단어와 연관이 되어 집중적으로 검색에 노출된 신문 기사들을 의미하며, 마우스를 위에 올려놓았을 때 구체적인 신문 기사를 보여줍니다. 네이버에서는 자료 부족을 이유로 표시되지 않고 있는데, 구글에서는 여러 관련 기사가 보이고 하나하나 확인해보면 재미있는 사실들을 확인할 수 있습니다.

데이터라는 말이 점점 많이 사용되는 사회 흐름의 이면에는 이동통신사의 휴대전화 서비스가 과거의 음성 중심에서 데이터 중심으로 옮겨졌다는 것과 최근에는 공공 데이터라는 개념이 정부 차원에서 많이 다루어졌다는 것입니다. 이러한 것들이 데이터라는 용어가 보편화되고 있는 대중적인 이유라면, ‘DB인 이야기’를 챙겨 보시는 여러 분들 같이 다소 특징적인 집단에서는 아마도 다음 키워드들이 데이터에 대한 세상의 관심을 불러 일으키고 있다고 여기실 것 같습니다. 바로 ‘클라우드(Cloud), 빅데이터(Big Data), IoT(Internet of Things)’입니다. 현 정부의 산업 기술 지원 정책의 핵심 단어들이기도 해서, 만약 여러분들이 정부의 기술 과제에 대해 신경 써야 하는 입장이라면 반드시 체크해야 할 키워드이기도 합니다. 앞으로 데이터에 대해 어떤 이야기를 펼쳐나갈지 말씀 드리기에 앞서 이 세 가지 흐름을 간단히 짚고 넘어가 보겠습니다.

클라우드는 크게 두 가지 관점의 의미를 지니고 있습니다. 하나는 스토리지(Storage), 연산장치(CPU) 등의 하드웨어 리소스의 효율성을 가상화와 분산처리를 통해 극대화 하는 것이고, 다른 하나는 문서, 이미지 등 이용자의 데이터들을 모두 온라인공간(클라우드)에 업로드한 뒤 동기화함으로써 이용 디바이스에 상관 없이 동일한 데이터 이용 환경을 의미합니다. 전자에서도 데이터는 리소스 간의 조율에 있어서 핵심적인 고려사항이며, 특히 후자의 경우 각 디바이스에서 생산되는 다양한 데이터들이 클라우드에 엄청나게 쌓이는 흐름을 만들고 있습니다. 스마트폰이 대중화되면서 스마트폰으로 사진을 찍음과 동시에 Dropbox 나 Google Drive, Ucloud 같은 다양한 개인 클라우드 공간에 자동으로 업로드되다 보니, 곧이어 말씀드릴 빅데이터에 해당하는 거대한 데이터가 생산되고 있습니다. 2012년에 미국 실리콘밸리에서 스타트업을 성장시켜가는 과정에서, 전세계적으로 대표적인 개인용 클라우드 서비스인 Dropbox 의 관계자와 이야기를 나눌 수 있는 기회가 있었습니다. 스마트폰으로 사진을 찍으면 곧바로 클라우드에 동기화시켜버리는 기능을 Dropbox 앱에 적용하고 난 뒤로 Dropbox 의 전제 파일 중 이미지 파일이 차지하는 비중이 엄청난 속도로 증가하더니 이제는 전체의 90% 가 이미지 파일이라고 하더군요. 이렇게 클라우드는 데이터의 축적과 활용을 가속화시키는 특징을 지니고 있습니다.

[그림3] Dropbox의 엄청나게 깔끔하고 직관적인 홈페이지 첫화면

빅데이터는 문자 그대로 커다란 데이터입니다. 그렇다면 과연 얼마나 커야 big 이라고 말할 수 있을까요? 집단지성 대백과사전인 Wikipedia 에서는 ‘기존의 데이터베이스 관리 도구나 전통적인 데이터 처리 애플리케이션으로 처리하기 어려울 정도로 크고 복잡한 데이터 집합’을 빅데이터로 정의하고 있습니다(http://en.wikipedia.org/wiki/Big_data). IBM의 발표 자료에 따르면 2012년도에는 전세계에서 매일 2.5 엑사바이트(2.5×1018 Byte) 의 데이터가 생산되었다고 합니다. 엑사바이트는 흔히 접할 수 있는 단위인 기가바이트(GB; 109)의 10억배에 해당하는 단위입니다. 엄청나죠. 전세계를 통틀어서라면 이런 무지막지한 양의 데이터도 납득이 되지만 사실 하나의 기업이나 조직이 빅데이터라 불릴만한 데이터를 소유하고 생산해내는 경우는 아직은 많지 않습니다. 이동통신사나 대형검색서비스, 금융그룹, 도로교통공사 정도 등이 빅데이터를 보유하고 있습니다. 하지만, 스마트폰의 대중화로 점점 개인이 알게(사진, 동영상), 모르게(위치 및 각종 메타 정보) 계속해서 생산하는 데이터들이 기하급수적으로 늘고 있는데다가, 전세계적으로 또 하나의 대세로 떠오르고 있는 IoT 로 인해 다양한 분야에서 빅데이터가 등장할 전망입니다.

[그림4] 데이터가 얼마나 폭증하고 있는 지 잘 보여주는 인포그래픽 (출처:Mashable)

IoT(Internet of Things; 사물 인터넷)는 과거 M2M(Machine to Machine; 서로 다른 장치들간의 무선 통신) 개념의 확장판입니다. 유선이든 무선이든 인터넷으로 연결된 환경에서 모든 사물들이 각각의 독자적인 존재를 갖고 상호 연결되어 있는 개념입니다. 예를 들어 어떤 사람이 가게에서 A음료수 병을 집어 들었다면, ‘6713만번째 생산된 모델B 스마트폰을 가진 사람이 1억 3천만번째 생산된 A음료수 병을 12만2천번째 가맹점 C에서 3월 25일 15시 39분 21초에 집어들었다’라는 정보가 음료수병과 스마트폰과 그 가게에 설치된 다른 센서 장비들에 의해 순식간에 처리되고 전달되어 이 정보를 수집하는 거대한 시스템에 전송됩니다. 자, 이런 흐름이 얼마나 많은 데이터를 생산할지 쉽게 상상이 가시죠? 헬스케어 분야에서 화두가 되고 있는 팔찌 같은 액세서리 형태의 Activity Tracker(활동량 측정기)나 삼성의 ‘갤럭시 기어’와 같은 스마트워치들 역시 실시간으로 끊임없이 신체 활동 데이터를 생산해 내서 스중 하나입니다.

[그림5] 다양한 형태의 Activity Tracker 들

IoT는 방금 사례를 든 소비자 중심의 생태계만이 아니라 공장과 같은 생산 중심 생태계에서도 크게 활용될 전망입니다. 공장에 있는 수많은 기계들을 생각해 보세요. 각각의 기계들이 작동하는 상태는 다른 기계들과 밀접하게 연관을 맺고 있으며, 심지어 공장에 공급되는 전기나 수도 정보와도 연결되는 부분이 있습니다. 이런 장치들의 모든 상태값을 실시간으로 서로 전달하고 분석하여 그에 맞게 최적화하는 것은 어느 공장에서나 필요로 하는 것입니다. 이렇게 사람이 아닌 것들 것 생산해 내는 데이터들을 Machine Data 라는 용어로 포장하여 Machine Data 분석을 비즈니스 모델로 삼아, 엄청난 속도로 사업을 확장하고 NASDAQ에도 상장한 실리콘밸리 소재의 splunk 라는 회사도 있습니다. 계속 눈여겨볼만한 아주 hot 한 회사입니다.

[그림6] Splunk.com 의 홈페이지 화면. 헬스케어 시장의 Machine Data를 타겟팅 중

클라우드, 빅데이터, IoT 에 대해 간략하게 살펴보았습니다. 핵심은 결국 데이터입니다. 과거에 비해 엄청난 속도와 양으로 데이터가 늘어날 것이고, 그 데이터들을 기반으로 기존 산업이 고도화되거나 방향이 바뀌거나 아예 새로운 산업이 등장할 것입니다. 그렇기 때문에 데이터라는 단어가 전세계적으로 자꾸 화두가 되고 있는 것이고, 그냥 한 번 지나가고 마는 트렌드로 보다가는 서비스적으로나 사업적으로 중요한 기회를 놓칠 수밖에 없습니다. 앞으로 제가 연재할 ‘데이터 인사이트와 서비스 디자인’ 칼럼은 이런 배경을 바닥에 깔고, 데이터에서 어떻게 인사이트(insight; 통찰)을 꺼내서 서비스나 사업에 어떤 식으로 활용할지에 대한 이야기를 다루려고 합니다.

2. 데이터가 대체 뭐길래

이것저것 이미지도 곁들여가며 약간 말랑말랑하게 이야기를 시작했는데, 이제는 약간 하드코어한 이야기를 해보겠습니다. 과연 데이터라는 것은 어떤 것일까요? 또는 어떻게 받아들여야 하는 것일까요? 무언가를 다루기 이전에 그것을 어떻게 인식하고 받아들일지 적절한 자세를 갖추는 것은 언제나 중요합니다. 데이터도 마찬가지입니다. 데이터에 대한 근본적인 전제가 되는 몇 가지 이야기를 말씀드립니다.

첫째, 데이터는 언제 어디에나 있습니다.
저장된 형태로 확보를 해야만 실제로 사용할 수 있는 데이터이기는 합니다만, 앞에서 클라우드나 IoT같은 사례에서 본 것처럼 사실상 우리 생활 자체가 엄청나게 거대한 데이터 생산 공장입니다. 모든 것을 데이터화할 수 있으며 그것을 어떻게 적절하게 저장하느냐의 이슈일 뿐입니다. 단, 사용할 수 있는 형태로 저장하지 않으면 의미 없다는 것 또한 중요한 시사점이라는 것을 염두에 두어야 합니다. 모든 것을 다 저장할 수는 없습니다. 결국 수많은 데이터 중에서 의미 있는 것들을 골라내서 적절한 형태로 저장하는 것은 그 데이터를 가지고 무엇을 할 것인지를 미리 내다보고 움직이는 신의 한 수입니다.

둘째, 빅데이터는 만능이 아닙니다.
빅데이터를 묘사한 여러 가지 매체 기사들을 보면 빅데이터만 있으면 무엇이든지 다 할 수 있을 것 같습니다. 특히 어떤 주식을 사면 돈을 벌 수 있을지 예측한다든가 앞으로 어떤 일이 일어날지 미리 알 수 있는 예언가와 같은 느낌을 받게 됩니다. 아쉽게도 빅데이터는 예언가가 아니며 더욱이 만능이 아닙니다. 예측은 정확도가 생명인데 예언 수준으로 정확하려면 일이 돌아가는 인과관계를 정확하게 반영하는 데이터를 살펴봐야 합니다. 그런데 이건 이미 모델을 알고 그 모델에서 나온 데이터를 갖고 있을 때의 이야기이기 때문에 우리가 기대하는 ‘칠흑 같은 암흑 속의 한줄기 빛’같은 느낌의 예언이 아닙니다.

결국 모델을 잘 모르는 상태에서 여러 가지 데이터들을 갖고 어떻게든 딱 들어맞는 모델을 만드는 것이 데이터 기반의 예측이기 때문에 필연적으로 확률 개념이 들어가게 됩니다. 즉, ‘이건 65% 확률로 맞을 가능성이 있는 모델이야’라는 식으로 할 수밖에 없습니다. 65% 라는 확률을 높이기 위해서는 예측 모델을 개선시켜야 하는데 무작정 다양한 데이터를 집어 넣는다고 의미 있게 개선되지도 않을뿐더러 종류는 그대로이되 양을 잔뜩 집어 넣는다고 개선되는 것은 더더욱 아닙니다. 빅데이터 자체로는 만능이 아니며 빅데이터를 쓰는 사람의 역량에 따라 특정 이슈에 대해 꽤 쓸만한 예측을 만들어낼 수 있거나 그동안 눈치 채지 못했던 신기한 패턴(잠재적인 인과관계)를 찾아내거나 하는 것이 빅데이터가 가진 가치입니다.

셋째, 데이터가 중요한 것이 아니라 데이터에서 뽑아내는 인사이트가 중요합니다.
바로 앞에서 말한 빅데이터 가진 가치가 결국 새로운 인사이트(통찰)의 발견입니다. 방대한 데이터를 잔뜩 갖고 있는 것만으로도 왠지 뿌듯하고 그 데이터가 소중하게 여겨질 수도 있습니다. 하지만, 그것으로 아무런 가치를 뽑아내지 못한다면, 버리자니 아깝고 계속 갖고 있자니 자리만 차지해서 심난한 애물단지일 뿐입니다. ‘구슬이 서말이라도 꿰어야 보배’라는 옛 격언과 딱 들어맞는 상황입니다. 어떻게 해야 이 구슬들을 잘 꿸 수 있을까요? 이 고민을 항상 하면서 데이터를 쌓고 관리하지 않으면 절대로 인사이트를 찾아낼 수 없습니다. 이 글을 보시는 많은 분들이 아시다시피, 데이터베이스는 한 번 구축을 하면 쉽게 변경할 수 있는 성질이 것이 아닙니다. 이미 구축한 데이터 구조를 바꾸려면 굉장한 공수를 들여야 하는 경우가 많습니다. 따라서 데이터 구조를 구축할 때부터 어떤 인사이트를 뽑아내야 할 지, 그 인사이트를 위해서는 대략 어떤 종류의 데이터가 어떤 형태로 쌓여야 할 지 먼저 충분히 고민해 보아야 합니다. 뛰어난 사람이라면 인사이트에 대한 기반이 없는 데이터에서도 실마리를 찾아 인사이트를 만들어내겠지만, 그런 개개인의 역량에 기댈 수만은 없는 노릇입니다. 즉, 데이터에서 뽑아내는 인사이트에 대해서 데이터와 관련된 여러 사람들이 기본적으로 같이 인지하고 공감하는 것이 필요합니다.

넷째, 결국 서비스나 사업이 잘 되게 하는 인사이트로 이어지는 데이터가 필요합니다.
인사이트, 통찰이라는 말은 참 멋있고 있어 보입니다. 그렇다면 과연 인사이트가 무엇일까요? 이후 연재를 통해 다양한 관점으로 자세하게 인사이트를 다루겠지만, 기본적으로 인사이트라는 것은 유무형의 존재(object)들 사이의 관계(relation)를 발견하는 것입니다. 그런 관계의 발견을 통해 때로는 존재의 정체성(identity)까지 제대로 파악하는 경우도 있습니다. 시인 김춘수의 명시 ‘꽃’에서 ‘내가 그의 이름을 불러 주기 전에는 그는 다만 하나의 몸짓에 지나지 않았다. 내가 그의 이름을 불러 주었을 때 그는 나에게로 와서 꽃이 되었다’라고 말하는 것처럼, 이름을 불러주는 관계가 되었을 때 꽃이라는 정체성이 나오게 됩니다. 그렇다면 모든 인사이트는 다 가치가 있는 것일까요?

한 개인 A가 전자책을 통해 읽은 여러 책들의 데이터를 통해서, 문학 카테고리의 책은 100 글자당 평균 10초의 시간이 걸린다는 것을 알아냈다고 합시다. 분명히 책과 독자 사이의 관계의 발견이고 작지만 하나의 인사이트라고 할 수 있습니다. 하지만, ‘음 A는이 정도로 빠르게 읽는구나’ 로 끝나버리면 별다른 가치의 창출이 없습니다. 만약에 이것을 전자책의 모든 독자에 대해 확대 적용한 다음에 독자들의 카테고리별 책 읽는 속도를 알아내고 그에 맞게 책을 다 읽게 될 시점을 미리 예측해서 ‘이제 이 책을 다 읽어가니 이 책도 한 번 보세요~’라고 다른 책을 추천한다면 어떨까요? 물론 전자책이라면 책을 다 읽은 시점을 바로 알 수 있고, 책을 다 읽기 전에미리 추천’이라는 기능이 독자 입장에서 신기하면서도 다음 책을 읽을 동기를 부여하는 핵심 서비스 요소가 될 수도 있습니다. 심지어 이 덕분에 신규 매출이 지속적으로 발생할 수도 있습니다. 해보지 않고는 모르는 일인데, 데이터를 갖고 인사이트를 뽑아내야 해볼 수 있는 일이기도 합니다.

어떤 식으로든 가치를 창출할 수 있는 인사이트가 값진 인사이트이며, 데이터를 갖고 산업에서 뭔가 한다는 것은 결국 서비스/제품이나 사업이 잘 되게 하는 인사이트를 뽑아내야 가치 있는 활동입니다. 뭔가 여러 가지를 찾아냈지만 실제로 활용될만한 것들이 아니라면 그 데이터를 분석한 사람의 장난감 이상이 될 수 없다는 것을 명심해야 합니다.

( Part 2 에서 이어집니다. )

출처 : 한국데이터베이스진흥원

제공 : DB포탈사이트 DBguide.net