본문 바로가기

책 Story

[서평] 빅데이터는 거품이다/김동환/페이퍼로드/2016

빅데이터는 지난 3~4년 동안 나의 머리 속을 어지럽게 만든 단어다.

도대체 무엇인가? 데이터를 최전방에서 다루는 DA가 어떤 역할을 할 것인가?

 

나름 DA로서 경험과 이론이 풍부하다고 자부하지만, 빅데이터에 대해서는 어떠한 방향도 비전도 떠오르지 않았다. 이는 지금도 마찬가지다. 방향이라도 안다면 한 번 파볼 수도 있는데, 그게 없으니 어떻게 할 수가 없다. 애써 외면할 뿐이었다.

 

이 책은 우연히 제목이 눈에 띄어 뽑아 읽은 책이다. 모두가 빅데이터를 찬양하는데 제목이 참신했다. 솔직히 뭔가 알고 있다는 느낌이 들었다. 자신이 없으면 이 같은 제목으로 책을 낼 수는 없을 것이었다.


빅데이터는 거품이다/김동환/페이퍼로드/2016”


 

201610월이면 최신 책이다. 1년 동안 썼다고 해도 최신 정보가 들어 있을 것이었다.

 

이젠 빅데이터 열풍이 멈출 때가 된 것인가? 기대를 가지고 읽기 시작했는데, 2시간 정도에 다 읽었다. 두껍지 않았고 저자의 주장이 명확하기 때문에 쉽게 읽을 수 있었다.

 

몇 가지 인상적인 부분에 대해서 언급하려 한다.

 

우선 학자의 종류를 말한다. 모르면서 아는 척하는 학자와 알면서 모르는 척하는 학자를 언급했다. 전자에 대한 얘기는 진부한 얘기라고 생각한다. 학자뿐만 아니라 많은 사람이 잘 모르면서 잘 아는 척을 한다. 모르면 모른다고 하는 사람이 드는 게 현실이다.

 

후자가 신선했다. 알면서 모른 척하는 학자란다. 제목만 읽고도 이해가 됐다. 내가 가끔 취하는 형태다. 겸손이라고 생각하기도 했지만 때로는 회피하려는 의도에서 그런 자세를 취한다.

 

학자가 이런 자세를 취한다면 어떻게 될까를 생각했다. 진실을 외면하는 것이란 생각이 들었다. 진실이 무엇인지 쉽게 알 수 없을 수도 있다. 따라서 부조리를 외면하는 학자에 대해 비판만 할 수 없을 것이다. 하지만 작은 이득 때문에 분명한 사실을 외면하는 학자라면 학자다운 학자라고 할 수 없을 것이다.

 

저자는 빅데이터에 관계된 학자가 알면서 모른 척하고 있다고 주장한다. 자신에게 이득이 되기 때문에 빅데이터가 거품이라는 사실을 언급하지 않는다는 것이다. 충분히 그럴 수 있다고 생각한다. IT 세계를 어느 정도 아는 나의 입장에서도 그렇게 볼 수 있다.

 

사실 빅데이터의 거품, 최소한 애매함에 대해서는 주변에서 수없이 들었지만 책이나 기사 등에서 유사한 주장을 하는 경우는 못 봤다. 많은 전문가들은 거품이라는 것을 알고 있는지, 최대한 오래 거품이 지속되기 원하는 것인지 궁금했다.

 

DA 입장에서 빅데이터가 다른 점은 데이터의 유형이다. 크기만 가지고 빅데이터를 언급한다면 DBMS 자체도 이미 거대한 데이터를 가지고 있기 때문에 적절치 않다. 빅데이터에는 DBMS에서 처리할 수 없는 비정형 데이터가 많다는 것이 가장 다른 점이다.

 

영상, 음성, 이미지를 포함한 비정형 데이터 중에도 SNS에서 생산된 텍스트가 빅데이터에서 거론되는 핵심 데이터다. 영상 데이터는 분석이 불가능하다고 언급하면서 결국 문자만 분석 가능한데, 이는 가십(gossip) 분석에 그칠 수 있다고 한다.

 

SNS 텍스트 데이터를 분석하는 것은 중요할 수 있다. 성과가 있는 분야가 있을 것 같기도 하다. 하지만 빅데이터가 단지 SNS에서 주고받은 문자를 분석하는 것이라면 저자의 주장대로 빅데이터는 거품이 맞다.

 

저자의 주장대로 방대한 SNS의 문자보다 게시판의 불만사항만 검토해도 충분하다. 건의사항만 제대로 처리해도 될 것이다. 빅데이터가 아니라 스몰데이터를 평소에 꾸준히 관리하는 게 더 중요하다고 주장한다. 작은 민원을 정성껏 처리하는 게 더 중요하다.

 

저자의 또 다른 주장인 개인정보 공개에 대한 부작용은 충분히 예상되는 부분이다. 빅데이터가 뭔지는 잘 모르겠지만 개인이 생산해 낸 데이터를 기반으로 뭔가를 하는 것이라고 봤을 때, 사생활 침해 때문에 데이터를 확보하지 못할 수 있다.

 

업계에서는 이미 주민번호나 전화번호, 주소 등의 개인 정보가 암호화 되고 있다. 이런 민감한 정보는 말할 것도 없지만, 내가 주고받은 SNS 문자가 공개될 수 있다는 점은 분명 문제다. 나라면 유용한 예측을 하는 데 사용하더라도 공개를 원치 않을 것이다.

 

이런 문제 때문에 결국 개인적이고 방대한 데이터보다는 현재와 같이 RDB에 있는 데이터만 제대로 분석해도 되지 않을까라고 생각한다.

 

저자가 또 언급한 것은 스몰데이터 분석이 더 정확하다는 것이고, 거대한 데이터를 확보하기 어렵다는 것이다. 서비스를 하는 SNS 해당 회사가 아니라면 그 데이터를 확보하는 것은 사실상 불가능한다.

 

상관관계와 인과관계에 대한 얘기도 뭔가 의미 있어 보이는데 정확히 이해하지 못했다. 빅데이터로는 상관관계는 찾을 수 있지만 인과관계는 찾을 수 없다고 한다. 사업에서 중요한 것은 원인과 결과의 인과관계라는 것이다.

 

데이터를 최전선에서 다루는 DA의 입장에서 데이터의 소중함은 너무나 잘 알고 있다. 하지만 빅데이터도 스몰데이터로 시작한다고 생각한다. 스몰데이터가 제대로 돼 있지 않으면 빅데이터는 무용할 것이다.

 

정형 데이터를 제껴놓고 비정형 데이터에 집중한다는 것은 어불성설같다. RDB는 지금처럼 존재해서 그에 맞는 고품질의 데이터는 지속해서 제대로 관리해야 할 것이다. 지나친 빅데이터의 관심보다 균형잡힌 관심이 필요해 보인다.

 

고품질의 데이터를 제대로 관리하는 게 더 중요하다고 생각해서 사실 빅데이터에 많은 관심을 두지는 않았다. 정치적으로 부풀려졌든, 이익 집단에 의해 부풀려졌든 빅데이터가 대세인 것은 확실하다. 규모가 이미 무시할 수 없는 수준이 된 거 같다.

 

어딘지 잘 모르겠지만 필요한 분야가 있는 것도 확실하다. 아무리 거품이 심해도 실익이 있을 수 있다. 거품일지 아닐지 좀 더 관심을 가져야겠다.