기다리던 문안드림(Dream)!

얼마 전 미국의 대선이 끝났다. 오바마가 332명의 선거인단을 확보하고 롬니가 206명을 확보, 오바마가 승리했다. 그런데 이런 결과를 아주 정확하게 예측한 사람이 있다. 바로 '드류 린저' 교수다. 드류 린저 교수는 6월부터 미대선이 치뤄진 11월까지 일관되게 오바마 332, 롬니 206으로 오바마가 완승할 것으로 내다봤다. 어떻게 이런 일이 가능할까? 핵심은 바로 '빅 데이터'다. 따라서 이번 글에서는 다음에서 서비스하고 있는 빅 데이터 서비스인 '소셜픽'을 이용해서 야권 단일 후보를 예측해 보겠다.

미국의 대선

승리한 뒤 포옹하는 버락 오바마

오바마 트위터(Twitter)에 올라와 있는 사진이다. 이 사진은 81만7천번 리트윗됐고 30만 가깝게 즐겨찾기됐다. 2008년 SNS로 당선된 뒤 SNS와 빅 데이터 분석을 통해 재선에 성공했다. 우리나라의 대선도 예외가 아닐 것이라고 생각한다. [사진출처: 오바마 트위터]

얼마 전 미국의 대선이 끝났다. 대선 전 각종 여론조사에서 오바마와 롬니의 박빙 승부를 점쳤다. 그러나 뚜껑 열린 미 대선은 조금 싱겁게 끝났다. 버락 오바마가 332명의 선거인단을 확보하며 206명을 확보한 미트 롬니를 꺽었다. 즉, 박빙이 아니라 버락 오바마의 완승이다. 미국 대선이 여론조사와 큰 격차를 보인 이유는 두 가지다. 먼저 하나는 미국의 선거제도다. 미국의 선거제도는 간접선거다. 일단 투표로 선거인단을 뽑고 이기는 쪽이 모든 선거인단을 갖는 승자독식 구조다. 따라서 여론조사와 조금 다른 양상을 띌 수 있다. 투표에 이기고 선거에 지는 결과도 나온다.

두번째는 여론조사의 부정확성이다. 여론조사의 정확도를 높이기 위한 여러가지 기법이 도입되고 있다. 그러나 이런 여론조사도 모두 오차범위를 두고 있다. 즉, 아무리 정확한 여론조사라고 해도 오차가 존재한다. 반면에 지난 6월 버락 오바마(Barack Obama)가 332명의 선거인단을 확보하고 미트 롬니(Mitt Romney)는 206명을 확보, 오바마가 승리를 거둘 것이라는 글을 올린 사람이 있다. 바로 드류 린저(Drew Linzer) 교수다. 드류 린저 교수의 대선 예측 사이트를 방문해 보면 알 수 있지만 지난 6월 부터 지금까지 오바마 332, 롬니 206으로 버락 오바마가 이길 것을 예측하고 있다.

VOTAMATIC

왼쪽 그림을 보면 알 수 있지만 오바마 332, 롬니 206으로 계속해서 오바마가 롬니를 이기고 있다.

신기하지만 구글 트렌드비슷한 결과가 나온다. 소셜픽을 소개하며 한번 소개했지만 구글 트렌드의 결과도 미 대선과 상당히 비슷한 결과가 나온다. 실제 미 대선이 있었던 11월 4일부터 11월 10일까지 구글 트렌드(Google Trend)를 보면 오바마 100, 롬니 58로 나온다. 이 수치를 미국 대의원 수(538)에 적용해 보면 오바마 341(538X100/158), 롬니 198(538X58/158)로 미 대선 결과와 완전히 똑 같지는 않지만 비슷한 결과가 나온 것을 알 수 있다. 드류 린저 교수는 각주에서 발표되는 여론조사 결과1948년 부터 지금까지 대통령 선거의 데이터를 결합해서 예측했다고 한다. 구글 트렌드는 사람들의 검색 데이타를 이용해서 추출한 결과다.

구글 트렌드

사람들의 검색 결과로 추출한 오바마와 롬니의 트렌드 검색 결과다. 표를 보면 알 수 있지만 여론조사처럼 박빙이 아니라 전구간에서 오바마가 일정한 간격을 두고 앞서는 것을 알 수 있다.

SNS에서 빅 데이터 전쟁으로

오바마와 롬니

빅 데이터를 적극 활용해서 유권자를 분석하고 경합지에서 승리를 거둔 버락 오바마(Barack Obama). 반면에 롬니(Mitt Romney)는 디지털 트렌드를 어설프게 따라 하다 실패했다.

그러면 어떻게 이런 기적과 같은 일이 가능할까?

수많은 사람들이 많은 돈을 들여 여론조사를 한다. 심지어 조금이라도 유리한 결과를 얻기 위해 문항 하나 하나의 토씨까지 신경을 쓴다[1]. 그런데 그런 여론조사 보다 정확한 결과가 검색 한번으로 얻어진다. 얼핏 생각하면 거의 기적에 가깝다. 그런데 기적이 아니라 과학이다. 바로 빅 데이터(Big Data)다. 빅 데이터(Big Data)라고 하면 조금 생소하게 느껴질 수 있다. 빅 데이터는 간단히 이야기하면 얼핏 보면 사소해 보이는 수 많은 정보(Big Data)를 분석해서 의미있는 결과를 추출해 내는 기술[2]이다. 다음에서 서비스하고 있는 소셜픽이나 구글에서 서비스하고 있는 구글 트렌드도 모두 빅 데이터 기술이다.

"2012년 11월까지 일할 예측 모델 과학자, 데이터 마이닝(data mining) 분석가 구합니다. 유일한 목표는 오바마 대통령 재선임입니다."

올초 오바마 캠프에서는 조금 특이한 광고를 했다. 바로 예측 모델 과학자, 데이터 마이닝 분석가를 구하는 광고다. 예측 모델 과학자, 데이터 마이닝 과학자라고 했지만 쉽게 말하면 빅 데이터 분석가를 말한다. 버락 오바마가 빅 데이터 분석 전문가를 구하는 광고를 낸 이유는 빅 데이터를 이용하면 여론조사 보다 더 정확하게 사람의 마음을 읽을 수 있기 때문이다. 그래서 빅 데이터를 사람의 욕망을 읽는 기술이라고도 한다. 이번 미 대선의 오바마 승리는 빅 데이터의 승리라고 하는 의견이 많다. 오바마는 빅 데이터 분석을 통해 대부분의 경합주에서 승리[3]했기 때문이다. 참고로 경합주에 대한 오바마 캠프의 예측결과는 실제 결과와 0.5%의 차이 밖에 나지 않았다고 한다.

소셜픽으로 예측한 야권 단일후보

야권 단일화, 기로에 선 두 후보

문재인과 안철수. 살면서 가장 행복한 고민을 하는 대선이다. 그러나 한 가지 분명한 사실은 두 사람 중 한 사람만 본 게임에 오른다. 운명을 가를 분기점은?

사람들은 궁금하면 옆 사람에게 묻거나 검색을 한다. 그런데 우리나라 사람들의 성향상 검색 보다는 묻는 것을 더 좋아한다. 내가 보기에는 거의 쓰레기에 가깝게 느껴지는 성공에도 이런 우리나라 사람들의 성향이 담겨있다고 생각한다. 과거에는 물을 때는 아는 사람에게 물었다. 그런데 최근 SNS(Social Network Service)가 발달하며 SNS 친구(, 페이스북 친구)에게 묻는다. 즉, SNS 데이터를 잘 분석하면 민심의 향배를 어느 정도 파악할 수 있다. 바로 이런 점에 착안해서 소셜픽을 이용해서 야권 단일후보를 예측해 볼까한다.

대선 소셜픽

다음에서 소셜픽을 런칭한 뒤 최근에 추가해서 서비스하고 있는 대선 소셜픽이다. 각후보의 사진과 날짜에 따른 소셜픽 키워드가 뜬다.

얼마 전부터 소셜픽에서는 대선 소셜픽을 운영하고 있다. 그림을 보면 알 수 있지만 대선 후보인 문재인, 안철수, 박근혜의 소셜픽을 날짜에 따라 정리해서 보여주는 서비스다. 또 검색어를 클릭하면 소셜픽 이슈가 뜬 날의 반응(댓글, 트윗)과 관련 기사를 볼 수 있다. 따라서 이 대선 소셜픽을 이용해서 문재인, 안철수 중 어떤 사람이 야권 대선 후보의 가능성이 있는지 알아 보도록하겠다. 일단 대선 소셜픽에서 문재인, 안철수 이슈가 뜬 날의 트윗을 다음처럼 표로 정리했다.

문재인 소셜픽
날짜 소셜픽 트윗
10.03 문재인 시민캠프 7802
10.07 문재인 구미 8527
10.10 문재인 농민일손돕기 54
10.11 안철수 문재인 단일화 1'2855
10.12 문재인 nll 1'3783
10.14 문재인 물병 1'1028
10.17 문재인펀드 2965
10.24 문재인 아들 1'2718
10.28 문재인펀드 투자자 1818
10.29 문재인 브라우니 451
10.31 문재인 선거보조금 2'1231
11.05 문재인 교육정책 7241
     
     
     
     
     
12개 단일화 논의 전 10'0473
11.06 안철수 문재인 회동 1'6637
11.08 문재인 일자리정책 3336
11.09 문재인 지지 선언 1'6168
11.10 문재인 광주 7614
11.11 이외수 문재인 1917
11.15 문재인 사과 3'5499
11.16 문재인 선대위원장 9988
11.18 문재인 단일화방식 2'3507
11.19 문재인 안철수 공동선언 2'1445
     
9개 단일화 논의 후 13'6111
21개 문재인 소셜픽 반응 23'6584

안철수 소셜픽
날짜 소셜픽 트윗
10.04 안철수 조선대 5168
10.07 안철수 정책 1'9881
10.09 송호창 안철수캠프 6511
10.11 안철수 문재인 단일화 1'2855
10.11 안철수 대전 3470
10.13 조용경 안철수 2213
10.14 안철수 경제민주화 1'3108
10.17 안철수 햇볕정책 5552
10.19 이태규 안철수캠프 722
10.23 안철수 인하대 2380
10.25 안철수 최저임금 2338
10.27 안철수 최종원 2094
10.30 안철수 단일화 언급 7928
11.01 안철수 논문 의혹 조사 4318
11.02 안철수 제주 9591
11.03 안철수 정책 발표 1'5521
11.05 안철수 광주 5679
17개 단일화 논의 전 11'9329
11.06 안철수 문재인 회동 1'6637
11.11 안철수 공약 발표 2'4175
11.12 권영세 안철수 7442
11.13 안철수펀드 5168
11.14 안철수 리얼미터 4249
11.15 안철수 단일화 협상 중단 1'9094
11.16 안철수 기자회견 3'0917
11.17 유시민 안철수 3439
11.18 황주홍 안철수 3864
11.19 문재인 안철수 공동선언 2'1445
10개 단일화 논의 후 13'6430
27개 안철수 소셜픽 반응 25'5759

안철수 문재인 단일화, 문재인 안철수 공동선언은 문재인 소셜픽으로만 떳지만 내용상 안철수와 겹치기 때문에 안철수 소셜픽에도 추가했다. 원래 소셜픽은 검색, 댓글, 트윗으로 반응을 평가하지만 왜곡도가 가장 적은 것이 트윗이기 때문에 검색과 댓글은 빼고 트윗만으로 정리한 표이다. 트윗에는 긍정적 트윗과 부정적 트윗이 있다. 그러나 수없이 올라오는 모든 트윗에서 이런 것까지 고려하기 힘들다. 또 소셜픽에서는 트윗수만 제공할 뿐 관련 트윗은 따로 제공하지 않기 때문에 알아 볼 수 있는 방법도 없다. 이 부분은 이해하기 바란다.

10월 3일 부터 11월 19일까지 문재인과 안철수의 트윗수를 보면 문재인이 23만7천, 안철수가 25만6천으로 안철수가 약 2만 트윗 정도 앞선다. 즉, 10월 3일 부터 11월 19일까지의 결과를 보면 아직까지는 안철수에 대한 지지가 많은 것으로 생각할 수 있다. 그러나 이런 것을 분석할 때는 점이 아닌 선으로 분석해야 한다. 즉, 현재의 결과가 아니라 추세를 보는 것이 더 정확하다. 한 예로 2011년 재보선을 들수 있다. 많은 사람들은 김태호와 이봉수의 김해을 선거에서 이봉수가 이길 것으로 생각[4]했다. 그러나 난 반대로 다른 지역에서는 승리해도 김해을은 김태호가 승리할 것으로 생각했다.

그래서 선거 하루전 '427재보선. 가장 걱정하는 지역은 김해을이다.'라는 트윗을 올렸다. 투표전 여론조사 결과는 분명히 이봉수가 앞서고 있었다. 그러나 추세를 보면 이봉수는 완만한 기울기로 지지율이 떨어지거나 답보상태였다. 반면에 김태호는 눈에 띄게 상승하고 있었다. 이런 추세라면 김태호가 승리할 가능성이 더 많았다. 즉, 이봉수 선거캠프에서는 이런 추세를 바꿀 수 있는 변곡점(폭팔력 있는 정치사안)을 이때 제공했어야 했다. 그러나 여론조사 결과를 점으로 보고 안이하게 대처한 결과 노무현의 고향 김해을에서 새누리당 김태호가 당선되는 결과를 낳았다.

문재인, 안철수의 소셜픽도 비슷하다. 점으로 보면 안철수가 앞서고 있다. 그러나 변곡점을 기준으로 보면 양상은 조금 달라진다. 일단 변곡점으로 볼 수 있는 부분은 바로 11월 6일이다. 이날 문재인과 안철수가 야권 단일화를 위한 회동을 했다. 따라서 이 날짜를 기준으로 나누어 보면 단일화 논의 전에는 문재인이 10만 트윗 정도이고 안철수는 12만 트윗으로 거의 2만 트윗 정도로 앞선다. 그러나 단일화 논의 후 문재인은 13만6천 트윗이고 안철수도 13만6천 트윗으로 거의 똑 같다.

단일화 논의 뒤 문재인과 안철수의 지지세는 거의 같아졌다. 즉, 문재인의 추세가 안철수 보다 더 가파르다. 이것은 다른 변곡점이 없다면 야권 단일후보는 문재인이 될 가능성이 많다는 뜻이다. 문재인측 인사중 한명은 '시간은 문재인의 편이다'라는 말을 달고 산다. 다른 것은 몰라도 소셜픽만 보면 보면 사실이다. 오는 11월 21일 문재인과 안철수의 TV토론이 있다[5]. 이 TV토론이 변곡점이 될 가능성은 많다. 다만 안철수의 지지층이 조금 굳건한 반면, 문재인의 지지층이 조금 무른 것[6]을 고려하면 문재인 보다 안철수의 변곡점이 될 가능성이 더 많다.

즉, 현재의 추세라면 문재인이 야권 단일 후보가 된다. 그러나 TV토론에서 안철수가 변곡점을 만든다면 안철수로 단일화될 수도 있다. 안철수 측에서는 후보단일화를 결정하는 여론조사는 변곡점의 효과가 잘 반영될 수 있도록 최대한 늦추는 것이 최선의 전략이라고 생각된다. 마지막으로 트윗만 가지고 예측하는 것은 무리라고 생각할 수 있다. 위에서 사용한 척도는 트윗이지만 무리한 분석은 아니라고 생각한다. 그 이유는 소셜픽의 이슈는 지난 글에서 설명했듯이 검색, 댓글, 트윗을 반영한 결과다. 따라서 예측에는 트윗만 사용했지만 이미 소셜픽의 기준에 의해 걸러진 데이타이므로 큰 무리는 없을 것이라고 생각한다.

대선 소셜픽

대선 소셜픽을 보면 상당히 깔끔하다. 또 일목요연해 보인다. 그러나 다소 직관성은 떨어져 보인다. 먼저 소셜픽 반응도를 막대 그래프로 표시했다. 그런데 이 막대 그래프를 비교하는 것이 쉽지 않다. 막대 그래프에 반응도의 백분율을 표시하는 것도 더 나을 것 같다. 또 대선 소셜픽에는 소셜픽에 뜬 대선 후보만 표시되는 것 같다. 이렇게 되면 빈익빈 부익부의 증상이 더 심해진다. 객관적이며 공정한 여론 형성을 위해 모든 대선 후보는 아니라고 해도 최소한 정당의 후보는 모두 표시해 주는 것이 좋을 것 같다. 참고로 새누리당 이재오도 예비대선 후보다.

소셜픽

이 글을 쓰며 글 머리에 '빅 데이터'에 대해 많은 설명을 한 이유는 간단하다. 빅 데이터는 손쉽게 여론의 동향을 알아볼 수 있는 바로미터이기 때문이다. 따라서 다음에서 소셜픽 검색처럼 소셜픽에 올라온 이슈만 검색해 주는 기능도 제공했으면 한다. 현재 소셜픽은 파악하기 쉽지만 지난 소셜픽을 찾기 좀 힘들기 때문이다. 또 가능한지는 모르겠지만 소셜픽 이슈를 클릭하면 트윗수만 표시할 것이 아니라 관련 트윗을 모두 검색할 수 있도록 하면 빅 데이터 분석에 활용하기 훨씬 좋을 것 같다.

마지막으로 소셜픽 검색어는 지금처럼 두세 단어로 제한하고 이 검색어에 따른 관련 키워드도 함께 제공하는 것이 소셜픽 성격을 이해하는데 더 도움이 될 것 같다. 예를들어 안철수 기자회견이라는 소셜픽에는 관련 검색어로 '민주당 실천', '설왕설래', '엇갈린 반응'등이 함께 제공되는 형태다. 웹 상에서 소셜픽 이슈를 클릭해서 볼 때는 기사와 트윗이 함께 뜨기 때문에 큰 문제가 되지 않는다. 그러나 API등을 통해 소셜픽 이슈를 받아오면 어떤 내용인지 알기 좀 힘들기 때문이다.

빅 데이터 관련 기사

다음은 미국 대선과 빅 데이터에 대한 기사다. 빅 데이터가 미국 대선에 어떤 영향을 끼쳤고 우리나라 대선에 어떤 영향을 끼칠 것인지 궁금한 사람들은 읽어 보기 바란다. 링크 중 일부는 조선, 동아의 링크도 있다. 따라서 조중동을 싫어하는 사람은 주소를 확인하고 클릭하기 바란다.

관련 글타래


  1. 문재인과 안철수 단일화 팀에서도 이 작업을 하고 있다. 
  2. 과거에는 불가능했었다. 그러나 최근 기술의 발달과 저장장치 가격의 하락으로 최근 각광 받는 기술이다. 다보스포럼에서도 빅 데이터를 '떠오르는 10대 기술' 가운데 첫 번째로 꼽았다. 
  3. 여론조사와 선거결과가 많이 차이나는 이유는 오바마가 대부분의 경합주에서 승리, 선거인단을 독식했기 때문이다. 
  4. 따라서 사람들의 관심 지역은 손학규가 출마한 분당, 최문순, 엄기영이 붙은 강원도등이었다. 
  5. 참고로 11월 21일은 내 생일이기도 하다. 
  6. 문재인 단일화 팀에서 노무현 대통령과 같은 방식의 여론조사에 부담감을 느끼는 것도 이런 이유다