소셜픽으로 알아본 야권 단일후보는?


기다리던 문안드림(Dream)!

얼마 전 의 대선이 끝났다. 오바마가 332명의 선거인단을 확보하고 롬니가 206명을 확보, 오바마가 승리했다. 그런데 이런 결과를 아주 정확하게 예측한 사람이 있다. 바로 '드류 린저' 교수다. 드류 린저 교수는 6월부터 미대선이 치뤄진 11월까지 일관되게 오바마 332, 롬니 206으로 오바마가 완승할 것으로 내다봤다. 어떻게 이런 일이 가능할까? 핵심은 바로 '빅 데이터'다. 따라서 이번 글에서는 다음에서 서비스하고 있는 빅 데이터 서비스인 '소셜픽'을 이용해서 야권 단일 후보를 예측해 보겠다.

목차

의 대선

승리한 뒤 포옹하는 버락 오바마

오바마 트위터(Twitter)에 올라와 있는 사진이다. 이 사진은 81만7천번 리트윗됐고 30만 가깝게 즐겨찾기됐다. 2008년 SNS로 당선된 뒤 SNS와 빅 데이터 분석을 통해 재선에 성공했다. 우리나라의 대선도 예외가 아닐 것이라고 생각한다. [사진출처: 오바마 트위터]

얼마 전 의 대선이 끝났다. 대선 전 각종 여론조사에서 VOTAMATIC

왼쪽 그림을 보면 알 수 있지만 오바마 332, 롬니 206으로 계속해서 오바마가 롬니를 이기고 있다.

신기하지만 구글 트렌드비슷한 결과가 나온다. 구글 트렌드

사람들의 검색 결과로 추출한 오바마와 롬니의 트렌드 검색 결과다. 표를 보면 알 수 있지만 여론조사처럼 박빙이 아니라 전구간에서 오바마가 일정한 간격을 두고 앞서는 것을 알 수 있다.

SNS에서 빅 데이터 전쟁으로

오바마와 롬니

빅 데이터를 적극 활용해서 유권자를 분석하고 경합지에서 승리를 거둔 버락 오바마(Barack Obama). 반면에 야권 단일화, 기로에 선 두 후보

문재인과 안철수. 살면서 가장 행복한 고민을 하는 대선이다. 그러나 한 가지 분명한 사실은 두 사람 중 한 사람만 본 게임에 오른다. 운명을 가를 분기점은?

사람들은 궁금하면 옆 사람에게 묻거나 검색을 한다. 그런데 대선 소셜픽

다음에서 소셜픽을 런칭한 뒤 최근에 추가해서 서비스하고 있는 대선 소셜픽이다. 각후보의 사진과 날짜에 따른 소셜픽 키워드가 뜬다.

얼마 전부터 소셜픽에서는 대선 소셜픽을 운영하고 있다. 그림을 보면 알 수 있지만 대선 후보인 문재인, 안철수, 박근혜의 소셜픽을 날짜에 따라 정리해서 보여주는 서비스다. 또 검색어를 클릭하면 소셜픽 이슈가 뜬 날의 반응(댓글, 트윗)과 관련 기사를 볼 수 있다. 따라서 이 대선 소셜픽을 이용해서 문재인, 안철수 중 어떤 사람이 야권 대선 후보의 가능성이 있는지 알아 보도록하겠다. 일단 대선 소셜픽에서 문재인, 안철수 이슈가 뜬 날의 트윗을 다음처럼 표로 정리했다.

[#문재인 소셜픽] 날짜 소셜픽 트윗 10.03 문재인 시민캠프 7802 10.07 문재인 구미 8527 10.10 문재인 농민일손돕기 54 10.11 안철수 문재인 단일화 1'2855 10.12 문재인 nll 1'3783 10.14 문재인 물병 1'1028 10.17 문재인펀드 2965 10.24 문재인 아들 1'2718 10.28 문재인펀드 투자자 1818 10.29 문재인 브라우니 451 10.31 문재인 선거보조금 2'1231 11.05 문재인 교육정책 7241 12개 단일화 논의 전 10'0473 11.06 안철수 문재인 회동 1'6637 11.08 문재인 일자리정책 3336 11.09 문재인 지지 선언 1'6168 11.10 문재인 광주 7614 11.11 이외수 문재인 1917 11.15 문재인 사과 3'5499 11.16 문재인 선대위원장 9988 11.18 문재인 단일화방식 2'3507 11.19 문재인 안철수 공동선언 2'1445 9개 단일화 논의 후 13'6111 21개 문재인 소셜픽 반응 23'6584

[#안철수 소셜픽] 날짜 소셜픽 트윗 10.04 안철수 조선대 5168 10.07 안철수 정책 1'9881 10.09 송호창 안철수캠프 6511 10.11 안철수 문재인 단일화 1'2855 10.11 안철수 대전 3470 10.13 조용경 안철수 2213 10.14 안철수 경제민주화 1'3108 10.17 안철수 햇볕정책 5552 10.19 이태규 안철수캠프 722 10.23 안철수 인하대 2380 10.25 안철수 최저임금 2338 10.27 안철수 최종원 2094 10.30 안철수 단일화 언급 7928 11.01 안철수 논문 의혹 조사 4318 11.02 안철수 제주 9591 11.03 안철수 정책 발표 1'5521 11.05 안철수 광주 5679 17개 단일화 논의 전 11'9329 11.06 안철수 문재인 회동 1'6637 11.11 안철수 공약 발표 2'4175 11.12 권영세 안철수 7442 11.13 안철수펀드 5168 11.14 안철수 리얼미터 4249 11.15 안철수 단일화 협상 중단 1'9094 11.16 안철수 기자회견 3'0917 11.17 유시민 안철수 3439 11.18 황주홍 안철수 3864 11.19 문재인 안철수 공동선언 2'1445 10개 단일화 논의 후 13'6430 27개 안철수 소셜픽 반응 25'5759

안철수 문재인 단일화, 문재인 안철수 공동선언은 문재인 소셜픽으로만 떳지만 내용상 안철수와 겹치기 때문에 안철수 소셜픽에도 추가했다. 원래 소셜픽은 검색, 댓글, 트윗으로 반응을 평가하지만 왜곡도가 가장 적은 것이 트윗이기 때문에 검색과 댓글은 빼고 트윗만으로 정리한 표이다. 트윗에는 긍정적 트윗과 부정적 트윗이 있다. 그러나 수없이 올라오는 모든 트윗에서 이런 것까지 고려하기 힘들다. 또 소셜픽에서는 트윗수만 제공할 뿐 관련 트윗은 따로 제공하지 않기 때문에 알아 볼 수 있는 방법도 없다. 이 부분은 이해하기 바란다.

10월 3일 부터 11월 19일까지 문재인과 안철수의 트윗수를 보면 문재인이 23만7천, 안철수가 25만6천으로 안철수가 약 2만 트윗 정도 앞선다. 즉, 10월 3일 부터 11월 19일까지의 결과를 보면 아직까지는 안철수에 대한 지지가 많은 것으로 생각할 수 있다. 그러나 이런 것을 분석할 때는 점이 아닌 선으로 분석해야 한다. 즉, 현재의 결과가 아니라 추세를 보는 것이 더 정확하다. 한 예로 2011년 재보선을 들수 있다. 많은 사람들은 김태호와 이봉수의 김해을 선거에서 이봉수가 이길 것으로 생각

대선 소셜픽을 보면 상당히 깔끔하다. 또 일목요연해 보인다. 그러나 다소 직관성은 떨어져 보인다. 먼저 소셜픽 반응도를 막대 그래프로 표시했다. 그런데 이 막대 그래프를 비교하는 것이 쉽지 않다. 막대 그래프에 반응도의 백분율을 표시하는 것도 더 나을 것 같다. 또 대선 소셜픽에는 소셜픽에 뜬 대선 후보만 표시되는 것 같다. 이렇게 되면 빈익빈 부익부의 증상이 더 심해진다. 객관적이며 공정한 여론 형성을 위해 모든 대선 후보는 아니라고 해도 최소한 정당의 후보는 모두 표시해 주는 것이 좋을 것 같다. 참고로 새누리당 이재오도 예비대선 후보다.

소셜픽

이 글을 쓰며 글 머리에 '빅 데이터'에 대해 많은 설명을 한 이유는 간단하다. 빅 데이터는 손쉽게 여론의 동향을 알아볼 수 있는 바로미터이기 때문이다. 따라서 다음에서 소셜픽 검색처럼 소셜픽에 올라온 이슈만 검색해 주는 기능도 제공했으면 한다. 현재 소셜픽은 파악하기 쉽지만 지난 소셜픽을 찾기 좀 힘들기 때문이다. 또 가능한지는 모르겠지만 소셜픽 이슈를 클릭하면 트윗수만 표시할 것이 아니라 관련 트윗을 모두 검색할 수 있도록 하면 빅 데이터 분석에 활용하기 훨씬 좋을 것 같다.

마지막으로 소셜픽 검색어는 지금처럼 두세 단어로 제한하고 이 검색어에 따른 관련 키워드도 함께 제공하는 것이 소셜픽 성격을 이해하는데 더 도움이 될 것 같다. 예를들어 안철수 기자회견이라는 소셜픽에는 관련 검색어로 '민주당 실천', '설왕설래', '엇갈린 반응'등이 함께 제공되는 형태다. 웹 상에서 소셜픽 이슈를 클릭해서 볼 때는 기사와 트윗이 함께 뜨기 때문에 큰 문제가 되지 않는다. 그러나 API등을 통해 소셜픽 이슈를 받아오면 어떤 내용인지 알기 좀 힘들기 때문이다.

빅 데이터 관련 기사

다음은 대선과 빅 데이터에 대한 기사다. 빅 데이터가 대선에 어떤 영향을 끼쳤고 우리나라 대선에 어떤 영향을 끼칠 것인지 궁금한 사람들은 읽어 보기 바란다. 링크 중 일부는 조선, 동아의 링크도 있다. 따라서 조중동을 싫어하는 사람은 주소를 확인하고 클릭하기 바란다.

관련 글타래

  1. 문재인과 안철수 단일화 팀에서도 이 작업을 하고 있다. 
  2. 과거에는 불가능했었다. 그러나 최근 기술의 발달과 저장장치 가격의 하락으로 최근 각광 받는 기술이다. 다보스포럼에서도 빅 데이터를 '떠오르는 10대 기술' 가운데 첫 번째로 꼽았다. 
  3. 여론조사와 선거결과가 많이 차이나는 이유는 오바마가 대부분의 경합주에서 승리, 선거인단을 독식했기 때문이다. 
  4. 따라서 사람들의 관심 지역은 손학규가 출마한 분당, 최문순, 엄기영이 붙은 강원도등이었다. 
  5. 참고로 11월 21일은 내 생일이기도 하다. 
  6. 문재인 단일화 팀에서 과 같은 방식의 여론조사에 부담감을 느끼는 것도 이런 이유다 


Powered by Textcube