네이버 봇
한국 검색 엔진인 네이버에서 2005년 1월까지 사용하던 봇이다. 2005년 이후는 'Yetibot'이 사용되었다. NaverBot은 처음에는 한국어 사이트를 중심으로 접근했었다. 그러나 네이버가 일본에서 사업을 시작한 2000년 이후에는 일본어 웹 사이트에 대한 접속이 증가했고 일본에도 알려지게 되었다. 일본에서는 "네이버 봇이 국제표준을 따르지 않는 문제"가 웹사이트 관리자에 의해 지적되어 접근을 거부하는 사이트도 있었다. 이에 대해서 네이버측은 공식의 해명을 하지 않았다. 그러나 네이버 봇의 계승자인 YetiBot에서는 당시 지적된 문제는 모두 해결되었다. 다음은 당시 제기된 NeverBot의 문제점이다.
새로운 봇 Yeti
오늘 블로그의 참조 URL을 확인하다가 조금 재미있는 글을 읽었다. 네이버에서 운영하고 있는 봇은 두 개인데 하나는 NaverRobot이고 또 다른 하나는 Yeti라는 것이다. 그런데 더 재미있는 것은 "Yeti 봇이 방문하면 블로그의 방문자 수가 증가한다"는 것이었다. 과연 그럴까 싶어서 알아 보니 Yeti는 일본에서 먼저 활동을 시작한 네이버 봇이었다.
'예띠'(Yeti)는 히말라야에 사는 설인을 말한다. 설인이라는 이름에서 알 수 있듯이 '첫눈'을 인수한 뒤 만든 봇이거나 첫눈의 봇일 가능성이 많다.
아무튼 'Yeti'에 대한 추가 정보를 확인하던 중 웹오피스님의 한국 활동 시작한 네이버 일본 검색, 벌써 잡음이라는 글을 읽었다. 또 이 글을 통해 네이버 봇이 일본 위키백과에 등록되어 있다는 것을 알았다. 보통 특정 검색엔진의 봇이 위키백과에 오르는 일이 많지 않아 의아한 생각에 일본 위키백과를 번역해 봤다.
봇도 고생하는 네이버
'NaverBot'은 네이버에서 과거에 사용한 봇의 이름이다.
한국의 검색 엔진인 네이버에서 2005년 1월까지 사용[2]하던 봇이다. 2005년 이후는 'Yetibot'이 사용되었다. NaverBot은 처음에는 한국어 사이트를 중심으로 접근했었다. 그러나 네이버가 일본에서 사업을 시작한 2000년 이후에는 일본어 웹 사이트에 대한 접속이 증가했고 일본에도 알려지게 되었다. 일본에서는 네이버 봇이 국제표준을 따르지 않는 문제가 웹사이트 관리자에 의해 지적되어 접근을 거부하는 사이트도 있었다. 이에 대해서 네이버측은 공식의 해명을 하지 않았다. 그러나 네이버 봇의 계승자인 YetiBot에서는 당시 지적된 문제는 모두 해결되었다. 다음은 당시 제기된 NeverBot의 문제점이다.
- 초단위으로 차례차례 요청을 실시, DoS 공격처럼 서비스를 불안정하게 만든다.
- 모든 디렉토리에 대해, default.htm, default.html, home.php등 인덱스 파일로 사용할 것 같은 페이지를 존재여부도 확인하지 않고 요청한다[3].
- 세션을 식별하지 않고 같은 URL에 대해서 세션만 바꾸어 몇번씩 요청한다.
- 사이트 관리자가 만든 'robots.txt'(봇 접근 규칙 파일)을 읽어들이지만 무시하거나 robots.txt를 짧은 시간 동안 몇번씩 읽어 들인인다.
- HTML의 META 태그를 사용한 로봇의 접근 제어를 무시한다.[4]
- HTTP 요청시 User-Agent 필드[5]를 계속 바꿔서 요청한다. NABOT/5.0, nhnbot, inibot(NaverRobot), dloader(NaverBot), nabot, Cowbot, NaverBot-1.0+(NHN+Corp. / 82-2-3011-1954 / nhnbot@naver.com)등 상당히 다양한 이름이 확인되고 있다. 또 robots.txt에 접근할 때는 Google의 봇 이름인 Googlebot과 비슷한 GoogleBot라는 User-Agent를 이용하는 것도 확인되었다[6].
똥 묻은 네이버 겨묻은 엠파스 나무라기
예전에 네이버는 엠파스의 열린 검색을 비난한적이 있다. 엠파스가 "봇 표준을 지키지 않는다"는 것이 비난 이유였다. 그러면 과연 네이버는 엠파스를 비난할 자격이 있을까? 일본 위키백과의 내용을 보면 알 수 있지만 네이버 봇도 표준을 지키지 않는다. HTML META 태그의 봇 접근 제어도 무시한다. 봇 표준을 지키는 것처럼 속이기 위해 User-Agent를 바꿔댄다. 여기에 지나친 요청으로 DoS 공격처럼 서버를 불안정하게 한다.
이처럼 수단과 방법을 가리지 않고 다른 사이트의 데이타를 긁어온다. 여기에 인간 봇으로 불리는 펌로거까지 가세한다. 그런데 이렇게 긁어온 데이타는 남에게 주지 않는다. 다음은 네이버의 'robots.txt'의 내용이다[7].
User-agent: *
Disallow: /
모르는 사람을 위해 설명하자면 봇 규칙을 이렇게 정의하면 '모든 봇이 네이버의 데이타를 가져갈 수 없다'. 즉, 다른 사이트의 서비스 불안을 초래할 정도로 수단과 방법을 가리지 않고 다른 사이트의 정보를 읽어오면서 네이버는 자신이 수집된 자료는 어떤 검색엔진도 수집할 수 없도록 설정한 것이다.
엠파스는 네이버의 자료를 가져오기 위해 네이버의 봇 규칙을 무시했다. 네이버는 모든 사이트의 봇을 무시하거나 User-Agent를 속였다. 그리고 이렇게 모은 자료를 주지 않기 위해 모든 봇을 거절했다. 반면에 엠파스는 고작 네이버의 봇 규칙만 무시[8]했다. 그래서 만들어진 것이 엠파스의 열린검색이다.
네이버 직원이나 네이버 관계자에게 다시 한번 묻고 싶다. 이래도 엠파스를 비난하고 싶은지?
네이버 대 구글
가끔 네이버를 비난하면 기업의 영리 추구는 '당연'하며 구글도 똑 같다는 물타기론이 등장한다. 어느 정도는 맞다. 구글도 영리를 추구하는 기업이고 네이버도 영리를 추구하는 기업이다. 자본주의 사회에서 기업이 영리를 추구한다고 그 기업을 비난하는 사람은 없다.
세계 검색 시장의 공룡인 구글과 한국 검색 시장의 새끼 공룡인 네이버다. 회사의 규모를 생각하면 구글과 네이버는 비교가 되지 않는다. 그러나 각 기업에 대한 비난은 작은 네이버가 큰 구글을 압도한다. 그 이유는 아주 간단하다. 바로 이 봇 규칙에도 그대로 나타나기 때문이다. 다음은 저작권 및 웹 검색에 관한 구글의 정책에 나온 내용이다.
웹 퍼블리셔의 의견을 존중할 수 있는 이유는 구글이 '인터넷 검색엔진 배제표준'(Robots Exclusion Protocol)과 NOARCHIVE 메타 태그를 준수하기 때문입니다. 구글보다 앞서 잘 정립된 기술에는 검색엔진에 사이트의 어떤 부분이 검색 가능하고, 어떤 부분은 검색결과에 나타나야 할지를 구별하는 기능이 있습니다.
기업이 영리를 추구하는 것은 당연하다. 또 영리를 추구한다고 그 기업을 욕하는 사람도 없다. 그러나 아무리 영리를 추구한다고 해도 '지켜야 할 것은 지켜야 한다'. 네이버가 욕을 먹는 것은 바로 지켜야 할 것을 지키지 않기 때문이다.
남은 이야기
일본 위키백과에 따르면 '예띠'(YetiBot)는 네이버 봇의 명칭이며, 2007년 부터 사용[9]되었으며 국제 표준규격을 지키는 봇으로 이라고 한다. 또 예띠의 초기 User-Agent가 Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow+it)으로 되어 있는 것으로 봐서 NHN이 인수한 첫눈의 스노우랭크 기술을 접목한 봇으로 보였다. 마지막으로 네이버 Yeit 때문에 내가 미쳐~라는 글에 따르면 '예띠는 RSS 피드용 봇'이라고 한다. 그러나 아직 확인하지 못한 부분이다.
- 묻지마 검색에서 '설인'으로 찾은 이미지이다. 출처를 밝히려고 했지만 해당 사이트에 접근할 수 없었다. ↩
- 다른 문서에 따르면 2007년까지 사용됐다고 한다. 첫눈의 인수시점을 생각하면 2007년이 맞는 것 같다. ↩
- 보통은 페이지가 있는지 없는지 HEAD 메소드를 이용해서 확인한 뒤 GET이나 POST로 데이타를 가져온다. ↩
- 이 문제는 똥 묻은 네이버 겨묻은 엠파스 나무라기라는 글을 통해 지적했고 네이버 역시 이 문제를 수정한 상태다. ↩
- 봇 접근 규칙 파일(robots.txt)에서 검색을 제한하는 봇 이름을 적을 수 있는 필드를 말한다. ↩
- 접근을 거부하는 사이트가 늘자 봇 이름(User-Agent)를 계속 바꾼 것은 아닐 것으로 생각된다. 아마 표면적으로는 봇 규칙을 지키면서 내부적으로 자료를 수집하기 위한 꼼수도 보인다. ↩
- 2006년 이런 봇 규칙은 지식인을 제외하고 바뀌었다. 김중태님이 구글이 한국에서 성공할 수 없는 이유라는 글을 통해 이 문제를 지적하고, 많은 네티즌이 이 문제를 지적한 뒤의 울며 겨자 먹기로 취한 변화다. ↩
- 확인해 봐야할 부분이지만 아마 네이버 봇 규칙만 무시했을 것으로 여겨진다. ↩
- 이전 위키자료와는 년도가 다르다. 첫눈 인수시점, 열린 검색이 시작된 시점을 보면 2007년이 맞는 것 같다. ↩