네이버 봇
한국 검색 엔진인 네이버에서 2005년 1월까지 사용하던 봇이다. 2005년 이후는 'Yetibot'이 사용되었다. NaverBot은 처음에는 한국어 사이트를 중심으로 접근했었다. 그러나 네이버가 일본에서 사업을 시작한 2000년 이후에는 일본어 웹 사이트에 대한 접속이 증가했고 일본에도 알려지게 되었다. 일본에서는 "네이버 봇이 국제표준을 따르지 않는 문제"가 웹사이트 관리자에 의해 지적되어 접근을 거부하는 사이트도 있었다. 이에 대해서 네이버측은 공식의 해명을 하지 않았다. 그러나 네이버 봇의 계승자인 YetiBot에서는 당시 지적된 문제는 모두 해결되었다. 다음은 당시 제기된 NeverBot의 문제점이다.
새로운 봇 Yeti
오늘 블로그의 참조 URL을 확인하다가 조금 재미있는 글을 읽었다. 네이버에서 운영하고 있는 봇은 두 개인데 하나는 NaverRobot이고 또 다른 하나는 Yeti라는 것이다. 그런데 더 재미있는 것은 "Yeti 봇이 방문하면 블로그의 방문자 수가 증가한다"는 것이었다. 과연 그럴까 싶어서 알아 보니 Yeti는 일본에서 먼저 활동을 시작한 네이버 봇이었다.
'예띠'(Yeti)는 히말라야에 사는 설인을 말한다. 설인이라는 이름에서 알 수 있듯이 '첫눈'을 인수한 뒤 만든 봇이거나 첫눈의 봇일 가능성이 많다.
아무튼 'Yeti'에 대한 추가 정보를 확인하던 중 웹오피스님의 한국 활동 시작한 네이버 일본 검색, 벌써 잡음이라는 글을 읽었다. 또 이 글을 통해 네이버 봇이 일본 위키백과에 등록되어 있다는 것을 알았다. 보통 특정 검색엔진의 봇이 위키백과에 오르는 일이 많지 않아 의아한 생각에 일본 위키백과를 번역해 봤다.
봇도 고생하는 네이버
'NaverBot'은 네이버에서 과거에 사용한 봇의 이름이다.
한국의 검색 엔진인 네이버에서 2005년 1월까지 사용[2]하던 봇이다. 2005년 이후는 'Yetibot'이 사용되었다. NaverBot은 처음에는 한국어 사이트를 중심으로 접근했었다. 그러나 네이버가 일본에서 사업을 시작한 2000년 이후에는 일본어 웹 사이트에 대한 접속이 증가했고 일본에도 알려지게 되었다. 일본에서는 네이버 봇이 국제표준을 따르지 않는 문제가 웹사이트 관리자에 의해 지적되어 접근을 거부하는 사이트도 있었다. 이에 대해서 네이버측은 공식의 해명을 하지 않았다. 그러나 네이버 봇의 계승자인 YetiBot에서는 당시 지적된 문제는 모두 해결되었다. 다음은 당시 제기된 NeverBot의 문제점이다.
- 초단위으로 차례차례 요청을 실시, DoS 공격처럼 서비스를 불안정하게 만든다.
- 모든 디렉토리에 대해, default.htm, default.html, home.php등 인덱스 파일로 사용할 것 같은 페이지를 존재여부도 확인하지 않고 요청한다[3].
- 세션을 식별하지 않고 같은 URL에 대해서 세션만 바꾸어 몇번씩 요청한다.
- 사이트 관리자가 만든 'robots.txt'(봇 접근 규칙 파일)을 읽어들이지만 무시하거나 robots.txt를 짧은 시간 동안 몇번씩 읽어 들인인다.
- HTML의 META 태그를 사용한 로봇의 접근 제어를 무시한다.[4]
- HTTP 요청시 User-Agent 필드[5]를 계속 바꿔서 요청한다. NABOT/5.0, nhnbot, inibot(NaverRobot), dloader(NaverBot), nabot, Cowbot, NaverBot-1.0+(NHN+Corp. / 82-2-3011-1954 / [email protected])등 상당히 다양한 이름이 확인되고 있다. 또 robots.txt에 접근할 때는 Google의 봇 이름인 Googlebot과 비슷한 GoogleBot라는 User-Agent를 이용하는 것도 확인되었다[6].
똥 묻은 네이버 겨묻은 엠파스 나무라기
예전에 네이버는 엠파스의 열린 검색을 비난한적이 있다. 엠파스가 "봇 표준을 지키지 않는다"는 것이 비난 이유였다. 그러면 과연 네이버는 엠파스를 비난할 자격이 있을까? 일본 위키백과의 내용을 보면 알 수 있지만 네이버 봇도 표준을 지키지 않는다. HTML META 태그의 봇 접근 제어도 무시한다. 봇 표준을 지키는 것처럼 속이기 위해 User-Agent를 바꿔댄다. 여기에 지나친 요청으로 DoS 공격처럼 서버를 불안정하게 한다.
이처럼 수단과 방법을 가리지 않고 다른 사이트의 데이타를 긁어온다. 여기에 인간 봇으로 불리는 펌로거까지 가세한다. 그런데 이렇게 긁어온 데이타는 남에게 주지 않는다. 다음은 네이버의 'robots.txt'의 내용이다[7].
User-agent: *
Disallow: /
모르는 사람을 위해 설명하자면 봇 규칙을 이렇게 정의하면 '모든 봇이 네이버의 데이타를 가져갈 수 없다'. 즉, 다른 사이트의 서비스 불안을 초래할 정도로 수단과 방법을 가리지 않고 다른 사이트의 정보를 읽어오면서 네이버는 자신이 수집된 자료는 어떤 검색엔진도 수집할 수 없도록 설정한 것이다.
엠파스는 네이버의 자료를 가져오기 위해 네이버의 봇 규칙을 무시했다. 네이버는 모든 사이트의 봇을 무시하거나 User-Agent를 속였다. 그리고 이렇게 모은 자료를 주지 않기 위해 모든 봇을 거절했다. 반면에 엠파스는 고작 네이버의 봇 규칙만 무시[8]했다. 그래서 만들어진 것이 엠파스의 열린검색이다.
네이버 직원이나 네이버 관계자에게 다시 한번 묻고 싶다. 이래도 엠파스를 비난하고 싶은지?
네이버 대 구글
가끔 네이버를 비난하면 기업의 영리 추구는 '당연'하며 구글도 똑 같다는 물타기론이 등장한다. 어느 정도는 맞다. 구글도 영리를 추구하는 기업이고 네이버도 영리를 추구하는 기업이다. 자본주의 사회에서 기업이 영리를 추구한다고 그 기업을 비난하는 사람은 없다.
세계 검색 시장의 공룡인 구글과 한국 검색 시장의 새끼 공룡인 네이버다. 회사의 규모를 생각하면 구글과 네이버는 비교가 되지 않는다. 그러나 각 기업에 대한 비난은 작은 네이버가 큰 구글을 압도한다. 그 이유는 아주 간단하다. 바로 이 봇 규칙에도 그대로 나타나기 때문이다. 다음은 저작권 및 웹 검색에 관한 구글의 정책에 나온 내용이다.
웹 퍼블리셔의 의견을 존중할 수 있는 이유는 구글이 '인터넷 검색엔진 배제표준'(Robots Exclusion Protocol)과 NOARCHIVE 메타 태그를 준수하기 때문입니다. 구글보다 앞서 잘 정립된 기술에는 검색엔진에 사이트의 어떤 부분이 검색 가능하고, 어떤 부분은 검색결과에 나타나야 할지를 구별하는 기능이 있습니다.
기업이 영리를 추구하는 것은 당연하다. 또 영리를 추구한다고 그 기업을 욕하는 사람도 없다. 그러나 아무리 영리를 추구한다고 해도 '지켜야 할 것은 지켜야 한다'. 네이버가 욕을 먹는 것은 바로 지켜야 할 것을 지키지 않기 때문이다.
남은 이야기
일본 위키백과에 따르면 '예띠'(YetiBot)는 네이버 봇의 명칭이며, 2007년 부터 사용[9]되었으며 국제 표준규격을 지키는 봇으로 이라고 한다. 또 예띠의 초기 User-Agent가 Yeti/0.01 (nhn/1noon, [email protected], check robots.txt daily and follow+it)으로 되어 있는 것으로 봐서 NHN이 인수한 첫눈의 스노우랭크 기술을 접목한 봇으로 보였다. 마지막으로 네이버 Yeit 때문에 내가 미쳐~라는 글에 따르면 '예띠는 RSS 피드용 봇'이라고 한다. 그러나 아직 확인하지 못한 부분이다.
- 묻지마 검색에서 '설인'으로 찾은 이미지이다. 출처를 밝히려고 했지만 해당 사이트에 접근할 수 없었다. ↩
- 다른 문서에 따르면 2007년까지 사용됐다고 한다. 첫눈의 인수시점을 생각하면 2007년이 맞는 것 같다. ↩
- 보통은 페이지가 있는지 없는지 HEAD 메소드를 이용해서 확인한 뒤 GET이나 POST로 데이타를 가져온다. ↩
- 이 문제는 똥 묻은 네이버 겨묻은 엠파스 나무라기라는 글을 통해 지적했고 네이버 역시 이 문제를 수정한 상태다. ↩
- 봇 접근 규칙 파일(robots.txt)에서 검색을 제한하는 봇 이름을 적을 수 있는 필드를 말한다. ↩
- 접근을 거부하는 사이트가 늘자 봇 이름(User-Agent)를 계속 바꾼 것은 아닐 것으로 생각된다. 아마 표면적으로는 봇 규칙을 지키면서 내부적으로 자료를 수집하기 위한 꼼수도 보인다. ↩
- 2006년 이런 봇 규칙은 지식인을 제외하고 바뀌었다. 김중태님이 구글이 한국에서 성공할 수 없는 이유라는 글을 통해 이 문제를 지적하고, 많은 네티즌이 이 문제를 지적한 뒤의 울며 겨자 먹기로 취한 변화다. ↩
- 확인해 봐야할 부분이지만 아마 네이버 봇 규칙만 무시했을 것으로 여겨진다. ↩
- 이전 위키자료와는 년도가 다르다. 첫눈 인수시점, 열린 검색이 시작된 시점을 보면 2007년이 맞는 것 같다. ↩
Trackback
Trackback Address :: https://offree.net/trackback/2421
-
Subject : 뱅콕 패션 위크 2009 Bangkok Fashion week 2009
Tracked from Humanist 2009/03/31 00:08 del.뱅콕 패션 위크 2009 Bangkok Fashion week 2009 Journal by Joon H. Park Photos by Media Thai Post 매해 이쯤이면 어김없이 치러지는 연례 행사 중에 “뱅콕 패션 위크(Bangkok Fashion Week)”가 있다.&nbs
-
Subject : 구글서버, 그 비밀을 벗다 [Google uncloaks once-secret Server]
Tracked from Humanist 2009/04/06 00:30 del.구글 서버, 그 비밀의 베일을 벗다 Google unlocks once secret, Servers Stephen Shankland, CNET.Com 번역 및 정리=의역 By Joon H. Park 캘리포니아의 마운튼 뷔(Mountain View)에 자리 잡고 있는 ?
Comments
-
-
최면 2009/03/30 10:29
엇.. 저도 얼마 전까지 피드 통계에 예티가 있었는데..
지금 보니까, 네이버 검색로봇이 2개로 잡혀있네요 -0-;;
이건 뭔가요 ㅠ.ㅜ
그리고 Googlebot이 아닌 GoogleBot도 따로 하나 있고요 -0-;; -
-
-
Nod 2009/03/30 12:07
안녕하세요? (_ _)
전 워드프레스에서 WassUp이라는 플러그인으로 방문자 정보를 확인해보는데,
옵션에 스파이더와 봇은 레코드에 기록시키지 않는 것이 있습니다.
그래서 순수 방문자 정보만 확인하고 싶어 스파이더와 봇은 기록되지 않도록 해서 사용하고 있는데,
네이버 봇의 경우에는 걸러지지 않고 계속 흔적이 남아서 IP를 'Enter source IPs to exclude from recording'에
추가해서 기록되지 않도록 하고 있습니다.
그런데 IP가 하나가 아니다보니 지금까지 여러 번 걸러냈는데도 계속 잡힙니다.
아래 그림은 며칠 전 캡쳐해둔 것입니다.
http://nod.pe.kr/naverbot.png
(http://help.naver.com/customer_webtxt_01.jsp)
본문에 네이버봇이 언급되어 있어 최근에 캡쳐해둔 이미지가 있어 남겨 봅니다. ^^; -
-
toice 2009/03/30 12:36
예띠봇은 그전부터 있었던걸로 기억합니다. 2004년부터 2006년까지 태터툴즈 클래식으로 블로그를 사용했었는데 그때 유입경로에 엄청나게 많은 예띠를 보고 이게 대체 어디 검색봇일까 궁금해 했었거든요.
-
별이하나 2009/03/30 12:51
건대에서 세미나 잘 들었습니다. 네이버 말도 많고 탈도 많은 기업임은 틀림 없는것 같네요. 욕을 먹으면서도 저렇게 꾸준히(?) 고수하는 거 보면 아직 배가 부른 듯 싶습니다..
-
-
-
아카사 2009/03/30 15:20
이것이 네이버가 일본에 발 붙이지 못한 이유이기도 하죠..-_-;;
인조이재팬으로 다시 일본진출을 노리나 싶더니, 이것도 곧 접는다고 하니 네이버는 영원히 한국에 머무르는것일까요?..-_-;; -
-
성환이 2009/03/30 16:48
감사합니다.
어떻게 제 글을 찾으셨는지는 모르겠지만 도아님 블로그가
인기있으신 덕분에 제 블로그 방문자수가 급격히 늘어났네요.
무슨 말씀을 드려야 할지...
감사합니다.^^ -
pardonk 2009/03/30 18:01
웹초보님 블로그 댓글 중에 네이버 직원이
네이버가 단순히 1위라서 근거없는 오해와 비방도 본의아니게 많이 받는다고 하는걸 가끔 보게 되는데
이 글을 보면 뭐라고 대꾸할지 궁금하네요.
아, 네이버 직원은 이 블로그 안 오거나 오고 싶어도 못 오겠군요. -
-
단군 2009/03/31 00:12
도아님, 아래에 조기 페기 청원을 눌렀더니 구글 경고 페이지가 뜨네요?...건, 그렇고, 그 검색 엔진 만들기가 힘들기는 힘든가 보죠?...대한민국에서도 단 몇 회사밖에는 그 기술을 가지고 있는 회사가 없으니...아, 그리고 오셔서 머리나 식히십시요 들...
-
-
지민아빠 2009/03/31 11:15
예전에 일본에서 "바이두"가 욕먹고 사과공지를 띄운적도 있었는데요. 네이버도 욕 좀 먹었었죠. (일본이 이런쪽으로 좀 까다로운 것 같기도 하고요) 요즘엔 많이 좋아진 것 같던데요. Yeti 는 첫눈에서 사용하던 봇(의 이름)이 맞습니다. 그리고 자체 검색엔진을 가지려면 (정확히는 자체적으로 웹검색 관련 시스템 전체를 개발하려면) 초기비용이 크기 때문에 몇개 없긴 합니다만.. 잘 찾아보시면 토종도 많이 있습니다. ^^
-
지민아빠 2009/03/31 12:48
바이두는 중국 최대 검색업체로 일본진출 시 과다한 크롤로 욕을 좀 먹은 적이 있습니다. ^^
그리고 네이버가 잘 못 한 것은 사실 입니다. 그리고 일본이 까다로운 것도 사실 입니다. (일본의 경우 우리나라에 비해서 대충 3배 정도 민감한 것 같습니다) 일본이 까다롭기 때문이지 "네이버가 잘못한 것은 아니다"라는 말은 아니고요. ^^
네이버 크롤이 예전보다 많이 좋아진 것도 사실입니다. (사실 이 말이 하고싶은 말이지요)
그리고 몇개 없지만 잘 찾아보면 많다는 말은. 토종 검색엔진은 몇 손가락 안에 들게 몇개 없는게 사실이지만, 엠파스 검색(지금은 네이트 검색)에 사용되는 코난테크널러지의 엔진이나 다음에서 자체 제작한 웹검색 엔진, 그리고 네이버와 같이 토종엔진이 있고, 우리나라 규모에서 보면 많은 거라는 생각에서 그렇습니다. 잘 찾아보시면 "Search Technology Summit" 토종 업체들이 참가하는 행사를 보실 수 있는데요. 생각보다 관련 업체들이 없는건 아닙니다. ^^
-
-
-
-
-
Edward J. Yoon 2009/06/08 08:25
Wiki 확인했습니다. ㄷㄷㄷ 사실이군요.
이것말고도 naver 짝퉁 오픈소스에 대해서 외국 시선이 곱지않은 부분도있는데 정말 챙피하군요. -
Cyrus Hackford 2010/01/08 23:33
네이버 정말 치떨립니다.
그 $$ㅏ가지 없음에 정말 정 떨어져서 운영하던 카페에 올라갔던 글 몽땅 PDF로 저장하고 일일이 삭제한 후에 카페를 폐쇄시킨 적이 있습니다만 그네들이 과연 삭제를 제대로 했을 지 궁금하네요. 정말로 삭제한 것인지, 삭제 플래그만 달고 안 보여주는 것인지.......
아무튼 네이버는 정말 싫습니다.
아 그리고, 저 설인 이미지는 영화 "미이라 3"에 등장하는 녀석들입니다. 영화에서 하는 행동을 보면 은근히 귀여운 녀석들입니다. 다만 영화 스토리는 영.......-
Cyrus Hackford 2010/01/09 07:07
아, 다행히도 고등학교 때 컴퓨터 동아리원이 모여서 웹 게임 하나 만들어 보려고 계획 세우고 토론하던 카페이기 때문에 외부 공개는 안 했습니다.
그렇지만 문제는 나베르가 그 아이디어들에 대해 소유권을 가진다는 것이 기분 나쁘다는 점이죠....... 삭제를 요청했을 때 정말로 디스크에서 삭제를 했을라나.......
애초에 네이버 카페에 발을 들여놓은 것이 제 잘못이군요.......
Facebook