
nhn재팬 크롤러 '예티(Yeti)', 한국 홈피 수집 시작
日선 이미 네이버봇 악명 높아…일부에서는 차단
中 최대 검색엔진 바이두는 유사논란에 사과까지
NHN(네이버)가 최근 일본시장 공략을 위한 새 검색엔진의 전용 크롤러(검색로봇, User Agent)를 국내 웹사이트를 대상으로도 본격 가동하기 시작한 것으로 확인돼 관심을 끌고 있다. 네이버는 지난 3월 말부터 일본내 검색엔진 사업을 준비하기 위해 일본어 웹페이지 수집 활동을 시작한 바 있다.
그러나 상당수 일본 네티즌들은 네이버의 일본내 웹사이트 수집 활동을 둘러싸고 "악명이 높았던 한국 네이버 검색엔진 로봇이 또 이름만 바꿔 웹사이트를 돌아다니고 있다"며 강한 불만을 제기하고 있어 향후 일본 시장 안착이 쉽지 않을 것으로 예상된다.
조선일보가 5일 확인한 자료에 따르면 내년 초 일본 진출을 계획하고 있는 네이버는 현재 알파 단계의 검색엔진을 개발 완료하고 테스트를 진행하고 있다. 실제로 지난달부터는 '예티(Yeti/0.01 nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it)'라는 이름의 웹사이트 검색로봇이 일부 국내 한글 홈페이지들을 매일 수십~수백차례씩 방문하고 있는 것으로 파악됐다. 또한 해당 크롤러의 IP 주소 역시 61.247.219.41 ~ 50 등으로 다양해 상당한 수의 검색 로봇이 국내 웹사이트를 동시에 훑고 있는 것으로 파악된다.
특히 '첫눈(1noon)'이라는 명칭을 로봇 제작자 nhn과 병기한 점, 그리고 '설인(雪人)'을 뜻하는 'Yeti'를 로봇 명으로 사용했다는 점에서 첫눈(http://www.1noon.com)의 스노우랭크 검색 기술이 기반이 됐음을 간접 시사하고 있다. 네이버는 그 동안 웹검색 서비스를 위해 '네이버봇'(Mozilla/4.0 compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)이라는 이름의 크롤러를 간헐적으로 운영해 왔으나, 국내에선 활발하게 활동하지 않아 거의 알려지지 않았다.

◆日서는 지난 3월부터 '예티' 가동된 듯…'네이버봇' 악명에 반발
예티는 적어도 지난 3월 말부터 활발한 활동을 하며 일본 주요 웹사이트를 수집한 것으로 보인다. 그러나 일부 네티즌들은 "또 한국 네이버에서 온 악성 검색 로봇"이라며 의심스런 눈초리를 보내고 있다.
조선일보 취재 결과 네이버 재팬은 일본 웹사이트를 검색하기 위해 지난 3월 말까지 운영한 크롤러 '네이버 봇(Naverbot)'이 웹사이트 안정성을 훼손할 정도로 빈번하게 웹사이트를 임의로 건드리면서 주요 웹사이트 관리자들로부터 비판을 받았던 것으로 확인됐다.
실제로 세계적으로 유명한 백과사전 위키피디아 일본어판에서는 '네이버봇'(http://ja.wikipedia.org/wiki/NaverBot)을 설명하면서 "네이버봇은 크롤러로서 알고리즘이 나빠 문제가 됐다"며 "거의 초 단위로 리퀘스트를 실시하면서, DoS 공격과 유사한 정도에 달해 서버를 불안정하게 할 우려가 있다"고 공공연하게 지적하고 있다.
이 자료에서는 "네이버봇은 일본어 웹사이트를 수집할 때 인덱스에 사용될 것 같은 웹페이지들을 유무를 확인하지 않고 무차별 확인한다"며 "세션을 식별하지 않을 뿐만 아니라, 같은 URL에 대해서 세션만 바꾼 채 잇달아 리퀘스트를 실시하고 있고, (검색엔진이 지켜야 하는 공통 국제규약인) robots.txt도 무시한다"고 지적했다.
또 이 사전에서는 "NABOT/5., nhnbot, minibot(NaverRobot), dloader(NaverBot), nabot, Cowbot, NaverBot-1.0+ 등 다양한 방식으로 이름을 바꿔 웹사이트에 접근했다"며 "네이버봇을 거부하는 일본 웹사이트가 증가했다"고 소개했다.
이와 관련 일본의 한 검색엔진 전문 블로그(http://www.seiren-udoku.com) 운영자는 지난 4월 초 올린 글에서 "네이버봇은 자주 크롤러(HTTP_USER_AGENT) 명칭을 바꾸는 것으로 유명하다"며 "지난 3월 26일을 마지막으로 네이버봇 접근이 사라졌으며, 3월 29일부터는 '예티'라는 새 이름으로 접근하고, IP 주소도 바뀌었다"고 확인하고 있다.
이 뿐만 아니라 일본 주요 포털사이트나 블로거들 역시 "네이버봇을 주의해야 한다"며 부정적인 의견들이 홍수를 이루고 있다. 야후 재팬은 물론이고 구글 재팬에서도 '네이버봇 거부 금지(일본어로 NaverBot 拒否/禁止)' 등의 단어로 검색하면 수십~수백건의 글이 쏟아진다.
이러한 분위기가 수그러들지 않으면서 네이버가 새로 내 놓은 검색로봇 '예티'까지 네이버봇의 악명을 물려 받고 있는 형국이다. 로봇이 본격 가동되면서 일본 웹사이트 관리자들은 "또 네이버가 이름을 바꿨는가"라는 의견을 잇달아 내 놓고 있다. 예티의 크롤러 서버 IP를 직접 파악해 원천적으로 막는 일본 네티즌들도 다수 있을 정도다. 검색엔진 접근이 잇달아 차단되면 색인이 불가능하기 때문에 당연히 검색 품질이 떨어질 수 밖에 없다.
일본 네티즌들은 야후, 구글, 바이두의 검색로봇 접근 횟수와 네이버 예티 로봇의 접근 횟수를 비교한 자료를 제시한 뒤, "예티 역시 매우 지나치게 웹사이트를 건드리고 있다. 네이버가 만든 크롤러는 예의를 모른다"며 접속 횟수에 불만을 터뜨렸다. 일부 네티즌들은 예티를 막기 위해 검색로봇의 IP를 파악해 정보 공유에 나서고 있는 상황이다.
이에 대해 네이버 관계자는 "과거와 달리 새 검색로봇은 통상적인 수준의 크롤링을 수행하고 있다"며 "야후나 구글도 크롤링 빈도가 만만치 않다"고 말했다.

◆중국 최대 검색엔진 '바이두'도 유사 논란에 공식사과
사실 일본에 진출 검색엔진이 검색로봇 때문에 일본 네티즌들의 반발을 산 것은 비단 네이버 뿐만이 아니다.
중화권 최대 검색엔진 바이두(百度, http://baidu.com)가 지난해 말 ‘일본 진출’을 선언했지만, 올해 초 일부 일본 개발자들을 중심으로 ‘反바이두’ 움직임이 일었다.
사태의 발단은 바이두가 지난해 말 첫 해외 진출로 “일본에서 일본어 서비스를 시작하겠다”고 밝히면서다. 바이두는 12월부터 본격적으로 일본어 검색로봇 ‘바이두 스파이더(Baiduspider)’를 가동하며 일본 웹사이트 정보를 무차별 수집(인덱싱)하기 시작했다.
문제는 바이두 검색로봇이 많게는 1초에 수차례 웹서버에 접근하는 등 지나치게 웹사이트를 훑는 경우가 많아 사이트 안정성을 위협할 지경에 이르렀던 것이다. 구글이나 야후 재팬 등 주요 검색사이트에서 ‘Baiduspider’ 등의 키워드로 검색하면 “바이두 검색로봇 접근을 막겠다” “바이두 검색로봇은 웹서비스 기본 예의가 없다”는 등 비난하는 의견이 쏟아졌다.
당시 사태가 악화되자 바이두 일본어 서비스 담당자는 지난 2월 17일 아직 개설하지도 않은 바이두 일본어 홈페이지(http://www.baidu.jp)에 ‘진심으로 사과한다’는 임시 공지사항을 내걸고 사태 진화에 나섰지만 부정적인 시선을 무마하기에는 역부족이었다.
‘일본 웹사이트 관리자에게 보내는 메시지’라는 이 공지에서 바이두는 “해외 첫 진출인 일본 시장에는 지난해 12월부터 본격적으로 진출했다”며 “일본어 검색서비스를 하기 위해 일본어 사이트 정보를 수집하는 검색로봇 리서치를 실시하고 있다”고 말했다. 이러한 과정에서 일부 웹사이트에 과도한 접근(액세스)이 발생, 관리자들에게 막대한 영향을 끼쳤다는 설명이다.
바이두 측은 “바이두 담당자로서 바이두 검색로봇이 사이트에 피해를 끼친 점을 정말 미안하게 생각한다”며 “향후 이 문제에 대해 회사 전반에서 진지하게 받아들이고, 일본 인터넷업계의 규칙에 따라 두번 다시 이런 일이 없도록 노력하겠다”고 덧붙였다.
현재 일본 검색 시장은 소프트뱅크와 손잡은 야후재팬이 부동의 1위를 달리고 있으며, 구글 재팬이 2위로 그 뒤를 추격하고 있다.
◆검색로봇(크롤러) = 검색엔진이 검색 데이터베이스의 내용을 색인 및 보충하기 위해, 대상 웹페이지를 자동으로 검색하여 가져오는 컴퓨터 소프트웨어다. 스파이더(spider), 봇(bot), 지능 에이전트 등으로도 불린다. 검색로봇은 새로운 웹페이지를 찾아 종합하고, 찾은 결과를 이용해 또 새로운 정보를 찾아 색인을 추가하는 작업을 사람의 개입 없이 반복 수행하게 된다.
검색로봇에 의해 검색되지 않기를 원하는 웹 자료는 저장할 때 HTML파일 내에 검색을 거부하는 것을 명시한 메타태그(Meta Tag)를 써 넣거나 웹 서버의 공개 디렉토리 최상위 영역에 로봇 검색 영역을 규정하는 robots.txt를 넣으면 된다.
인터넷뉴스부 서명덕 기자
이 기사를 쓰기 위해 많은 자료를 참고했습니다. 여러가지 정황을 파악하기 위해 다양한 진술을 확보해 정리했습니다. 다행히 위키피디아에서 확인을 해 준 점이 재미있더군요.
당초 네이버봇의 UserAgent 정보는
Mozilla/4.0 (compatible; NaverBot/1.0; http://help.naver.com/delete_main.asp)
입니다.
그런데 새로 등장한 정보는
Yeti/0.01 (nhn/1noon, yetibot@naver.com, check robots.txt daily and follow it)
입니다. yeti는 눈사람(설인)을 뜻하는 단어입니다. 첫눈과 묘하게 매치되죠? 또 1noon이라고 명확하게 표시가 되어 있는 점이 눈길을 끕니다.
첫눈은 죽지 않았다. 다만 사라질 뿐이다?
IP를 보면, 61.247.219.41 ~ 50 까지 여러대의 크롤러를 운영하고 있는 것으로 보입니다. 또 한국어 웹사이트를 건드리는 것을 보아하니 한국 서비스에서 적용할런지 궁금해지네요.
아래는 네이버 검색로봇 관련 일본어 평판 정보들입니다. 참고하세요. 전 일본어를 몰라서 한참 고생했습니다^^
http://iwatakenichi.blogspot.com/2007/07/yetibot.html
http://memo.jj-net.jp/218
http://www.seiren-udoku.com/noteOfSeo?page=YetiBot
http://www.seiren-udoku.com/noteOfBlog?id=200704050224
http://ja.wikipedia.org/wiki/NaverBot
http://blogs.dion.ne.jp/su_su/archives/5953147.html
http://www.seiren-udoku.com/noteOfSeoMR-NaverBot.html
http://iwatakenichi.blogspot.com/2007/07/yeti-naverbot.html
http://iwatakenichi.blogspot.com/2007/07/yetibotnavercom.html
http://d.hatena.ne.jp/agohige-kimura/
검색엔진 & 웹2.0 카테고리의 다른 글

안녕하세요. ITViewpoint 스타터이자 공동 에디터 '서명덕 기자' 입니다. 닉네임은 떡이떡이 입니다.
이 곳은 블로그미디어이며, 개인 공간은 http://itviewpoint.thoth.kr/ 을 메인으로 옮겨 갈 생각입니다.
개인적인 목적이라면 콘텐츠 막펌을 전면 허용 http://itviewpoint.com/blog/54971 합니다. 다만 비상업적인 용도에 한하며, 상업적인 용도라면 별도로 문의하세요. RSS http://itviewpoint.com/blog/rss 는 전문 제공합니다.
2007.12.05 18:55:12 (*.121.170.245)
한국 웹사이트들을 검색하는 이유는 검색시 한국어 사이트를 일본어로 번역하여 결과를 제공하는 방법(검색량과 분야를 늘리기 위해)도 생각하고 있는게 아닐까라는 짧은 생각도 한 번 해 봅니다. ㅎㅎ
2007.12.05 21:33:58 (*.200.61.235)
개인적으로 별도의 방문정보를 항상 수집하고 있는데 예티 가 그랬군요..
근데 사실 해당 봇 말고도 문제있는 봇들은 많이 있습니다.. 메타블로그의 그것도 말이죠;;
아직은 지켜보는 중이긴 하지만 이외에도 문제 있는 봇들이 많이 있더군요
근데 사실 해당 봇 말고도 문제있는 봇들은 많이 있습니다.. 메타블로그의 그것도 말이죠;;
아직은 지켜보는 중이긴 하지만 이외에도 문제 있는 봇들이 많이 있더군요
2007.12.05 23:18:11 (*.144.175.48)
장문이지만 모두 꼼꼼하게 읽었습니다만 이런쪽의 지식이 일천하다보니 잘 이해하지는 못하겠네요.
그래도 어느 정도 감은 잡았는데 좋은 정보네요.
감사합니다.
그래도 어느 정도 감은 잡았는데 좋은 정보네요.
감사합니다.
2007.12.06 00:01:03 (*.254.177.72)
참고로 어떤 분이 위키피디아와 블로그로만 기사가 구성되어 있다고 언급을 해 주셨는데요,
상식적으로 저런 걸 네이버가 확인해 줄리 없지 않겠습니까? 게다가 일본 소식이고, 네이버는 철저히 비공개를 유지하고 있고 취재 자체가 안되는 걸 기술 정보 실마리 하나로 이런 큰 정보까지 풀어가는 겁니다.
당사자들이 자신이 있다면 말을 해 주겠죠. 하지만 수집된 명확한 증거를 들이미는게 더 중요합니다. 그게 멘트 하나 더 포장하는 것보다 중요합니다.
기술적으로 상대방이 거의 반박할 수 없는 기사를 쓰는게 제 목표입니다.
상식적으로 저런 걸 네이버가 확인해 줄리 없지 않겠습니까? 게다가 일본 소식이고, 네이버는 철저히 비공개를 유지하고 있고 취재 자체가 안되는 걸 기술 정보 실마리 하나로 이런 큰 정보까지 풀어가는 겁니다.
당사자들이 자신이 있다면 말을 해 주겠죠. 하지만 수집된 명확한 증거를 들이미는게 더 중요합니다. 그게 멘트 하나 더 포장하는 것보다 중요합니다.
기술적으로 상대방이 거의 반박할 수 없는 기사를 쓰는게 제 목표입니다.
2007.12.06 00:53:00 (*.143.182.224)
> 상식적으로 저런 걸 네이버가 확인해 줄리 없지 않겠습니까?
음 그럼 네이버 쪽에서는 봇 관련해 코멘트하는걸 거부한건가요? '~'
아니면 그저 애시당초 확인해줄 리 없으니까 패스하신?
nhn이 답변을 거부한 거였다면 그 점도 명시해주셨다면 말씀하신 오해가 없었을지도 모르겠다는 그런 생각이 문득 드네요.
아무튼 Yeti의 경우에는 말씀대로 첫눈 시절부터 돌고 있던 봇이었었고...
봇 자체의 버전도 딱히 달라진것 같지 않은 느낌이 들지만(nhn이 추가로 들어간 정도?) 뭐 이쪽은 주의 깊게 보지 않아서 그러려니 하지만 뭐 어쩔 수 있나요. 한번 나쁘게 보기로 마음먹으면 여간해서는 마음 바꾸지 않는게 일본 쪽 스타일인듯 하니까요.
음 그럼 네이버 쪽에서는 봇 관련해 코멘트하는걸 거부한건가요? '~'
아니면 그저 애시당초 확인해줄 리 없으니까 패스하신?
nhn이 답변을 거부한 거였다면 그 점도 명시해주셨다면 말씀하신 오해가 없었을지도 모르겠다는 그런 생각이 문득 드네요.
아무튼 Yeti의 경우에는 말씀대로 첫눈 시절부터 돌고 있던 봇이었었고...
봇 자체의 버전도 딱히 달라진것 같지 않은 느낌이 들지만(nhn이 추가로 들어간 정도?) 뭐 이쪽은 주의 깊게 보지 않아서 그러려니 하지만 뭐 어쩔 수 있나요. 한번 나쁘게 보기로 마음먹으면 여간해서는 마음 바꾸지 않는게 일본 쪽 스타일인듯 하니까요.
2007.12.06 10:55:18 (*.100.181.168)
메신저 라이브 정보 감사합니다 그 글로 다른 글도 보게 되었는데요
요위에 아이피 보니 사이트에 늘 깔려있던 아이피가 61.247.219.41 ~ 50
이 맞네요 아이피 검색 해보니 관리자가 네이버 관리자로 나오던데 그래서 의아 했었는데 여기서 정보를 알았네요 다른 블로그들 검색 해보니 일본어로 벌써 깔려 검색 되는 블로그도 있고 조 위 아이피를 이 글에서 알게 되었네요 자주 들르겠습니다.
요위에 아이피 보니 사이트에 늘 깔려있던 아이피가 61.247.219.41 ~ 50
이 맞네요 아이피 검색 해보니 관리자가 네이버 관리자로 나오던데 그래서 의아 했었는데 여기서 정보를 알았네요 다른 블로그들 검색 해보니 일본어로 벌써 깔려 검색 되는 블로그도 있고 조 위 아이피를 이 글에서 알게 되었네요 자주 들르겠습니다.

떡이떡이

호랭이
thoth





