매직토마토님,
혹시 도움이 될까해서 몇자 적어봅니다.
1. 사이트가 정상적이라도 구글측의 오류로 인해서 유사한 문제가 발생할 수 있습니다.
제경험을 말씀을 드리면, 이미 1년이상 정상적으로 잘 작동을 하다가 어느날 갑자기 robot.txr를 읽지 못하는 경우가 있었습
니다.
서버측에서 무엇인가 설정을 변경한 것도 없는데도 말입니다. 그런 상태로 1개월 이상 계속되다가 또다가 갑자기 정삭적으로 크롤링
을
하더군요. 추측하건데 서버측에서 이상이 없어도 간혹 구글의 오류로 일정기간동안 그런 현상이 생길 수 있습니다.
2. 사용자가 ftp로 접근할 수 없는 곳에 robot.txt를 넣어서 구글봇의 접근을 웹호스팅 서버스 회사측에서 방해할 수
는 없습니다.
robot.txt는 웹출판루트 예를들어 public_html내에 존재합니다. 사용자가 접근할 수 없는 곳은 로봇도 접근을 못합니
다.
따라서 웹호스팅 서비스 회사가 방해한다는 것은 무엇인가 잘못 오해하고 있을 것입니다.
3. 검색엔진이 서버의 트래픽을 과다하 유발할 수 있는 것 맞습니다.
가장 적절하게 서버의 부담을 주지 않는 범위내에서 사이트를 크롤링하는 것이 구글봇입니다. 그러나 사이트의 콘텐츠가 많다면
크롤링하는 시간이 길어지고 트래픽도 많이 소모를 합니다. 그러나 특정시간에 급작스럽게 트래픽으로 인한 부담은 주지 않습니다.
24시간동안에 꾸준히 그리고 치밀하게 크롤링을 합니다.
반면에 네이버와 같은 검색로봇을 예로 든다면 체계있게 크롤링을 하는 것이 아닌 특정시간에 수십개의 봇이 트래픽 폭격을 가하 듯
덤벼듭니다. 이러한 경우 서버사양이 받쳐주지 못하는 소규모 사이트들은 서비스가 불가능해집니다. 개인적으로 몇번씩이나 당했습니
다.
아예 지금은 네이버 로봇은 거부하고 있습니다. 부담도 주지만 문제는 그렇게 크롤링을 해가도 검색에 반영을 하지 않는다는 것입니
다.
아마도 사람들이 많이 찾는 콘텐츠 그리고 소위 돈되는 콘텐츠가 아닌 이상은 검색 결과에 반영도 하지 않으며, 거의 광고스폰서 위
주로
조작에 가가운 검색결과를 노출시킨다고 봐야 합니다.
네이버측에 항의해봐야 그렇지 않다고 응답을 하지만 웹사이트 수년동안 운영해 보면 네이버가 거짓부렁한다는 것을 알게 됩니다.
4. 마지막으로 구글 웹사이트 도구를 이용하실 경우 구글봇이 robot.txt을 읽어도 상태값 200이 반드시 리턴되어야 합니
다.
그렇지 않을 경우 정상적으로 크롤링을 하지 않습니다. 몇년전에 유사한 경험을 했는데 그 원인이 생각이 나질 않았지만...
제경우는 mod_security라는 웹사이트 방화벽 때문이었습니다. mod_security가 지금은 버전이 업데이트 되어 동일증
상이
난다고 확신할 수 없지만, 만약 구버젼의 모듈을 사용되는 경우 발생할 수 있습니다고 생각합니다.
더불어 서버관리자도 모르는 어떤 원인에 의해서 발생할 가능성도 있습니다.
5. 웹호스팅 서비스의 경우 단순한 개인홈페이지 정도를 운영하시는 것이 좋다는 생각입니다.
특정사이트 하나만을 위한 것이 아닌 서버를 공용하는 셈이므로 서버환경을 변경하는 것은 서비스 제공자측도 어려움이
있겠지요. 특히 보안과 관련한 부분이 말입니다.
서버환경 문제 그리고 SEO 등 제약에서 벗어나시려면 웹호스팅 서비스 보다는 웹서버 호스팅을 이용하시는 것이 좋습니다.
또 비용부담이 크다고 할 수 있는 웹서버 호스팅 보다는 가상서버 호스팅을 이용하시는 것도 좋을 것입니다.
도움이 되시길...