yandex

Яndex, индексирование и нагрузка

Сегодня мы хотим поговорить об индексации сайтов. В последнее время к нам обращались пользователи нашего хостинга с проблемой, заключавшейся в том, что робот Яндекса перестал индексировать их сайт. В ходе выяснения причин оказалось, что IP-адрес робота был заблокирован системой защиты сервера.  Что же происходит на самом деле? Это мы и попробуем Вам объяснить.

Услуга виртуального хостинга подразумевает, что на одном сервере может быть расположено большое количество аккаунтов клиента. Каждый сайт должен быть проиндексирован и занять свои позиции в выдаче. Однако при этом упускается вопрос повышения нагрузки на сервер, на котором размещены сайты, и это большая проблема.

Далеко не всегда пользователи правильно настраивают файл robots.txt , а ведь с помощью него можно не только ограничить доступ поисковому роботу к определённым разделам Вашего сайта, которые индексировать не обязательно, но и ограничить период, с которым поисковик будет делать запросы. Например, можно ограничить его 2 секундами вместо того, чтобы позволить роботу проиндексировать практически всё сразу, что приводит к повышению нагрузки. Ведь не стоит забывать, что пользователь виртуального хостинга делит сервер с такими же пользователями, как и он. Другое дело, если у Вас выделенный виртуальный сервер или физический сервер. В таком случае, конечно, делить ресурсы Вам ни с кем не придётся, и тут Вы себе сами хозяин.

Подобное поведение робота Яндекса нас не устраивало, да и пользователей не устраивало такое положение вещей, при котором IP-адреса робота были заблокированы, а сайт мог вылететь из индекса. Мы обратились с официальным письмом к Яндексу и описали сложившуюся ситуацию. Ответа, к счастью, не пришлось долго ждать. В ответном письме шла речь о новом механизме индексации, использование которого снизит потребление ресурсов сервера (хотя не ясно, за счёт чего это произойдет, ведь скрипты и запросы наших пользователей остаются прежними). Было установлено, что робот Яндекса не умеет распознавать ситуацию, когда несколько IP-адресов расположены на одном сервере, хотя ситуация, когда на одном сервере есть около десятка IP-адресов, вполне нормальна. Именно такие сервера и подвержены самым большим «нападением» поисковика, поскольку на один сервер направляется количество роботов, соизмеримое количеству IP-адресов.

Но нам удалось найти компромисс. Ввиду того, что Яндекс отказался предоставлять нам сети своих роботов для внесения их в белый список серверов, мы предоставили Яндексу информацию о своих сетях, а именно список наших серверов, где есть более чем 1 IP . Представители Яндекса пообещали пересмотреть индексирование данных серверов.

А пока блокировка большого потока адресов всё ещё возможна. Для того, чтоб избежать её, пользователю необходимо сделать следующее:

  1. Настроить или пересмотреть файл robots.txt (Crawl delay. Позволяет указать индексирующему роботу минимальный промежуток времени (в секундах) между обращениями к страницам сайта.
    Этот параметр полезен для крупных проектов, содержащих десятки тысяч страниц и более. Поисковый робот Яндекса при индексировании может создать на такой сайт большую нагрузку, что может вызвать перебои и задержки в работе сайта, по-этому, возможно, вам следует ограничить количество обращений в секунду. Например, директива Crawl-delay: 2  укажет роботу, что он должен выжидать 2 секунды между обращениями к серверу.)
  2. Пересмотреть работу скриптов сайта. Это не только может снизить нагрузку от индексирования роботом, но и поможет избежать предупреждений от службы поддержки.
  3. Если первые два пункта тяжело реализовать , следует подумать о переходе на более высокий по ресурсам тарифный план.

P.S. Если Вы заметили, что Ваш сайт не индексируется, немедленно сообщите об этом в тех. поддержку. Наши техники смогут проверить, не блокировался ли робот Яндекса на сервере.