Файл robots.txt и как его правильно настроить

post thumbnail

Robots.txt — это файл, который размещается в папке сайта на хостинге и запрещает поисковому роботу сканировать сайт. Как понятно из названия, файл имеет обычный текстовый формат. Если при обращении в браузере к вашему сайту по ссылке вида http://site.com/robots.txt корректно отображается содержимое файла — значит он будет правильно прочитан роботами поисковиков.

Зачем нужен robots.txt и как настроить robots?

Чтобы в индекс поисковых систем не попали страницы, которых там быть не должно. Если файла с настройками нет, он пустой, или настроен неправильно, то в индекс могут попасть критические данные, такие как конфигурационные файлы с паролями, ссылки на админку, какие-то системные файлы и каталоги движка сайта. В результате неправильной настройки поисковик может проиндексировать и показать всем желающим, к примеру, логин-детали для подключения к базе данных.

Как настроить robots.txt | Wiki HostPro

Страницы, которые нужно закрывать от индексации:

  • Страницы поиска по сайту
  • Корзина
  • Сравнение, сортировка и фильтры товаров
  • Теги, если их нельзя оптимизировать и модерировать
  • Страницы регистрации и авторизации
  • Личный кабинет и профайлы пользователей
  • Системные файлы и каталоги
  • Версии для печати
  • Пустые страницы и т. д.

Блокировать индексацию следует для всех тех страниц, которые не несут пользу для посетителя, недоработаны, содержат чувствительные данные или являются дублями.

Заметим, что правила robots.txt — не панацея. Вебкраулер все равно может проигнорировать их и просканировать страницу. Чтобы этого не произошло, в шапку кода страницы желательно добавить тег:

<meta name="robots" content="noindex">

Как создать файл robots.txt?

Структура файла robots.txt имеет такой вид:

  • Поисковый робот 1
  • Инструкции для робота 1
  • Дополнительные опции

  • Поисковый робот 2
  • Инструкции для робота 2
  • Дополнительные опции

и т.д.

Порядок написания инструкций не имеет значения, поскольку обработка их происходит от менее вложенного к более вложенному. Регистр написания правил важен: cart.php и Cart.PHP — это разные страницы.

User-agent

Данная директива отвечает за имя робота, для которого будут указаны правила в этой секции.

  • User-agent: * — для всех роботов

Также при необходимости можно указывать любые другие существующие user-агенты.

Disallow

Отвечает за запрет индексации указанных директорий. Нельзя указывать несколько папок в одной строке, поскольку роботы не смогут правильно интерпретировать правило. Данная директива может быть проигнорирована Googlebot, если на запрещенные к индексации директории есть ссылки на вашем сайте или других сайтах.

Если ваш сайт находится на стадии разработки и вы не хотите показывать его поисковикам, то запретить индексирование можно командами:

User-agent: * 
Disallow: /

Не забудьте изменить эти настройки после завершения всех работ по созданию сайта.

Allow

А эта директива, соответственно, открывает доступ роботов к указанным каталогам.

Причем указывать Allow: / не имеет смысла, поскольку по умолчанию индексация разрешена для всех каталогов, на которые не установлен запрет (Disallow).

Allow применяется обычно в комбинации с Disallow, например:

Disallow: /
Allow: /catalog

Запрет индексации корневой папки, но индексировать папку catalog можно.

Важно понимать, что директива Disallow: — это то же самое, что Allow: /

С другой стороны Allow: взаимозаменяема с Disallow: /

Host

На данный момент директива не обрабатывается краулерами Google (с марта 2018 года). Потому можно ее не использовать.

Ранее директива Host указывала на основное зеркало вашего сайта:

Host: https://site.com

Сейчас достаточно правильно настроить редиректы 301 с неосновных зеркал на основное.

Sitemap

Указывает ботам, где находится карта сайта, если это не стандартный путь https://site.com/sitemap.xml. Важно указывать полную ссылку на карту сайта, а не относительный путь:

Sitemap: https://site.com/private/sitemaps/sitemap_new.xml

Вы можете указывать разные карты для разных роботов при необходимости.

Crawl-Delay

Если роботы Yandex сильно нагружают хостинг, можно задать минимальный интервал между запросами. Например:

Crawl-Delay: 10 

Запись означает, что веб-краулеру разрешено делать запросы не чаще, чем раз в 10 секунд.

На практике это правило не всегда соблюдается, а Googlebot и вовсе его игнорирует — скорость обхода сайта регулируется в Search Console.

Также указав интервал, например 0.1 сек, вы можете ускорить индексацию сайта. Не факт, что запросы будут приходить по 10 раз в секунду, но сайт точно будет проиндексирован быстрее. Будьте осторожны с этой настройкой, если не уверены, что ваш сервер выдержит такой большой поток запросов.

Clean-param

Эта команда используется довольно редко и призвана убрать дубли страниц, которые образуются различными utm-метками, сессиями, сортировками, фильтрами.

Например, при переходе на страницу сайта в URL подставляется referrer — сайт, откуда был сделан переход:

https://site.com/catalog/dveri?ref=google.com.ua&model_id=125

https://site.com/catalog/dveri?ref=ek.ua&model_id=125

Поисковики будут считать эту страницу как две разных. Чтобы склеить дубли, нужно добавить команду:

Clean-param: ref /catalog/dveri

Подстановочные символы

Подстановочные символы в robots.txt используются для упрощения и сокращения записей.

Символ * — любая последовательность символов.

Disallow: /images/*.jpg$

Запись означает: запретить индексирование всех изображений jpg в папке images.

Символ $ — конец строки. Данный символ ограничивает раскрытие содержимого каталогов, например:

Disallow: /images/$ 

Эта запись не позволит попасть в индекс элементам непосредственно в папке images, но элементы в папках /images/public1//images/public2/ и т.д. будут индексироваться.

Символ # — комментирование. Все символы в строке, идущие за этим символом будут проигнорированы ботами.

Какие ошибки часто допускают при написании robots.txt?

  1. Имя робота в Disallow.

Неправильно:

Disallow: Google

Правильно:

User-agent: Google
Disallow: /

2. Несколько папок в одной строке Disallow.
Неправильно:

Disallow: /admin/ /tmp/ /private/

Правильно:

Disallow: /admin/
Disallow: /tmp/
Disallow: /private/

3. Сам файл должен называться только robots.txt, а не Robots.txt, ROBOTS.TXT и т.д.

4. Нельзя оставлять пустым правило User-agent, нужно прописать * или имя робота, для которого далее будут прописаны правила.

5. Имена папок и доменов кириллицей. URL нужно писать в формате URL-encode, а IDN-домены в puny-code.
Неправильно:

Disallow: /корзина

Правильно:

Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

Неправильно:

Sitemap: https://мойсайт.com/admin/sitemap1.xml

Правильно:

Sitemap: https://xn--80arbjktj.com/admin/sitemap1.xml

6. Очень много правил — большой размер файла. Если файл robots.txt весит больше 32 КБ, то он не обрабатывается и считается полностью разрешающим.

В завершение

Надеемся, что мы смогли ответить на некоторые вопросы о настройке robots.txt и процессе индексации в поисковых системах.

Ниже оставим ссылки с примерами файла robots.txt для популярных CMS. Если будете использовать эти файлы, не забудьте изменить имя домена на свое:

Хостинг, с которым ваш сайт будет занимать топовые позиции в выдаче, заказывайте в HostPro. Поможем с выбором тарифа и всеми настройками 24/7.

Telegram Hostpro

Наш телеграм

с важными анонсами, розыгрышами и мемами

Присоединиться

Возможно, вас заинтересует

Как обнаружить вирусы на сайте и ликвидировать их с ImunifyAV+

Как обнаружить вирусы на сайте и ликвидировать их с ImunifyAV+

Представьте, что вы заходите на свой веб-сайт и обнаруживаете, что он ведет себя странно...

Hostpro Company | Обновлено: 17.06.2024

Вредоносные боты на сайте – как их обнаружить и заблокировать

Вредоносные боты на сайте – как их обнаружить и заблокировать

Знаете ли вы, что значительную часть онлайн-трафика создают боты? Эти автоматизированные алгоритмы лежат в...

Hostpro Company | Обновлено: 10.06.2024

Как подключить к сайту Cloudflare

Как подключить к сайту Cloudflare

Из этого гайда вы узнаете, как подключить к сайту Cloudflare всего за несколько кликов....

Diana Honcharenko | Обновлено: 16.08.2023

Шифрование: типы и алгоритмы. Что это, чем отличаются и где используются?

Шифрование: типы и алгоритмы. Что это, чем отличаются и где используются?

Многие до сих пор недооценивают важность SSL сертификатов, а ведь их технология лежит в...

Diana Honcharenko | Обновлено: 16.06.2020