robots.txt — маленький файл с большой ответственностью

07.04.2025
5
8 минут
robots.txt — маленький файл с большой ответственностью

Зачем нужен robots.txt

Если у вас есть сайт, значит, его наверняка кто-то сканирует — будь то поисковые системы, соцсети или сторонние сервисы. Но как им понять, какие страницы можно индексировать, а какие лучше обойти стороной? Именно для этого и существует файл robots.txt.

robots.txt — это обычный текстовый файл, который размещается в корне сайта и содержит инструкции для поисковых роботов. Его задача — регулировать доступ к определённым разделам сайта, сообщать, что можно сканировать, а что нельзя, и помогать поисковым системам тратить свой краулинговый бюджет эффективно.

Например, у вас есть интернет-магазин, и вы не хотите, чтобы поисковики индексировали страницу корзины или результаты поиска по сайту — эти страницы не несут ценности для внешнего пользователя. Вместо этого вы хотите, чтобы робот сосредоточился на товарах, категориях и полезных статьях. Всё это можно грамотно настроить с помощью robots.txt.

Файл может быть минимальным — буквально несколько строк, а может быть довольно подробным. Но даже одно неправильное правило может привести к тому, что весь сайт выпадет из индекса. Поэтому важно понимать, как работает этот инструмент, и уметь с ним обращаться.

Если вы думаете, что файл robots.txt — это что-то сложное, предназначенное только для разработчиков, не переживайте. В этой инструкции мы разберём всё по полочкам, простыми словами. Покажем, как он устроен, что можно и нужно в нём указывать, а чего делать категорически нельзя. Также мы дадим готовые примеры для разных типов сайтов, чтобы вы могли использовать их как шаблоны.

Как работает robots.txt

Если говорить простыми словами, то когда поисковый робот приходит на сайт, он первым делом ищет файл robots.txt. Работает robotx.txt как вывеска на двери: "входить сюда можно, а сюда — не стоит". Робот читает файл и следует инструкциям, которые вы ему оставили.

Важно понимать: robots.txt не блокирует страницу от просмотра вообще. Он просто вежливо просит поисковую систему не сканировать определённые разделы. Большинство роботов, включая Googlebot и YandexBot, прислушиваются к этим правилам. Но технически — страница всё равно может быть найдена, если на неё есть внешняя ссылка. Она может попасть в результаты поиска, но без содержимого — только с заголовком и ссылкой.

Чтобы это прояснить, представим простой пример.

Допустим, у вас есть вот такой robots.txt:

User-agent: *
Disallow: /private/

Что это значит?

Любому роботу (звёздочка * означает всех) запрещено сканировать раздел /private/. Если там находятся, например, служебные документы или тестовые страницы — они не будут загружены в индекс. Но если кто-то где-то дал на них ссылку — они всё ещё могут появиться в поиске, просто без описания.

Ещё важный момент: файл robots.txt читается сверху вниз, и если в нём есть несколько правил для разных роботов, каждый бот будет искать строку, которая подходит именно ему.

Например:

User-agent: Googlebot
Disallow: /no-google/

User-agent: *
Disallow: /no-others/

В этом случае Googlebot не будет заходить в /no-google/, но может просматривать /no-others/. Остальные роботы, наоборот, будут игнорировать /no-others/, но смогут зайти в /no-google/.

Таким образом, robots.txt — это способ направить робота по правильному пути. Вы говорите: "Вот сюда заходи, а сюда — лучше не надо". При этом важно понимать, что это не защита от доступа — это рекомендация. Для защиты нужно использовать другие инструменты: закрытие через HTTP-авторизацию, пароли или мета-теги.

Если вы создаёте разные блоки для разных роботов, то каждое правило отделяется пустой строкой.

Вот ещё пример:

User-agent: Googlebot
Disallow: /private/
Allow: /private/info.html

User-agent: *
Disallow: /tmp/
Sitemap: https://mysite.ru/sitemap.xml

Здесь Googlebot запрещено сканировать всю папку /private/, но разрешено заходить на страницу /private/info.html. Все остальные роботы не могут заходить в /tmp/, но при этом им указан путь к карте сайта — это помогает лучше понять структуру проекта.

Сам файл сохраняется как обычный .txt и размещается в корневой директории сайта — то есть его адрес должен быть строго таким:
https://mysite.ru/robots.txt

Если файл лежит в другой папке, или у него другое имя — поисковик его просто не найдёт.

Директивы в robots.txt

User-agent

Эта директива указывает, для какого поискового робота применяются следующие правила. Можно нацелиться на всех сразу или задать правила конкретному боту.

Примеры

User-agent: *

Правила для всех роботов без исключения.

User-agent: Googlebot

Правила только для Google. Остальные игнорируют.

Названия ботов

Названия ботов можно найти в официальных документациях поисковых систем.

Основные популярные названия:

  • YandexBot — только для основного индексирующющего бота Яндекса

  • Yandex —  для всех роботов Яндекса

  • Googlebot — основной бот Google

  • Googlebot-Image — бот для изображений

  • Bingbot — от Microsoft

  • и.т.д

Disallow

Одна из самых часто используемых директив. Она запрещает роботу сканировать определённые страницы или папки.

Примеры

Disallow: /

Полный запрет на сканирование всего сайта.

Disallow: /admin/

Запрещён доступ ко всем страницам внутри папки /admin/.

Disallow: /cart.php

Нельзя сканировать конкретный файл.

Disallow:

Пустое значение означает, что ничего не запрещено — доступ открыт полностью. Такой вариант можно использовать, если ранее были директивы с ограничениями, и вы хотите их "перекрыть".

Allow

Наоборот, разрешает доступ к определённым URL, даже если вышестоящие правила запрещают папку целиком.

Пример

Disallow: /private/
Allow: /private/info.html

Весь раздел /private/ закрыт, но страницу info.html можно сканировать.

Эта директива особенно полезна для Google, так как он обрабатывает правила на уровне наиболее подходящего совпадения.

Sitemap

Указывает, где находится карта сайта в формате XML. Это помогает поисковику быстрее понять структуру сайта и находить нужные страницы.

Пример

Sitemap: https://mysite.ru/sitemap.xml

Можно указывать несколько карт, если у вас разбивка по типам страниц.

Crawl-delay

Эта директива говорит роботу, с какой паузы в секундах ему следует заходить на сайт между запросами. Полезно при большой нагрузке.

Пример

Crawl-delay: 10

Робот будет ждать 10 секунд между загрузкой страниц.

Google эту директиву не поддерживает. Но она работает у Яндекса. Для Google нужно настраивать частоту сканирования через Search Console.

Host

Указывается только для Яндекса. Позволяет задать, какой домен считается основным, если у сайта есть зеркала (например, site.ru и www.site.ru).

Host: www.mysite.ru

Яндекс будет считать www-версию главной.

Можно указывать только одну директиву Host на файл. Иначе она игнорируется.

Clean-param

Одна из наименее известных, но очень полезных директив. Она помогает бороться с дублированием контента, возникающим из-за URL с параметрами.

Эта директива поддерживается только Яндексом, и работает так: она говорит, что определённые параметры не влияют на уникальность контента, и их можно игнорировать.

Пример

Clean-param: sessionid /catalog/

Яндекс будет считать, что URL типа /catalog/?sessionid=12345 и /catalog/ — это одна и та же страница.

Ещё пример с несколькими параметрами

Clean-param: utm_source&utm_medium&utm_campaign

Игнорируем стандартные метки от рекламы и аналитики.

Это особенно важно для сайтов с UTM-метками или динамическими фильтрами.

Комментарии в robots.txt

Если вы хотите оставить пояснение к какому-то правилу, используйте символ #. Всё, что идёт после него — считается комментарием и игнорируется ботами.

Пример

# Запрещаем доступ к панели администратора
Disallow: /admin/

Если всё это собрать в один пример, получится рабочий файл такого вида:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /search/
Allow: /search/help.html
Sitemap: https://mysite.ru/sitemap.xml
Host: www.mysite.ru
Clean-param: utm_source&utm_medium&utm_campaign
# Crawl-delay работает для Яндекса
Crawl-delay: 5

10 сложных и полезных примеров robots.txt

Закрываем URL с фильтрами и сортировками, но оставляем чистые страницы каталога

User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*&PAGEN_1=
Allow: /catalog/

Подходит для интернет-магазинов с фильтрами и пагинацией. Мы запрещаем роботу заходить на страницы с параметрами, чтобы избежать дублей, но разрешаем основную структуру каталога.

Запрет определённым ботам, остальным — полный доступ

User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: *
Disallow:

Полезно, если вы не хотите, чтобы SEO-боты анализировали сайт, но не против поисковиков вроде Google и Yandex.

Разрешаем сканировать только изображения и карту сайта

User-agent: *
Disallow: /
Allow: /images/
Sitemap: https://mysite.ru/sitemap.xml

Полный запрет на сканирование сайта, кроме папки с изображениями. Например, подходит для сайтов-витрин, где страницы закрыты, но картинки нужны в поиске.

Учитываем поддомены (если у вас много субдоменов)

Каждый поддомен требует своего robots.txt, но это часто упускают.

# robots.txt на sub.mysite.ru
User-agent: *
Disallow: /temp/
Sitemap: https://sub.mysite.ru/sitemap.xml

Настраивайте отдельный robots.txt для каждого поддомена, если они живут независимо.

Ограничиваем скорость сканирования при высокой нагрузке

User-agent: Yandex
Crawl-delay: 10

User-agent: Bingbot
Crawl-delay: 5

Позволяет снизить нагрузку, если поисковики "ддоссят" сайт слишком часто.

Используем Clean-param для борьбы с дублями от аналитики

User-agent: Yandex
Clean-param: gclid&utm_source&utm_medium&utm_campaign&utm_term

Избавляет от дублей из-за URL с метками. Особенно полезно для сайтов с рекламой.

Разрешаем только конкретный файл в закрытом разделе

User-agent: *
Disallow: /docs/
Allow: /docs/catalog.pdf

Все документы скрыты, кроме одного файла, который нужно оставить в индексе (например, прайс).

Скрываем поиск и личный кабинет

User-agent: *
Disallow: /search/
Disallow: /personal/
Disallow: /auth/

Частый вариант для корпоративных и e-commerce сайтов. Эти страницы не нужны в индексе.

Поддержка нескольких Sitemap для крупных сайтов

User-agent: *
Sitemap: https://mysite.ru/sitemap_main.xml
Sitemap: https://mysite.ru/sitemap_products.xml
Sitemap: https://mysite.ru/sitemap_articles.xml

Если у вас большой сайт, логично делить карту на блоки: товары, статьи, страницы и т.д.

При большом количестве страниц (больше 50 000), дели карту на части — поисковикам проще обрабатывать.

Комбинируем всё в одном файле

User-agent: Googlebot
Disallow: /admin/
Disallow: /cart/
Allow: /upload/images/
Crawl-delay: 5

User-agent: Yandex
Disallow: /admin/
Clean-param: utm_source&utm_medium
Host: www.mysite.ru
Sitemap: https://mysite.ru/sitemap.xml

User-agent: *
Disallow: /temp/

Здесь настроены разные правила для разных ботов. Учитываются и чистка URL, и поведение, и разные уровни доступа.

Пример robots.txt для сайта на 1C-Битрикс

Сайты на Битриксе генерируют много технического мусора: временные страницы, системные папки, динамические фильтры. Всё это стоит закрыть, чтобы избежать проблем с дублями, экономить краулинговый бюджет и ускорить индексацию важного.

Пример для битрикса

User-agent: *
Disallow: /bitrix/
Disallow: /local/
Disallow: /upload/
Disallow: /search/
Disallow: /personal/
Disallow: /auth/
Disallow: /ajax/
Disallow: /*index.php
Disallow: /*?PAGEN_
Disallow: /*?sort=
Disallow: /*&
Allow: /upload/iblock/
Allow: /local/templates/
Sitemap: https://mysite.ru/sitemap.xml
Host: www.mysite.ru
Clean-param: utm_source&utm_medium&utm_campaign

Пояснения:

  • Скрывает служебные папки (/bitrix/, /local/, /ajax/)

  • Блокирует поисковик, личный кабинет и поиск

  • Этот шаблон можно использовать как основу, адаптируя под конкретный проект.

  • Удаляет дубляж по параметрам (PAGEN_, sort, index.php)

  • Оставляет важные технические файлы доступными, например картинки товаров и шаблоны

  • Добавляет карту сайта и основное зеркало (только для Яндекса)

  • Чистит URL от рекламных меток с помощью Clean-param

Типичные ошибки и подводные камни при настройке robots.txt

Файл robots.txt кажется простым на первый взгляд — несколько строчек текста, пара директив… Но малейшая ошибка в этом файле может привести к серьёзным последствиям: от полного выпадения сайта из поисковой выдачи до индексации дублирующихся страниц и утечки личной информации. Ниже мы разберём самые распространённые ошибки, которые допускают даже опытные вебмастера и SEO-специалисты.

Ошибка 1: Полный запрет индексации всего сайта

User-agent: *
Disallow: /

Что происходит: поисковики не смогут сканировать ни одну страницу, включая главную. Это фактически выводит сайт из индекса.

Когда это оправдано: только в случаях, если сайт временно закрыт на реконструкцию, и это сопровождается заголовком 503 на сервере.

Ошибка 2: Неправильное использование слэша в конце

Disallow: /catalog

Что не так: многие думают, что эта запись закроет папку /catalog/. На самом деле она закроет только путь /catalog, но не /catalog/page1.html.

Правильно

Disallow: /catalog/

Всегда добавляй слэш в конце пути, если хочешь закрыть всю папку.

Ошибка 3: Закрытие технических файлов, нужных для работы сайта

Неправильно

Disallow: /local/
Disallow: /bitrix/

Если шаблон сайта или CSS/JS-файлы загружаются из этих папок, и они заблокированы, Google может не правильно отрисовать страницу и "понизить" её в результатах поиска.

Правильно

Allow: /local/templates/
Allow: /bitrix/templates/

Ошибка 4: Пустой Disallow не отменяет предыдущие запреты

User-agent: Yandex
Disallow: /admin/

User-agent: *
Disallow:

Что думают: что это «сотрёт» предыдущие ограничения.

Что на самом деле: каждый блок работает только для своего user-agent. Disallow: без пути просто означает "разрешено всё", но только для *, а не для Yandex.

Ошибка 5: Указание нескольких директив Host

Неправильно

Host: www.mysite.ru  
Host: mysite.ru

Яндекс поддерживает только одну директиву Host. Если их несколько — обе игнорируются.

Правильно

Необходимо выбрать одно основное зеркало и указать его:

Host: www.mysite.ru

Ошибка 6: Одинаковый robots.txt для поддоменов

У каждого поддомена должен быть свой robots.txt, доступный по адресу sub.domain.com/robots.txt.

Google и Яндекс воспринимают поддомены как отдельные сайты.

Ошибка 7: Проверка robots.txt "на глаз"

Иногда кажется, что всё правильно, потому что файл «выглядит нормально». Но даже лишний пробел, символ табуляции или закодированный символ (%20) может испортить директиву.

Для проверки используйте Яндекс Вебмастер и Google Search Consol

Ошибка 8: Надежда только на robots.txt для закрытия от индексации

Файл robots.txt запрещает сканирование, но не гарантирует исключение страницы из индекса. Если поисковик уже знает о ней (например, через внешнюю ссылку), он может всё равно её проиндексировать — просто без содержимого.

Необходимо использовать также meta robots или заголовки HTTP:

Ошибка 9: Закрытие sitemap.xml или robots.txt от индексации

Иногда по невнимательности закрывают:

Disallow: /sitemap.xml
Disallow: /robots.txt

Это ошибка, поисковики должны иметь доступ к этим файлам, иначе они не смогут корректно сканировать сайт.

Ошибка 10: Неправильный порядок директив Allow/Disallow

Google работает по принципу: самое длинное совпадение побеждает.

Пример ошибки:

Disallow: /private/
Allow: /private/file.pdf

Это правильно! Но если сделать наоборот — Allow раньше, а потом Disallow, всё равно будет работать, если Allow длиннее. Главное — учитывать длину совпадения, а не порядок строчек.

Заключение

Файл robots.txt — это всего лишь текстовый документ, но он играет ключевую роль в том, как поисковые роботы видят ваш сайт. Грамотная настройка этого файла помогает:

  • защищать технические разделы от индексации,

  • управлять краулинг-бюджетом,

  • исключать дублирующий контент,

  • ускорять индексацию важных страниц,

  • и даже защищать данные, которые не должны попадать в поисковую выдачу.

Что важно помнить:

  • robots.txt не удаляет страницы из индекса, он лишь запрещает их сканировать. Для удаления нужна директива noindex или удаление через панель вебмастера.

  • Даже один неверный слэш или пробел может испортить логику работы файла.

  • У каждого поддомена и зеркала — свой файл.

  • Правила нужно тестировать и периодически пересматривать.

Это не просто «служебный файл для галочки». Это инструмент, который помогает выстроить стратегию индексации, особенно если у вас большой сайт, интернет-магазин или проект с динамической структурой.


💬 Если вы только начинаете — не бойтесь пробовать. Создайте robots.txt, проверьте его через инструменты вебмастера, понаблюдайте за результатами. Со временем вы будете настраивать его почти вслепую.

А если уже имеете опыт — пересмотрите текущий файл: возможно, его можно улучшить.

Интересные статьи
Ваш запрос отправлен
Наш менеджер уже увидел ваше письмо, он наберет Вас в ближайшее время.