robots.txt: подробный разбор

🛡️

Googlebot стучится в новый сайт

«Первое, что я делаю на любом сайте — читаю /robots.txt. Нет файла? Краулю всё. Есть файл? Следую правилам. Это не просьба — это протокол.»

📌 robots.txt — текстовый файл в корне сайта (https://example.com/robots.txt), управляющий доступом поисковых роботов к разделам сайта.

Директивы robots.txt

Директива	Что делает	Пример
`User-agent`	Кому применяется правило	`User-agent: *` (всем)
`Disallow`	Запрещает краулинг пути	`Disallow: /admin/`
`Allow`	Разрешает подпуть внутри Disallow	`Allow: /admin/public/`
`Crawl-delay`	Пауза между запросами бота (сек)	`Crawl-delay: 2`
`Sitemap`	Указывает путь к XML-карте	`Sitemap: https://site.com/sitemap.xml`

Пример реального robots.txt

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Allow: /admin/assets/

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://example.com/sitemap.xml

Wildcards: * и $

* — любое количество любых символов: Disallow: /*.pdf$ закрывает все PDF-файлы
$ — конец URL: Disallow: /search$ закрывает /search, но не /search/results

Типичные ошибки

Ошибка	Последствие
Закрыть /static/ или /css/ через Disallow	Googlebot не видит оформление — считает сайт нефункциональным
Думать, что Disallow = noindex	Страница всё равно попадёт в индекс через внешние ссылки
Забыть закрыть страницы с параметрами	Дубли с ?sort=&page= тратят краулинговый бюджет

🧑‍💻

Алекс проверяет robots.txt в GSC

«Google Search Console → Настройки → robots.txt Tester. Вводишь URL и сразу видишь: заблокирован или нет. Незаменимый инструмент перед любым запуском.»

Чек-лист robots.txt:

☐ Файл доступен по /robots.txt
☐ CSS, JS и изображения — не заблокированы
☐ /admin/, /cart/, /checkout/ — закрыты
☐ Директива Sitemap указывает на актуальный XML
☐ Проверено в GSC robots.txt Tester
☐ Disallow ≠ noindex: важный контент не скрыт через robots

⚠️ Запомни: Disallow запрещает КРАУЛИНГ, но не ИНДЕКСАЦИЮ. Чтобы убрать страницу из индекса — используй мета-тег noindex, но оставляй страницу открытой для краулинга: иначе бот не увидит noindex.

🎮 Проверь себя: какая директива в robots.txt запрещает краулинг?

🎯

Задание к уроку

Проверьте понимание и получите +20 XP

← Тег canonical

Урок 15 из 22

Перейти к заданию →