⚙️
Технический SEO
Урок 15 из 22 · Управление краулингом
БЕСПЛАТНО +55 XP
🇬🇧 Read in English

robots.txt: подробный разбор

🛡️
Googlebot стучится в новый сайт
«Первое, что я делаю на любом сайте — читаю /robots.txt. Нет файла? Краулю всё. Есть файл? Следую правилам. Это не просьба — это протокол.»
📌 robots.txt — текстовый файл в корне сайта (https://example.com/robots.txt), управляющий доступом поисковых роботов к разделам сайта.

Директивы robots.txt

ДирективаЧто делаетПример
User-agentКому применяется правилоUser-agent: * (всем)
DisallowЗапрещает краулинг путиDisallow: /admin/
AllowРазрешает подпуть внутри DisallowAllow: /admin/public/
Crawl-delayПауза между запросами бота (сек)Crawl-delay: 2
SitemapУказывает путь к XML-картеSitemap: https://site.com/sitemap.xml

Пример реального robots.txt

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Allow: /admin/assets/

User-agent: Googlebot
Disallow: /staging/

Sitemap: https://example.com/sitemap.xml

Wildcards: * и $

  • * — любое количество любых символов: Disallow: /*.pdf$ закрывает все PDF-файлы
  • $ — конец URL: Disallow: /search$ закрывает /search, но не /search/results

Типичные ошибки

ОшибкаПоследствие
Закрыть /static/ или /css/ через DisallowGooglebot не видит оформление — считает сайт нефункциональным
Думать, что Disallow = noindexСтраница всё равно попадёт в индекс через внешние ссылки
Забыть закрыть страницы с параметрамиДубли с ?sort=&page= тратят краулинговый бюджет
🧑‍💻
Алекс проверяет robots.txt в GSC
«Google Search Console → Настройки → robots.txt Tester. Вводишь URL и сразу видишь: заблокирован или нет. Незаменимый инструмент перед любым запуском.»
Чек-лист robots.txt:

☐ Файл доступен по /robots.txt
☐ CSS, JS и изображения — не заблокированы
☐ /admin/, /cart/, /checkout/ — закрыты
☐ Директива Sitemap указывает на актуальный XML
☐ Проверено в GSC robots.txt Tester
☐ Disallow ≠ noindex: важный контент не скрыт через robots
⚠️ Запомни: Disallow запрещает КРАУЛИНГ, но не ИНДЕКСАЦИЮ. Чтобы убрать страницу из индекса — используй мета-тег noindex, но оставляй страницу открытой для краулинга: иначе бот не увидит noindex.
🎮 Проверь себя: какая директива в robots.txt запрещает краулинг?
🎯
Задание к уроку
Проверьте понимание и получите +20 XP
Тег canonical
Урок 15 из 22
Перейти к заданию →