⚙️
БЕСПЛАТНО
+55 XP
robots.txt: подробный разбор
🛡️
Googlebot стучится в новый сайт
«Первое, что я делаю на любом сайте — читаю /robots.txt. Нет файла? Краулю всё. Есть файл? Следую правилам. Это не просьба — это протокол.»
📌 robots.txt — текстовый файл в корне сайта (
https://example.com/robots.txt), управляющий доступом поисковых роботов к разделам сайта.Директивы robots.txt
| Директива | Что делает | Пример |
|---|---|---|
User-agent | Кому применяется правило | User-agent: * (всем) |
Disallow | Запрещает краулинг пути | Disallow: /admin/ |
Allow | Разрешает подпуть внутри Disallow | Allow: /admin/public/ |
Crawl-delay | Пауза между запросами бота (сек) | Crawl-delay: 2 |
Sitemap | Указывает путь к XML-карте | Sitemap: https://site.com/sitemap.xml |
Пример реального robots.txt
User-agent: * Disallow: /admin/ Disallow: /cart/ Disallow: /checkout/ Allow: /admin/assets/ User-agent: Googlebot Disallow: /staging/ Sitemap: https://example.com/sitemap.xml
Wildcards: * и $
*— любое количество любых символов:Disallow: /*.pdf$закрывает все PDF-файлы$— конец URL:Disallow: /search$закрывает /search, но не /search/results
Типичные ошибки
| Ошибка | Последствие |
|---|---|
| Закрыть /static/ или /css/ через Disallow | Googlebot не видит оформление — считает сайт нефункциональным |
| Думать, что Disallow = noindex | Страница всё равно попадёт в индекс через внешние ссылки |
| Забыть закрыть страницы с параметрами | Дубли с ?sort=&page= тратят краулинговый бюджет |
🧑💻
Алекс проверяет robots.txt в GSC
«Google Search Console → Настройки → robots.txt Tester. Вводишь URL и сразу видишь: заблокирован или нет. Незаменимый инструмент перед любым запуском.»
Чек-лист robots.txt:
☐ Файл доступен по /robots.txt
☐ CSS, JS и изображения — не заблокированы
☐ /admin/, /cart/, /checkout/ — закрыты
☐ Директива Sitemap указывает на актуальный XML
☐ Проверено в GSC robots.txt Tester
☐ Disallow ≠ noindex: важный контент не скрыт через robots
☐ Файл доступен по /robots.txt
☐ CSS, JS и изображения — не заблокированы
☐ /admin/, /cart/, /checkout/ — закрыты
☐ Директива Sitemap указывает на актуальный XML
☐ Проверено в GSC robots.txt Tester
☐ Disallow ≠ noindex: важный контент не скрыт через robots
⚠️ Запомни: Disallow запрещает КРАУЛИНГ, но не ИНДЕКСАЦИЮ. Чтобы убрать страницу из индекса — используй мета-тег
noindex, но оставляй страницу открытой для краулинга: иначе бот не увидит noindex.🎮 Проверь себя: какая директива в robots.txt запрещает краулинг?
Задание к уроку
Проверьте понимание и получите +20 XP