robots.txt «для самых маленьких»

robots.txt

robots.txt - это текстовый файл, который веб-мастеры размещают на своих сайтах для управления поведением поисковых роботов. В нем указаны определенные правила, которые оптимизируют работу поисковиков, тем самым экономя краулинговый бюджет. Этот файл играет важную роль в SEO-оптимизации и защите сайта от нежелательного индексирования.

Как robots.txt помогает оптимизировать краулинговый бюджет?

При помощи файла robots можно запретить поисковикам индексировать админские страницы, страницы регистрации или логина, страницы авторов. Всю ту информацию которую пользователи не будут использовать при поиске вашего сайта. Размещается файл роботс в корневой директории сайта.

Используемые директивы

Во всех файлах robots.txt размещаются, как правило, 4 основные директивы. Это User-agent, Allow, Disallow и Sitemap. Директива User-agent указывает для какого поисковика применяются последующие правила.

  • User-agent: * - указывает что правила применяются для всех поисковиков
  • User-agent: Yandex - применима для всех ботов Яндекса
  • YandexBot - для основного поискового робота Yandex
  • Googlebot - Применяет правила для Гугл

Директива Disallow указывает какие папки и файлы стоит закрыть от глаз поисковых ботов. Alllow же наоборот отменяет правила, ранее указанные в Disallow. То есть можно закрыть от просмотра целую папку, и затем указать исключения из правил.

Давайте рассмотрим применение robots.txt на одном из сайтов с CMS платформой WordPress

User-agent: *
Disallow: /smart.php
Disallow: /politika-konfidenczialnosti
Disallow: /politika-konfidenczialnosti/
Disallow: /vendor/
Disallow: /cgi-bin
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /?
Disallow: *?s=
Disallow: *&s=
Disallow: /search
Disallow: /author/
Disallow: *embed$
Disallow: *xmlrpc.php
Disallow: utm=
Disallow: *openstat=
Clean-param: disableGlobalInfoCollect&etext&_ym_debug

Sitemap: https://daracode.ru/sitemap.xml

Здесь мы видим, что помимо запрета индексации технических страниц и страниц поиска, так же запрещены к индексации дубли страниц, которые могут возникнуть из за utm меток и счетчиков: um= и openstat=.

Так же здесь мы видим директиву Clean-param, благодаря которой из поиска можно исключить дубли с различными параметрами. Clean-param применима только к Поисковым ботам Яндекса, Гугл будет ее просто-напросто игнорировать.

Внимание! Если вы хотите указать после User-agent:* особые параметры для конкретного бота, например Яндекса, то После директив User-agent: Yandex или Googlebot следует продублировать все те значения, которые вы хотите применить к этому боту, в том числе, т.к. значения из User-agent:* будут проигнорированы конкретно указанным ботом.

Например.

User-agent: *
Disallow: /smart.php
Disallow: /politika-konfidenczialnosti
Disallow: /politika-konfidenczialnosti/
User-agent: YandexBot
Clean-param: disableGlobalInfoCollect&etext&_ym_debug
Disallow: /smart.php
Disallow: /politika-konfidenczialnosti
Disallow: /politika-konfidenczialnosti/

В этом примере сразу после указания Clean-param для Yandex, дублируются предыдущие команды.

Внимание! robots.txt не блокирует доступ к файлам для пользователей. Если вы хотите защитить конфиденциальные или технические файлы, то используйте конфигурационный файл .htaccess