Как настроить и использовать файл robots.txt для Вашего сайта

Лужевский Владислав
04 марта - 2020

В этой статье Вы узнаете все что нужно, для того что бы настроить правильный Robots.txt. Я расскажу Вам основные директивы этого файла и порядок правильной настройки любого роботса. 

Какая шумиха вокруг нескольких системных файлов, а именно robots.txt и карты сайта. В этой статье мы рассмотрим как делать правильный robots.txt, разберем его директивы и узнаем логику работы данного элемента внутренней оптимизации. И для того чтобы понять в чем его смысл работы и какие функции выполняет robots.txt - необходимо вернуться немного назад и вспомнить как работает алгоритм поисковиков. 

 

К сожалению или к счастью у поисковых систем есть такое понятие как краулинговый бюджет. Если простыми словами, то это отведенное время на просмотр и добавление страниц сайта в индекс. Это сделано потому что у Google и Yandex не хватает ресурсов для полноценной индексации всех проектов в сети. А не хватает их потому что в сети на момент 2020 года по данным Google 332 400 000 постоянно индексируемых проекта. И чтобы обойти все страницы каждого из этих сайтов, что бы узнать о обновлениях на каждой из них и добавить их в поисковую выдачу, я не говорю уже про добавления новых страниц - необходимы колоссальные ресурсы. И поэтому, у каждого поисковика есть такое понятие как краулинговый бюджет, то есть на каждый сайт отведено к примеру по 10 секунд. Это цифра с потолка, но я ее взял для того чтобы Вы уловили смысл важности файла robots.txt.

 

robots txt для сайта

 

С логикой работы поисковика понятно, при чем же тут использования robots.txt? Все очень просто, он исполняет несколько важнейших функций, что бы бот который просматривает Ваш сайт, его еще называют краулер или паук - успел проиндексировать только важные страницы. Что же он делает:

 

  1. Указывает на адрес карты сайта, по которой будет проводиться поисковый паук;
  2. Закрывает или разрешает доступ индексировать отдельные ветви сайта с помощью директив;
  3. Может гибко настраиваться, и указывать на разрешение работы с любыми элементами на проекте.

 

То есть, если простыми словами - поисковые роботы и так 100% проиндексируют Ваш проект. Но, смысл в том, что бы они не добавили в индекс какие то системные файлы и не тратили время на ненужные для них страницы. Именно эти разрешения и прописываются в файле robots.txt. 

 

Как использовать robots.txt - рассмотрим основные директивы 

 

Если говорить проще, то директивы в robots.txt - это правила, которым будут следовать поисковые боты во время индексации Вашего проекта. Основных директив всего несколько. Но при этом существуют директивы для каждого поисковика отдельно, то есть GOOGLE и YANDEX имеют несколько разные указания для своих ботов, это в общем и логично. В этой статье мы рассмотрим только основные директивы robots.txt и узнает как их правильно использовать.

 

директивы robots txt

 

Какие же они бывают:

 

- User-agent;

- Disallow и Allow;

- Sitemap;

- Host;

- Закрывающий robots.txt.

 

Это далеко не все директивы, но они являются самыми основными в обиходе любого вебмастера. Давайте же рассмотрим их по порядку, после чего я расскажу правильный алгоритм настройки любого robots.txt. 

 

И так, User-agent. Это директива robots.txt, которая отвечает за выбор поисковых систем. Если простыми словами, то это самая основная директива, которая говорит поисковым роботам, для какого поисковика написаны следующие правила. Я рекомендую прописывать Вам разрешение для роботов всех поисковых систем, код выглядит вот так:

 

User-agent: *

 

Директива Disalow. Она делает запрет индексации указанных файлов. Она используется больше всего, так как любому вебмастеру необходимо закрыть от индекса все ненужные системные страницы админ панели, личных кабинетов и остальных ненужных страниц для поисковиков. Это делается как для безопасности этих страниц, так и для ускорения индексации сайта в общем. Так как закрывая лишние директории, мы оставляем только те страницы, которые хотим индексировать. Синтаксис disallow :

 

User-agent: googlebot

Disallow: /directory1/

 

Тут вы указали, что для GOogle Вы закрыли индексацию директории /directory1. После чего, страницы в этой директории не будут индексироваться поисковыми роботами.

 

Директива Allow. Еще одна настройка robots.txt - не такая важная как предыдущая, но ею тоже пользуются. Я бы не особо заморачивался в использовании данной директивы, потому что суть файла robots.txt - закрыть ненужные файлы, а все остальные и так будут сканированы поисковыми краулерами. То есть он и так добавит в индекс страницу, даже если она не прописана в Allow. 

 

Sitemap.xml - еще одна строчка кода, которая отвечает за информирование поисковых роботов про sitemap и его месторасположении. Как мы уже знаем, пауки заходят на сайт изначально сканируя robots.txt, и если там будет прописана карта сайта, значит дальнейший основной индекс страниц Вашего проекта, будет проходить именно по этой карте. Синтаксис следующий:

 

https://luzhevskiy.com/sitemap.xml 

 

Host - основное зеркало. Это директива robots.txt которая используется только Яндексом. Ее смысл состоит в том, чтобы указать основной адрес Вашего проекта. Ведь Яндекс странный, и воспринимает www.luzhevskiy.com и luzhevskiy.com как 2 разных проекта, но с одинаковым содержимым. Если у Вас сайт лежит на Https протоколе, то указать основной адрес можно с помощью следующего синтаксиса:

 

Host: https://luzhevskiy.com/  

 

Закрывающий robots.txt - последняя основная директива. Тут все очень просто, это строчка кода, которая позволяет закрыть Ваш сайт от поисковиков, чтобы Ваш проект НЕ индексировался и не попадал в выдачу:

 

User-agent: *

Disallow: /

 

Этот синтаксис обычно используют на тестовых сайтах, чтобы они случайно не попали в индекс вместе с основным. Например на этапах разработки или допиливания каких то неполадок используют именно этот код.

 

Как настроить robots.txt - несколько советов

 

Есть некий правильный алгоритм в настройке этого системного файла. Я выделяю 7 основных шагов, которые должны быть обязательно сделаны при настройке robots.txt

 

как настроить файл robots

 

  1. Необходимо закрыть от индекса админку сайта, страницы регистрации и входа на проект;
  2. Нужно закрыть корзину, формы заказа и прочие личные элементы;
  3. Закрыть от индекса различные js коды, плагины CMS систем, ajax скрипты и тд.;
  4. Обязательно закрыть поиск на сайте, включая весь его функционал;
  5. Не индексировать использование фильтров на категориях и страницах товаров;
  6. Обязательно прописать карту сайта и параметр Host;
  7. В конце проверить корректность написания robots.txt на странице вебмастеров google&yandex. 

 

В общем и целом файл robots.txt - это очень важный этап в внутренней оптимизации Вашего сайта. Без корректного robots.txt не будет качественного SEO продвижения. Но, на дворе 2020 год, и все CMS системы и не только - уже умеют автоматически генерировать правильные файлы robots.txt. Все они скроют системные, личные, функциональный файлы и оставят в разрешении на индексацию только нужные страницы. Все основные движки умеют это делать, не важно, Wordpress, Joomla, Drupal или Symphony - этот файл можно получить абсолютно автоматически и не переживать про его корректность.

 

Но если есть сомнения - проверьте его с помощью сервисов, которые можете найти в сети, или в личном кабинете Вебмастеров Google или Yandex. Я надеюсь информация про robots.txt была понятной и интересной. Читайте другие статьи в моем блоге и обязательно подписывайтесь на Youtube канал!

 

Если лень читать - в этом видео я рассказал и показал все что нужно знать про файл robots.txt