Проверить роботс на ошибки

Что такое валидатор файла robots.txt?

Инструмент проверки Robots.txt создан для того, чтобы показать, правильно ли составлен ваш файл robots.txt, нет ли в нем ошибок. Robots.txt — этот файл, который является частью вашего веб-сайта и описывает правила индексации для роботов поисковых машин, чтобы веб-сайт индексировался правильно, и первыми на сайте индексировались самые важные данные (без каких-либо скрытых платежей).Это очень простой инструмент, который создает отчет уже через несколько секунд сканирования: вам просто ввести в поле URL своего веб-сайта, через слэш /robots.txt (например, yourwebsite.com/robots.txt), а затем нажать на кнопку “проверить”. Наш инструмент для тестирования файлов robots.txt находит все ошибки (опечатки, синтаксические и “логические”) и выдает советы по оптимизации файла robots.txt.

Зачем нужно проверять файл robots.txt?

Проблемы с файлом robots.txt или его отсутствие могут негативно отразиться на SEO-оптимизации сайта: ваш сайт может не выдаваться на странице результатов выдачи поисковых машин (SERP). Это происходит из-за того, что нерелевантный контент может обходиться до или вместо важного контента.Проверить свой файл перед тем, как обходить контент важно, чтобы вы смогли избежать проблем, когда весь контент на сайте индексируется, а не только самый релевантный. Например, вы хотите, чтобы доступ к основному контенту вашего веб-сайта пользователи получали только после того, как заполнят форму подписки или войдут в свою учетную запись, но вы не исключаете ее в правилах файла robot.txt, и поэтому она может проиндексироваться.

Что означают ошибки и предупреждения?

Есть определенный список ошибок, которые могут повлиять на эффективность файла robots.txt, а также вы можете увидеть при проверке файла список определенных рекомендаций. Это вещи, которые могут повлиять на SEO-оптимизацию сайта, и которые нужно исправить. Предупреждения менее критичны, и это просто советы о том, как улучшить ваш сайт robots.txt.Ошибки, которые вы можете увидеть:Invalid URL: эта ошибка сообщает о том, что файл robots.txt на сайте отсутствует.Potential wildcard error: технически это больше предупреждение, чем сообщение об ошибке. Это сообщение обычно означает, что в вашем файле robots.txt содержится символ (*) в поле Disallow (например, Disallow: /*.rss). Это проблема приемлемого использования синтаксиса: Google не запрещает использование символов в поле Disallow, но это не рекомендуется.Generic and specific user-agents in the same block of code: это синтаксическая ошибка в файле robots.txt, которую нужно исправить, чтобы избежать проблем с индексацией контента на вашем веб-сайте.Предупреждения, которые вы можете увидеть:Allow: / : порядок разрешения не повредит и не повлияет на ваш веб-сайт, но это не стандартная практика. Самые крупные поисковые машины, включая Google и Bing, примут эту директиву, но не все программы-кроулеры будут такими же неразборчивыми. Если говорить начистоту, то всегда лучше сделать файл robots.txt совместимым со всеми программами-индексаторами, а не только с самыми популярными.Field name capitalization: несмотря на то, что имена полей не чувствительны к регистру, некоторые индексаторы могут требовать писать их заглавными буквами, так что хорошей идеей будет делать это по умолчанию — специально для самых привередливых программ.Sitemap support: во многих файлах robots.txt содержатся данные о карте сайта, но это не считается хорошим решением. Однако, Google и Bing поддерживают эту возможность.

Как исправить ошибки в файле Robots.txt?

Насколько просто будет исправить ошибки в файле robots.txt? Зависит от платформы, которую вы используете. Если это WordPress, то лучше воспользоваться плагином типа WordPress Robots.txt Optimization или Robots.txt Editor. Если вы подключили свой веб-сайт к веб-службе Google Search Console, вы сможете редактировать свой файл robots.txt прямо в ней.Некоторые конструкторы веб-сайтов типа Wix не дают возможности редактировать файл robots.txt напрямую, но позволяют добавлять неиндексируемые теги для определенных страниц.

Первым делом необходимо проверить доступность файла robots.txt. Переходим и смотрим его визуально https://robotstxt.ru/robots.txt, открывается ли он.

Дальше нам необходимо проверить его техническую доступность, заходим в сервис проверки ответа сервера Яндекса.

Вводим путь к вашему файлу robots.txt и нажимаем проверить.

Как проверить файл robots.txt в Яндекс и Google: пошаговая инструкция

Должен отображаться ответ сервера 200. Если вы видите другие цифры, то значит robots.txt не доступен и поисковая система не сможет его прочитать.

Как проверить в Яндекс?

В разработке…

Как проверить в Google?

Благодаря данному инструменту любой вебмастер и оптимизатор может посмотреть, открыты ли в robots.txt конкретные URL и файлы для индексирования роботами поисковой системы Google?

Допустим, на вашем сайте есть картинка, которую вы не желаете видеть в результатах выдачи Гугла по картинкам. В инструменте Robots Testing Tool вы узнаете, закрыт ли доступ к изображению боту Googlebot-Image.

Здесь нужно прописать URL-адрес, по которому располагается изображение. Далее
инструмент обработает robots.txt таким же способом, что и
робот Гугла по картинкам, чтобы выяснить, запрещен ли указанный УРЛ для
индексирования.

Инструкция по проверке

  1. Зайдите в Google Search Console и укажите свой сайт.
  2. Выберите инструмент проверки и проверьте инструкции, прописанные в файле Robots. Любые логические и синтаксические ошибки будут подчеркнуты, а их общее количество можно узнать внизу окна редактирования.
  3. В самом низу страницы найдите поле, предназначенное для указания необходимого URL-адреса.
  4. В меню, которое откроется справа, выберите бота.
  5. Кликните “Проверить”.
  6. После проверки инструмент покажет статус адреса: “Доступен” либо “Недоступен”. Если статус “Доступен”, значит роботам Гугла не запрещено включать в поиск изображение, а если “Недоступен”, то картинка не будет участвовать в поиске.
  7. Если нужно, сделайте необходимые исправления в меню и проверьте роботс снова. Имейте ввиду, что все изменения не вносятся в файл robots.txt вашего веб-ресурса автоматически.
  8. Сделайте копию измененного содержания и вставьте ее в robots на вашем сервере.

Что нужно знать

  1. Никакие изменения в редакторе не сохраняются на
    сервере в автоматическом режиме. Нужно скопировать измененный код и внести его
    в файл роботс.
  2. Инструмент для проверки Robots показывает
    результаты только для юзер-агентов Google и роботов данной поисковой системы.
    При этом сотрудники компании не могут давать никаких гарантий, что роботы
    других поисковиков будут учитывать содержание файла так же, как и Гугл.

Как отправить измененный robots.txt в
Google?

В инструменте проверки роботса есть кнопка “Проверить”,
благодаря которой ускоряется обход и включение в индекс нового robots.txt. Для передачи его в поисковую
систему Google необходимо:

1. В правом нижнем углу редактора файла Robots кликнуть на
кнопку “Проверить”. Так вы откроете диалоговое окно передачи.

2. Для выгрузки из инструмента кода файла, который был
изменен, нажмите кнопку “Загрузить”.

3. Загрузите новый Robots в корневую папку сайта. Необходимо, чтобы URL файла
выглядел следующим образом: /robots.txt.

На заметку. Если у вас нет доступа к админке, из-за чего нет возможности загружать файлы в корневой каталог домена, свяжитесь с его администратором.

Допустим, главная страница вашего веб-ресурса находится по
адресу subdomain.site.ru/site/example.
Тогда есть вероятность, что вы не сможете обновить файл robots, расположенный по адресу subdomain.site.ru/robots.txt.
Тогда напишите владельцу домена с просьбой изменить файл.

4. Нажмите “Проверить”. Так вы узнаете, применяется ли новая
версия Robots, которую
вы хотите, чтобы роботы просканировали.

5. Кликните “Отправить в Google” для отправки поисковой машине сигнала, что файл был изменен
и его необходимо проверить.

6. Удостоверьтесь в том, что измененный файл был успешно проверен роботами. Для этого необходимо обновить страницу “Инструмент проверки файла robots.txt”. После этого обновится окно редактирование, где отобразится новый код файла. В меню, открывающемся над текстовым редактором, вы узнаете, когда Googlebot первый раз увидел актуальную версию роботса.

Проверка с помощью Google Robots.txt Parser и Matcher Library

На Github доступен официальный парсер Robots.txt от Google. В 2019 году Google предоставил к нему доступ после того, как Robots Exclusion Protocol (REP) был объявлен официальным стандартом.

Эту библиотеку использует и сама компания Google для парсинга файла robots.txt на сайтах и сопоставления правил в нем. Поэтому, если вы знакомы с программированием, то сможете самостоятельно установить ее к себе и протестировать свой robots.txt на наличие ошибок.

Заключение

Следуя инструкциям выше, вы будете уверены в том, что настроили
Robots.txt правильно
и поисковые системы сканируют файл так, как вам нужно.

Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

С помощью этого инструмента вы можете узнать, запрещает ли файл robots.txt поисковым роботам Google сканировать определенные URL на вашем сайте. Предположим, у вас есть изображение, которое не должно появляться в результатах поиска Google Картинок. Наш инструмент позволит вам проверить, закрыт ли роботу Googlebot-Image доступ к этому файлу.

Попробовать

Вам потребуется только указать нужный URL. После этого инструмент проверки обработает файл robots.txt так, как это сделал бы робот Googlebot, и определит, закрыт ли доступ к этому адресу.

Процедура проверки

  1. В Search Console выберите ваш сайт, перейдите к инструменту проверки и изучите код в файле robots.txt. Синтаксические и логические ошибки в нем будут выделены, а их количество – указано под окном редактирования. 
  2. Внизу на странице интерфейса укажите нужный URL в специальном текстовом поле.
  3. В раскрывающемся меню справа выберите робота.
  4. Нажмите кнопку ПРОВЕРИТЬ.
  5. Отобразится статус ДОСТУПЕН или НЕДОСТУПЕН. В первом случае роботы Google могут переходить по указанному вами адресу, а во втором – нет.
  6. При необходимости внесите изменения в код, указанный в Search Console, и выполните проверку заново. Внимание! Эти исправления не будут автоматически внесены в файл robots.txt на вашем сайте.
  7. Скопируйте измененный код и добавьте его в файл robots.txt на вашем веб-сервере.

На что следует обратить внимание

  • Инструмент работает только с ресурсами с префиксом в URL и несовместим с доменными ресурсами.
  • Изменения, внесенные в редакторе, не сохраняются на веб-сервере. Необходимо скопировать полученный код и вставить его в файл robots.txt.
  • Инструмент проверки файла robots.txt предоставляет результаты только для агентов пользователя Google и роботов, относящихся к Google (например, для робота Googlebot). Мы не можем гарантировать, что другие поисковые роботы будут обрабатывать код в вашем файле robots.txt аналогичным образом.

Эта информация оказалась полезной?

Как можно улучшить эту статью?

10 апреля 2023

Файл robots.txt знаком всем SEO-специалистам, ведь он оказывает большое влияние на ранжирование веб-ресурса в поисковых системах. Он дает поисковым роботам рекомендации о том, какие разделы и веб-страницы сайта индексировать необходимо, а какие не должны попасть в результаты поисковой выдачи. Кроме того, если сайт переезжает на новый домен, файл помогает ему не потерять трафик и результаты поисковой оптимизации. Поисковые системы называют такие правила директивами, однако, сами себе противореча, могут проигнорировать их. Ошибки при составлении файла приводят к некорректной индексации сайта и отсутствию возможности вывести сайт в ТОП-10 поисковых результатов. Начинающим SEO-специалистам не повредит помощь сервисов, которые могут проверить robots.txt и дать рекомендации по его улучшению. Обзор пяти бесплатных сервисов по чек-апу robots.txt — в статье.

Сервисы для анализа файла robots.txt онлайн

  1. Анализ robots.txt в Яндекс.Вебмастер.
  2. Инструмент от Google Search Console.
  3. Проверка файла от Websiteplanet.
  4. Сервис Tools.discript.ru.
  5. Проверка от Pixelplus.

Проверка файла robots.txt: 5 бесплатных сервисов.

Изображение от pch.vector на Freepik.

Не все страницы сайта содержат оригинальный, релевантный и качественный контент. Некоторые и вовсе содержат конфиденциальные данные и не должны попадать в открытый доступ. Если владелец сайта знает о всех недостатках и особенностях веб-ресурса, он может повлиять на его индексирование. Разместив в корневом каталоге сайта файл robots.txt, можно не беспокоиться о том, что поисковые алгоритмы будут оценивать каждую веб-страницу. Изучив ваши рекомендации, они посетят только те, в качестве контента которых вы уверены.

№1. Анализ robots.txt в Яндекс.Вебмастер

Яндекс.Вебмастер — инструмент от главной поисковой системы Рунета. Его использование является абсолютно свободным и бесплатным. Однако вам придется подтвердить, что вы имеете права на управление сайтом. Добавив сайт в панель управления Вебмастера и пройдя аутентификацию в качестве владельца веб-ресурса, вы можете перейти к работе с инструментами для анализа SEO-показателей сайта и продвижения в поисковой системе Яндекс.

Анализ robots.txt в Яндекс.Вебмастер.

Алгоритм проверки robots.txt с помощью валидатора Яндекс:

  1. В левом меню найдите раздел «Инструменты», выберете инструемент «Анализ robots.txt».
  2. Содержимое файла должно появиться в поле проверки автоматически. При отсутствии результата скопируйте код и вставьте его в поле самостоятельно. Нажмите на кнопку проверки.
  3. Результаты анализа появился ниже. При наличии ошибок валидатор выделит их цветом и оставит комментарий.

№2. Инструмент от Google Search Console

Google Search Console — простой инструмент для проверки файла robots.txt от Google. Он также потребует от вас подтверждения прав на владение веб-ресурсом.

Инструмент от Google Search Console.

После того как вы пройдете данную формальную процедуру, можно будет переходить к работу с файлом с директивами.

  1. Откройте страницу «Инструменты проверки».
  2. Если автоматически открылся файл с устаревшей версией robots.txt, отправьте актуальный файл и следуйте инструкциям сервиса.
  3. Обновите страницу и подождите появления директивов. Ошибки будут перечислены под кодом.

№3. Проверка файла от Websiteplanet

Сервис работает быстро. Он не требует от пользователей подтверждения прав на владение сайтом. Чтобы запустить проверку файла с директивами, достаточно указать место его расположения, например, у нас это https://mchost.ru/robots.txt. Инструмент показывает не только ошибки, но и предупреждения. Каждый недочет сопровождается развернутым комментарием.

Проверка файла от Websiteplanet.

№4. Сервис Tools.discript.ru

Инструмент позволяет проверять robots.txt на ошибки, редактировать его в режиме онлайн, оптимизировать под CMS сайта и конкретного поискового агента, создавать новый файл и скачивать готовую версию.

Сервис Tools.discript.ru

№5. Проверка от PR-CY

Сервис предлагает бесплатное создание файла с директивами для поисковых систем. Пользователю нужно настроить параметры будущего robots.txt, указав какие поисковые системы смогут его индексировать, путь к карте сайта, страницы, которые индексировать нельзя. В результате сервис формирует текст robots.txt, который необходимо сохранить в файле под одноименным названием и добавить в корневой каталог сайта.

Проверка от PR-CY.

Заключение

От правильной записи директив в файле robots.txt зависит успех продвижения сайта в сети. Начинающие SEO-специалисты могут воспользоваться онлайн-сервисами, чтобы проверить свой файл, перед его размещением в корневом каталоге.

Сервисы для анализа файла robots.txt онлайн
№1. Анализ robots.txt в Яндекс.Вебмастер
№2. Инструмент от Google Search Console
№3. Проверка файла от Websiteplanet
№4. Сервис Tools.discript.ru
№5. Проверка от PR-CY
Заключение

Файл robots.txt — это инструкция для поисковых роботов. В ней указывается, какие разделы и страницы сайта могут посещать роботы, а какие должны пропускать. В фокусе этой статьи — проверка robots.txt. Мы рассмотрим советы по созданию файла для начинающих веб-разработчиков, а также разберем, как делать анализ robots.txt с помощью стандартных инструментов Яндекс и Google.

Зачем нужен robots.txt

Поисковые роботы — это программы, которые сканируют содержимое сайтов и заносят их в базы поисковиков Яндекс, Google и других систем. Этот процесс называется индексацией.

robots.txt содержит информацию о том, какие разделы нельзя посещать поисковым роботам. Это нужно для того, чтобы в выдачу не попадало лишнее: служебные и временные файлы, формы авторизации и т. п. В поисковой выдаче должен быть только уникальный контент и элементы, необходимые для корректного отображения страниц (изображения, CSS- и JS-код).

Если на сайте нет robots.txt, роботы заходят на каждую страницу. Это занимает много времени и уменьшает шанс того, что все нужные страницы будут проиндексированы корректно.

Если же файл есть в корневой папке сайта на хостинге, роботы сначала обращаются к прописанным в нём правилам. Они узнают, куда нельзя заходить, а какие страницы/разделы обязательно нужно посетить. И только после этого начинают обход сайта по инструкции.

Веб-разработчикам следует создать файл, если его нет, и наполнить его правильными директивами (командами) для поисковых роботов. Ниже кратко рассмотрим основные директивы для robots.txt.

Основные директивы robots.txt

Структура файла robots.txt выглядит так:

  1. Директива User-agent. Обозначает, для каких поисковых роботов предназначены правила в документе. Здесь можно указать все поисковые системы (для этого используется символ «*») или конкретных роботов (Yandex, Googlebot и другие).
  2. Директива Disallow (запрет индексации). Указывает, какие разделы не должны сканировать роботы. Даже если на сайте нет служебного контента, который необходимо закрыть от индексации, директиву нужно прописывать (не указывая значение). Если не сделать этого, robots.txt может некорректно читаться поисковыми роботами.
  3. Директива Allow (разрешение). Указывает, какие разделы или файлы должны просканировать поисковые роботы. Здесь не нужно указывать все разделы сайта: все, что не запрещено к обходу, индексируется автоматически. Поэтому следует задавать только исключения из правила Disallow.
  4. Sitemap (карта сайта). Полная ссылка на файл в формате .xml. Sitemap содержит список всех страниц, доступных для индексации, а также время и частоту их обновления.

Пример простого файла robots.txt (после # указаны пояснительные комментарии к директивам):

User-agent: * # правила ниже предназначены для всех поисковых роботов
Disallow: /wp-admin # запрет индексации служебной папки со всеми вложениями
Disallow: /*? # запрет индексации результатов поиска на сайте
Allow: /wp-admin/admin-ajax.php # разрешение индексации JS-скрипты темы WordPress
Allow: /*.jpg # разрешение индексации всех файлов формата .jpg
Sitemap: http://site.ru/sitemap.xml # адрес карты сайта, где вместо site.ru — домен сайта

Советы по созданию robots.txt

Для того чтобы файл читался поисковыми программами корректно, он должен быть составлен по определенным правилам. Даже детали (регистр, абзацы, написание) играют важную роль. Рассмотрим несколько основных советов по оформлению текстового документа.

Группируйте директивы

Если требуется задать различные правила для отдельных поисковых роботов, в файле нужно сделать несколько блоков (групп) с правилами и разделить их пустой строкой. Это необходимо, чтобы не возникало путаницы и каждому роботу не нужно было сканировать весь документ в поисках подходящих инструкций. Если правила сгруппированы и разделены пустой строкой, робот находит нужную строку User-agent и следует директивам. Пример:

User-agent: Yandex # правила только для ПС Яндекс 
Disallow: # раздел, файл или формат файлов
Allow: # раздел, файл или формат файлов
# пустая строка
User-agent: Googlebot # правила только для ПС Google
Disallow: # раздел, файл или формат файлов
Allow: # раздел, файл или формат файлов
Sitemap: # адрес файла

Учитывайте регистр в названии файла

Для некоторых поисковых систем не имеет значение, какими буквами (прописными или строчными) будет обозначено название файла robots.txt. Но для Google, например, это важно. Поэтому желательно писать название файла маленькими буквами, а не Robots.txt или ROBOTS.TXT.

Не указывайте несколько каталогов в одной директиве

Для каждого раздела/файла нужно указывать отдельную директиву Disallow. Это значит, что нельзя писать Disallow: /cgi-bin/ /authors/ /css/ (указаны три папки в одной строке). Для каждой нужно прописывать свою директиву Disallow:

Disallow: /cgi-bin/
Disallow: /authors/
Disallow: /css/

Убирайте лишние директивы

Часть директив robots.txt считается устаревшими и необязательными: Host (зеркало сайта), Crawl-Delay (пауза между обращением поисковых роботов), Clean-param (ограничение дублирующегося контента). Вы можете удалить эти директивы, чтобы не «засорять» файл.

Как проверить robots.txt онлайн

Чтобы убедиться в том, что файл составлен грамотно, можно использовать веб-инструменты Яндекс, Google или онлайн-сервисы (PR-CY, Website Planet и т. п.). В Яндекс и Google есть собственные правила для проверки robots.txt. Поэтому файл необходимо проверять дважды: и в Яндекс, и в Google.


Яндекс.Вебмастер

Если вы впервые пользуетесь сервисом Яндекс.Вебмастер, сначала добавьте свой сайт и подтвердите права на него. После этого вы получите доступ к инструментам для анализа SEO-показателей сайта и продвижения в ПС Яндекс.

Чтобы проверить robots.txt с помощью валидатора Яндекс:

  1. 1.

    Зайдите в личный кабинет Яндекс.Вебмастер.

  2. 2.

    Выберите в левом меню раздел ИнструментыАнализ robots.txt.

  3. 3.

    Содержимое нужного файла подставиться автоматически. Если по какой-то причине этого не произошло, скопируйте код, вставьте его в поле и нажмите Проверить:



    проверка robotstxt 1

  4. 4.

    Ниже будут указаны результаты проверки. Если в директивах есть ошибки, сервис покажет, какую строку нужно поправить, и опишет проблему:



    проверка robotstxt 2


Google Search Console

Чтобы сделать проверку с помощью Google:

  1. 1.

    Перейдите на страницу инструмента проверки.

  2. 2.

    Если на открывшейся странице отображается неактуальная версия robots.txt, нажмите кнопку Отправить и следуйте инструкциям Google:



    проверка robotstxt 3

  3. 3.

    Через несколько минут вы можете обновить страницу. В поле будут отображаться актуальные директивы. Предупреждения/ошибки (если система найдет их) будут перечислены под кодом.



    проверка robotstxt 4
    Проверка robots.txt Google не выявила ошибок

Обратите внимание: правки, которые вы вносите в сервисе проверки, не будут автоматически применяться в robots.txt. Вам нужно внести исправленный код вручную на хостинге или в административной панели CMS и сохранить изменения.

Понравилась статья? Поделить с друзьями:
  • Проверить татарский текст на ошибки
  • Проверить речь на ошибки
  • Проверить съемный диск на ошибки и исправить
  • Проверить страницу на орфографические ошибки
  • Проверить стояночный тормоз рено флюенс ошибка