Ошибка 404 soft

13.0К
просмотров

Часто общаясь с разными интернет маркетологами и SEO специалистами, пришел к выводу, что они не придают значению 404 SOFT ошибкам. То есть, все нацелены, как всегда, на ROI, ROMI, KPI. Все хотят крутой контент. Новые посадочные под новые семантические интенты. И конечно, всем нужно крутые беклинки. Куда ж без них?

И, как ни странно, часто проходят мимо обычных технических вопросов, которые могут убить все ваше SEOШМЕО на корню. Один из таких технических моментов – это то, как Googlebot обходит сайт (как он краулит страницы). В данной статье поговорим про 404 SOFT ошибки и как сильно они влияют на ваше продвижение.

Давайте разбираться! Вероятно, вы уже видели страницы типа этой:

Стандартная 404 ошибка в интернет-магазине

Это стандартная страница для 404 ошибки в интернет магазине f.ua.

Каждый раз, когда отображается сообщение об ошибке 404 или Not Found, сервер должен вернуть стандартный код ответа HTTP 404. Код ответа сервера 404 указывает на то, что он (сервер) не смог найти запрошенный URL.

Этот код сообщает браузеру и поисковым системам, что данная страница не существует. В результате содержимое страницы, если оно есть, не будет сканироваться поисковыми системами (это написано в справке Google).

В приведенном выше примере сервер f.ua отображает страницы 404 для всех несуществующих URL. Четко виден специально разработанный дизайн, где представлены акции магазина, чтобы пользователь не ушел с сайта мгновенно. Это стандартная практика в е-коммерсе, где важен каждый посетитель.

К сожалению, большинство специалистов, которые так или иначе вовлечены в процесс продвижения сайтов, не понимают, что сообщение «страница не найдена» – никак не связано с HTTP-ответом, который возвращает сервер. Еще раз, совсем не означает, что страница автоматически определяется, как страница 404 всего лишь по сообщению 404 File Not Found.

Ошибка «Soft 404» возникает всякий раз, когда:
– несуществующая страница (или страница, которая была удалена) не возвращает код ответа HTTP 404 по требованию пользователя или бота;
– несуществующая страница перенаправляет пользователей на нерелевантную страницу;
– когда страница пустая, на ней нет контента

Какие проблемы с 404 SOFT

Если для несуществующей страницы возвращается HTTP статус отличный от 404 (или 410), то это может негативно влиять на ранжирование всего сайта в Google поиске. Во-первых, если вы не предоставите код ответа 404, ваш сайт сообщит поисковым системам, что есть реальная страница по адресу, который они пытаются получить. В результате URL, который вы удалили, будет просканирован и проиндексирован. В итоге, вы теряете ценный бюджет краулера.

Бюджет краулинга – это концепция, согласно которой, Google ограниченное время сканирует веб-сайт прежде чем остановит процесс и перейдет на другой ресурс. Google не хочет бесконечно тратить время на сканирование контента на одном и том же сайте. Поэтому имеет смысл сделать все возможное, чтоб Google сканировал в первую очередь только новые или измененные страницы.

Исходя из концепции краулингового бюджета, процесс обхода 404 SOFT страниц неизбежно займет драгоценные лимиты сканирования. Иными словами, вместо того, чтоб сканировать нужные вам URLs, Googlebot будет сканировать Soft 404 ошибки. А это уже снижает видимость важного контента на вашем сайте. Поэтому, неудивительно, что при устранении ошибок Soft 404 наблюдается тенденция к улучшению ранжирования сайта в SERP Google.

Второе, что не менее важное – это потеря линкджуса. Как Ведущий Участник справочных форумов Google “Для веб-мастеров” и “Поиск“ наблюдал такую практику: карточку товара интернет магазина перенаправляют на главную страницу или на страницу категории (делают 301/302 редирект). Это делают для старых карточек товара, на которых есть ссылочная масса. В данном случае это совсем неуместно и будет путать поисковых роботов. Ключевой момент в том то, что удаленные или недоступные страницы должны перенаправляться только на страницы с аналогичным контентом. Если прямой замены не существует, то сервер должен возвратить 404 HTTP статус для такого типа URL

Еще одной плохой практикой является следующее: вебмастер перенаправляет удаленные или не найденные страницы на кастомную 404 страницу, которая отдает код ответа сервера 200. В данном случае прослеживается четкий интент вебмастера: желание сохранить ссылочный вес удаленных/не найденных страниц благодаря перелинковке на фейковой 404й странице. Все это приведет к тому, что Google пометить данную кастомную страницу как 404 SOFT ошибку и никакого перераспределения ссылочного веса не произойдет.

Например среди топовых интернет магазинов Украины эта болезнь у Комфи, а у Розетки дела обстоят немного хуже.

Примеры soft 404 на популярных интернет-магазинах

Как решать проблемы с 404 софт ошибками?

Первое, что нужно сделать – это выгрузить все 404 из Google Search Console

Выгрузка 404 из Search Console

В приведенном выше примере сообщается о 5915 ошибках “не найдено” и 2х 404 soft ошибках. Нам понадобятся для анализа эти 2 отчета.

Google позволяет экспортировать максимум 1000 URL-адресов в Инструментах для веб-мастеров. Поэтому в таком случае работать нужно итерационно: проработайте первую 1000 – нажмите исправлено, через время Google обновит данный отчет и вы сможете проработать следующие 1000 результатов.

Как проработать более 1000 url в панели для вебмастеров Google

После того, как вы выгрузите список URL-адресов, вам нужно будет оценить, почему эти страницы помечены как 404. Google предоставляет несколько ограниченную информацию о URL-адресах, которые они выделяют как “Soft 404” (см пример ниже).

Подробные сведения об ошибке

Желательно массово проверить УРЛы, чтоб понять, какой код ответа сервера они возвращают. Я использую для этих целей https://httpstatus.io/.

Пример soft 404 с редиректом

В большинстве случаев вы обнаружите, что такие страницы возвращают код ответа сервера 200 (OK). Это яркий пример ошибки Soft 404, поскольку код ответа HTTP указывает роботам Google, что эта страница существует и должна быть просканирована. Однако на странице нет содержимого, возвращаемого сервером.

Решение: отдавать для такого типа страниц код ответа сервера 404

Другая проблема, с которой вы можете столкнуться при диагностике основной причины ошибок Soft 404, – это неуместные 301/302 перенаправления (пример, как это может быть, описана выше).

Решение: либо отдавайте для таких страниц код ответа сервера 404 и теряйте linkjuice, либо не удаляйте такие страницы, прописывая в head документа <META NAMEROBOTS» CONTENTNOINDEX, FOLLOW«> и сохраните драгоценную вам ссылочную массу


И как вишенка на тортике (это для тех кто любит подумать и поставить эксперименты). Итак, у нас есть страницы с разным содержанием А и Б. Б – морально устарела и ее хочется удалить (что не висела в базе), но на ней много ссылок.

Что если перед удалением, мы заменим содержимое в стр Б на содержимое стр А. Отследим, когда придет бот Гугла, а после средиректим? Предлагаю обсудить это в комментариях. А также чем отличается код ответа сервера 404 от 410 и какое применение можно найти для кода ответа сервера 410?

Оптимизируйте свои подборки

Сохраняйте и классифицируйте контент в соответствии со своими настройками.

На этой странице описывается, как коды статуса HTTP, а также ошибки сети и DNS отражаются на позиции вашего контента в Google Поиске. Мы поговорим о 20 наиболее распространенных кодах статуса, которые обнаруживает на веб-страницах робот Googlebot, а также о самых частых ошибках сети и DNS. Такие редко встречающиеся коды, как 418 (I'm a teapot), в этой статье не рассматриваются. Все перечисленные на этой странице проблемы приводят к появлению ошибки или предупреждения в отчете об индексировании страниц, доступном в Search Console.

Коды статуса HTTP

Когда сервер, на котором размещен сайт, получает запрос клиента (например, браузера или поискового робота), в ответ он отправляет код статуса HTTP. Каждый такой код имеет свое значение, но многие из них предполагают, что запрос будет обрабатываться одинаково. Например, о переадресации могут сигнализировать несколько разных кодов.

Сообщения об ошибке, генерируемые в Search Console, относятся к кодам статуса в диапазоне 4xx–5xx, а также к неудачной переадресации (3xx). Если в ответе сервера указан код статуса 2xx, полученный контент может быть проиндексирован.

В таблице ниже приведены коды статуса HTTP, с которыми чаще всего сталкивается робот Googlebot, и пояснения о том, как обрабатывается каждый такой код.

Коды статуса HTTP

2xx (success)

Роботы Google проверяют, можно ли проиндексировать контент. Если контент не загружается, например появляется пустая страница или сообщение об ошибке, в Search Console будет зарегистрирована ошибка soft 404.

200 (success)

Страница передается на индексирование. Наши алгоритмы могут проиндексировать контент, но это не гарантировано.

201 (created)
202 (accepted)

Робот Googlebot ждет некоторое время, не загрузится ли страница, а затем передает ее для индексирования. Время ожидания зависит от агента пользователя. Например, у робота Googlebot для смартфонов и у Googlebot Image оно разное.

204 (no content)

Робот Googlebot сообщает алгоритмам индексирования, что контент не получен. В отчете об индексировании страниц этого сайта в Search Console может быть указана ошибка soft 404.

3xx (redirection)

Робот Googlebot выполняет до 10 переходов в цепочке переадресаций. Если за это время поисковый робот не получает контент, в отчете об индексировании страниц этого сайта в Search Console будет указана ошибка переадресации. Количество переходов робота Googlebot зависит от агента пользователя, например у роботов Googlebot Smartphone и Googlebot Image оно будет отличаться.

Googlebot выполняет пять переходов в цепочке переадресаций согласно спецификации RFC 1945. Затем он прерывает операцию и интерпретирует ситуацию как ошибку 404.

Наши роботы игнорируют любой контент, получаемый с URL переадресации. При индексировании используется контент, размещенный по конечному целевому URL.

301 (moved permanently)

Робот Googlebot выполняет переадресацию, а алгоритм индексации интерпретирует это действие как явный сигнал того, что перенаправление должно выполняться на каноническую страницу.

302 (found)

Робот Googlebot выполняет переадресацию, а алгоритм индексации интерпретирует это действие как неявный сигнал того, что перенаправление должно выполняться на каноническую страницу.

303 (see other)
304 (not modified)

Робот Googlebot сообщает алгоритму индексирования, что страница не была изменена с момента предыдущего сканирования. В связи с этим система может по-новому интерпретировать сигналы, относящиеся к определенному URL. Если же она этого не сделает, то код статуса не повлияет на индексацию.

307 (temporary redirect) Этот код интерпретируется так же, как и 302.
308 (moved permanently) Этот код интерпретируется так же, как и 301.

4xx (client errors)

Роботы Google не индексируют URL с кодом статуса 4xx, а те URL, которые уже проиндексированы и выдают код статуса 4xx, удаляются.

Роботы Googlebot игнорируют любой контент, получаемый с URL, которые возвращают код статуса 4xx.

400 (bad request)

Все ошибки 4xx, за исключением 429, обрабатываются таким же образом. Googlebot сообщает, что контент отсутствует.

Если ранее URL был проиндексирован, мы удалим его из индекса.
Обнаруженные страницы с кодом 404 не обрабатываются. Частота сканирования постепенно снижается.

401 (unauthorized)
403 (forbidden)
404 (not found)
410 (gone)
411 (length required)
429 (too many requests)

Робот Googlebot интерпретирует код статуса 429 как сигнал того, что сервер перегружен и что имеет место его ошибка.

5xx (server errors)

В случае ошибок сервера 5xx и 429 роботы Google временно замедляют сканирование. Уже проиндексированные URL сохраняются в индексе, но в скором времени удаляются.

Если файл robots.txt выдает ошибку сервера более 30 дней, будут выполняться правила, указанные в последней кешированной копии этого файла. Если такой копии нет, роботы Google будут действовать без ограничений.

Роботы Googlebot игнорируют любой контент, получаемый с URL, которые возвращают код статуса 5xx.

500 (internal server error)

Робот Googlebot снижает скорость сканирования сайта. Частота сканирования уменьшается пропорционально количеству отдельных URL, которые возвращают ошибку сервера.
Google удаляет из индекса URL, постоянно возвращающие такую ошибку.

502 (bad gateway)
503 (service unavailable)

Ошибки soft 404

Ошибкой soft 404 называется ситуация, когда посетитель веб-страницы видит сообщение о том, что ее не существует, при этом браузер получает ответ с кодом статуса 200 (success). Этот код означает «Успешно». В некоторых случаях открывается страница, на которой нет основного или вообще никакого контента.

Такие страницы создаются веб-сервером, где размещен сайт, системой управления контентом или браузером пользователя. Причины могут быть разными. Пример:

  • Отсутствие файла SSI
  • Ошибка при обращении к базе данных
  • Пустая внутренняя страница результатов поиска
  • Незагруженный или отсутствующий по другой причине файл JavaScript

Мы не рекомендуем возвращать код статуса 200 (success), а затем выводить сообщение об ошибке или указывать на наличие ошибки на странице. Пользователи могут подумать, что попали на действующую страницу, но после этого увидят сообщение об ошибке. Подобные страницы исключаются из Google Поиска.

Если алгоритмы Google по контенту страницы определяют, что она содержит сообщение об ошибке, то в отчете об индексировании страниц этого сайта в Search Console будет указана ложная ошибка soft 404.

Порядок исправления ошибок soft 404

Есть разные способы устранения ошибок soft 404 в зависимости от состояния сайта
и от желаемого результата:

  • Страница и ее контент больше не доступны
  • Страница или ее контент были перенесены
  • Страница и ее контент по-прежнему существуют

Подумайте, какое решение будет оптимальным для ваших пользователей.

Страница и ее контент больше не доступны

Если страница удалена и для нее нет замены на вашем сайте с аналогичным контентом, нужно отправлять ответ с кодом статуса 404 (not found) или 410 (gone). Эти коды статуса сообщают поисковым системам, что страницы не существует, а контент не нужно индексировать.

Если у вас есть доступ к файлам конфигурации вашего сервера, страницы с сообщениями об ошибках можно сделать полезными для пользователей. Например, на такой странице 404 вы можете разместить функции, призванные помогать посетителям в поиске нужной информации, или полезный контент, который удержит их на вашем ресурсе. Вот несколько советов по созданию полезной страницы 404:

  • Пользователям должно быть понятно, что запрашиваемая страница недоступна. Подготовьте сообщение, которое не вызовет отторжения.
  • Страница 404 должна быть выполнена в том же стиле (включая элементы навигации), что и основной сайт.
  • Разместите на странице ссылки на самые популярные статьи или записи блога, а также на главную страницу.
  • Дайте пользователям возможность сообщать о неработающих ссылках.

Полезные страницы 404 создаются исключительно для удобства пользователей. Поисковые системы игнорируют такие страницы, поэтому рекомендуем возвращать для этих страниц код статуса HTTP 404, чтобы они не индексировались.

Страница или ее контент перемещены

Если страница перенесена или у нее есть замена, отправляйте ответ с кодом 301 (permanent redirect), чтобы перенаправлять пользователей. Посетителям сайта это не помешает, а поисковые системы узнают новое расположение страницы. Чтобы узнать, правильный ли код ответа отправляется при открытии страницы, используйте инструмент проверки URL.

Страница и ее контент по-прежнему существуют

Если нормально работающая страница вызвала ошибку soft 404, вероятно, она не была корректно загружена роботом Googlebot, во время отрисовки не были доступны важные ресурсы или показывалось заметное сообщение об ошибке. Проанализируйте отрисованный контент и код ответа HTTP с помощью инструмента проверки URL. Если на обработанной странице нет или очень мало контента или он вызывает ошибку, ошибка soft 404 может быть обусловлена тем, что страница содержит ресурсы (например, изображения, скрипты и прочие нетекстовые элементы), которые не удается загрузить.
Возможные причины проблем с загрузкой – блокировка доступа в файле robots.txt, слишком большое количество ресурсов или слишком большой их размер, а также любые ошибки сервера.

Ошибки сети и DNS

Ошибки сети и DNS отрицательно влияют на показ URL в результатах поиска Google.
Робот Googlebot интерпретирует тайм-ауты сети, факты сброса подключения и ошибки DNS так же, как и ошибки серверов 5xx. В случае сетевых ошибок сканирование начинает постепенно замедляться, поскольку сетевая ошибка означает, что сервер может не справиться с нагрузкой. Так как роботы Googlebot не смогли получить доступ к серверу, на котором размещен сайт, значит, им не удалось извлечь контент. В результате Google не может проиндексировать ранее просканированные URL, а недоступные нашим роботам URL, которые уже были проиндексированы, будут удалены из индекса Google в течение нескольких дней. Search Console может создавать сообщения о каждой возникающей ошибке.

Ошибки отладки сети

Эти ошибки возникают до того, как Google начинает сканирование URL, или во время этого процесса.
Поскольку они зачастую уже присутствуют до того, как сервер возвращает ответ, то из-за отсутствия кода статуса диагностика этих ошибок может вызывать трудности. Чтобы отладить ошибки тайм-аута и сброса подключения, выполните следующие действия:

  • Проверьте настройки брандмауэра и записи в журнале. У вас может быть задано слишком общее правило блокировки. Нужно, чтобы ни одно правило брандмауэра не блокировало IP-адреса робота Googlebot.
  • Проанализируйте сетевой трафик с помощью таких инструментов как tcpdump и Wireshark. Они помогут вам найти в пакетах TCP аномалии, относящиеся к определенному сетевому компоненту или модулю сервера.
  • Если вы не можете найти ничего подозрительного, обратитесь к своему хостинг-провайдеру.

Ошибка может относиться к любому серверному компоненту, который обрабатывает сетевой трафик. Возможно, что перегруженные интерфейсы сети не могут передавать пакеты, что приводит к тайм-аутам (невозможности установить подключение) и сбросу подключений (отправляется пакет RST, поскольку порт был закрыт по ошибке).

Устранение ошибок DNS

Ошибки DNS чаще всего вызваны неправильной конфигурацией, но могут также возникать из-за правил брандмауэра, которые блокируют DNS-запросы робота Googlebot. Чтобы устранить ошибки DNS, выполните следующие действия:

  • Проверьте правила брандмауэра. Нужно, чтобы ни одно правило не блокировало IP-адреса Google и чтобы были разрешены запросы как по протоколу UDP, так и по протоколу TCP.
  • Проверьте записи DNS. Убедитесь, что записи A и CNAME ведут на правильные IP-адреса и имена хостов. Пример:

    dig +nocmd example.com a +noall +answer
    dig +nocmd www.example.com cname +noall +answer
  • Убедитесь, что все ваши DNS-серверы указывают на правильные IP-адреса вашего сайта. Пример:

    dig +nocmd example.com ns +noall +answer
    example.com.    86400  IN  NS  a.iana-servers.net.
    example.com.    86400  IN  NS  b.iana-servers.net.
    dig +nocmd @a.iana-servers.net example.com +noall +answer
    example.com.    86400  IN  A  93.184.216.34
    dig +nocmd @b.iana-servers.net example.com +noall +answer
    ...
  • Если вы внесли изменения в конфигурацию DNS в течение последних 72 часов, на их применение во всей сети DNS может потребоваться некоторое время. Чтобы ускорить внедрение новых настроек, вы можете очистить общедоступный кеш DNS.
  • Если вы используете собственный DNS-сервер, убедитесь, что он исправен и не перегружен.

Если не указано иное, контент на этой странице предоставляется по лицензии Creative Commons «С указанием авторства 4.0», а примеры кода – по лицензии Apache 2.0. Подробнее об этом написано в правилах сайта. Java – это зарегистрированный товарный знак корпорации Oracle и ее аффилированных лиц.

Последнее обновление: 2023-02-20 UTC.

Регулярная проверка и оперативное устранение ошибок – залог эффективной работы сайта.

Автор: Джо Робисон (Joe Robison) – основатель и главный консультант SEO-агентства Green Flag Digital, эксперт Moz.

В последние годы вебмастера всё больше полагаются на Google Search Console как источник ценных данных. Google также создал множество справочных документов, призванных облегчить пользователям сервиса поиск и устранение ошибок.

Возможно, исправлять ошибки не так интересно, как заниматься другими SEO-задачами. Тем не менее, данный пласт работ чрезвычайно важен.

Регулярно проверяя сайт на наличие ошибок сканирования и оперативно устраняя недочёты, вы сможете взять ситуацию под контроль. В противном случае, ресурсу могут грозить серьёзные проблемы.

Категоризация ошибок сканирования

В Search Console ошибки сканирования разделяются на две основные группы: ошибки сайта и ошибки URL. Такой подход очень удобен, поскольку проблемы на уровне сайта и на уровне страницы – это разные вещи. Ошибки из первой группы обычно более масштабные и влияют на юзабилити ресурса в целом. В свою очередь ошибки URL относятся к конкретным страницам и, соответственно, менее срочные.

Самый быстрый путь к ошибкам сканирования – через панель управления в Search Console. Главная панель даёт общий обзор ситуации по сайту и включает три самых важных инструмента для управления им: «Ошибки сканирования», «Анализ поисковых запросов» и «Файлы Sitemap».

57e1d340315a33-98209503

1. Ошибки сайта

Ошибки, которые содержатся в этом разделе, влияют на работу сайта в целом. Google предоставляет данные за последние 90 дней.

При наличии проблем, этот раздел будет выглядеть примерно так:

57e1d340e92e10-86241453

При отсутствии ошибок – так:

57e1d34159a352-07956005
Как часто проверять наличие ошибок сайта?

В идеале ежедневно. Эта задача может показаться монотонной, поскольку в большинстве случаев всё будет в порядке. Однако этим нужно заниматься, чтобы затем не корить себя за критические ошибки в работе сайта.

Как минимум, проверять наличие ошибок сайта следует каждые 90 дней. Но лучше, всё же, делать это чаще.

A) Ошибки DNS

Что это такое?

Ошибки DNS (Domain Name System) могут повлечь за собой огромные проблемы для сайта. Поэтому они очень важны и всегда идут первыми.

Наличие ошибок этого типа означает, что робот Googlebot не может связаться с сервером DNS – либо потому что он не работает, либо из-за проблем с маршрутизацией DNS для вашего домена.

Важны ли они?

Google утверждает, что большая часть ошибок, связанных с DNS, не влияет на возможность сканирования страниц роботом Googlebot. Тем не менее, при выявлении серьёзной ошибки DNS следует действовать незамедлительно.

Появление таких ошибок может означать медленную загрузку, а это ухудшает опыт пользователей.

Ошибки DNS, которые затрудняют Google доступ к сайту, нужно решать сразу.

Как устранить

  1. Google рекомендует в первую очередь использовать инструмент «Просмотреть как Googlebot» в Search Console. Если нужно проверить статус соединения с DNS-сервером, можно использовать только функцию «Сканировать». Функция «Получить и отобразить» нужна, чтобы сравнить, как видят сайт Googlebot и пользователь.
  1. Свяжитесь с DNS-провайдером. Если Google не может правильно просканировать и отобразить страницу, эту проблему нужно решить. Проверьте, не связана ли она с поставщиком услуг DNS.
  2. Убедитесь, что сервер выдаёт код ошибки HTTP 404 («не найдено») или 500 («внутренняя ошибка сервера»). Эти коды ответа сервера более точны, чем ошибка DNS.

Другие инструменты

ISUP.me – позволяет сразу узнать, доступен ли сайт другим пользователям или же проблема только с вашей стороны.

Web-Sniffer.net – показывает текущий HTTP-запрос и заголовок ответа. Полезно использовать для пункта № 3, приведённого выше.

B) Ошибки сервера
Что это значит

Ошибки сервера обычно означают, что Google не может получить доступ к сайту, потому что сервер слишком долго не отвечает. Googlebot, который пытается просканировать сайт, может подождать ответа от сервера в течение определённого промежутка времени, после чего он прекращает свои попытки.

Ошибки сервера могут иметь место при большом наплыве трафика, с которым сервер не может справиться. Чтобы избежать таких проблем, убедитесь, что хостинг-провайдер может обеспечить бесперебойную работу сервера даже при резком увеличении аудитории сайта. Все хотят, чтобы их сайт стал мегапопулярным, но не все к этому готовы!

Важны ли они?

Как и ошибки DNS, ошибки сервера решать нужно устранять же, как только информация о них появилась в Search Console. Это фундаментальные ошибки, которые вредят сайту в целом.

Первый шаг – проверка возможности связи с сервером DNS. При наличии проблем с подключением к серверу, Googlebot не сможет просканировать страницы и покинет сайт спустя какое-то время.

Как устранить

Если сайт работает нормально, а в Search Console отображается ошибка, это означает, что ошибки сервера наблюдались ранее. Хотя на данный момент проблема может быть решена, следует внести некоторые изменения, чтобы предотвратить повторное появление таких ошибок.

При наличии ошибок сервера Google рекомендует следующее:

«Чтобы выяснить, может ли Googlebot в настоящее время обрабатывать ваш сайт, воспользуйтесь Сканером Google. Если при отображении содержания главной страницы вашего сайта с помощью этого инструмента не возникают ошибки, значит сайт доступен для робота Googlebot».

Перед тем, как приступить к устранению ошибок сервера, следует определить их тип. В Google выделяют такие типы:

  • Таймаут
  • Усечённые заголовки
  • Сброс подключения
  • Усечённое тело ответа
  • В подключении отказано
  • Истекло время ожидания подключения
  • Нет отклика

Как устранить все эти ошибки, можно узнать в Справке Search Console.

C) Ошибка доступа к файлу robots.txt

Эта ошибка означает, что Googlebot не удаётся получить файл robots.txt сайта.

Что это значит

Файл robots.txt нужен не всегда, а лишь в том случае, если нужно запретить Googlebot доступ к определённым страницам сайта.

В Справке Search Console говорится следующее:

«Файл robots.txt нужен только в том случае, если на вашем сайте есть содержание, которое не следует включать в индекс поисковых систем. Если вы хотите, чтобы поисковые системы индексировали все страницы вашего сайта, то вам не нужен файл robots.txt, даже пустой. Если файл robots.txt отсутствует, сервер возвратит код статуса 404 в ответ на запрос робота Googlebot, и процесс сканирования сайта будет продолжен. Это не вызовет никаких проблем».

Важна ли она?

Да, это важная проблема. Для некрупных и относительно статичных сайтов с небольшим количеством новых страниц и изменений она не является очень срочной. Но её нужно решить.

При ежедневном обновлении сайта данная проблема перейдёт в разряд срочных. Если Googlebot не может загрузить файл robots.txt, сканирование будет отложено.Такой подход позволяет Google избежать индексирования URL, которые вы запретили сканировать.

Как устранить

Убедитесь, что файл robots.txt правильно настроен. Проверьте, какие страницы вы запретили сканировать.

Если файл настроен правильно, но ошибки по-прежнему отображаются, используйте инструмент для проверки заголовков ответа сервера. Возможно, файл возвращает ошибку 202 или 404.

В целом, лучше вообще не иметь файла robots.txt, чем иметь неправильно настроенный. Если у вас нет этого файла, Google будет сканировать сайт в обычном режиме. Если файл возвращает ошибку, Google отложит сканирование, пока она не будет устранена.

Несмотря на то, что файл robots.txt содержит лишь несколько строк текста, он может иметь огромное влияние на сайт. Поэтому важно регулярно проверять его.

2. Ошибки URL

В отличие от ошибок из предыдущей группы, ошибки URL затрагивают лишь отдельные страницы сайта.

57e1d342d0ff23-80718039

В Search Console проблемы этого рода разделены на несколько категорий – для десктопов, смартфонов и обычных телефонов. Для большинства сайтов этот раздел охватывает все известные проблемы.

Сходите с ума от количества ошибок? Пометьте все, как исправленные

Многие владельцы сайтов видят большое количество ошибок URL, и это их пугает. Важно помнить: а) в списке сначала идут самые важные ошибки; б) некоторые из этих ошибок уже могут быть устранены.

Если вы внесли какие-то радикальные изменения на сайт, чтобы исправить эти ошибки, или же считаете, что они уже устранены, можно пометить все ошибки как исправленные и повторно проверить раздел через несколько дней.

57e1d3436306e4-88842163

Если причины ошибок не были устранены, эти URL снова появятся в списке после следующего сканирования сайта. В таком случае, нужно будет с ними разбираться.

A) Soft 404

«Мягкие» или ложные ошибки 404 появляются, если несуществующие страницы отдают код 200 («найдено») вместо 404 («не найдено»).

Что это означает

Появление на странице сообщения «404 Файл не найден» ещё не значит, что это страница 404.

Для пользователя видимым признаком страницы 404 является наличие на ней контента. Из сообщения на странице должно быть понятно,  что запрашиваемый URL отсутствует.

Владельцы сайтов часто добавляют на такие страницы список ссылок на популярные разделы сайта или другую информацию, которая может заинтересовать пользователей.

57e1c4979a0b02-84644638

Сервер в ответ на запрос несуществующей страницы должен возвращать код ответа 404 («не найдено») или 410 («удалено»).

На схеме ниже показано, как выглядят HTTP-запросы и ответы:

57e1d34415aab2-38097182

Если вы возвращаете страницу 404, и она регистрируется как «мягкая» ошибка 404, это значит, что код ответа сервера был отличен от 404. Согласно рекомендациям Google, сервер всегда должен возвращать код ответа HTTP 404 или 410 при запросе несуществующей страницы.

57e1d3449b6cf5-21093800

Ложные ошибки 404 также появляются, если на страницах настроен 301 редирект на нерелевантные URL, такие как главная страница.

Google говорит об ошибках soft 404 следующее:

«При возвращении для несуществующей страницы кода, отличного от 404 и 410, (или при перенаправлении на другую страницу, например на главную, вместо возвращения кода 404), возникают дополнительные проблемы».

Хотя здесь поисковик даёт некие ориентиры, до конца непонятно, в каких случаях переадресация с устаревшей страницы на главную допустима, а в каких – нет.

На практике, если вы переадресовываете большое количество страниц на главную, Google может интерпретировать эти редиректы как ложные ошибки 404, а не перенаправление 301.

При этом при переадресации устаревшей страницы на похожую регистрация «мягкой» ошибки 404 маловероятна.

Важны ли они?

Если URL, помеченные как soft 404, не являются критически важными для сайта и не «съедают» краулинговый бюджет сайта, тогда работу над ними можно отложить.

Если важные страницы сайта регистрируются как soft 404, необходимо исправить эти ошибки. Страницы товаров, категорий или генерации лидов не должны регистрироваться как soft 404,если это актуальные страницы. Уделите особое внимание тем страницам, которые приносят сайту доход.

Если у вас большое количество «мягких» ошибок 404 по отношению к общему объёму страниц на сайте, действовать нужно быстро. Наличие таких ошибок может съедать бюджет сканирования вашего сайта.

Как устранить

Несуществующие страницы:

  • Убедитесь, что сервер возвращает код ответа HTTP 404 или 410, а не 200;
  • Проверьте, чтобы с помощью 301 редиректа устаревшие страницы переадресовывались на релевантные, похожие страницы сайта;
  • Не перенаправляйте большое количество устаревших страниц на главную страницу. Они должны возвращать ошибку 404 или переадресовываться на похожие страницы.

Актуальные страницы:

  • Убедитесь, что страница содержит достаточное количество контента. Страницы с неинформативным содержимым могут расцениваться как ложные ошибки 404.
  • Убедитесь, что контент на странице не обозначает её как страницу 404, если при этом возвращается код ответа сервера 200.

Soft 404 – это странные ошибки. Они вносят много путаницы, поскольку являются гибридом страниц 404 и нормальных страниц. При этом причины, вызывающие их появление, не всегда понятны. Убедитесь, что самые важные страницы на вашем сайте не возвращают «мягкие» ошибки 404.

B) 404

Ошибка 404 означает, что Googlebot пытался просканировать несуществующую страницу. Поисковый робот находит страницы 404, когда другие сайты ссылаются на отсутствующие страницы.

Что это означает?

Этот вид ошибок сканирования чаще всего воспринимается неверно. Самой частой реакцией на них является страх.

При этом Google утверждает, что бояться таких ошибок не стоит:

«Ошибки 404 не наносят никакого вреда (а во многих случаях даже полезны). Однако предотвратить их появление, контролируя каждую ссылку на свой сайт, практически невозможно. Вместо этого мы рекомендуем вам сосредоточиться на критических ошибках и по мере возможности устранять их».

Тем не менее, это не совсем так. Нельзя игнорировать ошибки 404, если их возвращают важные страницы на сайте.

В каких случаях ошибки 404 нужно исправлять, а в каких – можно игнорировать, не всегда понятно. Глава Moz Рэнд Фишкин в 2009 году предложил следующий полезный совет (и он до сих пор актуален):

«Сталкиваясь с ошибками 404, не стоит предпринимать никаких действий до тех пор, пока эти страницы:

  • не получают важных ссылок с внешних источников;
  • не получают значимого количества трафика;
  • не имеют очевидного URL, который посетители/ссылки намерены достичь».

Здесь уже важно разобраться, что считать важными внешними ссылками и значимым количеством трафика для конкретного URL.

Энни Кушинг из агентства SEER Interactive также предпочитает метод Фишкина и рекомендует следующее:

«Двумя самыми важными метриками, которые помогают понять, не теряете ли вы ценные ссылки, являются входящие ссылки и общее количество посещений целевой страницы».

Кроме того, важно быть в курсе офлайн-кампаний, подкастов и других активностей, в которых используются запоминающиеся URL-адреса. Например, это может быть объявление в журнале со ссылкой на специальную страницу сайта и т.п. Такие URL необходимо отслеживать, чтобы убедиться, что они не возвращают ошибку 404.

Важны ли они?

Ошибки 404 нужно срочно исправлять, если их возвращают важные страницы сайта. В противном случае, их можно игнорировать.

Видеть сотни таких ошибок в Search Console неприятно. Однако пока вы не докопаетесь до причин, которыми они вызваны, они никуда не денутся.

Как устранить

Если важные страницы возвращают ошибку 404, для её устранения выполните следующие шаги:

  • Убедитесь, что в CMS страница опубликована, а не сохранена как черновик или удалена.
  • Убедитесь, что URL с ошибкой 404 – нужная страница, а не один из её вариантов.
  • Проверьте, отображается ли эта ошибка в www и не-www версиях сайта. Также проверьте http и https версии ресурса.
  • Если вы хотите настроить переадресацию, убедитесь, что она будет вести на релевантную страницу.

Другими словами, если страница устарела, оживите её. Если вам это не нужно, настройте 301 редирект на подходящую страницу.

Как сделать так, чтобы устаревшие URL с ошибкой 404 не отображались в отчёте

В отчёте об ошибках первыми показываются те страницы 404, на которые есть внутренние или внешние ссылки.

Чтобы найти ссылки на страницы 404, нужно перейти в раздел «Ошибки сканирования» и выбрать «Ошибки URL»:

57e1d3453e9c09-42874147

Затем кликните на URL, который вы хотите исправить.

57e1d345e20e63-55538104

В коде страницы найдите ссылку:

57e1d346a19b38-05718494

Чтобы устаревшие страницы с ошибкой 404 не показывались в отчёте, нужно удалить все ссылки на них с каждой страницы, которая на них ссылается – включая другие сайты.

Кроме того, ссылки на устаревшие страницы могут содержаться в старых файлах Sitemap. В таком случае нужно настроить код ответа сервера 404 для этих файлов. Переадресовывать их на актуальную карту сайта не нужно.

C) Доступ запрещён

Наличие этих ошибок говорит о том, что Googlebot не удалось получить доступ к URL.

Что это означает

Ошибки «Доступ запрещен» могут возникнуть по следующим причинам:

  • Googlebot не удалось получить доступ к URL, поскольку для просмотра содержимого на сайте нужно выполнить вход.
  • Файл robots.txt заблокировал Googlebot доступ ко всему сайту либо к отдельным его страницам или каталогам.
  • Для работы с сайтом требуется аутентификация с помощью прокси-сервера, или же хостинг-провайдер заблокировал доступ к сайту для робота Googlebot.

Важны ли они?

Если заблокированные страницы важны, то наличие таких ошибок требует срочных действий.

Если необходимости в сканировании и индексации страницы нет, эти ошибки можно игнорировать.

Как исправить?

Чтобы устранить такие ошибки, нужно убрать причину, по которой Googlebot не может получить доступ к странице:

  • уберите со страницы форму авторизации;
  • проверьте настройки файла robots.txt и убедитесь, что он не блокирует Googlebot;
  • используйте инструмент для проверки файла robots.txt. С его помощью вы сможете увидеть, как робот Googlebot будет интерпретировать содержание файла robots.txt;
  • чтобы понять, как Googlebot видит ваш сайт, используйте инструмент «Просмотреть как Googlebot».

Просканируйте свой сайт с помощью Screaming Frog. Он покажет, требуется ли авторизация на страницах.

Хотя ошибки «Доступ запрещён» не так часты, как 404, они могут повредить ранжированию сайта. Это возможно в том случае, если заблокированы важные страницы.

D) Ошибки невыполнения перехода
Что это означает

В этой категории перечислены URL, на которые робот Googlebot не смог перейти. Чаще всего такие ошибки связаны с использованием Flash, Javascript и редиректов на сайте.

Важны ли они?

Если такие ошибки связаны с важными страницами, они требуют срочных действий. Если же проблемы обнаружены на устаревших URL, или же речь идёт о параметрах, которые необязательно индексировать, спешить не стоит. Тем не менее, разобраться с этими проблемами нужно.

Как устранить

Некоторые средства, используемые на сайте, могут затруднять процесс его сканирования роботами поисковых систем. В их числе – JavaScript, файлы cookie, идентификаторы сеансов, фреймы, DHTML или Flash.

Для проверки сайта на наличие подобных проблем Google рекомендует использовать текстовый браузер Lynx или инструмент «Просмотреть как Googlebot». Ещё один полезный инструмент – расширение User-Agent Switcher для Chrome.

При возникновении проблем со сканированием параметров проверьте, как Google их обрабатывает. Если вы хотите, чтобы Google по-другому обрабатывал ваши параметры, сообщите Google об изменениях с помощью инструмента «Параметры URL».

Если ошибки невыполнения перехода связаны с редиректами, сделайте следующее:

  • Проверьте цепочки редиректов. Если перенаправлений слишком много (больше 5), Googlebot не будет переходить по всей цепочке.
  • При возможности обновите архитектуру сайта, чтобы на каждую его страницу вела хотя бы одна статическая текстовая ссылка. Минимизируйте количество редиректов.
  • Не включайте URL с переадресацией в файл Sitemap. Включайте целевой URL.

Больше данных об ошибках можно получить с помощью Search Console API.

Другие инструменты

  • Screaming Frog SEO Spider – отличный инструмент для сканирования сайта и выявления ошибок переадресации;
  • Moz Pro Site Crawl;
  • Raven Tools Site Auditor.

E) Ошибки сервера и ошибки DNS

В разделе «Ошибки URL» также могут отображаться ошибки сервера и ошибки DNS. Устранять их нужно теми же способами, которые описаны для раздела «Ошибки сайта».

Ниже – общая таблица по ошибкам URL, которую можно использовать в качестве памятки:

57e1d3475614e4-84555201

Заключение

Работа над устранением ошибок важна и нужна. Видя сотни недочётов, поначалу трудно разобраться, какие из них требуют срочных действий. Однако со временем вы сможете довольно легко отличать важные проблемы от тех, которые можно спокойно игнорировать.

Автор рекомендует всем вебмастерам ознакомиться со справочной документацией по Google Search Console. При появлении вопросов можно обратиться к следующим ресурсам:

  • Webmaster Central Help Forum
  • Webmaster Central FAQs: Crawling, indexing, & ranking
  • Webmaster Central Blog
  • Справочная статья об ошибках сканирования в Search Console

Search Console – это один из самых мощных (и бесплатных) инструментов для диагностики ошибок сайта. Устранение описанных выше проблем поможет не только повысить позиции ресурса в поиске Google, но и улучшить опыт пользователей и быстрее достичь намеченных бизнес-целей.

Soft 404s are fairly common errors that Google sometimes throws up for web pages, particularly for larger sites. They’re also a strange error because soft 404s are a hybrid of 404 and normal pages, and what exactly is causing this error for a particular page might not always be clear.

So in this post, I want to help clear up some of the confusion around why soft 404 errors happen, how they’re different from regular 404 errors, and how you can fix the SEO issues that cause them.

What is a Soft 404 Error?

According to Google:

“A soft 404 means that a URL on your site returns a page telling the user that the page does not exist and also a 200-level (success) code to the browser.”

Basically, you’ve got a page on your site telling visitors that it no longer exists, but at the same time, it’s telling search engines that it does exist.

Confusing, right?

In some cases, it might be a page on your site that doesn’t have much, if any, content. For example, WordPress automatically generates a new URL when you create a new tag for your site. If you’ve created a tag but haven’t yet published any posts using the tag, you’ll have an empty page on your site—and potentially a soft 404 on your hands.

So what’s really happening there? Well, these thin pages are super confusing for Googlebot. When it’s crawling your site and comes across a page that the server says exists but the content suggests otherwise, it thinks, “well, this page doesn’t offer any value to users so it’s not worth indexing” and gives it a soft 404 label.

It’s also possible to get a soft 404 when a page doesn’t exist and when a user lands on it after clicking through in search results, they’re redirect to a page that isn’t relevant to the search context. For example, the user lands on a page and is automatically redirected to the home page.

Do Soft 404 Errors Really Matter?

When a web page returns a soft 404 error, it won’t appear in Google search. Basically, Google de-indexes pages that return a soft 404 error, which in turn can impact your SEO.

Let’s take a look at an example:

Let’s say you run an online store selling chairs and you’re having issues with one URL in particular: https://chairsgalorestore.com/products/sale/blue-chair

While your server might load the URL without issue, returning a 200 (OK) status code because there’s a real page at that URL, the content on the page could be telling visitors: “Sorry, there are no products matching your search.”

soft 404 errors - blue chair

Basically, the page is displaying search results for a product that doesn’t exist because it’s no longer for sale or has sold out.

Ecommerce sites often contain dynamically generated pages and content that can throw up soft 404 errors when product lines sell out or are no longer available. Images: Unsplash.

This isn’t at all helpful for site visitors. After all, when they click through to your page from Google search, they are looking for blue chairs and are expecting to find blue chairs, but instead discover there aren’t any chairs available!

It’s for this reason why Google created the soft 404 error label—it’s a label, not an official HTTP response code—to deal with thin or non-existent content and ensure that only quality results appear in search.

So what happens to pages that get a soft 404? Google doesn’t index these pages.

Essentially, Google doesn’t want to waste its resources trying to crawl pages that send conflicting signals, no longer exist, or don’t offer valuable, quality content. So it simply removes them from its index and gets on with crawling pages that actually exist.

How to Check Your Site for Soft 404 Errors

The easiest way to check for soft 404 errors is using Google Search Console (formerly Google Webmaster Tools). Log in to your account and on the main screen you’ll see a graph for your site’s “Performance” (total clicks per day) and underneath will be a graph for “Coverage.”

If you have any pages with errors, including soft 404 errors, they’ll be displayed in the “Coverage” graph. Click “Open Report” for more details about your errors.

On the report screen, any errors will be displayed as a total in the big, red box. You can click this red error box to find out more about any errors on your site and what the source of the error might be.

Fortunately for me, as you can see on the Search Console screen for my website, I don’t have any errors that need fixing. However, this is the screen you would visit to find them.

soft 404 errors on google search console

Alternatively, you can use Fetch as Google to check if a particular URL on your site is returning the correct status code, including soft 404 errors.

You can use this tool to see whether Googlebot can access the URL, how it renders the page, and whether any page resources (such as images or scripts) are blocked to Googlebot.

It simulates a crawl and render executive as done in Google’s normal crawling and rendering process, and is super useful for debugging crawl issues on your site.

soft 404 errors fetch as google

How to Fix Soft 404 Errors

If you’re getting soft 404s on your site for critical pages, such as product, category, or lead generation pages, it’s crucial that you act quickly to fix these errors and get these pages indexed and back in Google search.

Likewise, if you have a large number of soft 404 errors relative to the total number of pages on your site, this is not a good look you’re sending Google. Too many soft 404 errors may lead to a reduced crawl rate of your site, which in turn could result to lower rankings and lead to fewer indexed pages—a big problem if you have hundreds or thousands of pages!

How you go about fixing soft 404 errors depends on the cause. But generally speaking, you should ensure the URL returns the right response code to match the actual content of the page.

Here are a few ways to fix soft 404 errors:

1. If the page is no longer available

Pages that no longer exist should return a 404 (not found) or 410 (gone) response code. Either code tells both browsers and search engines that the page no longer exists.

This can be a big problem for eCommerce stores and blogs, especially when you consider the three most common sources of soft 404 errors include:

  1. Empty search results pages
  2. Empty eCommerce product categories
  3. Empty blog categories

Since these pages are often dynamically generated and populated by WordPress, simply returning a hard 404 isn’t the best option.

What Google’s own guidelines suggest is in addition to returning a 404 response code, you should also display a custom 404 page that provides useful information to help visitors navigate your site. This might be a page listing your most popular pages, blog posts, or products.

Yoast’s 404 page is a great example of how website’s can better serve lost users. Their 404 page clearly steps the use through how they can find what they’re looking for. And when you scroll down the page there are links to recent posts.

customized 404 page by yoast

2. If the page has moved

If you’ve changed the URL for a page (e.g. updated the slug for a blog post) it should return a 301 (permanent redirect) and redirect users to the new URL.

Alternatively, if the page has moved because you’ve updated old content, you should redirect the URL to another page on your site containing up-to-date or more relevant information.

One of my favorite tools for setting up page redirects is the aptly named Redirection plugin. Alternatively, the premium version of  Yoast SEO features a redirect manager.

3. If the page is available

If a page on your site is available and should be displaying in search results, it means Googlebot sees it as “thin” content. In this case, you need to work on improving the content on your page so you can avoid triggering a soft 404 error.

This means ensuring that when a user clicks through to your page from search results, your page delivers what they’re expecting. For example, to use my earlier example about shopping for blue chairs, you want to make sure that the page contains information about blue chairs that is informative and useful for the user.

4. If the page is available but you don’t want it to appear in Google search

There might be pages on your site getting soft 404 errors that you’d rather remove from Google’s index altogether. For example, you might have tag, category, or search results pages on your WordPress site that keep getting soft 404s and you’re not getting much SEO juice for these pages anyway.

In this case, you’ll need to tell Google not to crawl these pages. You can do this by adding disallow rules in your site’s robots.text file.

For search pages, for example, you could add the following lines to your robots.txt file:

Disallow: /?s=
Disallow: /search/

Alternatively, you could simply noindex pages you don’t want appearing in search results. The easiest way to do this is using the Yoast SEO plugin. By default, Yoast sets search pages and 404 pages to noindex, follow. But for tag and category pages you can add noindex rules in the “Search Appearance” tab.

noindex settings on yoast plugin

For more on how to noindex URLs, check out this guide to noindexing over at Yoast.

Conclusion

Soft 404s are strange errors and it’s not always clear what’s causing them. But with a little digging around, especially in Google Search Console, you can get to the root of the problem and quickly implement a solution.

For WordPress sites in particular, which almost always have dynamically generated pages that throw up soft 404 errors, simply noindex these pages in Yoast’s settings. It’s also a good idea to have a custom 404 in place to catch users who land on pages that don’t exist so you can direct them to the important pages of your site.

It’s best to crawl your site regularly to check for any 404 or soft 404 errors and fix them quickly to keep the SEO health of your site in check. These are just a handful of ways that you can resolve soft 404 errors. If you have any other useful tips, let us know in the comments!

Google может возвращать ложную ошибку 404 по ряду причин, например, если он считает, что страницы вашего сайта содержат мало или совсем не содержат оригинального контента. Они также могут быть вызваны техническими проблемами или если вы недавно удалили страницу со своего сайта.

Важно отметить, что ложная ошибка 404 не влияет на рейтинг других страниц. Ложные ошибки 404, которые появляются в Google Search Console, могут быть устаревшими и больше не актуальными. Ошибки, которые появляются для таких страниц, как удаленные страницы товаров или удаленные посты блога, могут отображать ложную ошибку 404; это нормальное поведение, которое со временем будет решено.

Если вы получаете сообщение о ложной ошибке 404 для URL-адреса:

Проверьте затронутые страницы:

  • Если на затронутых страницах действительно есть значимый контент, используйте инструмент проверки URL-адресов, чтобы запросить переиндексацию для вашей страницы, отправив URL-адрес страницы.
  • Если страницы не должны отображаться в результатах поиска (например, если вы удалили их со своего сайта), вы можете игнорировать сообщение об ошибке.

Проверьте содержимое страниц с ошибками: ложные ошибки 404 иногда возникают из-за отсутствия органического или уникального контента на странице. Это превентивная мера, выполняемая Google, чтобы страницы с более низким рейтингом не считались спамом.

Чтобы решить эту проблему, необходимо оптимизировать контент ваших страниц для SEO, гарантируя, что контент содержит уникальный и органический текст. Не забудьте добавить alt-текст изображения.
Подробнее

Понравилась статья? Поделить с друзьями:
  • Ошибка 404 как обойти
  • Ошибка 404 как зайти на сайт
  • Ошибка 404 как вызвать
  • Ошибка 404 история появления
  • Ошибка 404 история возникновения