ПОЧЕМУ НЕ ИНДЕКСИРУЕТСЯ САЙТ?

Индексация сайта поисковыми системами — один из самых животрепещущих вопросов в работе каждого SEO-специалиста. И это абсолютно не удивительно: ведь какой толк в постоянной технической оптимизации, если для поисковых роботов страница не существует как таковая?

В рамках данной статьи мы приведём 11 основных причин, по которым ваш сайт может не индексироваться поисковыми роботами, а также покажем, как с помощью Netpeak Spider выяснить, какая из них тормозит продвижение вашего сайта.

1. САЙТ ЗАКРЫТ ОТ ИНДЕКСАЦИИ В ROBOTS.TXT

Первая и основная причина, по которой многие сайты оказываются вне поля зрения роботов поисковых систем, — это неправильные инструкции файла robots.txt. Как ни странно, это происходит либо по незнанию самих инструкций или синтаксиса, либо по забывчивости: после сдачи сайта в эксплуатацию многие вебмастера и SEO-специалисты просто забывают «открыть» его и убрать лишний disallow.

В подобных случаях Netpeak Spider покажет по итогу сканирования ошибку «Заблокировано в robots.txt».

2. НЕПРАВИЛЬНО ВЫСТАВЛЕНЫ ДИРЕКТИВЫ META ROBOTS ИЛИ X-ROBOTS-TAG

Инструкции, задаваемые для поисковых роботов при помощи Meta Robots или X-Robots-Tag, относятся только к определённым URL и потому могут скрывать от поисковых систем лишь отдельные страницы. Случайно выставленные noindex или nofollow могут существенно испортить вам жизнь и при этом никак не выдавать себя вплоть до детального SEO-аудита сайта.

Если Netpeak Spider обнаружит инструкцию noindex в метаданных страницы или HTTP-заголовке, то страница будет отмечена ошибкой «Заблокировано в Meta Robots» или «Заблокировано в X-Robots-Tag». Для страниц, у которых в заголовках ответа сервера или блоке <head> будет найдена инструкция nofollow, программа покажет ошибки «Nofollow в X-Robots-Tag» и «Nofollow в Meta Robots» соответственно.

3. САЙТ ПОЛУЧИЛ БАН ОТ ПОИСКОВЫХ СИСТЕМ

Эта проблема наиболее актуальна для сайтов, купленных «с рук». Если в процессе покупки вы не проявите достаточной осторожности и на слово поверите продавцу, то шанс приобрести сайт с «тёмным прошлым» будет весьма велик. В этом случае объём усилий, потраченных на восстановление репутации в глазах поисковых систем, будет намного значительнее всех выгод, на которые вы рассчитывали изначально.

Если вы покупаете сайт с историей, настоятельно рекомендуется:

  • запросить у владельца доступ к GA или Яндекс.Метрике, чтобы проанализировать динамику трафика из поисковых систем за большой период и выявить возможные аномалии,
  • проверить данные в Яндекс.Вебмастере и Google Search Console,
  • ознакомиться с архивными версиями сайта посредством Wayback Machine,
  • проверить ссылочный профиль сайта (например, при помощи Serpstat или Ahrefs),
  • проверить на сайте Sucuri SiteCheck, не состоит ли сайт в чёрных списках поисковых систем.

4. ПОИСКОВЫМ РОБОТАМ ОГРАНИЧЕН ДОСТУП К ФАЙЛАМ .JS

Если часть сценариев на вашем сайте осуществляется через JS, поисковые роботы должны иметь беспрепятственный доступ к .js файлам. В противном случае они не смогут прорендерить сайт и найти все ссылки, скрытые в JavaScript.

Вы можете проверить, нет ли на вашем сайте закрытых от индексации JavaScript-файлов, запустив в Netpeak Spider краулинг в со включённой опцией «Проверять JavaScript». Её можно включить в общих настройках программы.

Отдельно хотели бы отметить: согласно официальным заявлениям Google, данная поисковая система без проблем рендерит и индексирует страницы с JavaScript, однако, нельзя с уверенностью сказать то же об остальных поисковиках. Если вас интересует оптимизация под Яндекс, Bing, Yahoo и другие поисковые системы, мы настоятельно рекомендуем ознакомиться с их официальной документацией на тему краулинга JS, а также последними исследованиями на этот счёт.

5. НИЗКАЯ СКОРОСТЬ ЗАГРУЗКИ САЙТА

Многие особенности поведения поисковых систем продолжают относиться к категории разнородных домыслов SEO-специалистов, но есть кое в чём их мнения едины: поисковые системы крайне негативно настроены по отношению к медленно работающим сайтам. Настолько негативно, что низкая скорость загрузки может стать причиной, по которой нетерпеливые поисковики не включат ваш сайт в индекс.

Чтобы выяснить, какие из страниц вашего сайта имеют критически низкую скорость загрузки, просканируйте сайт с Netpeak Spider: в числе возможных ошибок вы можете найти «Большое время ответа сервера». К тому же, каждую страницу в отдельности можно будет проверить через сервис Google PageSpeed, не покидая окна программы. Для этого будет достаточно кликнуть правой кнопкой мыши по выбранному URL, выбрать «Открыть URL в сервисе» → «Google PageSpeed».

6. НА СТРАНИЦЕ ВЫСТАВЛЕН АТРИБУТ REL=»CANONICAL» НА СТРАНИЦУ С РЕДИРЕКТОМ

Размещая на странице ссылку на канонический URL, вы указываете поисковым роботам предпочтительную для индексации страницу. Если же на этой странице стоит редирект на какой-то другой URL, то именно он попадёт в индекс вместо страницы, которую вы указывали в качестве канонической. Это произойдет потому, что её код ответа будет 3хх, а не 200, как требуется для индексации.

7. НЕТ ВНУТРЕННИХ ССЫЛОК НА НОВЫЕ СТРАНИЦЫ

В том случае, если вы создали новые страницы, но на них не ведёт ни одна ссылка внутри сайта, то в рамках своего следующего обхода сайта краулер может попросту не найти их.

В Netpeak Spider страницы, на которые не было найдено ни одной входящей ссылки, отмечаются ошибкой «Page Rank: отсутствуют связи».

8. В НАСТРОЙКАХ CMS ВЫСТАВЛЕН ЗАПРЕТ НА ИНДЕКСАЦИЮ

В общих настройках CMS WordPress есть опция запрета индексации. Доподлинно не известно, какие системы учитывают эту инструкцию, а какие нет, но вполне может оказаться, что одна неосторожная галочка лишит вас места в индексе.

Проверяйте аналогичные настройки и в других CMS.

9. САЙТ ДОСТУПЕН ТОЛЬКО АВТОРИЗОВАННЫМ ПОЛЬЗОВАТЕЛЯМ

Если в процессе тестирования и отладки сайта вы закрыли его от всех неавторизованных посетителей, не забывайте о том, что теперь он закрыт и для поисковых систем.

Кстати, запрос авторизации не помешает вам проводить SEO-аудит на этапе разработки сайта или его финальной подготовки к запуску: достаточно указать данные для доступа на вкладке «Аутентификация» в настройках Netpeak Spider, чтобы беспрепятственно сканировать сайт.

10. САЙТ ЗАКРЫТ ОТ ПОИСКОВЫХ РОБОТОВ В ФАЙЛЕ .HTACCESS

В большинстве случаев файл .htaccess используется для настройки переадресации, однако, при помощи функции RewriteEngine вы можете ограничить доступ к сайту для тех или иных поисковых роботов. В случае с блокировкой бота Google, она может иметь следующий вид:

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteRule . — [F,L]

Если вдруг вы случайно (или специально) использовали её для своего сайта, советуем вам удалить строки с функцией или заменить файл .htaccess на его более раннюю версию.

11. НЕПРАВИЛЬНЫЙ КОД ОТВЕТА СЕРВЕРА

В индекс в итоге попадают страницы исключительно с 200 кодом ответа сервера. Если с виду страница выглядит абсолютно нормально, но по каким-то причинам выдаёт код ответа, отличный от 200 (например, 404 или 503), страница не проиндексируется поисковыми роботами. В случае обнаружения подобной ошибки обратитесь за помощью к веб-разработчику.

КОРОТКО О ГЛАВНОМ

Несмотря на то, что некоторые механизмы работы поисковых систем окутаны завесой тайны, можно с уверенностью назвать несколько основных причин, по которым ваш сайт или некоторая часть его страниц может не индексироваться поисковыми системами:

  • Сайт закрыт от индексации в Robots.txt.
  • Неправильно выставлены директивы Meta Robots или X-Robots-Tag.
  • Сайт получил бан от поисковых систем.
  • Поисковым роботам ограничен доступ к файлам .js.
  • На странице выставлен атрибут rel=»canonical» на страницу с редиректом.
  • Нет внутренних ссылок на новые страницы.
  • В настройках CMS выставлен запрет на индексацию.
  • Сайт доступен только авторизованным пользователям.
  • Сайт закрыт от поисковых роботов в файле .htaccess.
  • Неправильный код ответа сервера.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *