Что влияет на ранжирование при переносе сайта. Разбираем краулинговый бюджет и планирование URL

С точки зрения поисковой оптимизации вы все сделали верно, но ваш сайт продолжает терять позиции после переноса. Что это значит? Участник Dawn Anderson анализирует, как Google определяет важность страницы и выделяет краулинговый бюджет.

website-design-ss-1920

В этом году, Гарри Иллийс уверил, что 300-е редиректы (301, 302 и т.д.) не влияют на снижение или ослабление PageRank. Но многие SЕО специалисты встретили это заявление с долей скептицизма.
На недавней встрече «Webmaster Central Office Hours Hangout», я спросил у Джона Миллера, мог ли скептицизм быть вызван тем, что многие ресурсы теряют видимость в процессе переноса, и оптимизаторы могут просто не понимать, что еще не все сигналы ранжирование были переданы новым страницам, предполагая, что сайт потерял свой PageRank.

Я имею ввиду, что каждый раз, когда вы вносите крупные изменения на сайте – делаете переадресацию на большое количество ссылок, меняете домен, меняете структуру сайта – необходимо время для того, чтобы все нормализовалось. И хотя мы не можем следовать за этими изменениями достаточно быстро, мы однозначно можем перенаправить все сигналы, но это произойдет не на следующий день. Джон Миллер

 

В процессе переноса поисковый робот Googlebot должен собрать огромную массу данных для сортировки в логах, маппируясь и обновляясь изнутри, и, как следствие, позиции могут колебаться. Но если посещение робота играет фундаментальную роль в колебании ранжирования при переносе, это может быть связано с «планированием URL», ключевым компонентом краулингового бюджета.

Краулинговый бюджет = загруженность сервера + планирование URL

По существу, планирование URL – это: «Какие URL-адреса хочет посетить робот и как часто?”.

С другой стороны, загруженность сервера основывается на том, «что Googlebot может посетить на IP/сервере, исходя из мощности и ресурсов самого сервера?».
Вместе они составляют краулинговый бюджет для одного IP или сервера. Оба этих показателя все еще важны при переносе.

На 10-страничном сайте визитке вы вряд ли увидите какие-либо ощутимые колебания в процессе переноса сайта. Но что если у вашего сайта ( если это магазин или новостной сайт) тысяча, сотни тысяч и большее количество ссылок? Или, что если вы решили объединить несколько сайтов под одним IP-адресом?
Чтобы все данные были успешно перенесены, поисковый робот должен завершить как минимум одно полное сканирование сайта. Может даже несколько, так как с каждой новой попыткой робот больше понимает о ссылках и о том, какая перелинковка внутри сайта.
На больших сайтах, это может произойти не так скоро, как вы надеетесь.
Вы, скорее всего, просканируете сайт каким-то любимым инструментом до начала переноса и решите, что не должно возникнуть вопросов. Но потом позиции и общая видимость сайта падают. Что же могло пойти не так?

Вообще, много вещей может пойти не так, но рассмотрите и тот факт, что все как раз прошло как надо.
Возможно, некоторые сигналы еще не были перенесены, потому что «запозднились при транзите», а не «потерялись».
Некоторым сигналам нужны месяцы для переноса. Почему? Потому что поисковый робот не сканирует большие сайты так, как это делают различные инструменты.

График переноса сайта не совпадает с расписанием поискового робота.

У вас есть график переноса. Но он не попадает в такт с роботом. У него также есть свой график.
Частота сканирования URL-адресов задается для каждого URL отдельно. Сотрудник Google подтвердил это: «Некоторые ссылки сканируются каждые несколько минут, другие раз в несколько месяцев, и многие где-то между этими показателями».

Пока Google заявляет, что есть много факторов, влияющих на частоту сканирования URL-ов. На недавнем вебинаре, Гарри Иллийс, сослался на «планирование» и «группировку» URL-ов, которые заранее готовятся для посещения роботом. Так что мы знаем, что планирование существует. Во многих патентах Google, об эффективности сканирования, объясняется этот момент.
Стоит также отметить, что частота сканирования основывается не только на PageRank. И Андрей Липатцев и Гарри Иллийс недавно отметили, что PageRank не является единственным двигателем сканирования или ранжирования, также Липатцев сказал: «PageRank стал просто одним из очень многих показателей».

«Важность» важна.

Это не тавтология, потому что было подтверждено — график сканирования больше всего зависит от «важности» ссылки.

В недавнем Virtual Keynote, Гарри Иллийс, отметил, что нам не стоит фокусироваться на PageRank, как на единственном двигателе сканирования и ранжирования.
Многие из патентов Google касаются важности страницы и упоминают, что «она может включать PageRank», но все же очевидно, что PageRank является просто ее частью. Так что важность страницы и PageRank не одно и тоже, но важность может включать PageRank.

Так что же такое «важность страницы»?
Конечно, Google не расскажет про все составляющие важности страницы, но есть патенты по эффективности сканирования и управлению URL-ами, которые касаются этой темы.
Вот факторы, которые я нашел в патентах, вебинарах, Google Webmaster Hangouts, старых интервью, статьях из блогов и  Google Search Console. Несомненно есть большее количество факторов, и только некоторые их них подтверждены Google.

page-importance-contributors-maybe

(1 – Составляющие важности страницы)
• размещение на сайте (например, домашняя страница более важна, чем страница на три уровня глубже);
• PageRank;
• включение в XML карту сайта (если другие исключены);
• внутренний PageRank;
• внутренние бэклинки;
• согласованность текста анкоров внутри сайта;
• релевантность (контент, анкоры и элементы) теме (важность однородности);
• указания метатега robots и настройка robots.txt
• качество родительской директории переносится на дочернюю страницу.

Также есть и другие предположения о важности страницы:

  1. Недавно Гарри Иллийс отметил, что если страница включена в XML карту сайта, то, скорее всего, будет рассматриваться как более важная, чем та, которая не включена.
  2. Мы знаем, что атрибут hreflang и канонизация используются как сигналы (в управлении файлами robots).
  3. Как отмечалось выше, PageRank «может быть включен в показатель важности страницы» (и, по-видимому, внутренний PageRank тоже).
  4. В центре поддержки Google Search Console, внутренние бэклинки рассматриваются как «сигнал поисковой системе о соответствующей важности той страницы».
  5. Мэт Катс, глава отделение Google Webspam, говорил о понимании поисковыми системами важности страниц, относительно их позиций в параметрах уровней ссылок. Гарри Иллийс также использует, как пример, сравнение страницы «о нас» и «домашней страницы, которая часто меняется», имеющих разную важность для пользователей, которые хотят видеть свежий контент. Страница «О нас» особо не меняется.
  6. Типы файлов и страниц также упоминаются в патентах. Например страницы, где преобладают изображения, не так часто сканируется, как другие ссылки, потому что они редко меняются.

Управление изменениями/свежесть также важны.

Мы знаем одну вещь наверняка – частота изменений влияет на частоту сканирования.

URL-адреса постоянно меняются. Есть возможность путаницы поисковой системы («метрика ошибок»), если та выдаст устаревший контент в поисковой выдаче ниже порогового значения – это ключ, которым необходимо эффективно управлять.

Для борьбы с такими ошибками (выдача устаревшего контента в результатах), система планирования построена так, чтобы отдавать приоритет сканированию важных страниц и страниц, которые часто меняются.

Эти ключевые страницы имеют больше шансов быть замеченными пользователями поисковой системы, чем страницы, которые не так часто находят на странице результатов.
В общем, мы пытаемся сделать так, чтобы сканирование базировалось на предположении, может ли эта страница измениться или как часто она может меняться. Так что, если мы считаем, что что-то должно остаться неизменным в течение долгого периода, мы, скорее всего, не будем сканировать эту страницу несколько месяцев. Джон Мюллер

 

Это означает, что важная частота изменений на веб-страницах, изучается поисковыми системами в течение времени (об этом упоминается в патенте Google об эффективности сканирования), сравнивая существующую версию с предыдущими копиями, чтобы обнаружить частоту критических изменений.

Выделим момент, насколько важны изменения страницы для пользователей поисковой системы («критическое существенное изменение») и также, насколько важна страница сама по себе (важность страницы, которая может включать PageRank).
Обратите внимание, на странице должен измениться какой-то ключевой раздел («критическое существенное изменение»), который полезен пользователю.

Почему поисковый робот не может посетить все перенесенные странички сразу?

Из сказанного выше мы можем заключить, что он обычно приходит на сайт с целью, «рабочим графиком» и «группой» URL-ов, которые нужно просканировать в процессе визита. Ссылки в группу были внесены «Планировщиком» в системе Google, если верить многочисленным патентам Google (смотрите картинку).

scheduler-for-search-engine-crawler-image-432x600

Но первое сканирование новых сайтов происходит по-другому. В этом случае, нет представления о том, что может быть на страницах, нет никаких предыдущих версий, планировщику не с чем сравнивать.
Когда робот приходит на ваш сайт, если ваш IP (сервер) не страдает медленным соединением или серверными ошибками, он завершает свой список и проверяет, есть ли что-то более важное, чем список адресов в оригинальном файле, что стоило бы также просканировать.
Если такие ссылки есть, поисковый робот может пойти немного дальше и просканировать эти важные страницы тоже. Если ничего важного не обнаружено, робот возвращается к изначальному набору адресов для посещения на вашем сайте.

Переносили ли вы недавно сайт или нет, Googlebot больше фокусируется на нескольких (важных) URL-адресах, с периодическими визитами на те страницы, которые полагаются менее важными, или от них не ожидают частых изменений (например старые архивы новостных сайтов или неизменные страницы товаров в магазинах).

Когда робот приходит на ваш сайт, и вы решили произвести перенос в реальном времени, он об этом не предупрежден. У него уже есть составленное расписание и список ссылок, которые он должен посетить на вашем сайте, и это могут быть важные страницы (с ожидаемыми изменениями, важными для пользователя), которые поисковый робот все еще хочет периодически посещать.
Googlebot вряд ли захочет посетить все перенаправленные ссылки сейчас, потому что не у всех страниц равная важность, и от некоторых из них не ожидают полезных изменений, чтобы периодический их просматривать (и поэтому они не включенные в график сканирования).

Вероятнее всего поисковая система поймет, что вы находитесь в процессе переноса. Редиректы на адреса, которые Googlebot пришел посетить, будут пройдены (и возможно даже больше, исходя из части сканирования, зарезервированной для исследования дополнительных важных изменений, не внесенных в график), и все ответы сервера на запрашиваемые страницы будут внесены в лог-файлы.

Если Googlebot увидит много редиректов, скорее всего он пошлет сигнал о том, что «здесь происходит какой-то перенос», и планировщик ссылок составит график визитов исходя из данной информации.

Обычно, когда мы видим, что сайт находится в процессе переноса, мы постараемся просканировать его немного быстрее, чтобы собрать все данные. Джон Миллер

 

Чаще всего после переноса только самые важные страницы получат приоритет при сканировании. Для того чтобы удостовериться, что все сигналы об этих важных «новых» URL-адресах (перенаправленных со «старых»), охвачены.
Важность страницы и частота изменений — не единственные факторы, влияющие на то, когда страницу посетит поисковый робот. Вот несколько других.

Ограниченные ресурсы поисковой системы

Сеть растет гораздо быстрее, чем возможности, доступные поисковым системам. Например, число сайтов в интернете выросло в треть за 2013 — 2014 год. Доступные ресурсы и мощности поисковых систем должны разделяться между всё большим количеством IP (хостов) и сайтов на них, чтобы их просканировать.

Загруженность сервера

Каждый IP (веб-хостинг) имеет предел числа соединений, которые он может поддерживать. Со временем, поисковая система изучает, сколько ваш хост или IP может выдержать, и планирует график визитов робота в соответствии с этой информацией. Если ваш сайт на виртуальном хостинге, виртуальном IP или CDN (сеть доставки контента), это также сыграет роль, так как «загруженность сервера» будет разделена между сайтами на одном IP.

Очередь URL и низкая важность переносимых страниц

Есть два типа очередей в графике сканирования.

  1. Очереди сайтов (прямо говоря, это очереди IP/хостов).
  2. Очереди страниц/URL для сканирования внутри сайта или на одном IP.

Очереди хостов (IP и сайтов на них) больше зависят от загруженности сервера. Если есть замедления при соединении или возникают серверные ошибки, Googlebot может поставить в приоритет только страницы высокой важности, пропуская при этом остальные. При переносе, это означает что менее значимые URL(чаще, более глубокие) могут быть просто упущены в процессе борьбы с сервером.
Робот также может совсем отступить, если одни и эти же ошибки и будут возникать постоянно (подтверждено Google’s Гарри Иллийс на SMX East в 2014 г.). То есть, еще меньше сканирования. Это означает, что со временем, у вас будет большая очередь страниц, которые ждут визита бота.

Очереди веб-страниц внутри хоста больше зависят от «планирования URL». Они могут регулироваться несколькими сортирующими процессами, в основном основанными на частоте изменений и важности страницы. При переносе, если Googlebot был информирован несколькими сигналами (планировщик ссылок, лог-файлы и т.д.), URL будут распределены в очереди, исходя из того, что было известно о страницах, с которых идет редирект.

Если у вас есть много «маловажных ссылок», страниц без изменений, или страниц, которые меняются, но эти изменения нельзя назвать «критичными», вы можете долго простоять в очереди на сканирование после переноса.

Планирование применяется и в процессе переноса, но ваша очередь URL-адресов для сканирования стала больше.

Когда я спросил Джона Миллера о том, применяется ли планирование во время переноса (август, 2016 г.), он ответил положительно и добавил: «Мы не можем неожиданно взять и просканировать огромный сайт сразу после переноса».

Производительность сканирования остается ключевой.

В процессе переноса, вы просто добавили дополнительную копию вашего сайта, полного ссылок, которые стоит просканировать. Если вы решили соединить несколько отдельных сайтов в одной новой директории на существующем главном сайте – еще больше ссылок.

Неожиданно, вы просите Googlebot просканировать двойное количество URL-адресов с нуля. Даже с прямым редиректом (без дополнительных цепочек редиректов или исторического «хлама»), робот стукнется о 301 редирект из индекса и потом попадет на ответ сервера 200 ОК (т.е. минимум два URL за один визит, что удваивает размер сайта).

Google сканирует высококачественные разделы сайта чаще

Что будет, если добавить новый, богатый на контент, высокорелевантный и хорошо перелинкованный раздел сайта, пока какие-то старые маловажные страницы сайта еще ждут, чтобы их просканировали?

Есть предположение, что новый важный и качественный раздел сайта будет поставлен в приоритет, или же маловажные страницы будут отложены на более поздний срок, до того, как появятся свободные мощности для сканирования. Другими словами, перенос всех сигналов займет еще больше времени.

И если у вас есть дубли или низкокачественный контент, процесс, опять же, займет еще больше времени. Вам, возможно, придётся ждать месяцы!

Представьте, что мы просканировали три страницы сайта и обнаружили, что две из них были дублями последней. Мы отбросим две страницы, оставив только одну, и, скорее всего, решим, что у вас контент не очень хорошего качества. Поэтому мы вряд ли будем сканировать эту страницу также часто, как и раньше. Мэт Катс

 

Googlebot все еще хочет важные страницы после переноса

При переносе все меняется (все URL-адреса), но не все, что изменилось, критически важно для пользователя.
В некоторых случаях, устаревший контент в поисковой системе не имеет большой значимости, потому что изменения в документах, которые заносятся в поисковый результат, незначительные, или же релевантность документа остается такой же.
Будет ли концом света, если страница, которая очень редко меняется, или же эти изменения несущественны, будет перенаправляться из индекса?
Скорее всего, нет. Пользователь все еще сможет получить необходимую страницу из выдачи, используя вашу переадресацию, так что его опыт существенно не ухудшится.

Ваши «маловажные» страницы на самом деле могут давать очень многое для видимости сайта до переноса.

Вероятно, что существующие позиции по long-tail запросам (которые могут давать много в сумме), сложились благодаря незначительным сигналам, собранным при обычном сканировании со старых страниц за долгий промежуток времени.

Важные страницы быстрее сканируются после переноса, в то время как большинство маловажных и неважных страниц (которые могут быть отнесены к таковым из-за отсутствия PageRank) в сумме очень сильно влияют на общую видимость сайта.
Они также могут включать сигналы относительной важности (например, только из внутренней структуры перелинковки), которые могут быть повсюду.

internal-links-signals-report-800x349

Эти сигналы не будут перенесены на новые URL-адреса сразу после сканирования и обновления в поисковой системе.

А что насчет всех страниц на старом сайте, которые вы могли ранее исключить из индексации в связи с переносом? Они ведь также могли давать свой вес.

Гарри Иллийс сказал, что он не думает, что могут быть какие-то потери при передачи PageRank с неиндексированных ссылок, так что скорее всего они и другие исторически сложившиеся сигналы ранжирования будут что-то давать вашим перенесенным страницам.

И все же, они больше не находятся в индексе и могут не сканироваться ботом долгое время, так что все наследованные сигналы могут долго передаваться новым ссылкам.
Их будут периодический посещать, вместе с 404 и даже 410 ошибкой, потому что «удален» не всегда действительно.

Например, сайт изменил адрес и его позиции упали, инженеры Google предполагают, что причиной может быть тот факт, что некоторый старые страницы сайта больше не индексируются.
Понятно, что в них была какая-то ценность, которая не передалась новым страницам, но все же была необходима (с точки зрения общего ранжирования), и передалась частично исходя из предыдущего опыта.

Все имеет значение.
«Большая картина» и «онтология» сайта должны быть перестроены.

Пока все не будет сложено обратно воедино после переноса, ваш сайт не тот, что был раньше.
Внутренняя перелинковка и относительная важность сигналов с ваших же внутренних страниц (текст внутренних ссылок, предоставляющий контекст, и любые другие анкоры) должны быть перестроены заново.

Googlebot также надо перестроить свое понимание того, где в общей структуре сидит страница. На время все может быть искажено, независимо от размера сайта.

Пока все собирается обратно (включая страницы с низкой важностью и их родственные внутренние ссылки), релевантность, контекст и внешние и внутренние сигналы важности (включая PageRank) переформировываются, сайт не такой, каким был раньше, даже если вы предпримете правильные шаги для переноса с точки зрения оптимизации.

Изначально, вам нужно вернуть на место все стороны паззла, чтобы важные страницы были просканированы, и процесс был запущен. Но только все вместе может повлиять на общую картину и позиции сайта.

Пока сайт полностью не перестроен, как был раньше, работа поискового робота и других работников поисковой системы не закончена.

Оригинал статьи тут.


Администрация SEOlib.ru

Администрация SEOlib.ru

Администрация сервиса для мониторинга позиций и аналитики SEOlib.ru