Надежность Google Search Console: инструменты вебмастера на проверке

Существует небольшое количество источников информации на которые полагается практически каждый оптимизатор поисковой системы. Google Search Console (в прошлом Google Webmaster Tools) стал пожалуй самым широко распространенным. Просто, существуют некоторые вещи, которые вы можете выполнить с помощью GSC, как например, отклонение ссылок, чего нельзя сделать где-либо еще, поэтому в некоторой степени мы вынуждены полагаться на него. Но, как и с любым источником данных, мы должны протестировать его, чтобы определить достоверность информации — можем ли мы делать ставку на эти рекомендации в нашем ремесле? Давайте посмотрим сможем ли мы снять занавес с данных GSC и определить, раз и навсегда, насколько скептически нам стоит относится к данным, которые он предоставляет.

Тестирование источников данных

Перед тем, как начать, я думаю стоит немного обсудить то, как мы могли бы решить эту проблему. Есть два основных понятия, которые я хочу представить для этого анализа: внутренняя валидность и внешняя валидность.


Внутренняя валидность указывает точно ли данные отображают то, что известно Google о вашем сайте.


Внешняя валидность указывает точно ли данные отображают, происходящее в сети Интернет.


Эти два понятия очень важны для нашей дискуссии. В зависимости от проблемы, которую мы решаем, как оптимизаторы, нас может больше волновать та или другая. Например, давайте предположим, что скорость страницы была невероятно важным фактором ранжирования, и мы хотели помочь клиенту. Мы, вероятно, будем заинтересованы во внутренней валидности метрики GSC «времени, затраченном на загрузку страницы», потому что, независимо от того, что происходит со стороны реального пользователя, если Google считает, что страница является медленной, мы будем терять позиции. Будем опираться на эту метрику, поскольку мы уверены, что она отображает мнение Google о сайте заказчика. С другой стороны, если мы пытаемся препятствовать Google в поиске плохих ссылок, мы будем обеспокоены внешней валидностью раздела «ссылки на ваш сайт», потому что, хотя Google, возможно, уже знает о некоторых плохих ссылках, мы хотим убедиться, что нет никаких других, на которые Google может наткнуться. Таким образом, в зависимости от того, насколько хорошо выборочные ссылки GSC в полном объеме отражают ссылки в сети Интернет, мы могли бы отказаться от этой метрики и использовать комбинацию других источников (например, Open Site Explorer, Majestic и Ahrefs), который дадут нам больший охват.


Суть этого примера — просто сказать, что мы можем судить о данных, предоставляемых GSC, с разных ракурсов, и очень важно отделить их, чтобы знать, когда имеет смысл полагаться на GSC.

GSC Раздел 1: HTML Улучшения

Среди множества полезных функций в GSC, Google предоставляет список некоторых наиболее распространенных ошибок HTML, которые он обнаружил в ходе сканирования вашего сайта. В этом разделе, расположенном по адресу Search Appearance > HTML Improvements, перечислено несколько потенциальных ошибок, включая дубли тайтлов, дубли дескрипшенов, а также, другие тебующие принятия мер рекомендации. К счастью, этот первый пример дает нам возможность наметить методы для тестирования, как внутренней, так и внешней валидности данных. Как вы можете видеть на скриншоте ниже, GSC нашел дубли мета-описаний, потому что сайт имеет не чувствительные к регистру URL и, отсутствует канонический тег или редирект, чтобы исправить это. По сути, вы можете перейти на страницу с любой /Page.aspx или /page.aspx, и это бесспорно, поскольку Googlebot нашел URL, независимо от того был ли учтен регистр. Давайте проверим рекомендацию от Google, чтобы увидеть, валидна ли она внешне и внутренне.

Внешняя валидность: В этом случае внешняя валидность — это просто информация о том, правильно ли данные отображают страницы в таком виде, как они появляются в Интернете. Как можно уже понять, список улучшений HTML может быть безнадежно устаревшим, зависящий от скорости сканирования вашего сайта. В этом случае, сайт ранее исправил ошибку с помощью 301 редиректа.

Это на самом деле не так уж и удивительно. Не следует ожидать, что Google будет обновлять этот раздел GSC каждый раз, когда вы примените исправления к своему веб-сайту. Тем не менее, он наглядно показывает типичную проблему с GSC. Многие из ошибок, о которых GSC предупреждает вас, возможно, уже были исправлены вами или вашим веб-разработчиком. При всем желании, я не думаю, что это вина GSC, это просто ограничение, которое может быть решено только путем более частого намеренного сканирования, как аудит индексирования Moz Pro или отдельным инструментом, как Screaming Frog.


Внутренняя валидность: тут все становится интереснее. Хотя не удивительно, что Google не индексирует ваш сайт так часто, чтобы фиксировать обновления на вашем сайте в режиме реального времени — резонно было бы ожидать, что просканированные Google данные будут отражены точно в GSC. Это, похоже, не так.

При выполнении запроса info:http://concerning-url в Google заглавными буквами, мы можем определить, какую-то информацию о том, что Google знает об этом URL. Google выдает результаты для версии URL, прописаного строчными буквами! Это указывает на то, что Google знает о 301 редиректе, для устранения проблемы, и скорректировал его в своем поисковом индексе. Как уже можно понять, это показывает достаточно серьезную проблему. Рекомендации по улучшению HTML в GSC не только могут не отражать изменения, внесенные на вашем сайте, они могут даже не отражать корректировки, о которых Google уже знает. Учитывая такую разницу, почти всегда имеет смысл сканировать ваш сайт дополнительно по этим типам проблем, вместе с использованием GSC.

GSC Раздел 2: Статус Индекса

Следующий метрикой, с которой нам предстоит разобраться — этот Статус Индекса в Google, который должен предоставить вам точное число страниц, проиндексированных Google с вашего сайта. Этот раздел находится в Google Index > Index Status. Эта конкретная метрика может быть проверена только на внутреннюю валидность, так как она предоставляет нам информацию исключительно о самом Google. Есть несколько способов, как можно было бы решить это…


1. Мы могли бы сверить число, представленное в GSC с тем, которое отображается через команды site:

2. Мы могли бы сравнить количество приведенное в GSC с числом внутренних ссылок на главную страницу в разделе внутренних ссылок (при условии: 1 ссылка на главную страницу с каждой страницы на сайте)


Мы выбрали оба способа. Самая большая проблема с этой конкретной метрикой — быть уверенным в том, что она измеряет. Поскольку GSC позволяет вам авторизировать HTTP, HTTPS, WWW, и без-WWW версии сайта независимо друг от друга — это может ввести в заблуждение относительно того, что входит в метрику Статус Индекса.

Мы обнаружили, что при аккуратном применении, чтобы убедиться в отсутствии пересечений различного типа (HTTPS против HTTP, WWW против без-WWW), метрика Статус Индекса, кажется, достаточно хорошо коррелирует с запросом site:site.com в Google, особенно с небольшими сайтами. Чем больше сайт, тем большие отклонения мы видели в этих цифрах, но это может быть за счет аппроксимаций, выполненных командой site:.


Однако, мы пришли к выводу, что метод подсчета ссылок будет трудно использовать. Рассмотрим рисунок выше. Сайт, о котором идёт речь, имеет 1587 страницы в индексе согласно GSC, но домашняя страница этого сайта имеет 7,080 внутренних ссылок. Это кажется крайне нереалистичным, поскольку нам не удалось найти ни одной страницы, не говоря уже о большинстве страниц, с 4-мя или более ссылками на главную страницу. Однако, учитывая согласованность команды site: и Статуса Индекса GSC, я считаю, что проблема кроется больше в способе отображения внутренних ссылок, чем в метрике Статус Индекса.


Я думаю, можно без опасений сделать вывод о том, что метрика Статус Индекса, вероятно, самый надежный из доступных нам, в отношении подсчета количества страниц фактически включенных в индекс Google.

GSC Раздел 3: Внутренние ссылки

Раздел Внутренние ссылки, который находятся под Search Traffic > Internal Links, кажется используется редко, но может быть весьма познавательным. Если Внешние ссылки говорят Google о том, что считают важным на вашем сайте другие, то внутренние ссылки указывают Google на важное, по вашему мнению, на вашем сайте. Этот раздел еще раз служит полезным примером понимания разницы между тем, что Google утверждает относительно вашего сайта и как на самом деле обстоят дела с вашим сайтом.


Тестирование этой метрики было довольно простым. Мы взяли количество внутренних ссылок, предоставленное GSC, и сравнили его с полным обходом сайта. Тогда мы могли определить, был ли достаточно репрезентативным обход Google для данного сайта.

В целом, эти два показателя скромно коррелировали, с некоторым довольно значительным отклонением. Как SEO, я считаю, это очень важным. Google не начинает с вашей главной страницы и сканирует ваш сайт таким же образом, как и стандартные поисковые роботы вашего сайта (как тот, который входит в состав Moz Pro). Googlebot заходит на ваш сайт с помощью сочетания внешних ссылок, внутренних ссылок, Sitemaps, редиректов и т.д., которые могут дать совершенно иную картину. На самом деле, мы нашли несколько примеров, когда полный обход сайта выявил сотни внутренних ссылок, которые пропустил Googlebot. Навигационные страницы, такие как страницы категорий в блоге, посещались реже, поэтому некоторые страницы не накопили такое количество ссылок в GSC, как можно было бы ожидать, посмотрев только на результат традиционного обхода.


Как поисковые маркетологи, в данном случае, мы должны быть обеспокоены внутренней валидностью, или тем, как Google видит наш сайт. Я настоятельно рекомендую сравнивать числа Google с вашими собственными результатами обхода, чтобы определить, есть ли важный контент, который согласно Google, был не учтен во внутренней перелинковке.

GSC Раздел 4: Ссылки на ваш сайт

Данные по ссылкам всегда являются одними из наиболее востребованных показателей в нашей отрасли, и это правильно. Внешние ссылки продолжают оставаться самым сильным прогностическим фактором для ранжирования и, Google признавался в этом неоднократно. Так как же выглядят GSC данные по ссылкам?

В этом анализе, мы сравнили ссылки, представленные в GSC с представленными в Ahrefs, Majestic и Moz для того, чтобы определить действующие ли эти ссылки до сих. Чтобы быть объективным по отношению к GSC, который показывает только выборочные ссылки, мы использовали только сайты, которые имели всего меньше чем 1000 обратных ссылок, увеличивая вероятность того, что мы получаем полную картину (или по крайней мере близкую к ней) от GSC. Результаты поразительны. Оба списка GSC, «выборочные ссылки» и «последние ссылки,» показывали самые плохие результаты в отношении «действующих ссылок” для каждого тестируемого нами сайта, ни разу не обойдя по качеству Moz, Majestic, или Ahrefs.


Я хочу быть открытым и честным относительно эффективности работы Moz в данном тесте. Поскольку Moz имеет меньший общий индекс, вероятнее всего, мы обнаруживаем только высококачественные, долговечные ссылки. Наше превосходство над Majestic и Ahrefs всего на пару процентов, вероятно, побочный эффект размера индекса и не отражает существенной разницы. Тем не менее, несколько процентов, которые отделяют GSC от всех 3-х индексов ссылок, нельзя игнорировать. С точки зрения внешней валидности — таким образом, мы видим насколько хорошо эти данные отражают то, что на самом деле происходит в интернете — GSC превзошли сторонние индексы.


Но как насчет внутренней валидности? Даст ли GSC нам свежий взгляд на фактический индекс обратных ссылок в Google? Кажется, что они одинаковы, поскольку редко отражаемые в отчете ссылки, о которых Google уже известно, больше не находятся в индексе. Мы рандомно выбрали сотни URL-адресов со статусом «больше не найдены», в соответствии с нашим тестом, чтобы определить, хранит ли еще Googlebot старые версии этих адресов в кэше, что, равным образом, было доказательством этого. В то время, как мы не можем быть уверены, что он показывает полную информацию об индексе ссылок в Google относительно вашего сайта, мы можем быть уверены в том, что Google, в большинстве случаев, показывает только те результаты, которые соответствуют его последним данным.

GSC Раздел 5: Анализ поисковых запросов

Анализ поисковых запросов, вероятно, является наиболее важной и самой используемой функцией в Google Search Console, так как она дает нам некоторое представление о данных, потерянных Google во время обновлений, со статусом «Не указано», в соответствии с Google Analytics. Многие из них, по праву, поставили под сомнение точность данных, поэтому мы решили присмотреться к ним поближе.

Экспериментальный анализ

Раздел Search Analytics дал нам уникальную возможность использовать экспериментальный проект для определения достоверности данных. В отличие от некоторых других показателей, протестированных нами, мы могли контролировать реальность, генерируя клики, при определенных обстоятельствах, для отдельных страниц на сайте. Мы разработали исследование, которое работало по плану вроде этого:


1. Создать серию бессмысленных текстовых страниц.

2. Поставить на них ссылки из внутренних источников, чтобы поощрить индексацию.

3. Использование добровольцев для выполнения поиска абсурдных терминов, который неизбежно обнаружит точное соответствие с созданным нами бессмысленным контентом.

4. Изменить обстоятельства, при которых эти добровольцы выполняют поиск, чтобы определить, отслеживает ли GSC клики и показы только при определенных условиях.

5. Использование добровольцев, чтобы кликать на эти результаты.

6. Запись их действий.

7. Сравнить с данными, предоставленными GSC.


Мы решили проверить, 5 различных условий для достоверности:


1. Пользователь выполняет поиск в Chrome, будучи залогиненным в аккаунте Google.

2. Пользователь не залогинен и, выполняет поиск в Chrome в режиме инкогнито.

3. Пользователь выполняет поиск с мобильного устройства.

4. Пользователь не залогинен и, выполняет поиск в Firefox.

5. Пользователь выполняет тот же поиск 5 раз в течение дня.


Мы надеялись, что эти варианты ответят на конкретные вопросы о методах сбора Google данных для GSC. Мы были весьма и поголовно разочарованы.

Experimental results (Результати експерименту)

GSC зафиксировал только 2 показа из 84 и абсолютный 0 кликов. Учитывая эти результаты, я тотчас был обеспокоен по поводу экспериментального проекта. Возможно, Google не фиксирует данные по этим страницам? Возможно, мы не достигли минимального количества, необходимого для фиксации данных, едва ли стараясь его превзойти в последнем исследовании, посредством 5 поисков на одного человека?


К сожалению, ни одно из этих объяснений не позволяет полностью понять произошедшее. Что интересно, некоторые из тестовых страниц набрали сотни показов по причудливым, низкочастотным ключевым словам, которые только что возникли случайным образом, в результате испытаний бессмысленных страниц. Более того, по многим страницам сайта зарегистрировано очень малое количество показов и кликов, и если сравнивать с данными Google Analytics — они на самом деле получили очень мало кликов. Совершенно очевидно, что на GSC нельзя полагаться, независимо от обстоятельств пользователя, в отношении низкочастотных запросов. Он, согласно данной оценке, внешне не валидный — то есть, показы и клики в GSC не отражают достоверно показы и клики, выполняемые в Google.


Как уже можно понять, я не был доволен этим результатом. Возможно, экспериментальный проект имел некоторые непредвиденные недостатки, которые мог бы раскрыть стандартный сравнительный анализ.

Сравнительный анализ

Следующим шагом, который я предпринял, было сравнение данных GSC с другими источниками, чтобы увидеть можем ли мы найти какую-то связь между представленными данными и второстепенными параметрами, которые могли бы пролить свет на то, почему первоначальный эксперимент GSC отразился так плохо на качестве данных. Наиболее простым, было сравнить GSC с Google Analytics. В теории, отчетность GSC по кликам должна отражать фиксацию Google Analytics органических кликов в Google, если не быть идентичной, то по крайней мере, пропорциональной. Из-за проблем, связанных с масштабом экспериментального проекта, я решил сначала попробовать группу больших сайтов.


К сожалению, результаты были очень разные. Первый пример сайта получил около 6000 кликов за день в органическом поиске Google, согласно GA. Десятки страниц с сотнями органических кликов в месяц, в соответствии с GA, получили 0 кликов, согласно данных GSC. Но, в данном случае, я был в состоянии обнаружить виновника, и это было связано с тем, как отслеживались клики.


GSC отслеживает клик, основанный на URL в результатах поиска (скажем, вы кликаете на /pageA.html). Тем не менее, давайте предположим, что /pageA.html перенаправляет к /pagea.html, потому что вы были умные и решили исправить рассматриваемую ошибку, которая обсуждался в начале статьи. Если Googlebot не учел это исправление, то Google Search будет по-прежнему иметь старый URL, но клик будет зафиксирован в Google Analytics по скорректированному URL, так как это страница на которой запускается GA код. Просто так случилось, что за последнее время на первом тестируемом сайте было сделано много поправок, и коэффициент корреляции GA с GSC составил только 0,52!


Так, я начал поиски других параметров, которые могли бы обеспечить более четкую картину. После анализа нескольких параметров, без подобных проблем, как в первом случае, мы определили диапазон корреляции приблизительно от 0,94 до 0,99, между отчетами GSC и Google Analytics по органическим целевым страницам. Это кажется довольно большим показателем.


И, наконец, мы сделали еще один тип сравнительной аналитики для определения достоверности данных GSC по ранжированию. В целом, количество кликов, полученных сайтом, должно зависеть от числа показов, и позиции в SERP. Хотя, очевидно, это неполное представление всех факторов, справедливо будет сказать, что мы могли бы сравнить качество двух групп ранжирования, если знаем, количество показов и количество кликов. В теории, метод отслеживания позиций, который лучше предсказывает клики, принимая во внимание показы, является лучшим из двух.

Скажите, что я не удивился, но это было совсем не так. Стандартные методы отслеживания позиций намного лучше справились с предсказанием фактического количество кликов, чем позиции, как представлено в Google Search Console. Мы знаем, что данные GSC отображают средние позиции, что почти наверняка представляет неправдивую картину по позициям. Существует много сценариев, при которых данные являются достоверными, но позвольте мне объяснить один. Представьте, что вы добавили новый контент и ваше ключевое слово начинается с позиции 80, затем переходит к 70, затем 60, и в конечном итоге — № 1. Теперь представьте, что вы создаете другую часть контента и он расположен на 40-й позиции, которая никогда не меняется. GSC зафиксирует среднюю позицию 40 для обеих частей контента. Хотя, первый получит значительный трафик за время пребывания на 1-ой позиции, чего никогда не случится со вторым. Метод усреднения GSC на основе данных показов очень сильно вуалирует основные свойства, чтобы обеспечить соответствующие прогнозы. Пока что-то явно не поменяется в методе компании Google по сбору данных для ранжирования в GSC, он не будет подходящим для выяснения истинной текущей позиции вашего сайта.

Согласованность

Итак, как же совместить экспериментальные результаты со сравнительными, как позитивные так и негативные стороны GSC Search Analytics? Что ж, я думаю, есть несколько явных выводов.


1. Данные по показам вводят в заблуждение, в лучшем случае, и являются просто ложью, в худшем: Мы можем быть уверены, что все показы не учитываются и не точно отражены в данных GSC.

2. Данные по кликам пропорционально точные: кликам можно доверять, как пропорциональной метрике (т.е. соотносится с реальностью), но не в качестве конкретной величины.

3. Данные по кликам говорят о том, какие URL ранжируются, а не на какие страницы они на самом деле ведут.


Понимание этой согласованности может быть весьма ценным. Например, если вы обнаружите, что ваши данные о кликах в GSC не пропорциональны данным в Google Analytics, существует высокая вероятность использования вашим сайтом редиректов таким образом, что Googlebot до сих пор не установил или не включил их. Это может свидетельствовать о внутренней проблеме, которую необходимо решить.

Последние мысли

Google Search Console предоставляет много бесценных данных, на которые полагаются умные веб-мастера в принятии маркетинговых решений. Тем не менее, мы должны продолжать относиться скептически к этим данным, как и к любому другому источнику данных, и тестировать их на внутреннюю и внешнюю валидность. Мы также, должны обратить особое внимание на соответствующие правила, согласно которых мы используем данные, чтобы не делать выводы, которые являются небезопасными или ненадежными, где данные неубедительны. Возможно, самое главное: проверить, проверить, проверить. Если у вас есть средства, использовать различные инструменты и сервисы для проверки данных, которые вы найдете в Google Search Console — это даст гарантию вам и вашей команде, что вы работаете с надежными данными.