Google о выявлении дублированного контента и каноникализации

Главная

Публикации

Google опубликовал новый выпуск подкаста Search Off the Record. В этот раз к неизменным участникам Мартину Сплитту, Джону Мюллеру и Гэри Илшу также присоединилась технический писатель Google Лизи Харви.

В новом выпуске Гэри Илш подробно рассказал о том, как Google определяет дублированный контент и проводит каноникализацию.

Если кратко, то Google создает контрольную сумму (checksum) для каждой страницы. По сути, это похоже на уникальный отпечаток документа, который основан на словах на странице. Таким образом, если есть две страницы с одинаковой контрольной суммой, то Google расценивает их как дубликаты.

Контрольная сумма – это значение, полученное из блока цифровых данных с целью обнаружения ошибок, которые могли быть внесены во время их передачи или хранения. Сами по себе контрольные суммы часто используются для проверки целостности данных.

Илш также объяснил, что выявление дубликатов и каноникализация являются разными процессами.

«Сначала вы должны определить дубли, сгруппировать их вместе, заявив, что все эти страницы являются дубликатами друг друга, а затем найти главную страницу для всех из них… Это каноникализация».

Как Google определяет дубли

«Мы сокращаем контент до контрольной суммы. И мы делаем это, потому что не хотим сканировать весь текст, поскольку это просто не имеет смысла. Это требует больше ресурсов, а результат будет примерно таким же. Поэтому мы вычисляем несколько видов контрольных сумм для текстового содержимого страницы, а затем сравниваем эти контрольные суммы».

Для расчёта контрольной суммы используется «центральный элемент страницы» – её основное содержимое (за вычетом колонтитулов и боковых панелей).

После того, как будут рассчитаны контрольные суммы и создан кластер дубликатов, Google должен будет выбрать один документ, который он будет показывать в результатах поиска.

С помощью этого подхода Google определяет не только полные дубликаты, но и частичные.

Для чего Google это делает

Пользователи не любят, когда похожий контент появляется в результатах поиска. Кроме того, свободное пространство в поисковом индексе не бесконечно. К тому же, зачем хранить дубликаты, если они не нравятся пользователям.

После определения дубликатов Google переходит к каноникализации – выбору главной страницы в кластере.

Каноническая страница (Canonical Page)

Каноническая страница (Canonical Page) — это основная или предпочтительная версия страницы веб-сайта, которая выбирается для отображения в поисковых результатах. Использование канонической страницы помогает избежать проблем с дубликатным контентом и устанавливает предпочтительную версию страницы для поисковых систем.

Когда на сайте есть несколько страниц с похожим или одинаковым контентом, поисковые системы могут столкнуться с проблемой выбора, какую из этих страниц показать в результатах поиска. Это может негативно сказаться на ранжировании и привести к разбавлению органического трафика. Чтобы избежать этого, можно использовать каноническую ссылку, чтобы указать предпочтительную версию страницы.

Каноническая ссылка (rel=»canonical») добавляется в раздел <head> каждой страницы и указывает поисковым системам, какая страница является основной или предпочтительной. Например, если у вас есть несколько версий одной и той же страницы с разными параметрами URL, вы можете добавить каноническую ссылку, указывающую на основную версию этой страницы.

Преимущества использования канонической страницы включают:

1. Избегание проблем с дубликатным контентом: Каноническая ссылка позволяет поисковым системам понять, что несколько страниц содержат одинаковый или похожий контент, но предпочтительной версией является определенная страница.

2. Улучшение ранжирования: Указание канонической ссылки помогает сосредоточить оценку релевантности и авторитета на одну основную страницу, что может способствовать лучшему ранжированию в поисковых результатах.

3. Улучшение пользовательского опыта: Обеспечивая консистентность и единственную версию контента, каноническая ссылка помогает пользователям найти нужную информацию без путаницы.

Важно отметить, что канонические ссылки не решают проблему дубликатного контента полностью, но помогают поисковым системам лучше понимать ваш сайт и предоставлять более точные результаты поиска.

Как Google выбирает каноническую страницу

Понять, какая страница должна быть канонической – это непростая задача. Существуют ситуации, когда даже люди не могут сказать, какая страница должна показываться в результатах поиска.

При выборе канонической страницы Google использует более 20 сигналов. В их числе – контент, Page Rank, атрибут rel=canonical, переадресация, наличие HTTPS и другие.

Google не присваивает вес этим сигналам вручную. Для этого используется машинное обучение.

Илш также рассказал, что вручную очень тяжело найти правильный вес для каждого сигнала. Когда вес одного сигнала уменьшается, то некоторые другие стают более значимыми. При этом проконтролировать, какие именно, сложно, поскольку их больше 20.

Инженер начинает настраивать другой сигнал, что приводит к перекосам в ещё одном сигнале. И это бесконечная история. Между тем использование машинного обучения позволяет упростить эту задачу.

Илш также отметил, что каноникализация не имеет отношения к ранжированию. Т.е., выбранная страница будет ранжироваться, но на основании других сигналов, а не тех, что учитывались при каноникализации.

Что касается Лиззи Харви, которая присоединилась к этому выпуску, то она рассказала подробнее о создании справочной документации по поиску.

Источник searchengines.guru/ru/news/2049288

Заказать звонок

Материалы по теме:

Источник трафика и доходов для интернет-магазинов
Четверть владельцев бизнеса мало или ничего не знают о SEO
Google: почему улучшение контента не всегда ведет к росту позиций в выдаче
МАЛОПОЛЕЗНЫЙ КОНТЕНТ
53% ВСЕГО ТРАФИКА НА САЙТЫ
Возражения против SEO
7 концепций о роли ссылок в ранжировании Google
Продвижение услуг
Настройка региона сайта
Google обошел Яндекс
Новый алгоритм Google Penguin
Об эффекте Рингельмана
VPN для чего используется в работе ?
Как ускорить удаление страниц из индекса
Аутсорсинг продвижения сайта
16 cпocoбoв «гуглить» кaк прoфеccиoнaл
Выводов из SEO-конференций 2018 г.
Neural Matching — новый алгоритм Google
Замена тИЦ на ИКС
Какая разница между прогноз ставки и списываемой суммой в Я.Директ?
Спрос на услуги и товары в августе-октябре
Оценка максимально высокой позиции в органической выдачи
Нативная реклама
Перенасыщение текстов ключевыми словами (keyword stuffing) в Google
Влияние ссылок на ранжирование в западных странах
Электронная почта при работе в больших проектах
Контент или ссылки?
Влияние внешних ссылок на позиции сайта
Фильтр Яндекса Баден-Баден
Сервисы для анализа и поиск сайтов конкурентов
Минимальный срок контракта
Работы по оптимизации сайта для улучшения выдачи
Мимикрия — яндекс пессимизирует сайты за сходство с популярными ресурсами
Сколько человек должно работать в seo проекте?
Как продвигать кейтеринговые компании
Продвижение сайтов в России
Как продвигать дизайн интерьера
Зеркала или как правильно с www или без www ?
Почему мы не любим брать в продвижение новые сайты
Индексирование сайта поисковыми системами
Три причины, почему маркетологу нужно поиcковое продвижение сайта
Если упали позиции у сайта в Яндексе или Google, как восстановить позиции
Вопросы и ответы
Как пожаловаться на сайт
Cloudflare
СКОЛЬКО ВРЕМЕНИ НУЖНО ПОИСКОВИКУ ДЛЯ ИНДЕКСАЦИИ НОВЫХ ССЫЛОК
Яндекс.Советник
Ссылочный профиль
Пессимизация сайтов в Google
Упоминание бренда
Факторы ранжирования в топ-10 Google. Исследование.
Насколько пользователи доверяют результатам поиска Google
Незаметное снижение позиций
Факторы ранжирования интернет-магазина в Яндекс