Оптимизаторы запаниковали — Яндекс научился определять платные ссылки! Паника началась после перевода Доклада Яндекса на конференции в Мадриде.
Не очень длинный документ, но очень заумный для афрооптимизаторов, в обсуждении на форуме народ просит пояснить — что означают эти формулы и буковки.
Кратко для чайников сливки.
Они взяли списки поисковых запросов (например с сеорейта или других источников). то есть — заведомо оптимизированные запросы. Поколдовали, расширили, углубили — получили
список текстовых юниграмм (300 000) и биграмм (1 500 000)
То есть типа однословников и двусловников, характерных для seo-ссылок. Для сравнения они взяли и естественные ссылки — из новостей и прочего “настоящего” контента.
для создания улучшенного байесовского классификатора текстов с точки зрения поисковой оптимизации
То есть этот алгоритм любую новую ссылку сравнивает с оптимизированными и с естественными — и выносит приговор — ссылка оптимизирована, к примеру. Или не оптимизирована.
Все запросы разбили по тематикам.
…мы отобрали 22 тематики, наиболее характерные для коммерческих сайтов (недвижимость, финансы, грузоперевозки и т. д.)
…на основе цепи Маркова
…составили новый словарь, насчитывающий около 200 000 слов и 800 000 словосочетаний
Ну, опять же — однословников и двусловников, типа… То есть — каждый “оптимизированный” запрос однозначно показывает ту или иную seo-тематику. Раз определяют тематику ссылок на сайт — очевидной становится и тематика сайта.
Это была прелюдия, подготовка алгоритмов. Дальше — как они их используют при определении платности ссылки.
Если на сайте размещено много “оптимизированных” ссылок (см. п. 1-2) — скорее всего сайт торгует ссылками.
Если на сайт ведет много “оптимизированных” ссылок — скорее всего сайт покупает ссылки.
Если с сайта (с документа???) стоят ссылки на сайты разных тематик (см.п. 3) — скорее всего сайт продает ссылки.
Поиграв коэффициентами по каждому из этих факторов, получили “формулу платности ссылки”. Сравнили с ручной проверкой тестовой выборки — получили больше 90% правильных срабатываний. То есть типа алгоритм работает нормуль. Ну и чудненько.
Теперь самое главное — что с этим делать?
Идентификация платных ссылок позволяет оценивать релевантность ссылок для коммерческих и некоммерческих запросов независимо друг от друга.
В первом случае, платные ссылки учитываются при вычислении коммерческого рейтинга, а во втором — игнорируются.
Это делает формулу вычисления рейтингов более эффективной и повышает качество поиска, нейтрализуя влияние чрезмерной оптимизации на некоммерческие поисковые запросы и делая результаты поиска более разнообразными.
В переводе на русский — они не знают, что с этим делать. Или почти не знают. Алгоритм “прозапас”. наверняка будут пробовать и уже пробуют локально его юзать — пожелаем им удачи и поменьше глюков. Аминь.