Вот уже несколько месяцев по всем вебмастерским и оптимизаторским форумам интернета идет активная волна обсуждений по поводу того, какое огромное количество сайтов вылетело с начала осени из поискового индекса Яндекса.
Высказывается много разных предположений и догадок, количество версий перевалило за несколько десятков. Насколько они близки к истине – можно только гадать.
При этом никто почему-то никто не догадался спросить у самого Яндекса. Я ждал-ждал, пока кто-то спросит, потом решил спросить сам.
Яндекс – ответил. Четко, откровенно и подробно.
Итак, мои собеседники:
Технический директор Яндекса Илья Сегалович.
Руководитель отдела веб-поиска Александр Садовский. Руководитель группы отдела веб-поиска Сергей Певцов.
Часть 1. Хорошие сайты – не выбрасывать!
Андрей Шипилов: В последнее время на многих интернет-ресурсах особенно часто стало высказываться мнение, что Яндекс исключает из своего поиска большое количество сайтов, и причины, по которым он это делает, далеко не всегда понятны. Я тоже вижу признаки такой тенденции. Лично для меня очевидно, что это происходит вследствие попыток Яндекса улучшить качество своего поиска за счет выбрасывания из него «мешающих» сайтов, но чем именно Яндекс при этом руководствуется – понять очень непросто. Можно ли говорить о появлении некоей цензуры со стороны Яндекса? По каким критериям происходит отсев сайтов?
Илья Сегалович: Прежде всего, я хочу сразу сказать, что определенные санкции к каким-то сайтам с нашей стороны действительно могут иметь место – но это ни в коей мере не цензура. Когда речь заходит о «пессимизации», «фильтрации» и прочих ограничительных мерах со стороны Яндекса по отношению к тем или иным сайтам, то речь не идет об оценке смыслового содержания этих сайтов. Ни к одному сайту никогда не будут применяться никакие ограничительные меры исходя из политических, религиозных, моральных резонов или из-за того, что точка зрения, пропагандируемая сайтом, кого-то не устраивает.
Ограничительные меры применяются только исходя из качества сайтов, причем употребляя термин «качество», мы имеем в виду исключительно способность сайта влиять на качество и релевантность нашего поиска. «Некачественный» с нашей точки зрения сайт, то есть тот, к которому могут быть применены ограничительные меры, это сайт, который в силу тех или иных причин создает помехи в поисковой выдаче, мешает поисковой машине в ее работе, ибо в текущей модели ранжирования мы не можем его корректно отранжировать (проще говоря, он занимает неприемлемо высокое место по не соответствующим ему запросам). Это мешает пользователям в поиске нужной информации. Других критериев для применения санкций к сайту быть не может.
Отдельно хочу отметить, что, когда мы строим выдачу и анализируем запрос (и найденные документы ответа и историю поискового поведения по данному запросу), мы решаем попутно задачу повышения качества ответа в целом, качества представления всей страницы.
В частности, в нашей системе оценок есть оценка «явная глупость» – когда ответ не просто нерелевантен, он вызывает у пользователя отторжение и удивление по поводу работы поисковой системы.
Такие оценки получают ссылки, содержащие неудачное синонимическое расширение слова запроса или какую-нибудь морфологическую форму, которая несет совершенно другой смысл, чем слово в запросе, иными словами, эту оценку получает текст, диаметрально иного смысла, чем смысл заданного запроса.
Ровно в этих рамках (борьба с «глупостью») мы относительно недавно реализовали алгоритм определения запросов и ответов, которые можно трактовать двояко: и как поиск эротического и порнографического содержания, и как невинный информационный запрос. Например, запрос [девочки] может быть поиском повести Людмилы Улицкой, а вовсе не «девочек по вызову». Для человека, ищущего Улицкую, ответ с порнографией не просто нерелевантен, он «явная глупость».
Опираясь на классификаторы запросов и сайтов по порнографическому и непорнографическому содержанию, и построив соответствующие метрики, отражающие долю резко нерелевантного поведения нашей системы по «двояким» запросам, мы смогли реализовать механизм понижения в выдаче сайтов порнографического содержания.
При этом, важно заметить, что никакой модификации не подвергается ответ на запрос, у которого по нашему мнению (выраженному в алгоритмической оценке поисковой системы) нет иной интерпретации, кроме порнографии.
Продолжение