Персонализация?
Новость подхватили журналисты множества изданий, запестрели заголовки вроде «Яндекс» сделал поиск персональным (Slon.ru) или Поиск по вкусу. «Яндекс» запустила новую поисковую систему, которая будет лучше понимать желания пользователя (Газета.ru). В пресс-релизе Яндекса менеджер проектов Денис Рогачевский утверждает, что персонализация «позволяет улучшить качество ответов примерно на 75-80% запросов пользователя», — правда, в комментарии Roem.ru он же признается, что не всякого: «это около 60% всех запросов к Яндексу».
Так что же теперь будет? Чего ждать? Неужели меня действительно сосчитали, и теперь Яндекс будет всегда выдавать мне то, что я ищу, основываясь на «всей истории» моего «поведения»? Действительно ли поисковая оптимизация стала бессмысленной, а наши анализаторы — бесполезными, раз уж сами разработчики Яндекса советуют теперь вместо ссылок на результаты поиска обмениваться скриншотами?
Давайте попробуем понять, что произошло, основываясь на том, что сказано на сайте самого Яндекса — в описании технологии и на специальной странице с примерами personalization.yandex.ru.
Если им верить, то речь идет о довольно узкой группе запросов — о тех, которые допускают двоякое (или больше) «прочтение». (Вероятно, как-то персонализируются и другие запросы, но сайт Яндекса об этом умалчивает.) Например, кино — это или кинематограф, или рок-группа, и пользователь в принципе мог иметь в виду как то, так и другое. Таких запросов на самом деле относительно немного, никак не 75% и даже не 60%, хотя они и могут быть частотными. Почти любое уточнение неоднозначность убирает.
Да и в этом случае речь идет скорее о перегруппировке (переранжировании) ответов, чем о замене одних ответов другими. Всё равно на неоднозначные запросы любому пользователю придется давать разнообразные ответы (см. наш анализатор омонимов)! Не случайно в примере Яндекса меломану Юре в ответ на запрос Бетховен уже на четвертом месте выдается Кинопоиск.Ру, а киноведу Никите — Людвиг ван Бетховен. (Выдача для киноведа по этому запросу, кстати, — хороший пример того, как персонализация может выйти боком — всё-таки даже киноведу на первой позиции, наверное, лучше было бы показать настоящего Бетховена, а потом уже фильмы про одноименную собаку.)
Поэтому опасения, высказываемые в Сети, представляются преждевременными.
Правда ли, что разным пользователям будут показаны разные пластиковые окна, — и это смешает карты и самим оптимизаторам, и их клиентам? — Вроде бы, об этом речь пока совершенно не идет.
Не получится ли так, что малолетний сын, поискав игрушки в Яндексе отца, найдет совсем не те игрушки? — Нет, не найдет: с неоднозначными запросами, имеющими эротическую интерпретацию, Яндекс научился работать давно и хорошо, и вряд ли «Калининград» тут что-либо изменит.
Не останутся ли наши анализаторы поисковых машин не у дел? — Не останутся. Доля запросов, для которых что-то изменится, невелика, да и по ним персонализация — только дополнительный фактор ранжирования, не отменяющий всех остальных.
Яндекс учится более тонко учитывать запросы, поведение пользователей, тематику сайтов и страниц и тому подобные тонкие материи. Это очень непростая и в принципе весьма полезная работа. Однако попытки применить подобные тонкие лингвистические (или, точнее, статистические) технологии на практике неизбежно приводят не только к улучшению работы поиска в некоторых случаях, но и к ухудшению — в других. Этому посвящены наши анализаторы «глупостей».
Нисколько не сомневаюсь, что «глупости» будут и на этот раз. Даже в собственных примерах Яндекса, доступных по ссылкам с personalization.yandex.ru, их уже хватает. Упомянутый выше любитель Бетховена меломан Юра на запрос ария получает 10 ответов про группу «Ария» и ни одного — про оперные арии (видимо, он так хорошо в них разбирается, что дополнительные ответы от Яндекса на столь общий вопрос ему уже не нужны). А по запросу кино, заданному от имени меломана Юры, Яндекс отвечает, что «меломан Юра таких вопросов не задает», и выдает все ответы про фильмы — ровно те же, что и киноведу Никите.
Пока не видно, как сделать анализатор, который оценивал бы качество персонализации, но мы уже начали об этом думать.