по-русски in English
Анализаторов
на сайте
44 Открыть
все
в Рунете в мире

Новый анализатор: грамматика

Всякое умение поисковой машины — например, отождествлять формы слова или родственные слова — неизбежно становится источником ошибок.

Мы решили посмотреть, сколько таких ошибок делают разные поисковики — и вот публикуем грамматический анализатор. Он стал уже пятым в группе анализаторов ошибок.  

Ошибки возникают, например, когда парадигмы двух разных слов пересекаются. У слов кружок и кружка есть общая (с точностью до ударения) форма: кружки. Немного воображения — и по запросу кружок керамики начинают находиться керамические кружки.

Еще один типичный случай — когда поисковик начинает склонять несклоняемое слово. Вирус куру — это не вирус кур, но ошибиться так легко!

Особенно неприятно (для поисковых машин, а следовательно, и для их пользователей), когда в запросе встречается форма, имеющаяся одновременно у двух совершенно разных слов. Например, знать может быть и глаголом, и существительным, — и тут, чтобы ошибиться, вообще ничего менять не требуется: достаточно по запросу испанская знать показать что нужно знать, отправляясь в Испанию.

Иногда поисковик мог бы избежать ошибки, обратив внимание на то, что одно из слов запроса почему-то употреблено не в начальной форме. Возможно, это вообще другое слово — ср., запрос группа компаний РуссКом, по которому находится группа компаний Русский алкоголь. А может быть, это название или цитата, и лучше это зря не склонять — ср. стихотворение Собаке Качалова и рок-группу Собаки Качалова.

Как и в любом анализаторе ошибок, худший результат в этом анализаторе может быть платой за то, что поисковая машина сильнее в чём-то другом — например, что она умеет склонять редкие, незнакомые, «несловарные» слова. Мы постараемся рано или поздно сделать анализаторы, которые будут оценивать положительный эффект от такого рода умений. Пока исследуем отрицательный — это ведь, понятное дело, проще.

Надеемся, что анализатор поможет разработчикам поисковых машин решить проблемы, которые он высвечивает. Повод для оптимизма есть: уже за время разработки анализатора некоторые ошибки пропали. Видимо, чем дальше, тем сложнее будет придумывать «трудные» запросы. Что ж — чем тяжелее нам, тем лучше пользователям.

Михаил Волович, 14.03.2013