по-русски in English
Анализаторов
на сайте
43 Открыть
все
в Рунете в мире

Общие характеристики

Асессорский анализатор

Заботясь о качестве собственного продукта, компании, занимающиеся разработкой поисковых машин, должны регулярно оценивать выдачу поисковика, причём осуществляют эту оценку не роботы, а специально обученные люди - асессоры. Данный анализатор представляет собой первый независимый проект асессорской оценки поисковиков в Рунете.
Анализатор задаёт один и тот же набор запросов всем оцениваемым поисковикам, после чего объединяет результаты, полученные по каждому запросу от разных систем. Далее каждому запросу случайным образом назначается оценщик-асессор, который пытается определить, что именно мог искать пользователь, задавший такой запрос, и какие ответы могли бы его заинтересовать.

Поскольку основным условием осмысленности данного анализатора является объективность, люди, получающие страницы на оценку, не знают, ни какой поисковик нашёл ту или иную страницу, ни на какой позиции он её выдал. Им известен лишь запрос, по которому страница была получена. Дополнительную объективность обеспечивает руководство асессора - строгая инструкция, согласно которой и производится оценка.

Асессоры оценивают такие параметры как релевантность (соответствие страницы запросу) и качество сайта (в случае обязательной страницы не учитывается). Первая оценка является определяющей, вторая же может снизить её, если, по усреднённому мнению двух и более асессоров, окажется ниже определённого порога. Оценка страницы результатов получается из оценок всех выданных страниц путём умножения их на коэффициент, связанный с позицией страницы в выдаче (чем выше страница, тем существеннее влияет её оценка на оценку выдачи). Предусмотрены дополнительные штрафные очки, если в выдаче отсутствует обязательная страница (в случае навигационного запроса).

После того, как страницы результатов поиска по всем запросам получили свои оценки, вычисляется общий показатель качества выдачи поисковика путём усреднения этих оценок. Этот параметр и представлен в информере анализатора.

Интегральный показатель качества поиска

Интегральный показатель качества поиска призван помочь оценить общее качество работы каждого поисковика.

Для расчёта используются результаты всех анализаторов, оценивающих качество отдельных аспектов поиска (не учитываются анализаторы апдейтов и переходов: их результаты - не оценка, а информация).
При вычислении значения этого показателя результаты поисковиков в каждом из анализаторов переводятся в стобалльную шкалу нормированием на лучший в анализаторе результат. Это сделано для того, чтобы учесть заметные различия значений показателей в каждом анализаторе. Так например, в анализаторе навигационного поиска все значения лежат в диапазоне 85-100, а в анализаторе спама — в интервале от 1 до 10. Отметим, что до февраля 2013 года нормирование производилось переводом в стобалльную шкалу диапазона от худшего до лучшего результатов в анализаторе.

Полученные значения умножаются на коэффициенты, отражающие наши представления о значимости соответствующего вида или функциональности поиска в интернет-поиске в целом. Значения коэффициентов по умолчанию можно найти - и поменять на свои - на соответствующей странице. После этого все значения суммируются и делятся на сумму коэффициентов, чтобы получить число от 1 до 100 — значение интегрального показателя качества поиска.

Анализатор переходов

Анализатор доли переходов с поисковых машин не является «качественным» анализатором, а отражает популярность и используемость поисковых машин. Для его построения используются данные счетчика Liveinternet.ru. Таким образом, учитываются переходы только на те сайты, на которых установлен счетчик Liveinternet.ru.
Данный анализатор отражает процентное соотношение переходов с поисковых машин на сайты Рунета. Используются данные статистики счётчика LiveInternet по переходам с поисковиков. Здесь необходимо сделать несколько поясняющих комментариев:
А. Здесь взят срез статистики счётчика LiveInternet по российским пользователям (то есть пользователям с российским адресом IP). Это сделано, чтобы отфильтровать шум, возникающий из-за так называемых idiot clicks, то есть случайных переходов западных пользователей из "больших" поисковых машин, таких как Гугл, MSN Live Search, Yahoo. Эти пользователи не являются настоящими пользователями поисковиков Рунета, но могут довольно сильно искажать статистику (так как западный Интернет большой и таких случайных пользователей много).
Б. Принято считать эти цифры долями рынка поисковых машин, но это не вполне корректно. Дело в том, что:
а) счётчик LiveInternet показывает переходы только на те сайты, на которых установлен счётчик. Некоторые крупные сайты не ставят счётчик, что может давать смещение статистики при экстраполяции на весь Рунет.
б) точно неизвестно, что именно показывает процент переходов с поисковика, и как он связан с истинной популярностью поисковика. Можно предположить, что посещаемость поисковика и количество переходов с него коррелируют, но это только предположение. Вдруг, например, в "плохом" поисковике пользователь вынужден много раз щёлкнуть по результатам поиска, пока он найдёт нужный сайт, а в "хорошем" он находит нужный сайт с одного клика? Тогда "плохой" поисковик будет генерировать много переходов на одного пользователя, а "хороший" – только один переход. В общем, точно это соотношение популярности и переходов неизвестно, и именно поэтому мы назвали данный параметр техническим.
Вероятно, сильное изменение процентной доли переходов (скажем, на 5-10 пунктов и более) может отражать реальное изменение посещаемости поисковика. Про малые флуктуации (1-2%) этого утверждать наверняка нельзя.
В. Нужно не забывать, что эти цифры – не абсолютная посещаемость или количество переходов, а процентные доли (сумма которых постоянна и равна 100%). Именно это вызывает эффект ясно видимых на месячном графике зеркальных ям Яндекса и наведённых выступов Гугла: посещаемость Яндекса в выходные падает, а посещаемость Гугла, похоже, падает не так сильно (мы не знаем, почему). Поэтому оттого, что доля Яндекса велика, из-за её падения пропорционально увеличивается процентная доля Гугла по выходным (ведь сумма долей всех поисковиков постоянна). У Рамблера же, очевидно, падение в выходные также ярко выражено, так что его процентная доля не подскакивает так, как у Гугла.

Поисковики в информере анализатора отсортированы по убыванию долей переходов.

Анализатор апдейтов поисковых машин

Апдейт (от англ. to update – обновлять) поисковой машины – процесс обновления результатов поиска. Какие-то сайты поднимаются в первую десятку, какие-то "тонут". Каждый поисковик обладает собственным стилем обновлений, что хорошо видно на соответствующем анализаторе. Анализатор апдейтов поисковых машин ежедневно мониторит позиции первых десяти ссылок (Тор10) по 140 запросам и сравнивает, для какого количества сайтов позиция изменилась и какова степень этого изменения по сравнению с данными вчерашнего дня.
Для расчета сводного индекса апдейта обозначим через Di изменение позиции для i-ой по порядку страницы из 1-го Top10. К примеру, если 5ый сайт из первой выдачи оказался на второй день на 3ей или 7ой позиции, то D5=2. Если i-я страница из 1-го Top10 не попала во 2-й Top10, то считаем, что Di=10.

Индикатор апдейтов вычисляется по формуле:

10
∑ Di/100
i=1

Для наглядности рассмотрим два примера:
Пример 1
В 1-й день по некоторому запросу Top10 имеет следующий вид:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
Во 2-й день по тому же запросу Top10 выглядит так:
Сн, С1, С2, С3, С4, С5, С6, С7, С8, С9.

Результат вычисления индикатора апдейта в этом случае:
((2-1)+(3-2)+(4-3)+ ... +(10-9)+10)/100 = 0.19 (19%)

Пример 2
В 1-й день по некоторому запросу Top10 имеет следующий вид:
С1, С2, С3, С4, С5, С6, С7, С8, С9, С10.
Во 2-й день по тому же запросу Top10 выглядит так:
Сн1, Сн2, Сн3, Сн4, Сн5, Сн6, Сн7, Сн8, Сн9, Сн10.

В этом случае индикатор апдейта равен:
10*10/100 = 1.00 (100%)

Кроме того, вычисляются дополнительные параметры – количество исчезнувших из поисковой выдачи сайтов и количество сайтов, изменивших позицию.

У данного анализатора нет оценочной характеристики. Результаты можно трактовать двояко: поисковик с частыми большими апдейтами можно считать более актуальным, часто обновляющим свои данные; поисковик с редкими апдейтами можно считать стабильным и предсказуемым. В информере данного анализатора поисковики отсортированы в порядке увеличения уровня апдейта сверху вниз.

Анализатор коммерческих апдейтов

Поисковая выдача по коммерческим запросам — вещь довольно динамичная. Во-первых, меняется ситуация на рынке, особенно, когда речь идёт о большом количестве некрупных игроков. Во-вторых, сами участники рынка часто прибегают к услугам SEO-компаний, надеясь изменить эту самую выдачу в свою пользу. Потому обновление выдачи по таким запросам представляет особый интерес.
Анализатор создан после того, как Яндекс объявил о намерении с января 2014 года полностью отказаться от использования ссылок при ранжировании выдачи по коммерческим запросам, задаваемым из Москвы. Было решено исследовать, насколько изменятся результаты выдачи по группе коммерческих запросов. Для сравнения те же запросы задаются и из других регионов; кроме того, всегда можно сравнить результаты анализатора с текущими результатами основного анализатора апдейтов.

Формула для вычисления значения анализатора в каждом регионе та же, что и в анализаторе апдейтов. Для всех доменов, которые представлены в выдаче как в текущий, так и в предыдущий день, вычисляется суммарное изменение номеров позиций (нормированное на количество элементов в выдаче). К полученному числу добавляется количество появившихся доменов, после чего всё делится на общее количество различных доменов в первой странице выдачи.

Кроме основного показателя, соответствующего изменению выдачи за день, анализатор так же вычисляет аналогичный коэффициент изменения выдачи за последний месяц, т.е. сравнивающий текущие результаты поиска по запросу с результатами 30 дней назад.

Кликнув по ссылке «ТИЦ», можно сравнить средние показатели ТИЦ (тематический индекс цитирования Яндекса) сайтов, которые различные поисковые машины находят по коммерческим запросам (прямой зависимости нет, но в среднем чем больше ссылок на сайт, тем выше ТИЦ). Аналогично, ссылка PageRank показывает средние показатели этой метрики Google'а для сайтов, найденных тем или иным поисковиком.


Анализатор качества снипетов

Качество снипетов является важной составляющей общего качества поиска: именно по снипетам пользователь определяет, есть ли смысл открывать ту или иную страницу выдачи поисковика, и ситуации, когда снипет плохо отражает содержание страницы, вызывают ощутимое раздражение. Напротив, хорошие снипеты помогают пользователю быстрее найти то, что нужно, т.е. решить задачу, поставленную поисковику.
Оценка снипета, под которым мы подразумеваем набор из заголовка и фрагмента текста страницы, осуществляется асессорами одновременно с оценкой страниц для асессорского анализатора. При этом стоит отметить, что оценки страницы (релевантность, качество) и снипетов к ней не связаны между собой, для иллюстрации этого рядом с оценкой снипета представлена общая оценка страницы из асессорского анализатора. Как и страницы, снипеты оцениваются по инструкции, кроме того, асессоры не знают, какой поисковик выдал тот или иной снипет, эти условия обеспечивают объективность оценок.

Помимо упомянутого соответствия снипета содержимому страницы, являющемуся основным критерием оценки, на оценку так же влияет качество текста снипета (фразы, оборванные на середине или просто отдельно стоящие слова снижают оценку) и его состав (наличие в снипете html-кода, малопонятных списков из меню страницы и т.п. не добавляют снипету наглядности). Снипет, состоящий только из заголовка, также оценивается невысоко.

В отличие от оценки страниц в асессорском анализаторе, оценки всех снипетов в выдаче учитываются с одинаковым весом, поскольку именно страница результатов в целом, т.е. набор всех снипетов на ней, в первую очередь представляют пользователю качество выдачи поисковика, и он с большой вероятностью просмотрит весь набор.

Каждый снипет получает оценку по пятибалльной шкале от 0,2 до 1, эти оценки усредняются по всей выдаче, после чего полученные оценки усредняются по всем запросам, полученное число и представлено в информере анализатора.

Анализаторы навигационного поиска

Анализаторы этой группы оценивают навигационные аспекты поиска — то есть наличие на первой странице поисковой выдачи искомого сайта или страницы.
Навигационными называются запросы, направленные в первую очередь на поиск конкретного сайта, файла или страницы. Таковы запросы, содержащие названия компаний и организаций (например, [северсталь] или [мэрия краснодара]), печатных изданий и сайтов (например, [известия] или [башорг]), указывающие на конкретную страницу или раздел сайта (например, [салон моне ленинский 70]). Навигационными часто оказываются и запросы, связанные с именами или псевдонимами людей, имеющих персональные сайты или ведущих блоги (например, [антон носик] или [адагамов]).

Разумеется, навигационные запросы могут иметь и другие смыслы. Задавая запрос [мвд] или [виталий петров], пользователь может искать и независимую информацию о структуре или человеке — и всё-таки их официальные сайты, безусловно, должны присутствовать в выдаче поисковой машины, занимая там высокие позиции. При этом анализаторы данной группы позволяют переключаться между более строгими критериями (требуется, чтобы искомая страница была первой в результатах поиска, или по крайней мере чем выше, тем лучше) и менее строгими (достаточно попадания в «десятку», а позиция внутри нее не важна).

Анализатор качества навигационного поиска

Навигационным называется запрос, с помощью которого пользователь ищет определенный сайт. Таковы, например, запросы "сбербанк", "комсомольская правда", "рамблер", "газета ру" и т.п.

Лучшим результатом в ответ на навигационный запрос является искомый сайт (маркер) на первой позиции поисковой выдачи.
Для оценки качества навигационного поиска производится опрос поисковиков по 100 запросам, случайно выбираемым из общего массива навигационных запросов (более 600). Каждому запросу приписан один или несколько сайтов-маркеров. (Несколько сайтов-маркеров возникает обычно в тех случаях, когда сайт доступен по нескольким веб-адресам: может, например, открываться несколько зеркал одного и того же сайта, либо один из сайтов может осуществлять редирект на другой.)

В Топ-10 поисковой выдачи ищутся вхождения сайтов-маркеров. Если для запроса задано несколько маркеров — учитывается вхождение любого из них. Далее рассчитывается доля запросов, для которых на первой странице результатов поиска найден сайт-маркер. Эта доля (в процентах) и служит сводным показателем качества навигационного поиска.

Вторая метрика данного анализатора, с учетом позиции, учитывает не только наличие сайтов-маркеров в выдаче, но и их позицию. Поисковик получает за запрос единицу, если маркер найден на первом месте; 0,9, если на втором; ...; 0,1, если на десятом; 0, если маркеры вообще не найдены. Если вхождений маркеров несколько, учитывается только первое из них. Эти числа для всех запросов складываются, а потом делятся на общее количество запросов, по которым есть ответ от данного поисковика. Оценка с учетом позиции отличается от оценки без учета позиции тем меньше, чем выше в среднем находятся в поисковой выдаче эталонные сайты.

Анализатор качества поиска периферийных сайтов

Анализатор периферийной навигации устроен так же, как и анализатор качества навигационного поиска. Он задает поисковым машинам запросы, цель которых – найти определенный сайт, и проверяет наличие этого сайта на первой странице выдачи.

Анализаторы различаются только набором запросов: если в «обычном» навигационном анализаторе запросы связаны в основном с достаточно крупными компаниями и организациями, то в анализаторе периферийной навигации – с совсем небольшими, обычно провинциальными и малоизвестными. На сайты таких организаций меньше ссылок, а значит, поисковикам сложнее их находить. Поэтому и результаты поисковых машин в этом анализаторе предсказуемо ниже.
Показатель «без учета позиции» – количество запросов, по которым поисковая машина выдала маркер в первой десятке результатов. При расчете «с учетом позиции» поисковик получает 1 балл за маркер, найденный на первой позиции, 0,9 балла за найденный на второй и т.д. За маркер, найденный на десятой позиции, поисковик получает 0,1 балла.

Анализатор внутрисайтовой навигации

По многим запросам понятно не только то, какой сайт нужен пользователю, но и то, какая страница или раздел внутри искомого сайта его интересует. К сожалению, довольно часто поисковик выдает по таким запросам не совсем то, что ищет пользователь - главную страницу сайта или другие внутренние.
В данном анализаторе подобраны запросы, по которым ищут внутренние страницы или разделы сайтов. Показатель каждого поисковика - это процент запросов, для которых искомая страница попала в топ 10. Позиция найденной страницы в результатах поиска не влияет на показатель. Также не имеет значения, сколько раз искомая страница попала в топ 10.

Анализатор качества регионального навигационного поиска

Данный анализатор оценивает качество поиска по «регионозависимым» навигационным запросам в различных регионах России. Навигационные запросы — такие, с помощью которых пользователь ищет конкретный сайт (см. анализатор навигационного поиска). Таковы, например, запросы [сбербанк], [федеральная налоговая служба], [авито], [газета ру].

Проблема в том, что искомый «конкретный сайт» для жителей разных регионов может быть разным — да и в пределах одного сайта желательно показывать ту страницу, которая релевантна именно для данного региона. И жители Москвы, и жители Казани, задавая запрос [афиша], ожидают увидеть в выдаче сайт afisha.ru — но вряд ли казанцы будут довольны, если поисковик приведет их на московские страницы этого сайта с описанием московских концертов, ресторанов и кинотеатров.
Для оценки качества регионального навигационного поиска из разных городов России поисковикам ежедневно задается по 100 навигационных запросов (наборы запросов для разных городов пересекаются, но не совпадают). Маркером «правильного» ответа для такого запроса служит адрес регионального сайта (или регионального раздела сайта) искомой организации. Учитываются как городские, так и региональные (республиканские, краевые, областные) страницы и сайты. Например, для Казани кроме городских (казанских) - республиканские Татарстана; для Санкт-Петербурга — относящиеся к Ленинградской области.

Мера качества регионального навигационного поиска — процент запросов, по которым регионально-релевантный ответ попадает в первую десятку результатов.

Анализатор качества поиска персон

Анализатор качества поиска персон входит в линейку анализаторов, проверяющих качество поиска по навигационным запросам.
Запросы, содержащие имя и фамилию, нередко задаются именно как навигационные — пользователя в первую очередь интересует конкретный сайт (официальный персональный сайт того лица, о котором он спрашивает).

Впрочем, даже если пользователь не знает, есть ли у интересующей его персоны персональный сайт, попадание такого сайта (если уж он существует) в «десятку» весьма желательно.

Подбирая запросы для анализатора качества поиска персон, мы постарались, чтобы в него вошли не только сайты «звезд» (актеров, певцов, лиц с телеэкрана), но и сайты людей, известных в какой-либо более узкой области — ученых, фотографов, психологов и т.п.

Анализатор поиска персональных блогов

Блоги есть у многих известных личностей; немало и тех, кто получил известность именно благодаря своему блогу. По количеству читателей блоги нередко обгоняют обычные средства массовой информации; они давно уже стали важной составляющей общественной жизни, значение которой выходит далеко за рамки Интернета.

Запрос, состоящий из имени и фамилии, часто имеет целью именно поиск блога (микроблога, аккаунта в социальной сети) соответствующего лица. И мы считаем, что популярные блоги по таким запросам обязательно должны находиться.
Данный анализатор дополняет анализатор поиска персон и оценивает, попадают ли «в десятку» блоги тех персон, чье имя упоминается в запросе. Подсчет данных ведется аналогично навигационному анализатору. Правда, в данном случае нет ожидания, что блог должен находиться всегда на первом месте, поскольку официальный сайт иногда можно признать более релевантным ответом на «персональный» запрос.

При подборе запросов для анализатора поиска блогов особое внимание уделяется тем людям, которые известны именно благодаря своему блогу.

Анализатор качества навигационного поиска в социальных сетях

С тех пор, как жители Интернета поселились в социальных сетях, туда же стал постепенно перебираться и бизнес (в широком смысле слова). Теперь у каждого уважающего себя салона красоты есть группа Вконтакте, а всякий производитель чехлов для лыж просто обязан открыть свое представительство на Фейсбуке. И всё чаще «социальный» сайт становится главным, а то и единственным.
Получается, что если поисковая машина не находит кружок добрых дел «Енотик» на Фейсбуке, то она не находит его вообще: больше просто негде. Именно так и подобраны запросы в анализаторе: исключительно организации, не имеющие собственного официального сайта. Таким образом, анализатор проверяет, сможет ли пользователь найти официальную информацию о некрупных компаниях. Но помимо этого, он, наряду с анализатором поиска блогов, косвенно оценивает качество поиска по социальным сетям вообще - а этот аспект поиска становится чем дальше, тем более важным.

Анализатор работает так же, как другие навигационные анализаторы: для каждого запроса проверяется, попадает ли искомая страница в «десятку», и если да, то на какую позицию.

Анализаторы информационного поиска

Информационные запросы — самая большая и расплывчатая группа запросов, связанная с поиском информации в широком смысле слова. Охватить ее целиком практически невозможно, но мы постарались проанализировать различные аспекты информационного поиска.
Среди них — цитатный поиск (Цитаты, Крылатые слова, отчасти Оригиналы), поиск ответов на вопросы. Очень важно, в какой мере поисковые машины умеют (и хотят) отличать первоисточник от перепечаток и подражаний — этот вопрос исследует анализатор оригиналов.

Мы планируем расширить спектр исследуемых аспектов информационного поиска. Впрочем, и сейчас он шире, чем может показаться, т. к. прямое отношение к информационному поиску имеет ряд анализаторов в других группах. Так, именно с «непониманием» информационных запросов обычно связаны ошибки поисковых машин. Запросы, которые легли в основу некоторых анализаторов актуальности, тоже информационные. И, разумеется, информационные запросы преобладают в асессорском анализаторе — поскольку они преобладают в поиске вообще.

Анализатор качества поиска цитат

Цитатный поиск — это поиск текста по заданному фрагменту.

Пользователь, задавший такой запрос, вероятнее всего, хочет найти происхождение цитаты — то есть либо увидеть произведение, из которого она взята (в таком случае на найденной странице будет представлен достаточно широкий оригинальный контекст цитаты, что и проверяется анализатором), либо хотя бы узнать автора и название этого произведения.
Анализатор задает поисковым машинам 100 запросов, представляющих собой достаточно длинные цитаты из произведений, опубликованных в Сети. Для каждой поисковой машины подсчитывается процент результатов поиска, в которых на найденной странице а) представлен более обширный фрагмент искомого произведения или б) упомянуты автор и название произведения.

Позиции найденных страниц в результатах поиска не учитываются. Неважно также (в отличие от анализатора оригиналов, где отслеживается приоритет источника), на каком из сайтов искомый текст был опубликован впервые.

Анализатор качества поиска крылатых слов

Данный анализатор собирает результаты поиска по запросам, содержащим крылатые слова — то есть устойчивые словосочетания, которые вошли в язык из литературных источников и получили широкое распространение.

Например, задавая запрос [контора пишет], пользователь, скорее всего, ищет либо толкование этого выражения, либо его происхождение (текст-источник и его автора). А результатом поиска по подобным запросам часто является множество случаев цитирования выражения, что вряд ли оправдывает ожидания пользователя.
Анализатор задает поисковым машинам по 100 запросов, содержащих крылатые выражения, происхождение которых известно. Для каждой из них вычисляется процент результатов поиска, содержащих а) фрагмент произведения, где выражение было употреблено впервые (иногда несколько вариантов такого фрагмента) или б) автора и название оригинального произведения. Позиции ответов в результатах поиска не учитываются.

Анализатор качества поиска ответов

Этот анализатор проверяет, насколько хорошо поисковые машины умеют находить ответы на вопросы как явные (содержащие вопросительное слово, например, [В каком году ЦСКА завоевал кубок УЕФА?], [Где добывают уран в России?]), так и подразумеваемые (имеющие вид утверждения со значением вопроса, например, [Автор книг Девятые врата], [Общая высота водопада Анхель]).
Когда пользователь вводит запрос, содержащий явный или неявный вопрос, он, скорее всего, просто ищет ответ. Чем быстрее он его увидит, тем лучше; в идеале ответ должен содержаться прямо на странице результатов поиска, в первом же снипете.

Однако, данный анализатор оценивает поисковые машины четырьмя способами, отличающимися по степени «строгости». В связи с этим у анализатора четыре вкладки:

1. Позиции ответов в снипетах
Поисковая машина получает за запрос единицу, если ответ содержится в снипете в первом по порядку результате поиска, 0,9 если во втором, 0,8 если в третьем, и так далее. Если ответ встретился в десятом снипете результата поиска, поисковая машина получает 0,1; если вообще не встретился в снипетах первой десятки результатов ноль.

2. Ответы в снипетах
Поисковая машина получает за запрос единицу, если ответ на вопрос содержится хотя бы в одном из снипетов первой страницы выдачи, и ноль в противном случае.

3. Позиции ответов на сайтах
Поисковая машина получает за запрос от 1 до 0,1, в зависимости от того, на какой по счёту странице из первой десятки результатов поиска найден ответ на вопрос.

4. Ответы на сайтах
Поисковая машина получает за запрос единицу, если ответ на запрос содержится хотя бы на одной из найденных веб-страниц, попавших в первую десятку результатов поиска.

Для вопроса могут считаться правильными несколько вариантов ответа. Например, [Самый длинный световой день в году] 21 июня / 21.06 / летнее солнцестояние.

Анализатор поиска оригиналов: новости

В интернете, к сожалению, широко распространено незаконное копирование информации. С воровством сталкивался любой автор: спустя дни, а то и часы после выкладывания на сайт свежей статьи ее текст может появиться на ресурсах, не имеющих разрешения на републикацию. Укравшие информацию обычно говорят, что она «взята из открытых источников». Либо объясняют: статья размещена кем-то из пользователей, за действия которого владелец сайта ответственности не несет. Используя чужой контент, можно получать посетителей из результатов поиска и конвертировать этот трафик в деньги. Что, собственно, и является главным экономическим мотивом «заимствования». Поэтому очень важны способность поисковых систем отличать оригинальные материалы от копий, и умение ссылки на оригиналы в результатах поиска размещать всегда выше.
Анализатор поиска оригиналов ежедневно проверяет по точной цитате позиции ста статей-маркеров, для которых известны адреса, где они находятся на законных основаниях. Подсчитывается количество запросов, для которых данный поисковик дает ссылку на оригинал документа выше, чем ссылки на его перепечатки.

По умолчанию, анализатор оценивает запросы-цитаты из искомых статей, заданные в кавычках. Хотя такие запросы редко задают пользователи, по ним с большой вероятностью будет находиться именно статья-маркер и ее копии. На дополнительной вкладке можно оценить поиск оригиналов по тем же запросам, заданным без кавычек.

В информере анализатора поисковые системы отсортированы по убыванию способности находить оригинальные источники.

Анализатор качества поиска адресов

Ситуация, когда необходимо найти точный адрес конкретного заведения или органиции — неподалёку, или просто в определённом месте, — нередкий повод для обращения к поисковикам. Данный анализатор проверяет, насколько успешным будет подобный поиск.
Запросы в анализаторе построены по принципу «название или тип организации + район поиска», причём они подобраны так, чтобы каждому запросу удовлетворял ровно один объект. Лучшим результатом в таком случае будет хелпер с полными контактами искомой организации — однако и просто наличие правильного адреса в верхнем снипете обеспечит максимальную оценку.

Конечно, пользователя, задавшего запрос, подобный запросам анализатора, может интересовать не только адрес, но и телефон или режим работы организации. Однако данный анализатор оценивает качество поиска адресов, поэтому страницы с другой полезной информацией о соответствующей организации, не будут засчитаны.

Результаты оцениваются так же, как в Навигационном анализаторе: чем ниже найден адрес, тем меньше баллов поисковая машина получит за этот запрос (от 1 балла за ответ в верхнем снипете до 0.1 в десятом). Дополнительно — по той же схеме — вычисляется показатель присутствия адресов внутри найденных поисковиками страниц.

Анализаторы транзакционного поиска


Анализатор поиска официальных версий: контент

Все, кто когда-либо пытался что-то скачать, просмотреть или прослушать в Интернете, сталкивался с тем, что за удовольствие получить бесплатно запрошенный контент нередко приходится платить просмотром навязчивой рекламы, минутами ожидания загрузки, ограничением ее скорости почти до нуля, а то и риском получить вирус с сомнительного сайта. К тому же всё это должно дополняться угрызениями совести — поскольку значительная часть контента размещается в Сети, мягко выражаясь, без оглядки на авторское право.
К счастью, в последнее время стала расти доля фильмов, музыки и другого подобного контента, которые можно скачать, посмотреть, послушать и т.п. совершенно официально — обычно на сайтах их авторов. Для них вопрос, откуда правильно их скачивать, решается однозначно. Тем важнее, чтобы поисковые машины умели находить эти правильные, официальные источники — а не «развлекательные порталы» и прочие сомнительные сайты.

Этот анализатор, бывший до середины марта 2013-го совмещенным с анализатором поиска официального ПО (примерно по 50 запросов от ПО и от контента), открыл нашу транзакционную группу — линейку анализаторов, изучающих возможность получить то, что искал пользователь, когда это не просто информация. В данном случае — доступ к конкретному файлу.

Алгоритм его работы совпадает с алгоритмами навигационных анализаторов: поисковик получает баллы за наличие искомого сайта (или страницы, при выборе этой, более строгой вкладки) в выдаче, вне зависимости от количества вхождений. В случае результатов с учётом позиции, баллы начисляются в соответствии с близостью к верхней строчке выдачи (1 балл за первую позицию, 0.9 за вторую и т.д.).

Анализатор официальных версий: программное обеспечение

Поиск нужной программы, доступной для скачивания в интернете — задача, решать которую приходилось подавляющему большинству пользователей. Однако сайты, содержащие ссылки на соответствующие файлы, зачастую переполнены раздражающей рекламой, кроме того они нередко существенно ограничивают скорость загрузки. Всё это может вызывать у пользователя негативную реакцию, не только на сам сайт, но и косвенно — на нашедший его поисковик.
Впрочем, чем дальше, тем больше программ становятся бесплатными и распространяются авторами на собственных сайтах. Такие сайты не всегда лишены рекламы, но в среднем выглядят всё равно лучше сайтов-агрегаторов. И естественным ответом поисковика на запрос о скачивании конкретного программного обеспечения, доступного бесплатно на официальном сайте, будет, безусловно, именно этот сайт.

В этом анализаторе, лишь запросами отличающемся от анализатора официального контента, все запросы соответствуют либо бесплатно распространяемому софту, либо бесплатным пробным версиям платных программ (в таких случаях это прямо указано в запросе).

Оценивается попадание в результаты поиска нужного сайта в целом (основная метрика, Поиск сайтов) или конкретных страниц, с которых возможно скачивание (Поиск страниц). Поисковая выдача получает балл за присутствие в ней нужного сайта (страницы) независимо от количества его вхождений. Дополнительно можно посмотреть результаты поиска с учетом позиции маркера в выдаче поисковика.

Анализаторы актуальности результатов поиска

Релевантность ответа часто зависит не только от содержания найденной информации, но и от ее свежести. Речь идет в первую очередь о поиске того, что быстро меняется: новости и расписания, контакты и прогнозы, должности и названия. Во всех перечисленных случаях устаревшие сведения могут оказаться не только бесполезными, но и вредными, вводящими пользователя в заблуждение.
Анализаторы этой группы контролируют наличие в результатах поиска актуальных и, наоборот, устаревших данных (разумеется, для них подобраны такие типы запросов, для которых такая проверка возможна — номера телефонов, должности руководителей). К сожалению, маркеры, помеченные как актуальные, также могут устаревать — поэтому нам приходится регулярно проводить плановые проверки. Если вы заметили, что тот или иной маркер уже не актуален, пожалуйста, сообщите нам об этом.

Особняком стоит анализатор скорости индексации — он показывает, насколько быстро в индекс поисковых машин попадают вновь появляющиеся в Сети страницы. (Очевидно, что быстрая индексация новых данных — основное условие поддержания актуальности результатов поиска.)

Анализатор актуальности: должности

Этот анализатор — первый из планируемой серии анализаторов, оценивающих актуальность поисковой выдачи.

Для многих запросов актуальность найденной информации — важный фактор качества. Например, задавая запрос президент Зимбабве, пользователь, скорее всего, хочет узнать, кто занимает этот пост сейчас, и сведения о бывших президентах Зимбабве вряд ли будут ему полезны (особенно если нет информации о том, что эти сведения — «исторические»).
В рамках данного анализатора каждому запросу сопоставлен один или несколько актуальных маркеров (вариантов ответа) и один или несколько неактуальных, устаревших. Если документ из поисковой выдачи содержит актуальный маркер, он засчитывается в плюс, если только неактуальные — в минус. Документы, не содержащие ни актуального, ни «просроченного» маркера, при подсчете не учитываются (это, конечно, обычно не вполне релевантные ответы на запрос — но мы ведь в данном случае оцениваем не релевантность, а актуальность).

В будущем будут разработаны анализаторы по другим типам запросов, для которых важна актуальность, — про только что произошедшие события (по свежим новостям), про цены на товары, про курсы акций и валют, про горящие туры и т. п.

Анализатор актуальности: телефоны

Второй в серии анализаторов актуальности оценивает качество поиска телефонных номеров.

Массовая замена телефонов в городах России привела к тому, что в выдаче поисковых машин увеличилось число устаревших номеров. Безусловно, актуальность контактов организации в результатах поиска важна как клиентам, так и сотрудникам компании. Своевременная реакция поисковиков на смену телефонов позволит фирмам не потерять новых клиентов, а клиентам — избежать раздражения по поводу долгого и безуспешного поиска правильных телефонов.
Запросами в данном анализаторе являются компании, в которых недавно изменились контактные телефоны. Если документ из поисковой выдачи содержит действующий телефон фирмы, он засчитывается в плюс, если только неактуальные — в минус. Документы, не содержащие ни актуального, ни устаревшего номера, при подсчете не учитываются. Следует заметить, что случаи, когда код города играет важную роль при наборе номера (например, 8 (499) xxx-xx-xx в Москве) также учитываются.

Как показатель качества данного анализатора используется доля сайтов с актуальными телефонами.

Анализатор скорости индексации

Насколько быстро новые страницы сайтов попадают в поисковую выдачу?

Мы отобрали около двух тысяч сайтов Рунета, которые сами сообщают поисковым системам о том, что они обновились через формальную «карту сайта», sitemap.xml. Все эти сайты хорошо известны поисковикам: мы убедились в том, что их случайные страницы во всех или в подавляющем большинстве поисковых систем попадают в «десятку» по запросам, совпадающим с их заголовками (тег <title>). А вот насколько быстро начинают находиться по соответствующим им запросам новые страницы?
Ежедневно мы выкачиваем с отобранных сайтов карту сайта, сравниваем ее с сохраненной версией и смотрим, какие новые страницы появились (с каждого сайта берется не более 3 страниц в день). То же самое, естественно, могут делать и поисковые системы — для этого файлы sitemap.xml и создаются.

Из адреса и заголовка найденной таким образом новой страницы сайта формируется маркер, который будет активен 30 дней. В каждый из этих дней мы проверим, находится ли страница в поисковых машинах, если взять в качестве запроса ее заголовок: а) при поиске в кавычках с ограничением по данному сайту (так можно оценить скорость индексации); б) при обычном поиске по Интернету (это позволяет оценить скорость попадания новых страниц в поисковую выдачу).

Основная оценка, которую выдает анализатор — средняя «видимость» активных маркеров за месяц, но интересны и данные за более узкие периоды: в самые первые дни после публикации страницы; в конце первой недели, когда страницы, которые уже находились, случается, пропадают из выдачи; на второй неделе существования страницы; через две недели после публикации.

Анализаторы полноты и разнообразия

Поскольку интернет-поиском пользуются для самых разных целей, одним из важнейших критериев его качества является возможность нахождения содержательного ответа на самые разнообразные запросы. Для этого поисковая машина должна обладать большим охватом и уметь широко трактовать запросы.
Анализаторы этой группы исследуют оба указанных аспекта работы поисковиков: оцениваются как количественные параметры выдачи, так и её разнообразие в случаях недостаточно узких запросов. Для того чтобы оценки анализаторов соответствовали действительности, полнота и широта нашей базы маркеров, которая здесь является в некотором смысле эталоном, регулярно контролируется.

Стоит отметить, что поскольку информация, которую нельзя найти в поисковиках, в некотором смысле является недоступной, в анализаторах этой группы относительные результаты поисковых машин представляют никак не меньший интерес, чем абсолютные значения.

Анализатор полноты индексов

Для качества поиска довольно важно, насколько полно индексируется Интернет поисковой машиной. Если поисковая база поисковика маленькая, то часть веб-страниц могут оказаться вообще недоступными через данный поисковик.
Конечно, по большинству частотных и среднечастотных запросов любая поисковая машина гарантированно выдаст вам десятки или сотни тысяч результатов. При этом, однако, реальный размер базы у разных поисковиков может отличаться в несколько раз.

Как понять истинный размер базы? Это непросто и вот почему:
а) Нельзя доверять декларации поисковиков "всего найдено N документов", поскольку у каждого поисковика количество найденного подсчитывается по-своему. Кто-то считает только документы, где есть все заданные в запросе слова, а кто-то дописывает в "хвост" вообще все документы. где встретилось хотя бы одно слово из запроса. Поисковики любят мериться мускулами и не чужды маркетинговых трюков.

б) Более того, в действительности ни один поисковик никогда не покажет вам все заявленные 10 000 результатов. Листая результаты поиска, Вы сможете увидеть десятки, в лучшем случае сотни страниц результатов поиска, после чего вас так или иначе отключат.
Таким образом, можно быть уверенным, что мы знаем истинное количество страниц в Интернете с данным словом, только когда результатов – максимум сотня-другая.

в) доверять декларации поисковика о том, что им заиндексировано M миллиардов документов – тоже нельзя, потому что, опять-таки способ подсчёта неизвестен (считаются ли дубли, например, и какие именно), а также потому, что может оказаться, что половина Рунета всё-таки оказалась вне этих условных M миллиардов страниц и не попала в индекс вообще.

Поэтому мы выбрали наиболее простой и надёжный способ анализа полноты поисковой базы по редким запросам.
Редкими здесь мы называем запросы, которые встречаются в Интернете всего несколько десятков раз. Впрочем, обычно такие запросы – редкие и в смысле частоты поиска их в поисковиках, поскольку если запрос – частотный, то под него моментально подстраиваются спамеры, производя множество фальшивых страниц с этим словом или словосочетанием.

Итак, мы построили набор редких запросов, по каждому из которых поисковики выдают не более нескольких десятков результатов. И проверяем "окраины Интернета" на предмет того, видит ли их каждая из поисковых машин. Анализатор раз в сутки проверяет все поисковики на предмет того, сколько страниц найдёно каждым поисковиком по каждому запросу.
После чего вычисляется показатель полноты базы по следующей формуле: Проводится поиск по запросу во всех сравниваемых поисковых машинах. Для машины, в которой найдено максимальное число страниц, полнота считается равной 1, для остальных – определяется пропорционально. Затем полнота усредняется по множеству специфических запросов. Это и есть значение анализатора полноты.

Мы постоянно пополняем список запросов-маркеров, стараясь охватить все "окраины Интернета". Если вам кажется, что есть ещё какие-то редкие слова и словосочетания, которые стоит включить в базу маркеров – присылайте их нам.

Анализатор качества тематического поиска

Сколько на свете аквапарков и духовных семинарий? Не очень много, и при этом большинство из них имеют свои сайты. Поэтому хороший ответ на запрос [аквапарки Казани] или [духовные семинарии СПб] может и должен содержать полный список сайтов соответствующих организаций.
Запросы в этом анализаторе отобраны таким образом, чтобы для каждого из них имелось ограниченное количество (не более десяти) прямо соответствующих им сайтов.

Сайты-маркеры подбираются вручную на основе выдачи всех поисковых машин, а также при помощи веб-каталогов, «желтых страниц» и т. п. Для каждой из поисковых машин анализатор проверяет, какой процент маркеров был найден.

Позиции сайтов в результатах поиска не учитываются.

Анализатор поиска омонимов

«Белки» — это биополимерные молекулы или пушистые зверьки? «КГУ» — Казанский, Курский, Костромской или какой-то еще из десятка университетов?
Поисковые машины могут оценить, какое из значений омонимичного запроса наиболее вероятно. Но если пользователь мог иметь в виду и то, и другое, и третье, то лучше включить в результаты поиска сайты, соответствующие каждому из возможных «толкований» запроса. Это, по крайней мере, покажет пользователям, что запрос многозначен, и поможет им его уточнить.

Анализатор поиска по омонимичным запросам оценивает, какой процент возможных альтернативных интерпретаций омонимичных запросов попадает в результаты поиска каждой из поисковых машин.

Мы не включили в число вариантов толкования запроса всевозможные фирмы, пансионаты, кинотеатры, гаражно-строительные кооперативы и т. п. — кроме самых известных, тех, которые пользователь действительно мог попытаться найти, задав короткий омонимичный запрос.

Анализаторы поиска из регионов

Результаты поиска в сети зависят от многих факторов, среди которых, в частности, место, откуда этот поиск осуществляется. Это не всегда играет большую роль, но значительная доля запросов подразумевает выдачу, скорректированную под конкретный регион.
В анализаторах этой группы исследуется качество поиска из отдельных городов России. На сегодня это десять городов, разбросанных от Краснодара до Владивостока. Запросы анализаторов поступают с серверов, находящихся в этих городах, после чего результаты проверяются на соответствие региону поиска.

Запросы для анализаторов тоже подобраны специальным образом. Например, пользователь, который ищет полярную звезду, может иметь в виду ресторан с таким названием через три квартала, но скорее ищет не зависящую от региона информацию о звезде. Напротив, запрос вроде «расписание электричек» подразумевает в первую очередь местный ответ. Для объективной оценки качества поиска из регионов, мы используем запросы, для которых региональная составляющая заведомо существенна.

Анализатор регионального поиска

Когда пользователь Интернета в Уфе или в Новосибирске задает запрос «доставка пиццы», он, скорее всего, хочет, чтобы ему привезли пиццу. Теория вопроса (в каких городах России пицца доступнее) его вряд ли интересует, а сайты московских фирм ему и вовсе не нужны, поскольку из Москвы в Новосибирск пиццу не доставляют.
В этом анализаторе запросы поисковым машинам задаются из разных городов России. В результатах поиска для каждого города отбираются те ответы, из которых понятно, что они релевантны именно здесь: город (или характерный район, улица, номер телефона и т.п.) упомянут в заголовке, в адресе сайта или в снипете. (Результаты, по которым сразу не видно, что они «местные», региональный пользователь просто не станет открывать.)

Мерой дружественности поисковых машин региональному пользователю мы считаем процент <местных> ответов в среднем по всем городам, из которых задаются запросы, кроме Москвы.

Мы специально включили в этот анализатор не только «строго региональные» запросы («заказать очки», «китайская кухня доставка на дом»), но и «информационно-региональные» — такие, которые предполагают и информационную составляющую («цены на лекарства», «анализы при беременности»).

Анализатор качества регионального навигационного поиска

Данный анализатор оценивает качество поиска по «регионозависимым» навигационным запросам в различных регионах России. Навигационные запросы — такие, с помощью которых пользователь ищет конкретный сайт (см. анализатор навигационного поиска). Таковы, например, запросы [сбербанк], [федеральная налоговая служба], [авито], [газета ру].

Проблема в том, что искомый «конкретный сайт» для жителей разных регионов может быть разным — да и в пределах одного сайта желательно показывать ту страницу, которая релевантна именно для данного региона. И жители Москвы, и жители Казани, задавая запрос [афиша], ожидают увидеть в выдаче сайт afisha.ru — но вряд ли казанцы будут довольны, если поисковик приведет их на московские страницы этого сайта с описанием московских концертов, ресторанов и кинотеатров.
Для оценки качества регионального навигационного поиска из разных городов России поисковикам ежедневно задается по 100 навигационных запросов (наборы запросов для разных городов пересекаются, но не совпадают). Маркером «правильного» ответа для такого запроса служит адрес регионального сайта (или регионального раздела сайта) искомой организации. Учитываются как городские, так и региональные (республиканские, краевые, областные) страницы и сайты. Например, для Казани кроме городских (казанских) - республиканские Татарстана; для Санкт-Петербурга — относящиеся к Ленинградской области.

Мера качества регионального навигационного поиска — процент запросов, по которым регионально-релевантный ответ попадает в первую десятку результатов.

Анализатор скорости регионального поиска

Поиск — сервис, которым пользуются миллионы людей. И у каждого из них от запроса до получения страницы с результатами поиска должен проходить минимум времени — одна-две секунды, а лучше — доли секунды. Чуть медленнее — и капризный пользователь обидится, а если ситуация будет повторяться, предпочтет другой поисковик, благо есть из чего выбирать.
Этот анализатор показывает, насколько быстро результаты поиска «прилетают» к пользователям в разных городах. Сбор информации совмещен с работой анализатора регионального поиска; данные о скорости загрузки страниц результатов поиска собираются по тем же самым запросам.

Разумеется, скорость поиска зависит и от «погоды» в Сети: на результаты по любому поисковику в любом городе в любой конкретный день может влиять загруженность канала, качество работы провайдера и многие другие факторы. Однако если медленные ответы у какого-то из поисковиков случаются чаще, чем у других, и повторяются изо дня в день — это уже повод задуматься.

Основная метрика анализатора — среднее время, затрачиваемое поисковиками на выдачу результатов пользователям. Дополнительные метрики (медиана, третья квантиль) помогают лучше представить, как распределено время загрузки поисковой выдачи. Медиана времени загрузки — это время, за которое успевает загрузиться половина результатов поиска; соответственно, оставшаяся половина результатов загружается дольше. Третья квартиль — это время, за которое успевает загрузиться 3/4 результатов поиска.

Наиболее полную картину скорости загрузки результатов поиска можно получить, открыв данные за любой конкретный день для конкретного города, ср. например, Нижний Новгород, 8.07.2013. Распределение времени ответа для каждого из поисковиков представлено на наглядном графике, причем графики для разных поисковых машин легко сравнить между собой.

Собираются также данные о размере страниц результатов поиска, их можно увидеть, кликнув по ссылке «Размер, Кб». (Как и современные браузеры, мы получаем страницы результатов поиска в сжатом виде; указывается именно объем загрузки, а не объем «разжатого» HTML-кода.)

Анализаторы понимания запроса

О понимании запроса поисковиком можно говорить, конечно, только условно. И тем не менее, пользователи уже привыкли, что поисковые машины подходят к их запросам «творчески» — подсказывают варианты запроса, не дожидаясь окончания ввода; когда надо, исправляют опечатки; уточняют и расширяют запросы; пытаются угадать цели пользователя и отранжировать в соответствии с ними результаты поиска, и т. п.
Имеющиеся на данный момент анализаторы этой группы оценивают достаточно простые умения поисковиков — исправлять опечатки, давать подсказки, расширять запрос синонимами.

О более тонких поисковых технологиях, связанных с интерпретацией запроса, нечетким поиском и т. п., анализаторы пока позволяют судить лишь косвенно — по ошибкам, которые возникают, когда понимание запроса оказывается обманчивым (таких анализаторов уже несколько, и они выделены в отдельную группу). Впрочем, как раз ошибки нагляднее всего показывают, как поисковики научились работать с запросами. Мы просто не замечаем «уловок» поисковиков, когда они срабатывают корректно — а ошибки обнажают прием и делают его заметным.

Анализатор качества подсказок

Большинство поисковых машин, заподозрив при вводе поискового запроса опечатку, пытаются предложить пользователю правильное (по мнению поисковика) написание запроса. Качество подсказок является важным дополнением к общему качеству поиска.
В данном анализаторе ищется правильная подсказка в поисковой выдаче по запросу с заведомой опечаткой и оценивается количество случаев, когда подсказка содержит "правильную" форму запроса.
Оценка производится по тем же группам запросов с опечатками что и в анализаторе устойчивости к опечаткам. Чем больше правильных подсказок было дано, тем выше показатель данного поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.

Анализатор устойчивости к опечаткам

Человек – не робот и может ошибиться. В том числе и при вводе поискового запроса в поисковую строку поисковой машины. Он может просто допустить опечатку, введя соседний символ (и тогда вместо "запрос" получится "звпрос"), он может по ошибке ввести символ дважды или пропустить вовсе (и тогда вместо "запрос" получится "зпрос" или "заппрос"), наконец, он может не знать правильного написания слова и ввести его "как слышится" (и тогда вместо "яндекс" получится "яндыкс").
Поисковик в этом случае может придерживаться одной из трех стратегий:
1) никак не обрабатывать эти случаи и искать строго то что ввел пользователь
2) понять что имела место опечатка, тем не менее найти то что введено и рядом предложить правильную по мнению поисковой машины форму – "возможно, вы имели ввиду [правильное написание запроса]"
3) понять что имела место опечатка, не искать ошибочное написание а сразу искать правильную форму

В зависимости от выбранной стратегии, пользователь либо не увидит что он ошибся при написании, либо увидит это и сделает лишний клик (если захочет), либо даже не догадается о собственной опечатке.

В данном анализаторе сравнивается поисковая выдача по "правильному запросу" и по нескольким формам возможных его опечаток. Оценивается степень близости поисковой выдачи по запросу с опечаткой к выдаче по "правильному" запросу

Кроме сознательного исправления опечаток, совпадения могут возникать в четырех случаях:
1) случайно
3) страница содержит как правильную форму, так и форму с опечаткой
4) ложное срабатывание морфологии поисковика (например, приведение неизвестного поисковику слова "гриби", которое есть опечатка слова "грибы" к слову "гриб")
5) продвижение одних и тех же сайтов как по запросам в правильном ниписании, так и по запросам с опечатками

Все эти случаи в рамках данного анализатора дают шум – случайное совпадение результатов.
Степень близости оценивается аналогично тому как это делается в анализаторе апдейтов, только сравниваются другие запросы.

Чем большее совпадение результатов зафиксировано, тем выше результат поисковика по данному анализатору. Именно в этом порядке сверху вниз отсортированы поисковики в информере данного анализатора.

В дальнейшем будет введена ротация групп запросов с опечатками из большого массива групп.

Анализатор запросов-синонимов

Один и тот же вопрос можно задать десятком способов. Например, для пользователей запросы "как узнать адрес по номеру телефона", "поиск адреса по номеру телефона" и "найти адрес по номеру телефона" имеют одинаковый смысл, это запросы-синонимы.
Запросы-синонимы появляются по разным причинам:
- при использовании общепринятых сокращений – "погода в Санкт-Петербурге" и "погода в Спб";
- использовании транслитераций – "характеристики toyota camry" и "характеристики тойота камри";
- использовании разных падежей – "сценарий встречи Нового Года" и "сценарий встреча Новый Год";
- использовании перестановок слов – "ремонт АКПП", "АКПП ремонт";
- использовании жаргонизмов – "скачать мультфильмы", "скачать мультики";
- использовании слов, не несущих смысловой нагрузки – "быстрый интернет", "супер быстрый интернет";
- использовании синонимов слов, входящих в запрос – "грустные стихи", "печальные стихи".

Поисковые системы в ответ на запрос должны подобрать наилучший набор ссылок. И, конечно, чаще всего в результатах поиска люди ожидают увидеть информацию, соответствующую смыслу, а не букве запроса. Из этого следует, что выдача в ответ на синонимичные запросы должна быть одинаковой, несмотря на то, что формулировки отличаются друг от друга.

Анализатор поиска по запросам-синонимам проверяет, насколько совпадает выдача по разным запросам, имеющим одинаковое значение. Образно можно сказать, что анализатор в какой-то мере показывает способность поисковика "понимать" смысл запроса. В информере поисковые системы отсортированы по убыванию этого показателя.

Все примеры, используемые в данном анализаторе, реальные, они получены с помощью сервиса статистики поисковых запросов "Рамблера" (http://adstat.rambler.ru/wrds/)
Отметим, что мы не рассматриваем здесь варианты запросов с ошибками и опечатками.

Анализатор поиска моделей

Поиск информации о конкретной модели - нередкий повод для обращения к поисковикам. И хотя такие запросы являются частным случаем запросов с числами, для них создан отдельный анализатор. Поскольку название модели — в некотором смысле устойчивое словосочетание, находить то, что нужно, проще. Но и ошибки таким образом становятся гораздо неприятнее.
Совершенно ясно, что пользователю, который ищет [iphone 5] равным образом не интересен ни iPhone-4, ни произвольный "iphone за 5 тысяч". В то же время поисковики зачастую выдают что-то подобное в качестве результатов.

Конечно, запросы в анализаторе соответствуют существенно более редким моделям, но и в этом случае пользователь должен иметь возможность найти то, что ищет, а не модели с похожими названиями.

Анализатор подсчитывает количество документов в поисковой выдачи, содержащих нужную модель, возвращая их долю в общем количестве документов по каждому запросу. Среднее этих чисел и есть результат поисковика в анализаторе.

Анализатор поиска по запросам с числами

Довольно часто в состав поискового запроса входят числа: номер модели, телефон, даты, числовые характеристики и т.п. При обработке таких запросов поисковики нередко "путают", к чему относятся числа, в результате чего могут получиться довольно нелепые результаты. Качество выдачи по данным запросам и отслеживает анализатор.
Например, задавая запрос "йод-137", пользователь, конечно, интересуется соответствующим изотопом йода, а не смесью йода с изотопом цезия Cs-137. Но поисковым машинам не всегда удаётся правильно оценить, к чему именно относятся нужные числа на странице.

Анализатор задаёт поисковикам набор запросов, каждый из которых содержит какое-либо число (или несколько). После этого для каждого из документов на странице поисковой выдачи выполняется автоматическая проверка контекста, в котором встретились нужные числа. Отсутствие числа на странцие считается неудовлетворительным результатом.

Количество "хороших" результатов показывается в качестве значения поисковика по данному запросу. А доля "хороших" результатов усредняется по всем запросам — так получается итоговое значение анализатора.

Анализаторы ошибок

Ошибки поисковых машин — оборотная сторона их умения интерпретировать и уточнять запрос (ср. группу Понимание запроса). Запросы анализаторов этой группы подобраны так, чтобы ошибки поисковиков были наиболее наглядны. Может показаться, что эти запросы — экзотические. Однако каждый, кто активно ищет в Интернете, знает, что подобные казусы на самом деле случаются регулярно.
«Глупости», допускаемые любимым поисковиком, могут вызывать самые разнообразные эмоции — от смеха до ярости, — но точно не способствуют лояльности пользователя. Удачи обычно воспринимаются как должное, зато промахи — всегда на виду. Раздражение, которое они неизбежно вызывают, — фактор риска, который разработчикам поисковых машин не следует преуменьшать.

Анализатор замен редких слов

Анализатор замен редких слов представляет собой первый из новой серии анализаторов, задача которых - зафиксировать ошибочное поведение поисковых машин. В качестве запросов в данном анализаторе представлены редкие, но существующие и достаточно широко представленные в Интернете слова. Поисковые машины зачастую отказываются их находить, заменяя их в своей выдаче на другие, нередко заметно от них отличающиеся (но, видимо, чаще попадающие в запросы).

В результате пользователь не только не получает ответа на свой запрос, но и испытывает моральный ущерб. Например, некоторые поисковые машины в таких случаях не просто выдают совершенно нерелевантные результаты, но еще и обвиняют пользователя в неграмотности: «в запросе ... была исправлена опечатка».
Анализатор вычисляет процент ошибок - результатов поиска, не содержащих искомого слова ни в одной из форм (в некоторых случаях в качестве правильных ответов учитываются также транслитерации).

Проверка ведется по снипетам (включая заголовок и URL), поэтому в число ошибок могут попасть результаты, в которых искомое слово присутствует на найденной странице, но не попало в снипет. (Такие результаты также для пользователя неудовлетворительны, хотя и по другим причинам.)

Также вычисляются два дополнительных показателя. Во-первых, процент случаев, где поисковая машина объявляет, что запрос был автоматически заменен на другой (в нём была исправлена опечатка, результаты поиска включают результаты по измененному запросу, и т.п.). Все маркеры - существующие слова, в большинстве случаев не являющиеся естественными опечаточными вариантами других запросов, поэтому подмена запроса - обычно грубая ошибка поисковика.

Во-вторых, процент замен запроса вместе с подсказками (например, «возможно, вы искали ...»). Подсказки - менее грубое вмешательство в дела пользователя, чем замены. Однако когда пользователя, задавшего, например, запрос генотоксикология, поисковик подозревает в том, что он ошибся, а на самом деле имел в виду гомотоксикологию или нанотоксикологию, это тоже не может не вызвать у него раздражения.

Разумеется, мы не считаем, что замены запроса и подсказки - это всегда плохо; во многих случаях они полезны, см. анализатор опечаток, где представлены случаи, когда замены вполне уместны. Но, используя столь сильные средства, разработчики поисковых машин должны быть предельно осторожны: применение их не по адресу может вызвать у пользователей отторжение и больно ударить по их лояльности и по престижу поисковика.

Анализатор замен редких фраз

Анализатор фразовых замен продолжает серию анализаторов, фиксирующих ошибочное поведение поисковых машин. Вслед за анализатором замен редких слов, этот анализатор содержит запросы, которые поисковики нередко заменяют (или предлагают пользователю заменить) на что-то заметно отличающееся от исходного запроса. При этом наличие целой фразы (словосочетания), а не одного слова, обеспечивает контекст, что чаще всего делает замену (и даже подсказку) лишённой всякого смысла.

Исправление связного и не бессодержательного запроса не только мешает пользователю найти то, что он ищет, но и, скорее всего, оставляет у него неприятное ощущение. Поэтому сравнение качества поиска по такому параметру представляет дополнительный интерес.
Анализатор вычисляет процент «плохих» снипетов, то есть не содержащих слов запроса. Чаще всего это означает, что одно или несколько слов были заменены (если слова запроса просто не попали в снипет, это, пусть и по другим причинам, но тоже неудовлетворительный результат).

Во многих случаях проверка ведётся только по части запроса: речь идёт о таких запросах, где часть слов служит для уточнения основного и не заменяется поисковиками. Например, для запроса княжество Тубот проверяется наличие в снипетах только слова «Тубот», тогда как присутствие там слова «княжество» не является необходимым. Для части запросов транслитерации или синонимы также учитываются в качестве правильных ответов.

Дополнительно к основному показателю вычисляются количество случаев, когда запрос был заменён (по сообщению самой поисковой машины) и количество замен запроса вместе с подсказками (например, «возможно, вы искали…»).

Анализатор поиска имён

Нахождение информации о конкретном человеке по его имени – частая цель обращения к поисковикам. Однако результат поиска может разочаровать пользователя: нередко вместо нужного человека находятся более известные однофамильцы.
Одной из самых распространённых ошибок является «смешивание» частей имени (например, нахождение по запросу «Иван Петров» страницы, содержащей Ивана Иванова и Петра Петрова), и запросы в анализаторе подобраны таким образом, чтобы вероятность появления результатов этого вида была достаточно высокой. Для этого были использованы однофамильцы известных людей и люди с «нестандартными» фамилиями, которые традиционно представляют особую сложность для поисковых машин. Тем не менее, все запросы анализатора соответствуют реально существующим людям.

Анализатор автоматически разбирает имена, найденные в снипетах и заголовках первой страницы выдачи поисковиков, засчитывая нахождение нужной персоны в «плюс», а ненужной (тёзки, однофамильцы) - в минус. После этого результаты автоматической разметки контролируются вручную. Такая проверка нужна, чтобы засчитать отдельные сложные конструкции (например, «сын Василия Иванова Петр» как хороший результат для «Петр Иванов») и отменить засчитывания случайных склеек (например, «На дне рождения Ивана Петрова целовалась с Сидоровым» для «Иван Петров»). Кроме того, при ручном просмотре оцениваются отдельные фамилии или фамилии с подходящими инициалами, если по контексту можно понять, что речь идёт о нужном (или, наоборот, ненужном) человеке - в противном случае, этот результат не учитывается.

Результат работы анализатора – усредненное по всем запросам отношение количества страниц, засчитанных в «плюс» к общему количеству засчитанных страниц.

Анализатор неразрывных сочетаний

Одним из популярных видов поисковых запросов являются словосочетания. Обращаясь с таким запросом к поисковой машине, пользователь часто получает результаты, содержащие введённые им слова, но по отдельности. В некоторых случаях такое разделение оправдано, однако нередко смысл запроса при этом полностью теряется.
Анализатор неразрывности продолжает серию «анализаторов глупостей», проверяя насколько качественно поисковикам удаётся сохранить смысл запросов, состоящих из словосочетаний. Все запросы представляют собой определённые понятия или, по крайней мере, соответствуют достаточно конкретным объектам, поэтому разделение слов запроса в большинстве случаев означает потерю смысла.

Для каждого из результатов поиска анализатор проверяет наличие в снипете искомого словосочетания. Впрочем, чтобы избежать неверных срабатываний, анализатор, с помощью тщательно подобранных маркеров, засчитывает как неудовлетворительные именно смысловые разделения слов запроса. Так, по запросу «чёрная вольта», результат, содержащий фразу «чёрная и белая вольта» будет засчитан «в плюс», а результат с фразой «черная магия: приворот на вольт» - «в минус». Стоит отметить, что результаты, содержащие в снипете случайно склеившиеся слова, если между ними нет знаков препинания, будут засчитаны как правильные, независимо от смысла.

В результатах по каждому запросу вычисляется доля результатов, сохранивших смысл исходного запроса, после чего средний результат по всем запросам выдаётся как значение поисковика в анализаторе.

Анализатор различения форм слов

Поисковики должны уметь находить слова во всех формах. Но иногда формы двух слов очень похожи или просто совпадают — и в таких случаях важно ограничить расширение запроса, не найти лишнего. Человека, задающего запрос про двигатели на паромах, вряд ли заинтересует мойка двигателя паром, а спрашивающего про компанию Роскофе — отели в городе Роскоф.
Название «Грамматика» — достаточно условное: речь идет о способности поисковых машин различать похожие грамматические формы разных слов.

В этом анализаторе специально подобраны трудные запросы (некоторые из них — достаточно редкие), для которых существует заметная вероятность неверной интерпретации. Каждому запросу соответствует набор маркеров, иногда довольно обширный, присутствие которых в снипете определяет, как именно, «в плюс» или «в минус» засчитывается поисковику соответствующий результат. Иногда это отдельные словоформы — например, слово «ливень» будет однозначным минусом для запроса про Авраама Ливни, а слово «куру» — плюсом для запроса про болезнь куру. Некоторые маркеры, однако, устроены сложнее и используют не только форму слова, но и контекст, так ответ «к походу готов» очевидно, не будет засчитан для запроса [походы готов].

Результатом поисковика в анализаторе является общее количество найденных им правильных форм — то есть, несмотря на принадлежность к группе «Ошибок», анализатор определяет процент результатов, в которых ошибок нет.

Анализаторы раздражающих факторов

Как бы хорошо ни работал поисковик, есть детали, которые могут сильно испортить пользователю впечатление от качественных результатов и заметно повлиять на его лояльность сервису. К таким, безусловно, относятся опасности заражения вирусами, раздражающие рекламные баннеры и т.п.
Конечно, количество рекламы или опасных скриптов на сайтах не зависит от поисковиков. Однако концентрация нежелательного содержимого в поисковой выдаче – полностью в их компетенции. Соответственно, в их интересах ранжировать сайты с большим количеством раздражающих факторов заметно ниже качественных и безопасных.

В большинстве анализаторов этой группы применяются специальные технологии, разработанные в компании Ашманов и партнеры для обнаружения рекламы, порнографии, вирусов и т.п. А для большей наглядности результатов маркеры подобраны так, чтобы вероятность появления в выдаче нежелательных элементов была выше обычного.


Анализатор спама в поисковой выдаче

Компания "Ашманов и партнеры" профессионально занимается изучением феномена поискового спама – приемов и технологий, ухудшающих качество поисковой выдачи и мешающих нормальной работе поисковых систем.

Поисковым спамом могут быть названы текст, ссылка, технология, программный код и иные элементы веба, созданные не для повышения удобства пользователей, целью которых является быстрый и легкий поиск полной, профессионально оформленной, достоверной информации, определяемой поисковым запросом. Но для которых точно известно, что причиной их создания является желание веб-мастера улучшить позиции продвигаемого сайта в результатах поиска.
Эксперты регулярно просматривают Тор10 выдачи по выборке поисковых запросов, отмечая сайты, которые, с их точки зрения, содержат элементы поискового спама. Сводные данные выводятся на информер и показывают процент отмеченных экспертами сайтов от общего количества сайтов в Тор10 выдачи по анализируемым запросам.

Источник информации о спам-статусе данного URL – собственные данные антиспам-лаборатории компании "Ашманов и Партнеры". Используются следующие категории поискового спама:
* doorway – безусловный спам: дорвеи, увод пользователя к другим страницам,
* spamcatalog – безусловный спам: спамерские каталоги,
* spamcontent – безусловный спам: спамерский заимствованный контент,
* pseudosite – безусловный спам: сайт, маскирующийся под корпоративный (псевдофирма),
* catalog – каталоги,
* board – доски объявлений,
* domainsale – домены на продажу,
* secondary – вторичный, заимствованный контент,
* partner – любые партнерки,
* linksite – сайт линкоподдержки,
* spamforum – заспамленный форум,
* techspam – технический спам,
* searchres – результаты поиска
* cj – порно-галереи, перебрасывающие на другие подобные сайты

Сводным показателем является доля спам-сайтов в поисковой выдаче. Лучшим является поисковик с наименьшим сводным показателем. Именно в таком порядке поисковики отсортированы в информере данного анализатора.

Анализатор наличия 'сайтов для взрослых' в поисковой выдаче

Данный анализатор собирает результаты поиска по запросам, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары, – в том числе и детьми.

Например, пользователь, задавший запрос [колготки], может искать как магазины чулочно-носочных изделий, так и порнографию соответствующего жанра.
Выдавая по подобным запросам порноссылки, поисковики рискуют показать их пользователям, которые ничего «такого» в виду не имели, в том числе и несовершеннолетним.

Мы не утверждаем, что поисковик, находящий порно по порнозапросам, плохой или аморальный, но считаем, что выдача «откровенных» материалов по «обычным» запросам нежелательна.

Для детектирования эротики и порнографии в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Для каждого поисковика вычисляется доля в первой десятке результатов поиска страниц, отнесенных к рубрике «Эротика и секс».

Анализатор качества семейного фильтра

Семейный фильтр — это настройки поисковой системы, препятствующие попаданию в результаты поиска сайтов «для взрослых». Такую возможность предлагает большинство поисковиков. Но насколько эффективна фильтрация?

В данном анализаторе мы рассматриваем запросы, которые могут использоваться для поиска эротического или даже порнографического контента, но могут быть заданы и пользователями, которые ищут «обычную» информацию или товары — в том числе и детьми. Что будет, если задать поисковикам такие «двусмысленные» запросы при включенном семейном фильтре? Будут ли в этом случае отфильтрованы порносайты и эротика?
В этом анализаторе запросы те же, что и в анализаторе «сайтов для взрослых», но при этом в поисковых системах (везде, где предусмотрена такая возможность) включен семейный фильтр. В идеале результаты поиска вообще не должны содержать сайтов «для взрослых». Если такие сайты в выдачу всё-таки попадают, это (тут можно сказать однозначно!) очень плохо: поисковик не выполняет данного пользователю обещания защитить его от порноконтента.

Кроме того, найденные страницы не должны содержать нецензурной брани — таково требование закона. Результаты, содержащие матерную лексику, помечаются розовым цветом и также учитываются как нежелательные.

Для детектирования эротики и порнографии, а также нецензурной брани в поисковой выдаче используется разработанная компанией «Ашманов и партнеры» технология «Семантическое зеркало». Как и в анализаторе «сайтов для взрослых», для каждого поисковика вычисляется доля страниц, на которых был обнаружен порнографический контент, в первой десятке результатов поиска.

Анализатор рекламной нагрузки

Сайты с одинаковым или похожим содержанием могут сильно различаться по количеству рекламы. В таком случае для пользователя предпочтительнее тот поисковик, который поднимает в поисковой выдаче сайты с меньшим количеством рекламы и избегает рекомендовать пользователям сайты с наиболее навязчивой рекламой.
В основе анализатора лежит специально разработанная нами технология распознавания рекламы, основанная на оценке скриптов, iframe'ов и других элементов кода страницы, которые могут вызывать рекламу. Для каждой страницы из результатов поиска вычисляется ее рекламная нагрузка, учитывающая «веса» всех найденных на странице рекламных элементов. Показатель каждого поисковика в данном анализаторе — это средняя рекламная нагрузка всех найденных страниц с учетом позиционных коэффициентов.

Рекламная нагрузка каждой страницы складывается из «весов» всех рекламных элементов на этой странице. Блоки контекстной рекламы и небольшие немигающие баннеры получают вес 1. Тизеры и крупные, мигающие баннеры получают вес 3. Некоторые рекламные элементы заставляют пользователя обязательно кликнуть по ним — хотя бы для того, чтобы их закрыть. Сюда относятся так называемые кликандеры (дополнительные окна, которые открываются при клике в любом месте на странице) и баннеры, закрывающие контент основной страницы и прокручивающиеся вместе с ней. Такие рекламные элементы получают вес 9. Наконец, если пользователю приходится совершить более одного клика, рекламный элемент получает 18 баллов.

Для каждой позиции в результатах поиска рекламная нагрузка сайта умножается на специальный коэффициент, который отражает вероятность клика на данной позиции — от 1,5 у первой до 0,4 у десятой. Позиционные коэффициэнты подобраны так, что в среднем они дают единицу — таким образом, если «зарекламленные» сайты распределены по результатам поиска равномерно, то средняя рекламная нагрузка результатов поиска на большом массиве запросов от использования коэффициентов не изменится.

Для анализатора подобраны запросы на тему музыки, видео и программного обеспечения, поскольку именно по таким запросам обвешенные рекламой сайты находятся особенно часто, и это нередко создает для пользователей реальную проблему.

Таким образом, если поисковая машина получила, скажем, рекламную нагрузку 12, это означает, что на странице, которую пользователь откроет из результатов поиска по «мультимедийным» запросам, в среднем окажется один кликандер или скролируемый баннер и один тизер или крупный нескроллируемый баннер. При этом необходимо учитывать, что у конкретного пользователя могут выводиться не все рекламные элементы, давшие вес странице по результатам анализа ее кода: часть рекламы может отсекаться браузерам, какие-то рекламные модули выводятся только однократно, и т. п.

Анализатор порнорекламы

Пожалуй, самая неприятная реклама в Интернете — это «откровенная», то есть эротическая или даже порнографическая, реклама. Наличие на сайте откровенных тизеров (или баннеров, попандеров, кликандеров) вызывает у пользователя явное раздражение. Поэтому поисковик, который находит меньше сайтов с эротической и, тем более, порнорекламой, — лучше для пользователя.
В обеих вкладках анализатора оцениваются запросы на тему музыки, видео и программного обеспечения (эти же запросы используются в анализаторе рекламной нагрузки). По таким запросам особенно часто находятся сайты, «обвешенные» рекламой — в том числе и эротической.

Данный анализатор основан на разработанной нами технологии распознавания и оценки рекламных модулей. В анализаторе есть две вкладки. На одной из них (вкладка «Процент сайтов с порнорекламой») для каждого поисковика подсчитан процент страниц, на которых показывается очевидная порнореклама. На этой вкладке учитываются те из страниц, найденных поисковой машиной, которые содержит хотя бы один рекламный элемент, включающий порноизображения. Та откровенная (эротическая) реклама, которую мы не считаем порнографической, на этой вкладке не учитывается. Не учитываются также количество, размер и расположение рекламных элементов на странице (впрочем, обычно порно-реклама располагается так, чтобы бросаться в глаза пользователю).

На другой вкладке («Эротика + порно») показана средняя порнонавязчивость найденных страниц, с учетом навязчивости каждого рекламного элемента и позиции в выдаче. В данном случае для каждой страницы из результатов поиска вычисляется порнорекламная нагрузка. Рекламная нагрузка каждого элемента умножается на «коэффициент откровенности», который может принимать следующие значения:
0 — реклама не откровенная
0,5 — рекламный элемент иногда содержит изображения откровенного характера (но не явное порно), однако в других случаях вместо этих изображений показывается обычная реклама
1 — рекламный элемент всегда содержит изображения откровенного характера (но не явное порно)
10 — рекламный элемент содержит порноизображения

Порнорекламная нагрузка каждой страницы складывается из нагрузки каждого рекламного элемента на этой странице. Сама рекламная нагрузка вычисляется так же, как в анализаторе рекламной нагрузки.

Анализатор вирусных угроз

Поисковики стараются по возможности оградить пользователя от сайтов, на которых он может «подхватить» вирус или стать жертвой мошенников. Насколько эффективна эта защита?
Данный анализатор показывает, какой процент из найденных сайтов содержит хотя бы одну возможную угрозу. При оценке угроз на сайте учитываются вирусные скрипты и фреймы. Кроме того, учитывается широко распространенная в Рунете реклама, при клике на которую пользователю предлагается загрузить файл, который впоследствии используется для мошенничества. Такая реклама помечается в анализаторе как "мошенническая закачка".

Количество и виды угроз на сайте (будь то 1 или 5) показывается, но не влияет на общую оценку сайта. Вероятность того, что некий фрагмент кода содержит вирус, оценивается индивидуально на основе данных антивирусных программ, отзывов вебмастеров и других источников.

По умолчанию в этом анализаторе учитываются все виды угроз. На вкладке "% сайтов с вирусами" учитываются только такие сайты, которые содержат вирусный код, и не учитываются сайты с мошеннической рекламой.

Некоторые поисковики умеют выводить в результатах поиска предупреждения о том, что найденный сайт может представлять угрозу. Однако в силу специфики запросов, используемых в данном анализаторе, такое предупреждение может быть недостаточным. Данный анализатор использует запросы на тему скачивания, прослушивания и просмотра музыки и видео - те же, что и анализатор рекламной нагрузки. По таким запросам в Рунете существуют тысячи сайтов, распространяющие примерно одинаковый контент. В этой ситуации представляется правильным не просто предупреждать пользователя о возможной угрозе но и понижать зараженный сайт в выдаче, чтобы на его месте выдавался незараженный. В анализаторе есть возможность посмотреть только те угрозы, которые поисковики не отметили в результатах поиска (вкладка "Неотмеченные в результатах поиска") или все угрозы (вкладка "Все").

Анализаторы технических характеристик поиска

Пользователя поиска в первую очередь интересуют результаты, которые он получает, задавая запрос. Тем не менее, другие характеристики, напрямую не видные в поисковой выдаче, могут повлиять на общее впечатление от сервиса.
Анализаторы этой группы направлены на сравнение поисковых машин по дополнительным параметрам их работы, которые могут быть важны для пользователя. Стоит отметить, что основной интерес здесь представляют скорее не абсолютные значения, а сравнение поисковиков между собой.

Анализатор скорости регионального поиска

Поиск — сервис, которым пользуются миллионы людей. И у каждого из них от запроса до получения страницы с результатами поиска должен проходить минимум времени — одна-две секунды, а лучше — доли секунды. Чуть медленнее — и капризный пользователь обидится, а если ситуация будет повторяться, предпочтет другой поисковик, благо есть из чего выбирать.
Этот анализатор показывает, насколько быстро результаты поиска «прилетают» к пользователям в разных городах. Сбор информации совмещен с работой анализатора регионального поиска; данные о скорости загрузки страниц результатов поиска собираются по тем же самым запросам.

Разумеется, скорость поиска зависит и от «погоды» в Сети: на результаты по любому поисковику в любом городе в любой конкретный день может влиять загруженность канала, качество работы провайдера и многие другие факторы. Однако если медленные ответы у какого-то из поисковиков случаются чаще, чем у других, и повторяются изо дня в день — это уже повод задуматься.

Основная метрика анализатора — среднее время, затрачиваемое поисковиками на выдачу результатов пользователям. Дополнительные метрики (медиана, третья квантиль) помогают лучше представить, как распределено время загрузки поисковой выдачи. Медиана времени загрузки — это время, за которое успевает загрузиться половина результатов поиска; соответственно, оставшаяся половина результатов загружается дольше. Третья квартиль — это время, за которое успевает загрузиться 3/4 результатов поиска.

Наиболее полную картину скорости загрузки результатов поиска можно получить, открыв данные за любой конкретный день для конкретного города, ср. например, Нижний Новгород, 8.07.2013. Распределение времени ответа для каждого из поисковиков представлено на наглядном графике, причем графики для разных поисковых машин легко сравнить между собой.

Собираются также данные о размере страниц результатов поиска, их можно увидеть, кликнув по ссылке «Размер, Кб». (Как и современные браузеры, мы получаем страницы результатов поиска в сжатом виде; указывается именно объем загрузки, а не объем «разжатого» HTML-кода.)

Анализатор скорости индексации

Насколько быстро новые страницы сайтов попадают в поисковую выдачу?

Мы отобрали около двух тысяч сайтов Рунета, которые сами сообщают поисковым системам о том, что они обновились через формальную «карту сайта», sitemap.xml. Все эти сайты хорошо известны поисковикам: мы убедились в том, что их случайные страницы во всех или в подавляющем большинстве поисковых систем попадают в «десятку» по запросам, совпадающим с их заголовками (тег <title>). А вот насколько быстро начинают находиться по соответствующим им запросам новые страницы?
Ежедневно мы выкачиваем с отобранных сайтов карту сайта, сравниваем ее с сохраненной версией и смотрим, какие новые страницы появились (с каждого сайта берется не более 3 страниц в день). То же самое, естественно, могут делать и поисковые системы — для этого файлы sitemap.xml и создаются.

Из адреса и заголовка найденной таким образом новой страницы сайта формируется маркер, который будет активен 30 дней. В каждый из этих дней мы проверим, находится ли страница в поисковых машинах, если взять в качестве запроса ее заголовок: а) при поиске в кавычках с ограничением по данному сайту (так можно оценить скорость индексации); б) при обычном поиске по Интернету (это позволяет оценить скорость попадания новых страниц в поисковую выдачу).

Основная оценка, которую выдает анализатор — средняя «видимость» активных маркеров за месяц, но интересны и данные за более узкие периоды: в самые первые дни после публикации страницы; в конце первой недели, когда страницы, которые уже находились, случается, пропадают из выдачи; на второй неделе существования страницы; через две недели после публикации.