Главная -> Статьи -> Анонс нового алгоритма ранжирования Яндекс - Обнинск

Анонс нового алгоритма ранжирования Яндекс - Обнинск

13 сентября Представителя Яндекса в своем блоге выложили анонс нового алгоритма ранжирования под названием "Обнинск", в котором была ссылка на выступление Ильи Сегаловича на конференции SIGIR. Кому интересно, здесь вы можете ознакомиться с его презентацией. Также мы выкладываем ее перевод далее: Илья Саголович - Яндекс В докладе будут обсуждаться актуальные проблемы в Яндексе, особое внимание будет уделено ряду жизненно важных вопросов, касающихся крупномасштабных проблем в IR : Internet Research, а также возможности и перспективы как постоянно совершенствующейся поисковой машины, так и проблем обработки данных реального мира, собранных нами на основании тестирований в ПС Яндекс. Мы также поговорим о соревновании «Интернет-Математика 2009», организованного Яндексом, чтобы подтолкнуть к проведению исследований методов ранжирования и обработки данных. Обучение машины качеству поиска в Яндексе. 1. Российский рынок Поиска Таблица 2. Обзор компании Яндекс 1997г. - Запуск поисковой системы yandex.ru 7-я поисковая система в мире интернет запросов. Обработка 150 млн. поисковых запросов в день. Офисы: Москва Россия (4 офиса) Украина (3 офиса) Palo Alto (США) 3. Разнообразие рынков 15 стран использующих кириллицу 77 регионов по всей России 4. Разные культуры, уровень жизни, средний доход например Москва, Магадан, Саратов - Крупные полу-автономные этнические группы Татары, Чеченцы, Башкиры - Соседствующие рынки, использующие 2 языка Украина, Казахстан, Беларуссия. 5. Гео-зависимость запросов Актуальность результатов поиска разная для всех регионов и стран. (свадебный торт) (цены на газ) (ремонт сотовых телефонов) (пицца) 6. pFound (Вероятная мера удовлетворения пользовательского интереса) 7. Вероятность удовлетворения пользовательского интереса Цель оптимизации, проводимой в Яндекс с 2007г. - pFound – Вероятность найти нужный ответ - pBreak – Вероятность не получить нужной информации - pRel – Вероятность пользовательской удовлетворённости полученным результатом (Релевантность) 8. Геозависимое ранжирование 9. Первоначальный подход 10. Запрос -> запрос + регион пользователя Функция (особенность) ранжирования, это например: «Регион пользователя и регион выдачи документа должны совпадать» 11. Запрос -> запрос + регион пользователя Проблемы: Тяжело усовершенствовать единое ранжирование - Местные сайты некоторых регионов очень слабые - Теряются некоторые особенности (например ссылки) - У каждой страны (особенно регионы с высоким уровнем жизни) своя специфика - вдвое больше запросов 12. Альтернативы Регионализации (деления выдачи по регионам) Разные территориальные индексы VS (против) Единый индекс для геокодированных страниц 1 запрос VS 2 запроса: основной и изменённый (например + название города) Определение намерений пользователя на основе запросов VS Определение намерений пользователя на основе конкретных результатов Система единого ранжирования VS Ранжирование локальной выдачи с применением дополнительных факторов ранжирования Использование единой формулы на общую массу запросов VS Использования разных формул ранжирования в зависимости от локальности запросов. 13. MLR (Обучение поисковой машины ранжированию) Обучение поисковой машины как конвейер: - каждый регион требует собственной системы ранжирования (очень трудоёмкий процесс) - ежемесячно появляются всё новые особенности ранжирования (MLR даёт возможность чаще проводить апдейты) - Некоторые группы запросов требуют специфического ранжирования (музыка, покупки и т.п.) 14. Матричная Сеть (Обучение методу ранжирования) 15. Изучение метода - развитие на базе «дерева решений» - оптимизация поиска - решение задач регрессии - train classifiers 16. MLR усложняет формулу ранжирования 17. - Сокращение постоянных особенностей ранжирования - использование простых динамических особенностей - сложная формула, использующая все доступные функции - потенциальная возможность создать до миллиона матриц/деревьев. 18. Геозависимые запросы 19. Таблицы 20. Уроки (MLR – единственный ключ к поиску по регионам) Это даёт возможность настроить единовременную работу множества геозависимых моделей. 21. Проблемы: - Всё больше усложняются модели поиска (не всё сохраняется в памяти системы) - Сегодняшние параметры MLR не полностью удовлетворяют поиску по запросам, зависимых от времени суток (особенности нового контента очень редкие и непостоянные) - Размытость результатов MLR (обратная сторона обучения поисковой машины) - Кол-во функций (особенностей) растет быстрее, чем кол-во решений (сложно обеспечить правильное решение) - Сложно обучать поисковую машину на основе кликов и поведения пользователей (обработка десятков ГБ информации каждый день). Контакты

109028, Россия, Москва, Певческий пер., д. 4, стр. 1 +7 (495) 660 37 04 | info@nbmarketing.ru

Адрес на Яндекс.картах

Адрес на Google.картах

Перед приездом обязательно сообщите нам, чтобы мы вас встретили.

Новости © 2002-2012 Newmann Bauer
  • О компании
  • Услуги
  • Клиенты
  • Контакты
  • Оставить заявку
 
Адрес: г. Москва, Россия (495) 717-01-39 Соглашаюсь на обработку личных персональных данных