"Яндекс" представил поисковый алгоритм "Палех", использующий нейросети для понимания сложных запросов

03 нояб 2016 11:00 #47775 от ICT
Компания "Яндекс" 2 ноября представила новый поисковый алгоритм под названием "Палех", который использует в работе нейросети и способен находить страницы, которые соответствуют не только ключевым словам, но и смыслу запроса пользователя. "Каждый день поиск "Яндекса" отвечает примерно на 280 миллионов запросов. Какие-то из них, например "ВКонтакте", люди вводят в поисковую строку практически каждую секунду. Какие-то запросы уникальны - их задают один раз, и они, возможно, больше никогда не повторятся. Уникальных и просто редких запросов очень много - около ста миллионов в день", - говорится в сообщении, опубликованном в блоге компании. Своим названием новый алгоритм обязан специфике графика частотного распределения запросов в "Яндексе", который представляют в виде птицы с клювом, туловищем и длинным хвостом. Так, короткий "клюв" включает самые распространенные и часто задаваемые запросы. Запросы средней частотности образуют "туловище" птицы. Наконец, низкочастотные запросы по отдельности встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока и поэтому складываются в длинный "хвост". "Новый алгоритм позволяет поиску Яндекса лучше отвечать на сложные запросы из "длинного хвоста". Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название "Палех", - поясняют в компании. Сложные запросы из хвоста можно разделить на несколько групп. Например, одна из них представляет собой запросы пользователей, которые общаются с поисковиком как с живым собеседником, а другая - запросы тех, кто пытается вспомнить название книги или фильма по содержанию, например "фильм про человека который выращивал картошку на другой планете" ("Марсианин"). "Особенность запросов из "длинного хвоста" в том, что обычно они более сложны для поисковой системы. Запросы из "клюва" задают многократно, и для них есть масса разнообразной пользовательской статистики. Чем больше знаний о запросах, страницах и действиях пользователей накопил поиск, тем лучше он находит релевантные результаты. В случае с редкими запросами поведенческой статистики может не быть - а значит, "Яндексу" гораздо труднее понять, какие сайты хорошо подходят для ответа, а какие не очень. Задача осложняется тем, что далеко не всегда на релевантной страничке встречаются слова из запроса - ведь один и тот же смысл в запросе и на странице может быть выражен совершенно по-разному", - говорится в сообщении. Новый алгоритм решает эту задачу при помощи нейронных сетей, которые были обучены на накопленной базе текстов поисковых запросов и заголовках веб-страниц. В результате нейросеть научилась понимать смысловое соответствие между запросом и заголовками страниц. "Компьютеру проще работать с числами, чем с буквами, поэтому поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных "Яндексу" заголовков веб-страниц в числа - а точнее, в группы из трехсот чисел каждая. В результате все документы из базы данных Яндекса получили координаты в трехсотмерном пространстве", - говорится в сообщении. Представить такое пространство и описанную систему координат достаточно трудно, поэтому для упрощения в компании предлагают представить, что каждой веб-странице соответствует группа не из трехсот, а из двух чисел. Тогда получится, что каждое число - это определенная координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости. Такой способ обработки запроса и его сопоставления с вероятными ответами в компании назвали семантическим вектором. "Технология семантических векторов обладает огромным потенциалом. Например, переводить в такие векторы можно не только заголовки, но и полные тексты документов - это позволит еще точнее сопоставлять запросы и веб-страницы. В виде семантического вектора можно представить и профиль пользователя в интернете - то есть его интересы, предыдущие поисковые запросы, переходы по ссылкам", - говорится в релизе. По мнению создателей алгоритма, далекая цель состоит в том, чтобы получить на основе нейронных сетей модели, способные "понимать" семантическое соответствие запросов и документов на уровне, сравнимом с уровнем человека. Ссылка на источник


  • Сообщений: 103416

  • Пол: Не указан
  • Дата рождения: Неизвестно
  • Пожалуйста Войти или Регистрация, чтобы присоединиться к беседе.

    Похожие статьи

    ТемаРелевантностьДата
    "Яндекс" запустил поисковый алгоритм "Королев"20.18Среда, 23 августа 2017
    Google улучшил поисковый алгоритм16.21Воскресенье, 27 октября 2019
    «Яндекс» подвёл итоги чемпионата по спортивному программированию «Яндекс.Алгоритм»12.59Пятница, 29 июля 2016
    Проект Tkeycoin представил новейший алгоритм майнинга11.63Вторник, 30 октября 2018
    "Яндекс" отказался удовлетворить 73% запросов по праву на забвение11.59Вторник, 29 марта 2016
    "Яндекс.Маркет" научился подбирать одежду по фотографиям при помощи нейросети11.35Понедельник, 25 июля 2016
    «Яндекс.Алгоритм-2016»: регистрация открыта11.26Четверг, 21 апреля 2016
    «Яндекс» отменяет алгоритм оценки сайтов ТИЦ, с которым работал 19 лет11.02Среда, 22 августа 2018
    «Яндекс» представил конструктор для настройки корпоративного «Яндекс.Браузера»10.34Вторник, 04 июля 2017
    Яндекс представил автомобильную интеллектуальную платформу «Яндекс.Авто»10.34Вторник, 19 сентября 2017

    Мы в соц. сетях