Алгоритм Яндекса Yati

03 июня 2021

Yati (Yet Another transformer with Improvement) - самообучающийся алгоритм-трансформер, в основе которого лежат нейросети. Работа такого алгоритма требует наличия сверхможного скперкомпьютера, который сейчас есть у Яндекс.

Цель YATI - анализировать тексты поисковых запросов и сайтов, которые по этим запросам показываются.

Разработки трансформера Yati начались, предположительно, в конце 2020 года. Суть алгоритма в том, что страница переводится в векторное множество с сохранением координат положения в тексте. Решая одну задачу (умножение вектора из запроса на вектора из множества на странице), трансформер может использовать решение для другой - это и есть принцип обучения.

Интересно то, что Яндекс взял идею трансформера BERT у Google, который выложил код в открытый доступ, и пытается апгрейдить её, внедряя свои фишки и получая преимущества.

Особенность этого алгоритма в том, что теперь не требуется точное вхождение ключевых слов или даже их словоформ на странице. Нейросеть анализирует тематику всего содержимого. То есть в выдаче появились документы, на которых может вообще не содержаться части запроса или даже запроса целеком. Например, теперь можно найти что-то, не зная названия.

Мои наблюдения

Первые изменения в выдаче начала замечать только с марта 2021 года. В мае Яндекс провел очередное тестирование алгоритма (наблюдались сильные колебания в выдаче), а затем, видимо, откатил изменения.

В июне 2021 года Yati потерпел значимую корректировку - усложнился тем, что перевод содержимого web-документа в вектороное множество стал производиться предварительно, чтобы увеличить скорость обработки запроса.

YATI - пример скачков выдачи

YATI - пример скачков выдачи