В поисках новой книги или при составлении литературы для исследования мы часто ищем публикации на схожую тематику. На помощь приходят рекомендации друзей и коллег, отзывы в интернете и библиографические списки.

Но что делать, если нужно найти редкий текст или проверить тысячу источников?

Человеческому мозгу обычно нетрудно определить тему публикации. Однако, когда объем информации становится огромным, обработка данных вручную становится неэффективной. Здесь на помощь приходят алгоритмы тематического моделирования — модели, которые автоматически определяют, к какой теме относится текст.

Исследователи из НИУ ВШЭ в Санкт-Петербурге сравнили пять тематических моделей и определили, какие из них работают лучше. Результаты работы показали, что лучше всех с русскоязычными ресурсами справилась модель ETM. При работе с англоязычными ресурсами (включая WoS) и небольшими текстами лучше всех себя показала GLDAW — разработка Лаборатории социальной и когнитивной информатики НИУ ВШЭ.

Как изучали, почему эти модели обогнали остальные и что удивило ученых — читайте в материале IQ.HSE: vk.cc/cxYIEv

Только люди, упомянутые в этом сообщении пользователем hse, могут отвечать

Ответов пока нет!

Похоже, что к этой публикации еще нет комментариев. Чтобы ответить на эту публикацию от Высшая школа экономики , нажмите внизу под ней