1. Разработка функций в обучении для ранжирования задачи ответа на вопросы сообщества (arXiv)

Автор: Нафис Саджид, Мд Рашидул Хасан, Мухаммед Ибрагим.

Аннотация: Форумы ответов на вопросы сообщества (CQA) — это интернет-платформы, на которых пользователи задают вопросы по теме, а другие пользователи-эксперты пытаются предложить решения. Многие форумы CQA, такие как Quora, Stackoverflow, Yahoo!Answer, StackExchange, содержат большое количество пользовательских данных. Эти данные используются в автоматизированных системах ранжирования CQA, где аналогичные вопросы (и ответы) представлены в ответ на запрос пользователя. В этой работе мы эмпирически исследуем несколько аспектов этой области. Во-первых, в дополнение к традиционным функциям, таким как TF-IDF, BM25 и т. д., мы представляем функцию на основе BERT, которая фиксирует семантическое сходство между вопросом и ответом. Во-вторых, большинство существующих исследовательских работ сосредоточено на признаках, извлеченных только из вопросительной части; особенности, извлеченные из ответов, не были широко изучены. Мы объединяем оба типа функций линейным образом. В-третьих, используя предложенные нами концепции, мы проводим эмпирическое исследование с использованием различных алгоритмов рангового обучения, некоторые из которых до сих пор не использовались в области CQA. На трех стандартных наборах данных CQA предлагаемая нами структура обеспечивает высочайшую производительность. Мы также анализируем важность функций, которые мы используем в нашем расследовании. Ожидается, что эта работа поможет специалистам-практикам выбрать лучший набор функций для задачи поиска CQA.

2. SE-PQA: персонализированные ответы на вопросы сообщества (arXiv)

Автор: Пранав Касела, Габриэлла Паси, Раффаэле Перего.

Аннотация: Персонализация в информационном поиске — тема, изучаемая уже давно. Тем не менее, по-прежнему не хватает высококачественных реальных наборов данных для проведения крупномасштабных экспериментов и оценки моделей для персонализированного поиска. Данная статья помогает восполнить этот пробел, представляя SE-PQA (StackExchange — персонализированные ответы на вопросы), новый курируемый ресурс для разработки и оценки персонализированных моделей, связанных с задачей сообщества по ответам на вопросы (cQA). Предоставленный набор данных включает более 1 миллиона запросов и 2 миллиона ответов, а также богатый набор функций, моделирующих социальные взаимодействия между пользователями популярной платформы cQA. Мы описываем характеристики SE-PQA и детализируем особенности, связанные с вопросами и ответами. Мы также предоставляем воспроизводимые базовые методы для задачи cQA на основе ресурса, включая модели глубокого обучения и подходы к персонализации. Результаты проведенных предварительных экспериментов показывают пригодность SE-PQA для обучения эффективных моделей cQA; они также показывают, что персонализация значительно повышает эффективность всех протестированных методов. Кроме того, мы показываем преимущества с точки зрения надежности и обобщения объединения данных из нескольких сообществ в целях персонализации.