Классика баз данных - статьи

       

В качестве исходных данных эта


В качестве исходных данных эта система использует текстовый документ, а возвращает этот же документ с выделенными ключевыми терминами.

Каждое из выбранных для тестирования сообщений было проанализировано с помощью реализованной системы и демонстрационной версии Alchemy API. Так как нет необходимости рассчитывать точность, полноту и F-меру для каждого из них, то весь массив сообщений был принят за один документ, из которого извлекались ключевые термины.

Всего из выбранных 50 сообщений вручную было выделено 180 ключевых терминов, 28 из которых являются частями других, более длинных составных терминов. Максимальная длина выделенного вручную термина равна 3 словам. Максимальная длина термина, выделенного системой, равна 6 словам.

Результаты тестирования приведены в табл. 2.

МетодТочность, %Полнота, %F-мера, %
Alchemy API18,943,626,4
Разработанная система40,068,650,5
Табл. 2. Результаты тестирования работы системы

По результатам тестирования можно сделать вывод, что разработанная система достаточно эффективно функционирует в условиях поставленной задачи. Кроме того, по качеству результатов она превосходит выбранную для сравнения систему Alchemy API.

Одной из возможных причин снижения качества результатов является большое количество именованных сущностей в текстах обработанных сообщений, причём большинство из них указывают на людей, события или компании, ставшие популярными лишь недавно. Поскольку БД терминов из Википедии соответствует её состоянию на июль 2009 года, очевидно, что многие из актуальных в настоящий момент именных сущностей в ней отсутствуют (например: «CityCamp», «CrisisCamps»). Другой причиной служит частое использование сокращений, многие из которых не являются общепринятыми, например: «webops» для «web operations», «gov’t» для «government», «gov20» и «Gov 2.0» для «Government 2.0».


Содержание  Назад  Вперед