Технология автоматизированного извлечения информации из текстов

ИНТЕЛТЕК ПЛЮС

НПЦ "ИНТЕЛТЕК ПЛЮС" выполнены исследования по автоматизированному извлечению информации из текстов, которые относятся к области интеллектуальной обработки текстов на естественном языке. Извлечение информации является частным случаем задачи распознавания образов. Извлечение подразумевает распознавание в тексте его отдельных элементов и отнесение их к той или иной группе. Например, результатом работы процедуры извлечения является выявление в текстах имен собственных, дат, названий и типов устройств, наименований компаний и других организаций. Кроме распознавания отдельных элементов процедура извлечения может также выявлять отношения между ними. Например, между наименованием изделия и названием компании может быть выявлена связь, указывающая на то, что компания является производителем данного изделия.

Задача извлечения сводится к двум подзадачам: обучение модели извлечение и непосредственное использование обученной модели при извлечении информации.

Система, построенная на разработанных методах, может быть использована в различных предметных областях. Например, при решении задач мониторинга новостных сообщений и извлечения конкретных фактов для занесения их в базу данных, выявления отношений между извлекаемыми объектами. Система может использоваться для автоматического построения словарей терминов и тезаурусов на основе некоторого массива текстов предметной области. Методы применимы для задач анализа почтового трафика, для распознавания интересующей почты, для анализа online-форумов и досок объявлений для извлечения структурированной информации, например информации с предложениями о вакансиях некоторой компании.

Опыт эксплуатации

Разработанные методы извлечения информации реализованы в информационных системах «Семантический контроль текстов редактируемых документов», «Интеллектуальная система выявления и исправления ошибок в почтовых адресах» и «Проверка телефонных номеров», а также в виде комплекса программных средств специального назначения. Программный комплекс может работать как под управлением ОС Windows, так и под управлением ОС семейства Linux.



109316, Москва, Волгоградский проспект 45, МАГП
WWW: http://www.inteltec.ru
E-mail: support@inteltec.ru
Тел./факс: (095) 177-3511 Тел.: (095) 177-8028