Интелтек форум

Разработка приложений СУБД => Общие вопросы разработки => Тема начата: rev.stepan от 31 Май 2011, 13:46:33



Название: Выявление ключевых слов в тексте
Отправлено: rev.stepan от 31 Май 2011, 13:46:33
Добрый день. Кратко ознакомившись с работами НПЦ осмелюсь сформулировать задачу которая давно занимает мои мысли с надеждой что форумчане смогут мне помочь или хотя бы подтолкнуть в нужном направлении :)
Итак, всем известные тэги, используемые для дополнительного определения тематики какой либо информационной статьи. Заполнение веб-сайта заказчика новостями происходит автоматически при помощи "стягивания" новостей с некоторых новостных лент. Разумеется новостей очень много и вручную заполнять тэги для каждой новости у заказчика нет времени и возможностей. При этом стоит задача выявления ключевых слов в новостях, понижение значимости "неключевых" слов которые встречаются очень часто (таких как Сегодня, Срочно и т.д.), добавления их в базу данных и подсчета количества повторений для последующего построения облака. Собственно вопрос. Существует ли возможность автоматического заполнения тэгов к новостям определения их релевантности, стемминга и т.п. и возможно ли применение такой системы для Латинской Америки (Испанский, Португальский языки)?
Наша компания готова обсудить возможности сотрудничества в этой сфере. Заранее спасибо.


Название: Re: Выявление ключевых слов в тексте
Отправлено: skv от 01 Июнь 2011, 18:55:53
В Вашей задаче может ли множество тэгов быть зафиксировано или оно постоянно разрастается по мере появления новостей на ранее несуществующие темы?