Печать страницы - Выявление ключевых слов в тексте

Добрый день. Кратко ознакомившись с работами НПЦ осмелюсь сформулировать задачу которая давно занимает мои мысли с надеждой что форумчане смогут мне помочь или хотя бы подтолкнуть в нужном направлении :)
Итак, всем известные тэги, используемые для дополнительного определения тематики какой либо информационной статьи. Заполнение веб-сайта заказчика новостями происходит автоматически при помощи "стягивания" новостей с некоторых новостных лент. Разумеется новостей очень много и вручную заполнять тэги для каждой новости у заказчика нет времени и возможностей. При этом стоит задача выявления ключевых слов в новостях, понижение значимости "неключевых" слов которые встречаются очень часто (таких как Сегодня, Срочно и т.д.), добавления их в базу данных и подсчета количества повторений для последующего построения облака. Собственно вопрос. Существует ли возможность автоматического заполнения тэгов к новостям определения их релевантности, стемминга и т.п. и возможно ли применение такой системы для Латинской Америки (Испанский, Португальский языки)?
Наша компания готова обсудить возможности сотрудничества в этой сфере. Заранее спасибо.

Интелтек форум

Разработка приложений СУБД => Общие вопросы разработки => Тема начата: rev.stepan от 31 Май 2011, 13:46:33