Научно-производственный центр Интелтек Плюс

Андреев А.М., Березкин Д.В., Симаков К.В.

НПЦ "ИНТЕЛТЕК ПЛЮС" E-mail: arka@inteltec.ru

Обучение морфологического анализатора на большой электронной коллекции текстовых документов

В статье изложен метод и алгоритм обучения морфологического анализатора на основе большого текстового массива. В качестве учителя при обучении выступает морфологический анализатор словарного типа. Основная особенность обученного анализатора - способность выполнять разбор неизвестных слов. Проведен ряд экспериментов по оценке свойств алгоритма обучения, в частности свойства обобщения. Приведено сравнение работы обученного анализатора с анализатором словарного типа.



A Andreev, D. Berezkin, K. Simakov.

Unsupervised learning of morphological analyser using huge corpus of natural texts

This paper presents the method and algorithm for unsupervised learning of morphological analyser meaning that no human interactions are needed to control learning process. The algorithm uses only two source of knowledge about natural language. The first one is a huge collection of unrestricted natural texts. The second one is a teacher that is a dictionary-based morphological analyser. The main feature of trained analyser is that it can analyse some words that teacher can’t.
We have carried out several experiments to make estimation of our learning algorithm and to evaluate properties of trained analyser. In particular we estimate the ability of learning algorithm to generalize words. This feature allows trained analyser to process unknown words.
Also we have assessed precision of trained analyser comparing results of its work with results of dictionary-based analyser.

ИНТЕЛТЕК ИЗДАТЕЛЬСТВО Искусственный интеллект


© НПЦ "ИНТЕЛТЕК ПЛЮС", 1997-2006, E-mail: publish@inteltec.ru