Просмотр сообщений
Страниц: [1]
1  Разработка приложений СУБД / Общие вопросы разработки / Re: Выявление ключевых слов в тексте : 01 Июнь 2011, 18:55:53
В Вашей задаче может ли множество тэгов быть зафиксировано или оно постоянно разрастается по мере появления новостей на ранее несуществующие темы?
2  Разработка приложений СУБД / Общие вопросы разработки / Re: Поиск похожих изображений : 23 Апрель 2010, 17:41:21
Вот еще один проект по данной теме
http://www.alipr.com
Технология работы с поисковиком следующая: по ключевым словам ищется целевая картинка, после чего нажимается кнопка "similar" под ней, что приводит к поиску похожих изображений. При необходимости в БД можно загрузить свою картинку, снабдив ее своими ключевыми словами.

А вот здесь http://acquine.alipr.com/ можно загрузить свою фотку и посмотреть, какую оценку даст система на предмет эстетичности изображения.
3  Искусственный интеллект / Теория обучения / Статьи Интелтек-Издательства : 15 Июнь 2009, 19:14:14
В данной ветке предлагается обсуждать статьи, опубликованные в Интелтек-Издательстве по теме данного раздела.
Ниже приводятся ссылки на сами статьи, расположенные в порядке, обратном дате поступления.

1. Модель извлечения фактов из естественно-языковых текстов и метод ее обучения

Андреев А.М., Березкин Д.В., Симаков К.В.
Дата поступления 31 октября 2006 года.

Аннотация
В статье изложена модель извлечения фактов из естественно-языковых текстов и метод ее обучения. Ключевым элементом модели является набор правил извлечения. Метод обучения генерирует набор правил на основе обучающих примеров подготовленных человеком. Проведен ряд экспериментов, дана оценка зависимости основных показателей качества обученной модели от свойств исходной обучающей выборки.
Annotation
The model of fact extraction from natural language texts and the learning method
The model of extracting structured data from natural language texts is proposed. The training method of such model is also here. The main feature of the model is the extraction rules set. The training method forms this rules from a human-prepared learning examples. Some experiments are carried out and the main properties of trained model are shown depends on properties of initial learning examples set.

2. Обучение морфологического анализатора на большой электронной коллекции текстовых документов

Андреев А.М., Березкин Д.В., Симаков К.В.
Дата поступления 10 ноября 2005 года.

Annotation
В статье изложен метод и алгоритм обучения морфологического анализатора на основе большого текстового массива. В качестве учителя при обучении выступает морфологический анализатор словарного типа. Основная особенность обученного анализатора - способность выполнять разбор неизвестных слов. Проведен ряд экспериментов по оценке свойств алгоритма обучения, в частности свойства обобщения. Приведено сравнение работы обученного анализатора с анализатором словарного типа.
Annotation
Unsupervised learning of morphological analyser using huge corpus of natural texts
This paper presents the method and algorithm for unsupervised learning of morphological analyser meaning that no human interactions are needed to control learning process. The algorithm uses only two source of knowledge about natural language. The first one is a huge collection of unrestricted natural texts. The second one is a teacher that is a dictionary-based morphological analyser. The main feature of trained analyser is that it can analyse some words that teacher can’t.
We have carried out several experiments to make estimation of our learning algorithm and to evaluate properties of trained analyser. In particular we estimate the ability of learning algorithm to generalize words. This feature allows trained analyser to process unknown words.
Also we have assessed precision of trained analyser comparing results of its work with results of dictionary-based analyser.

3. Компьютерные системы в обучении русскому языку как иностранному

Смирнов Ю.М., Андреев А.М., Березкин Д.В., Друшляков Г.И.
Опубликовано: Компьютерная хроника N6, 1998

4  Искусственный интеллект / Тезаурусы, онтологии и Semantic Web / Re: Семантическая сеть : 05 Июнь 2009, 18:25:44
Я как-то привык различать лозунги и рекламные статьи от реально работающих технологий.
Википедия, Youtube, Одноклассники - типичные представитель сайтов поколения Web 2.0. Мне как-то сложно дискутировать об их нереальности, когда я реально ими пользуюсь.

... так как трудно найти принципиальные отличия Веб 2.0 от обычных сайтов.
Любой популярный термин можно исопльзовать в PR-целях. Термины "нейронная сеть" и "искусственный интеллект" тому подтверждение. Технологии, стоящие за этими терминами, менее полезными не становятся от того, что кто-то использует эти термины в качестве рекламного лозунга.

Однако я лично не нахожу в них каких-то новых интеллектуальных методов обработки информации или понимания текстов компьютерами.
А кто утверждает, что Web 2.0 - это технологии понимания текстов компьютерами? Даже в концепции Web 3.0 об этом мне пока ничего не попадалось.
5  Искусственный интеллект / Тезаурусы, онтологии и Semantic Web / Re: Семантическая сеть : 05 Июнь 2009, 12:49:47
...при отсутствии реально работающего  Web 2.0...
Вчера реально работал, а сегодня перестал?

А какие именно правила расстановок и типы этих тэгов? Существуют ли они объективно?
Изначально была поднята иная проблема - "кто это все будет делать"? Я ответил на нее: "Это будут делать пользователи и авторы контента". Сейчас они это успешно делают (вот один из примеров http://delicious.com/), почему у них может возникнуть проблема в будущем?
По поводу стандартов. Скорее всего их будут диктовать поисковые машины (и другие наиболее востребованные сервисы), работающие в соответствии с концепцией Web 3.0. В этом случае, автор контента, заинтересованный в том, чтобы его материалы были доступны, будет подстраиваться под стандарты таких систем.
Сейчас имеет место полная аналогия в обычном вебе, когда веб-мастер, разрабатывая сайт, учитывает требования поисковых роботов в своей разметке.
6  Искусственный интеллект / Тезаурусы, онтологии и Semantic Web / Re: Семантическая сеть : 05 Июнь 2009, 11:14:37
В одной из презентаций, посвященных Web 3.0, натолкнулся на утверждение, смысл которого в следующем.
На первый взгляд, человек по своей натуре ленив и себялюбив, поэтому, казалось бы, вряд ли он станет вручную обучать чему-то комьютер. Однако если бы это было действительно так, вряд ли бы возник Web 2.0.
Оригинал можно посмотреть где-то здесь Web 3.0 Concepts Explained in Plain English одном из прикрепленных презентационных роликов.
Суть же сказанного заключается в том, что в настоящий момент существует масса контента, созданного сообществом (Википедия, Закладки, Блоги, RSS ленты). Этого контента не было бы, если бы людям было лень заниматься его генерацией, поэтому, на мой взгляд, при наличии удобного инструментария те же самые блоггеры вполне могут писать статьи, снабжая их соответствующими тэгами и устанавливая необходимые семантические отношения.
Более того, если предоставить доступ к этому инструменту представителям сообщества, то можно рассчитывать, что необходимые тэги будет расставлять не сам автор, а пользователи, читающие его статьи.
7  Вопросы по работе форума / Общие вопросы / Рекомендации по обсуждению статей : 18 Май 2009, 19:02:23
Научно-технические материалы, в том числе и статьи, обычно содержат формулы, таблицы, схемы и пр. нетекстовые элементы, ввод которых в тело форумного сообщения представляет собой нетривиальную задачу. Во избежании проблем, предлагается следующий порядок публикации статей на форуме.
1. Создается ветка форума в соответствующем разделе. Название ветки должно иметь следующий формат "Обсуждение статьи <название статьи> "
2. В первое сообщение этой ветки пишется некоторый текст, раскрывающий направление статьи и поясняющий цель ее обсуждения.
3. К первому сообщения прикладывается документ в формате PDF, содержащий оригинальный текст статьи со всеми составляющими элементами и форматированием.

Текст статьи обычно пишется в текстовом редакторе, например, MS Word, а затем преобразуется в формат PDF любым из имеющихся под рукой конверетров Google Search: free word to pdf. Из свободных конвертеров можно порекомендовать pdf995 http://www.pdf995.com/download.html.
8  Вопросы по работе форума / Общие вопросы / Работа форума : 30 Апрель 2009, 20:01:16
Тема предназначена для публичного обсуждения всех вопросов, связанных с работой форума.
Сюда следует писать пожелания, рекомендации и вопросы по работе форума, составу его разделов, имеющимся функциональным возможностям, внешнему виду (дизайну) и пр.
Отмечу, что здесь не обсуждаются вопросы, связанные с санкциями, примененными к конкретным пользователям, нарушившим правила поведения на форуме. Для этих целей существует раздел "Вопросы к администрации сайта".
Так же обращаю внимание, что модераторам не следует обсуждать здесь внутренние вопросы работы форума.
Страниц: [1]