ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Технологии автоматического анализа текста

Ассоциативно-статистический подход .

Многие годы разработчики “искусственного интеллекта” пытались научить компьютер логическому мышлению, основанному на манипулировании формализованным знаниями и правилами их преобразования. Такой тип мышления характерен для обработки информации левым полушарием мозга. Простейший пример левополушарной модели знаний представляют иерархические рубрикаторы, используемые в информационно-поисковых системах для классификации информации. Однако, ввиду неспособности ЭВМ к языковому мышлению, их возможности ограничены рамками изначально заложенной системы знаний. Проблема заключена в невозможности самообучения рубрикатора без участия человека.

В тоже время в мозге скрыты иные, более древние механизмы, позволяющие решать подавляющее число задач повседневной жизни без участия размышления. Эти механизмы, заключенные в правом полушарии, следует назвать ассоциативной статистической обработкой. Вся живая природа “обучалась” именно так – развивая ассоциации между связанными событиями и закрепляя рефлексы путем повторений.

Чтобы несколько прояснить эти механизмы, позволим себе аналогию со студентом, которому нужно срочно сдавать экзамен по незнакомому предмету. В этой известной ситуации есть два пути. Первый – начать с основ и, скрупулезно штудируя учебники, погрузиться в определения, изучить основные соотношения и т.д. Таков дедуктивный путь, задействующий весь арсенал ресурсов “левополушарного” мозга, который все проходили в школе, начиная, к примеру, изучение иностранного языка с грамматики. Но есть и другой подход, более быстрый. Он близок так называемому “обучению с погружением”, которое применяется в интенсивных курсах обучения языку. Его и рассмотрим теперь подробнее. Итак, студент садится за книгу и погружается в мир новой информации, проглатывая страницы одну за одной, безо всякого понимания. Однако, спустя какое-то время вдруг начинают узнаваться слова, еще не понятные, но уже знакомые. Они то и представляют ключевые понятия, на которых строится весь предмет. Правое полушарие провело статистический анализ, выделив повторяющиеся фрагменты информации, которые и образуют фундамент будущих знаний.

И студент продолжает читать, уже по второму кругу… Теперь понятия начинают обрастать неким смыслом - при встрече знакомых слов улавливается их контекст, возникают ассоциации. Так формируется и включается в работу ассоциативная семантическая сеть – комплекс связей между понятиями, увязывающий их в модель нового мира, где каждый элемент обретает собственный смысл через связи с другими. Появление связей - это опять статистика, бессознательный частотный анализ “правого мозга”, который скрупулезно запоминал и оценивал, в каких комбинациях встречались понятия в тексте друг с другом.

А пока студент спит, бессознательное продолжает трудиться. Во сне происходит анализ накопленной информации - модель предмета перестраивается и совершенствуется. При этом локальные фрагменты ассоциативной сети, слабо связанные с другими, забываются и отбрасываются как случайные. Другие еще сильнее увязываются между собой, выявляются новые связи, главное и второстепенное… К утру модель предмета вчерне сформирована. И с новыми силами за предмет... Система ассоциаций включилась в работу и теперь содержание текста ясно. По мере чтения весь материал как бы нанизывается на знакомые понятия, классифицируется. Вот оно – конкретное знание по конкретным темам - в конкретных строчках! И окончательно, пробежав знакомый учебник перед экзаменом, память студента выхватывает какие-то тезисы, касающиеся главных понятий - пусть небольшой реферат останется в голове…

Проведенное художественное отступление в полной мере иллюстрирует принципы, заложенные в основу ассоциативно-статистического подхода к анализу содержания текста.

В основе процедур, используемых для анализа документов, лежит представление смысла текста в форме ассоциативной семантической сети.

Семантическая сеть — это множество понятий (слов и словосочетаний), связанных между собой. В семантическую сеть включаются наиболее часто встречающиеся слова текста, которые несут основную смысловую нагрузку. Для каждого понятия формируется набор ассоциативных (смысловых) связей, т.е. список других понятий, в сочетании с которыми оно встречалось в предложениях текста. При этом считается, что чем чаще встречаются вместе два понятия в предложениях текста, тем выше вероятность того, что они связаны по смыслу.

Оригинальные лингвистические алгоритмы позволяют отождествлять различные части речи и близкие по смыслу словосочетания. Например, такие выражения, как “подписание нескольких новых указов” и “подписал два указа”, рассматриваются как одна и та же смысловая единица (одно понятие). Кроме того, из числа понятий исключаются общеупотребимые слова, которые не несут самостоятельной смысловой нагрузки или имеют широкое значение. Так, слова “концепция” и “развитие” сами по себе не являются понятиями, но могут образовать понятие, выраженное сочетанием: “концепция развития сельского хозяйства”.

Таким образом, наши алгоритмы позволяют включать в число тем любые слова и их связные сочетания, например: “указ о снижении подоходного налога”, и даже имена собственные, если им посвящено содержание документа.

Ниже приведен рисунок с фрагментом семантической сети.


Рисунок 1. Фрагмент семантической сети, связанный с запросом "контрабанда наркотиков".


В рамках используемой нами лингвистической модели смысла текста каждое понятие предлагается рассматривать в качестве имени соответствующей темы.

Статистические данные о связях понятий в тексте, их распределении, позволяет оценить их вклад в общее содержание текста и, таким образом, ранжировать темы по информативности. В итоге каждой теме семантической сети присваивается т.н. тематический вес. Максимальное значение тематического веса (равное 100) соответствует ключевой (важнейшей) теме текста. Близкое к нулю значение веса темы показывает, что она лишь вскользь упомянута в тексте, и в нем мало сведений, относящихся к данной теме. Связи между парами тем, в свою очередь, также имеют характеристики — веса связей (от 0 до 100). Большое значение веса связи от одной темы к другой, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первой, касается в тоже время и второй темы — первая тема почти всегда излагается в контексте второй. Малое значение веса отражает тот факт, что первая тема слабо связана со второй (излагается независимо от нее). Связь между парой тем сети всегда двусторонняя, однако, связь от первой темы ко второй не всегда имеет тот же самый вес, что и обратная - от второй к первой. Такое различие в весах может указывать на то, что одна тема является подтемой другой.

Семантическая сеть представляет собой тематический индекс анализируемых текстов, который используется для поиска документов по теме, а также для расширения запроса ассоциативно связанными темами. По каждой из тем сети формируется набор связных фрагментов текста – цитат, относящихся к соответствующей теме, которые представляют тематическое резюме (реферат) текста. Кроме того, выполняется ранжирование этих фрагментов по весам (от 0 до 100), которые отражают их информативность для соответствующей темы. Общее резюме текста формируется из наиболее информативных фрагментов по ключевым темам документа. При разбиении текста на связанные по смыслу фрагменты используется лингвистический алгоритм выявления групп предложений, связанных общностью содержания – сверхфразовых единств. Кроме того, учитывается формальная разметка текста документа (например, для HTML-документов).

При анализе текста можно воспользоваться семантической сетью, построенной на базе других текстов (эталонных). Например, если по текстам определенной предметной области построена семантическая сеть, ее можно использовать для фильтрации информации из других текстов. В этом случае в текстах выявляются только те темы, которые содержатся в эталонной сети, и резюме строятся только по этим темам. Сравнение семантических сетей различных текстов позволяет установить степень их смысловой близости, что может использоваться для автоматической классификации документов по заданным рубрикам, поиска документов по подобию заданному тексту, а также кластеризации информационного массива на классы документов близкого содержания.

Продукты, использующие технологию:


RCO и UCO for Oracle


RCO и UCO Semantic Network





Статьи раздела:
Ассоциативно-статистический подход .
Синтактико-семантический подход.
RCO Fact Extractor SDK - новый пакет для анализа текста

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для IBM OmniFind.
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2009.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия