ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Инструментарий разработчика

RCO Semantic Network - библиотека статистического анализа текста

Средства библиотеки RCO Semantic Network позволяют автоматически анализировать содержание текстовых документов, представляя его в форме ассоциативной семантической сети.
Место RCO Semantic Network в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.

Ассоциативная семантическая сеть представляет собой ориентированный граф, вершинами которого служат значимые темы, выделенные в анализируемом тексте, а дугами – связи между ними. С каждой вершиной связаны вес (значимость) и частота упоминания темы, а с каждой дугой – вес (сила) связи и частота подкрепления связи в тексте.

Для выделения тем используются уникальные и очень сложные алгоритмы синтактико-семантического анализа текста, выделения и отождествления особых сложных объектов (наименований персон, организаций, георгафических объектов), прочие лингвистические технологии. Например, программа понимает, что “Ковдроский, Костомукшинский и Оленегорский ГОКи” – это три разных предприятия, и сможет отождествить различные обозначения одного и того же предприятия в тексте, например ООО “Ковдроский горно-обогатительный комбинат”, “ГОК”, “горно-обогатительный комбинат”, “предприятие”.

Для окончательной обработки результатов можно использовать тезаурус, который отождествляет синонимы и приводит слова к обобщающим понятиям-темам, а также фильтрует общеупотребимую лексику из числа тем. Так, словам “российский”, “россиянин” и “Российская федерация” будет соответствовать тема “Россия”, а слова “концепция” и “развитие”, обладающие общим значением, не выделятся в качестве отдельных тем, но могут образовать тему в сочетании с другими словами, например “концепция развития сельского хозяйства”.

Помимо частоты упоминания в тексте, каждой теме присваивается вес от 1 до 100, отражающий ее значимость по отношению к другим темам. Пользователь может задать минимальный порог по весу, ниже которого темы не включаются в семантическую сеть.

Ассоциативные связи между темами выделяются на основе частоты их совместного появления в одном предложении. Пользователь может задать минимальный порог по частоте, ниже которого связи отбрасываются. В конечном представлении связь преобразуется в две противоположные по направленности дуги графа, которым присваиваются веса от 1 до 100, которые отражают условную вероятность упоминания первой темы совместно со второй – силу связи.

Дополнительно на каждую тему выдается тематический реферат, представляющий наиболее информативные фрагменты текста, в которых данная тема упоминалась. Общий реферат текста представляет компиляцию наиболее информативных фрагментов по ключевым темам. Подробность реферирования может настраиваться пользователем.

Семантические сети отдельных документов могут объединяться в единую сеть, отражающую связи тем в целом информационного массива, для чего в библиотеке предусмотрена соответствующая функция.








Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия