ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Инструментарий разработчика

RCO Entity Extractor SDK

RCO Entity Extractor SDK библиотека выделения сущностей в тексте.
Библиотека предназначена для анализа содержания русского текста и выделения различных сущностей, упомянутых в нем. Библиотека включает в себя все возможности продукта RCO Pattern Extractor для выделения особых конструкций в соответствии с образцами плюс возможности выделения и отождествления именованных сущностей.
Сущности, упоминаемые в тексте и выделяемые средствами библиотеки, можно разделить на два класса:

1. Именованные сущности – персоны, организации, географические объекты и прочие объекты, обозначаемые в тексте с использованием имен собственных. Для определения имен собственных и приведения их к нормальной форме используются алгоритмы словарного и бессловарного морфологического анализа, информация о возможных способах написания названий в русском языке, алгоритмы синтаксического анализа и снятия омонимии, алгоритмы установления корефрентности обозначений. Например, программа понимает, что Ковдроский, Костомукшинский и Оленегорский ГОКи – это три разных предприятия. Программа также может отождествить такие обозначения одной сущности, например Иван Иванович Иванов, Иванов, Иван Иванович и др. Дополнительно для высокоточной обработки обозначений заранее известных персон и организаций в библиотеке предусмотрена возможность подключения их детализированных описаний.
2. Специальные объекты – сущности, обозначаемые в тексте конструкциями особого вида, обычно смешанными из цифр и символов: даты и обстоятельства времени, денежные суммы. Такие объекты распознаются благодаря формальным правилам, написанным на особом языке. Пользователь библиотеки имеет возможность добавлять свои правила для распознавания новых типов объектов, например, номеров автомобилей.
Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.







Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия