ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Инструментарий разработчика

RCO Morphology - библиотека морфологического анализа текста

Библиотека RCO Morphology предназначена для морфологического анализа слов русского языка и позволяет решать следующие задачи:

определять все грамматические характеристики словоформ (часть речи, падеж, спряжение и т.п.) и лексико-семантические разряды (имя, отчество, фамилия, наименование организации, географическое название);
приводить различные грамматические формы слова к нормальной форме;
получать все грамматические формы слова;
проверять орфографию.
Библиотека включает в себя:

точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
высоко достоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.

Разработанный подход к описанию морфологической системы языка использует обучение на примерах словоизменения, в ходе которого автоматически выделяются окончания, основы, суффиксы, и строятся модели, описывающие изменение различных классов слов.
Такие алгоритмы допускают простую настройку морфологического модуля практически на любой язык флективного типа.


Объем бинарного словаря - 3 МБайта.
Скорость морфологического анализа – более 100 тысяч слов в секунду (Процессор AMD Athlon, 1000 МГц).
Продукт поставляется в виде динамической библиотеки (dll) для Windows.

Место RCO Morphology в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.


Специфика предметной области, в которой работают приложения информационного поиска, может потребовать пополнения словаря новой лексикой. С этой целью можно дополнительно приобрести словарь морфологического анализа в текстовом виде вместе со средствами его автоматизированного пополнения и сборки.









Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия