|
|
|
ИНФОРМАЦИЯ О ТЕХНОЛОГИИ
Информационный раздел Инструментарий разработчика
RCO Morphology - библиотека морфологического анализа текстаБиблиотека RCO Morphology предназначена для морфологического анализа слов русского языка и позволяет решать следующие задачи:
определять все грамматические характеристики словоформ (часть речи, падеж, спряжение и т.п.) и лексико-семантические разряды (имя, отчество, фамилия, наименование организации, географическое название);
приводить различные грамматические формы слова к нормальной форме;
получать все грамматические формы слова;
проверять орфографию.
Библиотека включает в себя:
точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
высоко достоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.
Разработанный подход к описанию морфологической системы языка использует обучение на примерах словоизменения, в ходе которого автоматически выделяются окончания, основы, суффиксы, и строятся модели, описывающие изменение различных классов слов.
Такие алгоритмы допускают простую настройку морфологического модуля практически на любой язык флективного типа.
Объем бинарного словаря - 3 МБайта.
Скорость морфологического анализа – более 100 тысяч слов в секунду (Процессор AMD Athlon, 1000 МГц).
Продукт поставляется в виде динамической библиотеки (dll) для Windows.
Место RCO Morphology в стеке продуктов раздела "Инструментарий разработчика" отражено на этой схеме.
Специфика предметной области, в которой работают приложения информационного поиска, может потребовать пополнения словаря новой лексикой. С этой целью можно дополнительно приобрести словарь морфологического анализа в текстовом виде вместе со средствами его автоматизированного пополнения и сборки.
Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK
|
|
|