|
|
|
ИНФОРМАЦИЯ О ТЕХНОЛОГИИ
Информационный раздел Инструментарий разработчика
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.Поисковый тезаурус предназначен для расширения запросов к тексту близкими по смыслу словами, что обеспечивает высокую полноту поиска в информационно-поисковых системах.
Используемый в библиотеке тезаурус русского языка позволяет описать два типа семантических отношений между словами и словосочетаниями: синонимические и гипонимические (общее-частное). Тезаурус представляет одноуровневую иерархию, в которой лексические единицы (или целые синонимические ряды) объединяются в обобщающие понятия - гиперонимы. Все синонимичные слова, объединенные под одним обобщающим понятием, носят назание гипонимы.
Так, глаголы “красть”, “украсть”, “воровать”, ... являются синонимами и образуют один синонимический ряд, существительные “вор”, “воришка”, “воровка”, “жулик”, … образуют другой синонимический ряд, а существительные “воровство”, “кража”, “татьба” – третий. При этом все три синонимических ряда объединяются под одним обобщающим гиперонимом – “воровство”, и все входящие в эти ряды слова являются гипонимами.
Для любой строки (слова, словосочетания, фрагмента текста) средства библиотеки позволяют получить следующие семантически близкие варианты:
Множество строк, в которых все слова и словосочетания заменены всеми возможными синонимами, во всех возможных комбинациях. Например, по строке “кражи в Российской Федерации” можно получить следующее множество синонимичных строк для расширения запроса к поисковой системе: КРАЖА РФ, КРАЖА РОССИЙСКАЯ ФЕДЕРАЦИЯ, КРАЖА РОССИЯ, ВОРОВСТВО РФ, ВОРОВСТВО РОССИЙСКАЯ ФЕДЕРАЦИЯ, ВОРОВСТВО РОССИЯ, ТАТЬБА РФ, ТАТЬБА РОССИЙСКАЯ ФЕДЕРАЦИЯ, ТАТЬБА РОССИЯ;
Множество строк, в которых все слова и словосочетания заменены всеми возможными гипонимами, во всех возможных комбинациях. Например, по строке “российская наука” можно получить 36 близких по смыслу строк, образованных в результате комбинирования всех гипонимов слова “российский” (РОССИЯ, РФ, РОССИЙСКАЯ ФЕДЕРАЦИЯ, РОССИЯНИН, РОССИЯНКА, РОССИЙСКИЙ, ВСЕРОССИЙСКИЙ, ОБЩЕРОССИЙСКИЙ, ВЕЛИКОРОССИЙСКИЙ) и всех гипонимов слова “наука” (НАУЧНЫЙ, НАУЧНОСТЬ, НАУКОЕМКИЙ, НАУКА);
Главный синонимом, общий для всех членов синонимического ряда, либо гипероним - обобщающее понятие для всех синонимов и гипонимов. Например, для слов “украсть”, “красть”, “стырить”, “слямзить” можно получить их главный общий синоним “воровать” и общий гипероним “воровство”.
В состав библиотеки входит морфологический анализатор русского языка со словарем более 110 тысяч слов, поэтому слова запроса могут быть заданы в любых грамматических формах.
Дополнительно в состав тезауруса входят словари стоп-слов, которые позволяют исключать из обрабатываемого текста семантически малозначимые слова, например: “некоторый”, “будто”, “по”, “пять” и т.п.
Основу библиотеки составляет тезаурус общей лексики русского языка, в который вошло около 75 тысяч слов и словосочетаний, объединенных в 22 тысячи гипонимических рядов (22 тысячи гиперонимов), в том числе 17 тысяч синонимических рядов, охватывающих 45 тысяч слов. Стоп-словари содержат около 3-х тысяч слов.
Специфика предметной области, в которой работают приложения информационного поиска, может потребовать расширения и настройки лингвистического обеспечения, используемого библиотекой. С этой целью можно дополнительно приобрести словарь морфологического анализа и тезаурус в текстовом виде вместе со средствами их верификации и сборки.
Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK
|
|
|