ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Инструментарий разработчика

RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.

Поисковый тезаурус предназначен для расширения запросов к тексту близкими по смыслу словами, что обеспечивает высокую полноту поиска в информационно-поисковых системах.
Используемый в библиотеке тезаурус русского языка позволяет описать два типа семантических отношений между словами и словосочетаниями: синонимические и гипонимические (общее-частное). Тезаурус представляет одноуровневую иерархию, в которой лексические единицы (или целые синонимические ряды) объединяются в обобщающие понятия - гиперонимы. Все синонимичные слова, объединенные под одним обобщающим понятием, носят назание гипонимы.
Так, глаголы “красть”, “украсть”, “воровать”, ... являются синонимами и образуют один синонимический ряд, существительные “вор”, “воришка”, “воровка”, “жулик”, … образуют другой синонимический ряд, а существительные “воровство”, “кража”, “татьба” – третий. При этом все три синонимических ряда объединяются под одним обобщающим гиперонимом – “воровство”, и все входящие в эти ряды слова являются гипонимами.


Для любой строки (слова, словосочетания, фрагмента текста) средства библиотеки позволяют получить следующие семантически близкие варианты:

Множество строк, в которых все слова и словосочетания заменены всеми возможными синонимами, во всех возможных комбинациях. Например, по строке “кражи в Российской Федерации” можно получить следующее множество синонимичных строк для расширения запроса к поисковой системе: КРАЖА РФ, КРАЖА РОССИЙСКАЯ ФЕДЕРАЦИЯ, КРАЖА РОССИЯ, ВОРОВСТВО РФ, ВОРОВСТВО РОССИЙСКАЯ ФЕДЕРАЦИЯ, ВОРОВСТВО РОССИЯ, ТАТЬБА РФ, ТАТЬБА РОССИЙСКАЯ ФЕДЕРАЦИЯ, ТАТЬБА РОССИЯ;
Множество строк, в которых все слова и словосочетания заменены всеми возможными гипонимами, во всех возможных комбинациях. Например, по строке “российская наука” можно получить 36 близких по смыслу строк, образованных в результате комбинирования всех гипонимов слова “российский” (РОССИЯ, РФ, РОССИЙСКАЯ ФЕДЕРАЦИЯ, РОССИЯНИН, РОССИЯНКА, РОССИЙСКИЙ, ВСЕРОССИЙСКИЙ, ОБЩЕРОССИЙСКИЙ, ВЕЛИКОРОССИЙСКИЙ) и всех гипонимов слова “наука” (НАУЧНЫЙ, НАУЧНОСТЬ, НАУКОЕМКИЙ, НАУКА);
Главный синонимом, общий для всех членов синонимического ряда, либо гипероним - обобщающее понятие для всех синонимов и гипонимов. Например, для слов “украсть”, “красть”, “стырить”, “слямзить” можно получить их главный общий синоним “воровать” и общий гипероним “воровство”.

В состав библиотеки входит морфологический анализатор русского языка со словарем более 110 тысяч слов, поэтому слова запроса могут быть заданы в любых грамматических формах.
Дополнительно в состав тезауруса входят словари стоп-слов, которые позволяют исключать из обрабатываемого текста семантически малозначимые слова, например: “некоторый”, “будто”, “по”, “пять” и т.п.


Основу библиотеки составляет тезаурус общей лексики русского языка, в который вошло около 75 тысяч слов и словосочетаний, объединенных в 22 тысячи гипонимических рядов (22 тысячи гиперонимов), в том числе 17 тысяч синонимических рядов, охватывающих 45 тысяч слов. Стоп-словари содержат около 3-х тысяч слов.


Специфика предметной области, в которой работают приложения информационного поиска, может потребовать расширения и настройки лингвистического обеспечения, используемого библиотекой. С этой целью можно дополнительно приобрести словарь морфологического анализа и тезаурус в текстовом виде вместе со средствами их верификации и сборки.







Статьи раздела:
RCO Morphology - библиотека морфологического анализа текста
RCO Thesaurus Search - библиотека работы с поисковым тезаурусом.
RCO Syntactic Engine - библиотека синтаксического анализа текста
RCO Semantic Network - библиотека статистического анализа текста
RCO Pattern Extractor - библиотека выделения объектов в тексте
RCO TopTree - библиотека автоматического рубрицирования
RCO Entity Extractor SDK
RCO Semantic Entity Extractor SDK

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия