ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Технологии информационного поиска

Нечеткий поиск.

Технология нечеткого поиска позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск. Оригинальный алгоритм способен найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками символов.

Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании - фамилии, названия организации и т.п. Например, запрос "инкомбанк" может быть расширен словами: "инкомбан", "инкобанки", "винкомбанке". А если пользователь забыл точное название медицинского препарата "ипрониазид", то можно задать что-нибудь похожее, например "импронизид" – нужные документы будут найдены.

Уникальные алгоритмы, используемые при реализации нечеткого поиска, основаны на особой системе ассоциативного доступа к словам, содержащимся в текстовом индексе полнотекстового хранилища документов. В качестве единиц поиска используются цепочки составляющих слово букв. Для ускорения поиска предварительно создается специальный индекс, содержащий фрагменты слов со ссылками на слова, в которых эти фрагменты встретились. Алгоритм поиска позволяет быстро отобрать все слова, фрагменты которых совпадают с фрагментами слова в запросе, лежащие в заданной окрестности допустимых искажений. Задавая размер этой окрестности (процент отличающихся фрагментов и допустимые смещения их позиций в слове), можно легко регулировать точность и полноту поиска — отбирать слова по степени близости к запросу.

Скорость поиска пропорциональна логарифму от числа индексируемых слов и составляет менее одной секунды при индексе в несколько миллионов слов (такой полнотекстовый индекс соответствует нескольким гигабайтам полнотекстовых документов).

Продукты, использующие технологию:


RCO for Oracle


RCO КАОТ








Статьи раздела:
Нечеткий поиск.
Тематический поиск
Фактографический поиск.

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия