|
|
|
ИНФОРМАЦИЯ О ТЕХНОЛОГИИ
Информационный раздел Технологии информационного поиска
Нечеткий поиск.Технология нечеткого поиска позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск. Оригинальный алгоритм способен найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками символов.
Нечеткий поиск целесообразно применять при поиске слов с опечатками, а также в тех случаях, когда возникают сомнения в правильном написании - фамилии, названия организации и т.п. Например, запрос "инкомбанк" может быть расширен словами: "инкомбан", "инкобанки", "винкомбанке". А если пользователь забыл точное название медицинского препарата "ипрониазид", то можно задать что-нибудь похожее, например "импронизид" – нужные документы будут найдены.
Уникальные алгоритмы, используемые при реализации нечеткого поиска, основаны на особой системе ассоциативного доступа к словам, содержащимся в текстовом индексе полнотекстового хранилища документов. В качестве единиц поиска используются цепочки составляющих слово букв. Для ускорения поиска предварительно создается специальный индекс, содержащий фрагменты слов со ссылками на слова, в которых эти фрагменты встретились. Алгоритм поиска позволяет быстро отобрать все слова, фрагменты которых совпадают с фрагментами слова в запросе, лежащие в заданной окрестности допустимых искажений. Задавая размер этой окрестности (процент отличающихся фрагментов и допустимые смещения их позиций в слове), можно легко регулировать точность и полноту поиска — отбирать слова по степени близости к запросу.
Скорость поиска пропорциональна логарифму от числа индексируемых слов и составляет менее одной секунды при индексе в несколько миллионов слов (такой полнотекстовый индекс соответствует нескольким гигабайтам полнотекстовых документов).
Продукты, использующие технологию:
RCO for Oracle
RCO КАОТ
Статьи раздела:
Нечеткий поиск.
Тематический поиск
Фактографический поиск.
|
|
|