ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Поиск для microsoft

RCO и UCO for BackOffice.

RCO и UCO for BackOffice позволяет осуществлять полнотекстовый поиск с учетом словоформ русского языка в следующих приложениях Microsoft:

Indexing Service 3.0 for Microsoft Windows®,
Microsoft SharePoint™ Portal Server ,
Microsoft SQL Server™ 2005,
Microsoft Exchange Server 2007.
Учет специфики языка позволяет при построении индекса корректно определять границы слов и использовать список стоп-слов, что повышает точность поиска, а также при поиске расширять слова запроса всеми словоформами, что повышает полноту результатов поиска.

Кроме того, на MS SQL Server 2005 облегчается администрирование полнотекстовых каталогов для документов на русском и украинском языках.

Преимущества

RCO и UCO for BackOffice помогает быстро найти требуемую информацию в корпоративных архивах.

В общих папках Exchange Server часто хранится информация о проектной деятельности компании в виде сообщений электронной почты и вложений в виде документов в различных форматах MS Office. После установки RCO и UCO for BackOffice, сотрудники компании смогут посредством опции «Расширенный поиск» Microsoft Outlook эффективно искать нужную информацию, используя накопленный компанией опыт при принятии решений.

Если в вашей организации используется SharePoint Portal Server, использование RCO и UCO for BackOffice значительно повысит качество поиска в среде интранет. Никаких дополнительных настроек при этом не потребуется - просто установите RCO или UCO и почувствуйте разницу

RCO и UCO for BackOffice повышает качество услуг, оказываемых потребителю.

Поиск по web-сайту вашей компании, по вашему интернет-магазину, работающий на основе Indexing Service или SQL Server, может быть значительно улучшен при помощи RCO и UCO for Backoffice. Посетитель вашего сайта быстрее найдет нужную информацию или товар.

RCO и UCO for BackOffice дает конкурентные преимущества вашему программному продукту.

Если вы являетесь поставщиком решений в области организации электронных архивов или систем управления документооборотом на базе технологий Microsoft, добавление в ваше решение функциональности RCO и UCO поможет вам опередить конкурентов.

RCO и UCO for BackOffice прост и удобен в лицензировании.

Лицензирование не по числу пользователей, а по числу процессоров на сервере. При этом различается всего три случая: один процессор, два и более процессоров, кластер.

Технические подробности

Практически все серверные приложения MS BackOffice используют технологию Microsoft full-text Search для организации полнотекстового поиска по массивам документов.

Ключевыми моментами данной технологии являются:

работа с различными типами хранилищ документов,
работа с различными форматами документов,
поддержание поискового индекса для быстрого выполнения запросов,
ранжирование списков найденных документов по релевантности,
учет специфики языка при выполнении поисковых запросов.
RCO и UCO for BackOffice добавляет в систему компоненты, отвечающие за учет морфологии русского и украинского языков при построении индексов и обработке поисковых запросов. Стыковка компонент с системой является «бесшовной» - компоненты поддержки русского языка выполнены в соответствии со спецификациями Microsoft и работают наравне с другими языковыми компонентами, входящими в стандартную поставку Microsoft Windows 2003 - 2008.

Таким образом, поиск с учетом словоформ русского языка может осуществляться с использованием всех преимуществ Microsoft full-text Search, а именно:

множество форматов (все форматы MS Office, PDF, HTML, XML),
множество типов хранилищ (web-сайты, каталоги файловой системы, таблицы баз данных, папки MS Exchange),
возможность подключения новых форматов и новых типов хранилищ.
Более подробную информацию о технологии Microsoft full-text Search можно найти на сайте Microsoft по адресу http://www.microsoft.com/sharepoint/techinfo/planning/fullsearch.asp.

RCO и UCO состоят из четырех компонент:

компонента морфологического анализа,
компонента разбора текста,
словарь стоп-слов,
компонента расширения MS SQL Full-Text Indexing Wizard.
Компонента морфологического анализа осуществляет как словарный, так и бессловарный анализ слов русского языка. Морфологический словарь RCO и UCO включает более 110 тысяч слов русского и украинского языков, что соответствует 2,5 миллионам различных словоформ. Алгоритмы бессловарного анализа позволяют с высокой степенью точности распознавать слова русского и украинского языков, не вошедшие в словарь.

Скорость работы модуля морфологического анализа в режиме расширения слов запроса всеми словоформами на машине с CPU 1.3GHz составляет около 17 тысяч слов в секунду, что более чем достаточно для любой прикладной задачи.

Для настройки на заданную предметную область можно отдельно приобрести пакет актуализации морфологического словаря. В пакет входят исходные тексты словаря, утилита сборки и верификации, а также приложения, автоматизирующие процесс пополнения словаря.

Компонента разбора текста используется в процессе построения индекса и служит для определения границ слов, предложений и параграфов в тексте. При этом осуществляется учет переносов и вариаций написания слов с использованием дефиса.

Редактирование списка стоп-слов осуществляется при помощи MS Word или другого текстового процессора со встроенной поддержкой Unicode. Стоп-слова не включаются в индекс, и поиск по ним не производится. При редактировании возможно как добавление новых стоп-слов, так и удаление из списка тех, что являются значимыми для заданной предметной области.

Специально для SQL Server 2005, где администрирование полнотекстовых индексов может осуществляться посредством пользовательского интерфейса консоли управления Enterprise Manager, RCO и UCO добавляют русский и украинский языки в список доступных языков в мастере Full-Text Indexing Wizard. Администратор теперь может управлять полнотекстовыми каталогами без использования Transact SQL.

Инсталлятор RCO и UCO построен в виде пакета Microsoft Installer, в который собраны модули Merge Module для каждой из ключевых компонент продукта. Это значительно облегчает встраивание RCO и UCO в продукты сторонних производителей и позволяет избежать конфликтов при установке нескольких продуктов, в которые встроены отдельные компоненты RCO и UCO.






Статьи раздела:
RCO и UCO for BackOffice.

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия