ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


НОВОСТИ

12.03.2008
Автоматизация государственного языка

"Автоматизация государственного языка"

Директор ООО "Текон" Коржов Евгений Иванович

Одно из наиболее требовательных к ресурсам направлений в автоматизации человеческой деятельности – обработка текстовой информации. Необходимость такой обработки вызвала бурный рост рынка приложений, использующих полнотекстовый поиск в хранилищах электронных документов и документ-ориентированных базах данных. Способствовало этому росту и развитие Internet/Intranet-технологий, систем документооборота.
Проблемы обработки текста
Необходимо отметить, что хранение и обработка текстовой информации порождает множество проблем, как «организационных» (например, массовое преобразование информации из одного вида в другой: запись стенограмм, распознавание текста и др.), так и «технологических». Последние во многом связаны с тем, что компьютеры изначально были ориентированы на обработку числовой информации, проведение инженерных расчетов для решения задач физики, химии, обороны, космоса. Соответственно, долгие годы большинство разрабатываемых алгоритмов имели «числовую» направленность. Позже компьютеры стали применять для решения «учетных» задач, что вызвало рост интереса к разработке несложных «текстовых» алгоритмов (сортировка, поиск в таблицах).
Современная деятельность человека становится все более информационно-ориентированной. Все чаще ему требуется найти не только конкретную, но и «похожую» информацию, найти связи (явные и скрытые) между различными фактами, определить правдивость или ложность сведений, выявить «качественные» тенденции, не выразимые в традиционных графиках и диаграммах. Такого рода задачи возникают в самых разных сферах человеческой деятельности, причем в ряде случаев (в здравоохранении, деятельности правоохранительных органов и органов государственного управления) на их решение может отводиться несколько минут и даже меньше.
Одними из самых распространенных инструментов для хранения и обработки информации являются решения компании Oracle, обладающие широкими «текстовыми» возможностями.
Текстовые возможности Oracle
Oracle Text позволяет хранить в СУБД Oracle наряду с «обычными» табличными данными документы и строить запросы как к этим документам, так и к информации, хранимой в файлах ОС или на Web-страницах.
Для реализации текстовых возможностей в СУБД Oracle используются индексы специального вида. В Oracle Text используются три вида «текстовых» индексов:
• для полнотекстового поиска по текстовым документам;
• для упрощенного и ускоренного поиска по «каталогам» (1-2 строчным текстовым описаниям);
• для построения «классификаций» документов.
Среди возможностей Oracle Text следует выделить:
• работу с документами, хранящимися в СУБД, в файловой системе и в Web;
• поддержку более 150 различных форматов документов;
• богатый язык поисковых запросов, включающий логические связки, поиск с учетом расстояний между словами, использование метасимволов и т.д.;
• мощные лингвистические опции (поиск с учетом словоформ, нечеткий поиск, расширение запросов при помощи тезауруса, тематический анализ, реферирование, классификация, кластерный анализ).
Текстовые возможности Oracle находят применение как в различных прикладных разработках, так и в ряде других продуктов корпорации:
• Oracle Ultra Search — средство для организации поиска по разнородным информационным ресурсам;
• Oracle Internet Application Server — средство создания Internet/Intranet-приложений (содержит портлет для поиска по документам и формам портала);
• Oracle Collaboration Suite — средство организации коллективной работы, включающее электронную и голосовую почту, средства публикации, календарь;
• Oracle Content Management SDK — средство управления документами различной природы с возможностью поддержания структуры каталогов, разграничением прав доступа, ведения версий документов.
Новейшая технология Oracle Secure Enterprise Search обеспечивает доступ пользователей к корпоративной и внешней информации, осуществляемый в соответствии с правами, которые установлены администратором по безопасности. При этом все источники информации защищены, а результаты поиска фильтруются таким образом, что пользователю становятся видны только ссылки на разрешенные ему для просмотра ресурсы.
Все вроде бы хорошо. Но есть одна проблема — многие из перечисленных возможностей работают только для текстов на английском и нескольких других иностранных языках. Для украинского и русского языков Oracle Text реализует только базовые поисковые возможности. Соответственно, ограничены и возможности других продуктов Oracle, поскольку они не задействуют лингвистические технологии, которые зависят от лексики, грамматики и семантики языка.
Решение проблем
Для преодоления указанного недостатка фирмой «Текон» совместно с ее партнерами — «Гарант-Парк-Интернет» (Россия) и «Трайдент Софтвер» (Украина) — был создан продукт Ukrainian Context Optimizer (UCO). В нем использованы технологии и алгоритмы, которые прошли проверку на практике и успешно работают в самых разных отраслях.
UCO for Oracle позволяет значительно расширить возможности Oracle в украиноязычных базах данных и документов. Этот продукт решает проблему полноценной реализации для украинского языка всех существующих функций Oracle Text:
• поиск документов с учетом всех грамматических форм слов запроса;
• поиск слов, близких по написанию; нечеткий поиск;
• расширение запроса синонимами, более общими и более частными понятиями (на основе тезауруса общей лексики украинского языка);
• поиск документов по ключевым темам, которые автоматически выделяются при индексировании;
• выявление смысловых связей между темами документов, что позволяет расширять или уточнять запрос близкими по смыслу темами;
• составление общих и тематических рефератов документов;
• автоматическое построение иерархических рубрикаторов, классификация документов по рубрикам;
• поддержка всех кодовых страниц украинского языка.
Интеграция с технологиями и продуктами Oracle. В UCO есть возможность интеграции с существующими приложениями, использующими Oracle Text, что позволяет расширить их функциональные возможности. Учет особенностей украинского языка, реализованный в UCO, значительно упрощает поиск и обработку документов при помощи продуктов Oracle (Ultra Search, Collaboration Suite, Internet Application Server, Content Mamagement SDK). Разработчики различных решений на базе технологий Oracle, связанных с обработкой текста (например, электронных архивов, систем управления знаниями и систем управления документооборотом), смогут при помощи UCO более полно реализовать возможности поиска и обработки информации.
Интеграция корпоративных архивов. По оценкам экспертов, до 90% объема корпоративной информации представлено в виде текста. Oracle Ultra Search совместно с UCO позволяет объединить все корпоративные ресурсы в единое информационное пространство.
Аналитические возможности. Алгоритмы анализа текста и лингвистическое обеспечение, входящие в UCO, позволяют не только искать документы, но и проводить их аналитическую обработку: маршрутизацию и классификацию потока документов (например, ленты новостей, электронной почты), представление тематической структуры исследуемого массива информации, представление динамики изменения тематического поля вокруг интересующего объекта, выявление ассоциативных связей между темами/объектами.

Журнал "Computerworld Украина" №10 от 11 марта 2008г.



Все новости

Технологии RCO на Украине [25.04.2008]

Статья диретора компании "Текон" Коржова Е.И. "Корпоративная информация: особенности поиска" опубликованная в журнале "Копоративные системы" №2/2008г. [10.04.2008]

Статья "Украинизация лингвистических возможностей ORACLE" [10.04.2008]

Автоматизация государственного языка [12.03.2008]

Решения RCO внедрены в новостной агрегатор CNews Дайджест. [31.01.2008]

RCO Fact Extractor SDK - новый пакет для анализа текста [30.10.2007]

Технологии RCO в новой системе для поиска данных в корпоративной информационной среде - ROSES [16.10.2007]

ФОРС выводит на рынок РФ поисковую систему для корпоративных сетей [15.10.2007]

Компания "Текон" зарегистрировала торговый знак "UCO". [17.08.2007]

Участие в конференции Диалог'2007 "Компьютерная лингвистика и интеллектуальные технологии" [06.06.2007]

Russian Context Optimizer - RCO. [25.04.2007]

Открыт английский сайт RCO. [19.03.2007]

RCO представляет последние разработки на CEBIT'2007 [14.03.2007]

RCO Fact Extractor "завалил" серебряного ЗУБРа! [02.03.2007]

Новые версии RCO Semantic Entity Extractor SDK и RCO Fact Extractor SDK. [19.10.2006]

Статья "Технологии извлечения знаний из текста". [18.09.2006]

Статья "Мост между мирами" [09.08.2006]

Выход очередной версии UCO для Оракл (Oracle). [21.04.2006]

Обновлен ассортимент программных продуктов RCO и политика их лицензирования [05.12.2005]

RCO for BackOffice дополнен инструментарием для разработчиков информационно-поисковых систем [28.09.2005]

Для ТНК-ВР создан и запущен в эксплуатацию новый двуязычный интранет-сайт проекта по реинжинирингу системы снабжения (SPR). [15.08.2005]

Участие наших партнеров Гарант-Парк_интернет в Международной конференции Диалог [16.06.2005]

GTRF.ru: записи общей продолжительностью 15 лет [05.05.2005]

Группа ИСТ ЛАЙН использует интранет-технологии для формирования корпоративной культуры [05.05.2005]

На сайте наших партнеров "Гарант-Парк-Интернет" обновлен раздел "Технологии" [05.04.2005]

Доклад "Текон" - Технологии анализа и поиска текстовой информации. Ukraine Context Optimizer для платформы Windows & Linux. [22.02.2005]

Участие "Текон" в семинаре для разработчиков программного обеспечения на базе технологий Oracle. [15.02.2005]

19-20 января 2005 специалисты компании "Гарант-Парк-Интернет" приняли участие в 3-ей конференции "Конкурентная разведка в металлургии", проходившей в Москве в гостинице «Балчуг Кемпински». [28.01.2005]

Программа для поиска фактов в тексте RCO Fact Extractor 1.0 [12.01.2005]

Новый генератор отчетов для корпоративных хранилищ текстовой информации масштаба предприятия. [16.11.2004]

Веб-сервис в приложениях Microsoft Office 2003. [09.11.2004]

Online-заказы на продукты RCO. [04.11.2004]

Открытие первого этапа проекта. [27.10.2004]

“Гарант-Парк-Интернет” приняла участие в семинаре по оценке методов информационного поиска РОМИП'2004 [07.10.2004]

Aladdin и «Гарант-Парк-Интернет»: новое партнерство, новые перспективы [04.10.2004]

Oracle буде «розмовляти» українською. [20.09.2004]

Программный продукт RCO for Backoffice исправляет ошибки Microsoft [17.09.2004]

Библиотека анализа текста RCO Semantic Network 3.0 – инструмент для компьютерной разведки [17.09.2004]

Гарант-Парк-Интернет и TECON продвигают поисковые технологии RCO® в Украине. [12.09.2004]







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия