
Российская компания ЭР СИ О, специализирующаяся на разработке компьютерных программ для анализа текстовой информации, объявляет о выходе новых продуктов. Пять новых программных пакетов представляют собой инструментарий разработчика, который позволяет решать ряд типовых задач, возникающих при создании информационно-поисковых и информационно-аналитических систем.
Первый из новых представленных программных пакетов — RCO Deduplicator SDK — предназначен для создания программного обеспечения, устраняющего информационные дубли документов.
Второй программный пакет — RCO Block Parser SDK — обеспечивает автоматическую идентификацию типов входных документов, их разбор на блоки и извлечение информации в соответствии с заданными шаблонами.
Третий пакет — RCO TopExtractor SDK — предназначен для построения информационного портрета текста в виде набора значимых терминов, общего реферата, рефератов по каждому термину и сети ассоциативных связей между терминами.
Четвертый пакет — RCO Glossary Maker — обеспечивает автоматическое построение словарей терминов по коллекции текстов.
Завершает ряд пятый пакет RCO Law Reference Extractor SDK, предназначенный для выявления упоминаний нормативно-правовых актов в анализируемом тексте в виде строки атрибутов.
Все представленные продукты являются расширениями программы RCO Fact Extractor SDK — комплексного инструмента для разработки информационно-поисковых и аналитических систем, требующих лингвистического анализа текста на русском языке. RCO Fact Extractor SDK выполняет синтактико-семантический разбор русского текста, выделяет различные классы упомянутых в тексте сущностей и строит сеть отношений, связывающих эти сущности, а также обеспечивает семантическую интерпретацию результатов разбора текста в соответствии с заданными моделями.
Все, перечисленные выше продукты, предназначены для обработки текстовой информации на русском и украинском языках. Украинская версия разрабатывается и сопровождается при участии специалистов компании Текон - эксклюзивного представителя ЭР СИ О в Украине.
Подробные описания продуктов представлены на сайте: http://www.rco.ru/product.asp
UOSES: «правовой» доступ к информации в корпорацииВероятность нахождения при помощи поисковых средств Интернета полезной для бизнеса информации оценивается экспертами в 1,5-2 %. В то же время информация, накопленная внутри компании, соответствует поставленным целям на 70 % и более. Тем не менее, ее часто игнорируют или просто не могут правильно использовать.
Как правило, ко всем средствам поиска бизнес-информации (обычно текстовой) предъявляют несколько «стандартных» требований:
Для руководства организации есть еще один важный момент — информацию можно показывать только тем, у кого есть права на ее просмотр.
Проблемы, затрудняющие корпоративный поиск Недооценка. Локальные средства поиска могут на какое-то время создать иллюзию доступности и достаточности информации. Однако при достижении порогового значения объема информации — индивидуального для каждой организации — эта иллюзия быстро разрушается. Трудности организации «повсеместного поиска». Информационные ресурсы организации состоят из документов и файлов, созданных в самых разных приложениях и хранимых в хранилищах данных, СУБД, почтовых серверах и др. Проблемы безопасности. Кроме традиционного обеспечения безопасности информации от внешних покушений, требуется жесткое разграничение доступа к ней внутренних пользователей. Помимо того, в ряде компаний доступ в Интернет ограничен, а привлекать внешние ресурсы бывает необходимо.
Неразвитость соответствующего рынка поисковых продуктов. Если ПО для автоматизации других категорий широко представляется на выставках, и пользователи достаточно хорошо ознакомлены с характеристиками продуктов Высокая стоимость и длительные сроки внедрения. Проекты внедрения в организации обычно «индивидуальны», длятся по несколько месяцев, требуя от заказчика постоянного контроля и ресурсов, а к моменту ввода в строй успевают «морально устареть». Затраты на такие проекты нередко составляют несколько сотен тысяч долларов. Как правило, требуется дополнительное обучение сотрудников.
Решение проблем Быстрый и точный поиск. Обычно это несовместимые характеристики, однако в UOSES достигнут их баланс. Скорость поиска обеспечивается развитыми технологиями Oracle. Точность и полноту поиска обеспечивает специальный модуль морфологии, учитывающий особенности украинского языка. Поиск по любым источникам данных. На сегодняшний день полностью поддерживаются базы данных SQL, веб-сайты, серверы электронной почты. Обеспечена поддержка более 200 форматов документов (в том числе обычный текст, html, pdf, rtf, xml, doc, xls, ppt, vsd, zip и др.). Безопасность — ключевой фактор. UOSES интегрируется с корпоративными службами каталогов, позволяет персонально настраивать правила, определяющие полномочия пользователей, дает возможность ограничить или полностью исключить доступ в Интернет за счет индексирования и кэширования содержания внешних ресурсов. Результаты поиска выдаются согласно правам пользователя на документы. Все пользователи могут искать только в публичных документах, после авторизации пользователь может находить также другие документы, на которые у него есть права. Есть возможность оперативного учета изменения статуса доступа пользователя и организации единого подключения пользователя (single-signon, SSO). Масштабирование и расширение. Существует два традиционных способа, используемых при корпоративном поиске:
Oracle SES поддерживает оба способа, что позволяет UOSES строить распределенные масштабируемые системы: при появлении новой группы источников данных (например, еще одной компании в корпорации) достаточно развернуть дополнительный поисковый сервер. Срок внедрения — три дня. UOSES поставляется как готовое решение, в его состав входит полный комплект лицензий на программные продукты компаний Oracle и UCO и полностью сконфигурированный и оттестированный стандартный сервер с двумя двухъядерными процессорами, обеспечивающий поддержку индексной базы данных объемом до 10 Тбайт. По сути, вся процедура внедрения комплекса состоит из нескольких шагов:
Кроме того, потребуется настроить индексируемые источники: файловые архивы, системы документооборота, серверы электронной почты, веб-сайты, корпоративные порталы, таблицы БД (эти настройки придется делать регулярно — по мере расширения и уточнения запросов пользователей).
Рецепт: UOSES = Oracle SES + UCO
Oracle Secure Enterprise Search. Новейшая технология Oracle SES обеспечивает доступ пользователей к корпоративной и внешней информации строго в соответствии с правами, установленными администратором по безопасности. Все источники информации защищены, а результаты поиска фильтруются таким образом, что пользователю видны только ссылки на разрешенные ему ресурсы. Oracle SES состоит из следующих компонентов (см. рисунок):
SES может стать важным звеном в обеспечении интеграции и доступа ко всем корпоративным приложениям и источникам данных. Пользователь может обращаться к поисковым средствам как с Интранет-сайта, так и непосредственно из приложения. Обеспечивается вывод на один экран информации из разных модулей, причем без необходимости предварительного захода на каждый из них в отдельности. К источникам информации, стандартно поддерживаемым SES, относятся:
Возможно создание коннекторов и к другим приложениям. Также обеспечивается взаимодействие с любыми источниками информации, использующими структуру хранения NTFS (Windows NT File System) для Windows и UNIX, и с любыми базами данных, поддерживающими JDBC. Ukrainian Content Optimizer. Поскольку «штатные» поисковые средства Oracle недостаточно эффективны при работе с текстами на восточноевропейских языках, то для обеспечения учета особенностей словоизменения и синонимов украинского языка, особенностей его лексики и грамматики используется Ukrainian Content Optimizer (подробнее о возможностях этого продукта рассказывалось в «ComputerWorld / Украина» № 10 ‘2008).
Открытая инфраструктура Для этого базовые функциональные возможности комплекса дополняет открытый программный интерфейс (API), позволяющий разработать механизмы индексирования (plug-ins) для доступа к требуемым источникам данных, информационным системам и ресурсам конкретного предприятия, расширения возможностей поиска, уточнения правил аутентификации / авторизации и презентации информации. По вопросам приобретения продукта Вы можете обратиться по адресу: ООО ТЕКОН 01010, Киев-10 ул. Ивана Мазепы, 14, офис 43 тел. (044) 280-01-80 факс (044) 254-29-39. |
© 2004 - 2012
All Rights Reserved.