|
|
|
НОВОСТИ
01.10.2008 Компания RCO анонсирует расширения для продукта IBM OmniFind.Компания RCO, российский производитель систем анализа текста, анонсирует UIMA-совместимые аннотаторы, предназначенные для расширения возможностей IBM OmniFind в области семантического поиска и анализа неструктурированной текстовой информации.
Корпоративная поисковая система IBM OmniFind включает реализацию UIMA (Unstructured Information Management Architecture), позволяющую подключать дополнительные модули обработки текста (т.н. "аннотаторы"). Использование аннотаторов, извлекающих семантические данные из текста в процессе их обработки в среде OmniFind, позволяет использовать эти данные как при поиске (поиск по семантическим атрибутам), так и для последующего анализа внешними BI-системами.
Линейка продуктов RCO для IBM OmniFind включает следующие аннотаторы: Person annotator Выделяет упоминания о физических лицах из текста.
Нормализует словоформы и сокращения. Выделяет и связывает с физическим лицом упомянутые в тексте его дополнительные атрибуты и факты:
Дата рождения;
Место рождения;
Гражданство;
Адреса проживания;
ИНН;
Паспортные данные;
Родственники;
Образование;
Работа, должности;
Имущество в собственности;
Источники дохода;
Другие.
Org annotator Извлекает упоминания об организациях из документа. Нормализует словоформы и сокращения названий юридических лиц. Выделяет, разбирает, нормализует и связывает с организацией упомянутые в тексте факты и ее дополнительные атрибуты:
Юридический и физический адрес;
Банковские реквизиты;
Регистрационные атрибуты (ИНН, ОГРН, ОКПО);
Учредители;
Руководство;
Уставной капитал;
Оборот;
Род деятельности;
Лицензии;
Торговые марки и бренды;
Филиалы и отделения.
Другие.
Geo annotator Извлекает из документа компоненты географической и адресной информации.
Entity annotator Извлекает из документа, разбирает и нормализует различные сущности:
Числительные;
Денежные суммы;
Даты и обстоятельства времени;
Именованные объекты (артефакты)
Марки автомобилей;
Регистрационные номера автомобилей;
Электронные адреса;
Телефонные номера;
Другие.
Themes annotator На основе лексических профилей, описывающих заданную тематику, выдает перечень тем, к которым относится документ. В качестве дополнительной информации по каждой теме выдается краткий тематический реферат, а также координаты слов и словосочетаний (для подсветки) благодаря которым документ был отнесен к теме.
Business facts annotator Извлекает из текста факты, определяет и нормализует их фигурантов. Поддерживает более 30 предопределенных типов фактов (бизнес-тематика) с возможностью расширения, например:
Договора;
Предприятия: экономические показатели;
Купля-продажа: акции;
Владение собственностью;
Выпуск товаров;
Предоставление услуг;
Поставки сырья, комплектующих;
Партнерство;
IPO.
Social facts annotator Аналог Business facts annotator для общественно-политической и социальной тематики, включат более 40 типов фактов с возможностью расширения:
Выборы;
Политические акции;
Письма, обращения;
Встреча;
Путешествия;
Конфликты;
Суды, расследования, аресты;
События;
Мероприятия.
Линейка аннотаторов RCO представлена в виде модулей, полностью готовых к подключению к IBM OmniFind стандартными средствами (с использованием интерфейса управления OmniFind).
|
|
|