ПерваяНовостиО технологииOn-line переводчикСсылки


Ukraine Context Optimizer.Технологии информационного поиска


ИНФОРМАЦИЯ О ТЕХНОЛОГИИ

Информационный раздел
Технологии автоматического анализа текста

Синтактико-семантический подход.

Синтактико-семантический подход к извлечению знаний из текста на естественном языке опирается на лингвистическую модель.

В соответствии с этой моделью основу семантической структуры высказывания представляет так называемый пропозициональный компонет плана содержания. Этот компонет отражает внеязыковую ситуацию, описываемую предложением, и характеризует его объективное содержание, в отличие от прочих компонентов (модального, коммуникативного, иллокутивного), которые так или иначе характеризуют либо отношение говорящего к ситуации, либо соотнесенность ситуации с неким моментом времени, условиями ее реализации, и потому относятся к сфере субъективного.

Например, несмотря на различия в значении следующих предложений: Компания реорганизуется. Если бы компания реорганизовалась! Разве компания реорганизуется? Реорганизовалась ли компания? Необходимо реорганизовать компанию. Если бы компания реорганизовалась!
все они содержат общий пропозициональный компонент плана содержания - описывают ситуацию реорганизации компании.

Основным элементом в структуре пропозиции предложения являются предикаты, обозначающие отношения между объектами - обязательными участниками ситуации, которые называют аргументами или актантами предиката. В общем случае предикаты являются многоместными, т.е. обозначают ситуацию с несколькими обязательными участниками-актантами, каждый из которых выступает в своей семантической роли. Например, предикат "спать" является одноместным, "смотреть" - двухместным (кто смотрит что?), а предикат "командировать" предполагает участие в ситуации целых шести актантов - кто, кого, куда, откуда, на какой срок, с какой целью? При описании некоторых ситуаций используются предикаты, аргументами которых являются другие предикаты, например: "Мать хотела, чтобы ребенок заснул". Помимо актантов в структуру пропозиции могут входить объекты, обозначающие различные обстоятельства ситуации (сирконстанты).

Таким образом, синтактико-семантический подход к извлечению знаний предполагает выделение из структуры фразы ее семантического ядра - объективного описания ситуации, и абстрагирование от несущественных, субъективных компонентов плана содержания. С этой целью используется синтаксический анализатор текста, работающий на основании знания общих правил грамматики языка, а также словарь моделей управления, который описывает для каждого предиката способы выражения в языке его аргументов (предлоги и падежи актантов).


Результаты синтактико-семантического анализа текста открывают широкие возможности для утилизации выявленных знаний в информационно-поисковых системах, например, для поиска в тексте описаний ситуаций заданного класса и выявления их участников в соответствии с их ролями в ситуации: “продавец”, “покупатель”, “владелец” и т.п.


Дополнительно синтактико-семантический анализ текста позволяет сформировать содержательный портрет документа, выделив его ключевые понятия и ранжировав их по значимости в документе.
Применение средств синтаксического синтеза, постсинтаксических трансформаций отношений и тезауруса обеспечивает преобразование различных синтактико-семантических конструкций к общему унифицированному виду и позволяет отождествить одинаковые элементы смысла при различии в их выражении. Например, фразам “Этот транспорт был арендован предприятием у автобазы”, “Предприятие арендует у нашей автобазы несколько видов транспорта” и “Состоялась аренда транспорта предприятием у автобазы” будут соответствовать одинаковые элементы смысла: “предприятие арендует”, “аренда транспорта”, “аренда у автобазы”.
Значимость элементов предложения с позиции автора характеризует коммуникативный ранг, который определяется их отнесенностью к теме или реме и соотнесением с членами предложения (подлежащее, сказуемое, прямое и косвенное дополнения, определения, обстоятельства и др.). Эта информация, наряду со статистикой употребления и прочими факторами, позволяет выделить ключевые элементы текста для сравнения документов при поиске и классификации.


Общая схема лингвистической обработки текста приведена на данной схеме .


Описание каждой из фаз преобразований текста и решение сопутствующих ей задач (омонимии, метонимии, кореферентности и т.п.) может являться предметом отдельной большой статьи (и далеко не одной), поэтому здесь не приводится. Ключевые аспекты лингвистической обработки изложены в ряде публикаций, приведенных ниже, однако многие материалы еще ожидают выхода и будут освещены со временем.

Продукты, использующие технологию:


RCO и UCO Syntactic Engine


RCO и UCO Semantic Network





Статьи раздела:
Ассоциативно-статистический подход .
Синтактико-семантический подход.
RCO Fact Extractor SDK - новый пакет для анализа текста

Информационные разделы

Генератор статистических отчетов
Инструментарий аналитика
Инструментарий разработчика
Лингвистическое обеспечение
Поиск для Microsoft
Поиск для Oracle
Поисковая машина
Технологии автоматического анализа текста
Технологии информационного поиска
Технологии навигации в информационных массивах .







Авторское право © Компания Текон & Студия РОМАрт, 2004-2008.
UCO™ является торговой маркой компаний Текон и "ЭР СИ О".
RCO™ является торговой маркой компании "ЭР СИ О".
Все права защищены.


Яндекс цитирования Webalta Уровень доверия