Скачать 58.84 Kb.
|
Т.В. Ермоленко, А.С. Гайдамака структура синтаксического анализатора предложений, использующего семантические свойства глагола Институт проблем искусственного интеллекта г. Донецк, Украина Naturewild71@gmail.com Донецкий национальный технический университет г. Донецк, Украина alisa_love777@mail.ru Развитие Internet повлекло за собой создание и накопление огромных объемов текстовой информации, что требует создания средств полнотекстового поиска, автоматической классификации и реферирования текстов, автоматизированного машинного перевода. Таким образом, область применения систем анализа естественно-языковых (ЕЯ) текстов достаточно разнообразна и актуальна, а в виду большого роста объемов текстовой информации и сложной структурированности ЕЯ-текстов, анализ текстов представляет собой очень актуальную проблему. Одной из главных задач автоматической обработки текста является лингвистический анализ. Независимо от того, на каком языке написан исходный текст, его полный лингвистический анализ проходит одни и те же стадии: графематический [1], морфологический [2], [3], синтаксический и семантический [4-6]. В результате формируются модели текста, адекватно отражающие его словообразовательные, грамматические и смысловые конструкции. Графематический и морфологический анализ – давно и хорошо отработанные лингвистические процедуры, реализованные во множестве исследовательских и коммерческих проектов. Задача синтаксического анализа - построение синтаксических структур предложений текста – важная и нужная ступень в автоматическом понимании текста, но практически невыполнима, поскольку формальные математические модели не способны охватить всю сложность языковой системы, особенно для языков с относительно свободным порядком слов, каким являются славянские. Семантический анализ текста базируется на результатах синтаксического анализа, поэтому выбор используемой синтаксической модели крайне важен для проведения качественного семантического анализа. Данная работа посвящена разработке синтаксического анализатора, использующего предикативность для построения синтаксической модели предложений. На синтаксическом уровне предикат – это глагольная конструкция, которая включает в свой состав п актантов (субъект и объекты), объединяющихся с предикатом системой отношений. Каждый объект, субъект, предикат могу иметь зависимые слова, связанные с ними подчинительной связью (согласование, управление, примыкание). Для общей схемы описания объекта/ субъекта и предиката вводится понятие звезды. Под звездой понимается орграф-звезда, узлами которого являются слова предложения в их начальной форме, в одной доле находится главное слово, в другой – множество зависимых слов, отстоящих от главного на одну связь. Связи направлены от главного слова к зависимым. Входными данными анализатора являются: S = (s[1],..., s[i],..., s[N]), где s[i] = {s[i][1],..., s[i][j],..., s[i][N]}, вектор множеств интерпретаций словоформ, при этом s[i] – массив пар (лемма, морфологическая информация). Работа синтаксического анализатора осуществляется поэтапно: 1. Фрагментация – членение предложения по знакам пунктуации и союзам на сегменты и установление частичной иерархии между ними согласно правилам. На этом этапе используются словари обращений, шаблонов вводных конструкций, союзов. 2. Заполнение звезды для каждого слова s[i] предложения (s[i] – главное слово) с использованием правил выделения синтаксических связей пар слов. 3. Поиск главных членов предложения (пары предикат-субъект) по словарю шаблонов предикатного ядра, подробно описанных в [5]. 4. Заполнение актантной структуры предиката по словарю валентности глаголов. Словарь валентности глаголов содержит множество структур, состоящих из семи слотов, соответствующих валентным гнездам глагола, а также поля, где указывается номер его семантического класса: PRED= где Sem_type – номер семантического класса глагола Ri – тип отношения, задающего семантическую роль соответствующего актанта, Obji – множество, элементы которого являются структурой, содержащей предлог, который управляет актантом, и морфологическую информацию соответствующего актанта. Номер валентности определяет ее тип, семантику и морфологическую информацию соответствующего актанта (табл. 1) Таблица 1 – Тип, семантика и морфологические характеристики валентных гнезд
Синтаксический анализатор, структура которого организована таким образом, позволит строить синтаксическую модель предложений в виде предикатной структуры, где указывается не только аргументная структура и количество актантов, но и их семантическое содержание. Литература
|
![]() | Роль лизинговых отношений, как объекта финансового менеджмента, на украинском и зарубежных рынках | ![]() | Дмитрий Полетаев, Галина Ермоленко, "Вісті Придніпров'я", 14. 10. 2010, Дніпропетровська обл. 3 |
![]() | Коньшин В. В., канд хим наук, Ермоленко В. Н., Ефрюшин Д. Д., Рогова А. С., Тимакова О. Н | ![]() | Судьи: A. Ермоленко Анастасия (Запорожье) B. Широковская Александра (Харьков) |
![]() | Судьи: A. Ермоленко Анастасия (Запорожье) B. Широковская Александра (Харьков) | ![]() | Тем самым, необходимо как бы «выйти» из текучки привычной профессиональной деятельности и посмотреть на «целое» философии как бы... |
![]() | Несмотря на утверждения о «короткой памяти» американцев как черте их национального характера, военная тема явилась одной из стержневых... | ![]() | Литература XX века: проблемы, концепции, тенденции. Художественное пространство новелл ж. П. Сартра |
![]() | Экологическая ситуация в Автономной Республике Крым в настоящее время оценивается как напряженная и без достаточного финансирования... |