Т. В. Ермоленко, А. С. Гайдамака




Скачать 58.84 Kb.
НазваниеТ. В. Ермоленко, А. С. Гайдамака
Дата публикации28.10.2013
Размер58.84 Kb.
ТипДокументы
uchebilka.ru > Информатика > Документы
Т.В. Ермоленко, А.С. Гайдамака
структура синтаксического анализатора предложений, использующего семантические свойства глагола
Институт проблем искусственного интеллекта г. Донецк, Украина

Naturewild71@gmail.com

Донецкий национальный технический университет г. Донецк, Украина

alisa_love777@mail.ru
Развитие Internet повлекло за собой создание и накопление огромных объемов текстовой информации, что требует создания средств полнотекстового поиска, автоматической классификации и реферирования текстов, автоматизированного машинного перевода. Таким образом, область применения систем анализа естественно-языковых (ЕЯ) текстов достаточно разнообразна и актуальна, а в виду большого роста объемов текстовой информации и сложной структурированности ЕЯ-текстов, анализ текстов представляет собой очень актуальную проблему.

Одной из главных задач автоматической обработки текста является лингвистический анализ. Независимо от того, на каком языке написан исходный текст, его полный лингвистический анализ проходит одни и те же стадии: графематический [1], морфоло­гический [2], [3], синтаксический и семантический [4-6]. В результате формируются модели текста, адекватно отражающие его слово­образовательные, грамматические и смысловые конструкции.

Графематический и морфологический анализ – давно и хо­рошо отработанные лингвистические процедуры, реализованные во множестве исследовательских и коммерческих проектов. Задача синтаксического анализа - построение синтаксических структур пред­ложений текста – важная и нужная ступень в автоматическом по­нимании текста, но практически невыполнима, поскольку фор­маль­ные математические модели не способны охватить всю сложность языковой системы, особенно для языков с относительно свободным порядком слов, каким являются славянские.

Семантический анализ текста базируется на результатах син­таксического анализа, поэтому выбор используемой синтаксической модели крайне важен для проведения качественного семанти­ческого анализа.

Данная работа посвящена разработке синтаксического ана­лизатора, использующего предикативность для построения син­таксической модели предложений.

На синтаксическом уровне предикат – это глагольная конст­рукция, которая включает в свой состав п актантов (субъект и объекты), объединяющихся с предикатом системой отношений.

Каждый объект, субъект, предикат могу иметь зависимые слова, связанные с ними подчинительной связью (согласование, управление, примыкание). Для общей схемы описания объекта/ субъекта и предиката вводится понятие звезды. Под звездой пони­мается орграф-звезда, узлами которого являются слова предложения в их начальной форме, в одной доле находится главное слово, в другой – множество зависимых слов, отстоящих от главного на одну связь. Связи направлены от главного слова к зависимым.

Входными данными анализатора являются:

S = (s[1],..., s[i],..., s[N]),

где s[i] = {s[i][1],..., s[i][j],..., s[i][N]}, вектор множеств ин­терпретаций словоформ, при этом s[i] – массив пар (лемма, морфологическая информация).

Работа синтаксического анализатора осуществляется поэтапно:

1. Фрагментация – членение предложения по знакам пун­ктуации и союзам на сегменты и установление частичной иерархии между ними согласно правилам. На этом этапе используются сло­вари обращений, шаблонов вводных конструкций, союзов.

2. Заполнение звезды для каждого слова s[i] предложения (s[i] – главное слово) с использованием правил выделения син­таксических связей пар слов.

3. Поиск главных членов предложения (пары предикат-субъект) по словарю шаблонов предикатного ядра, подробно опи­санных в [5].

4. Заполнение актантной структуры предиката по словарю валентности глаголов.

Словарь валентности глаголов содержит множество структур, состоящих из семи слотов, соответствующих валентным гнездам глагола, а также поля, где указывается номер его семантического класса:

PRED=i,Obji}>, i=1,...,7,

где Sem_type – номер семантического класса глагола Ri – тип отношения, задающего семантическую роль соответ­ствую­щего актанта, Obji – множество, элементы которого явля­ются струк­турой, содержащей предлог, который управляет актантом, и морфо­логи­ческую информацию соответствующего актанта.

Номер валентности определяет ее тип, семантику и мор­фо­логическую информацию соответствующего актанта (табл. 1)
Таблица 1 – Тип, семантика и морфологические характеристики валентных гнезд


Номер валентного гнезда

наличие предлога

падеж актанта

Ri

1

-

Именит.

Субъект

2

-

Винит.

Объект

3

-

Дательный

Адресат

4

-

Творит.

Инструмент

5

+

Родит.-предл.

Начальный локатив

6

+

Родит.-предл.

Конечный локатив

7

+

Родит.-предл.

Средний локатив


Синтаксический анализатор, структура которого организована таким образом, позволит строить синтаксическую модель пред­ложений в виде предикатной структуры, где указывается не только аргументная структура и количество актантов, но и их семанти­ческое содержание.
Литература


  1. Peter Jackson, Isabelle Moulinier. Natural Language Processing for Online Applications. — John Benjamins Publishing,, 2002. — 237 p.

  2. Ермаков А.Е., Плешко В.В. Компьютерная морфология в контексте анализа связного текста // Компьютерная лингвистика и интел­лектуальные технологии: труды Международной конференции Диалог'2004. Москва, Наука, 2004 - С. 185-190.

  3. Дорохина Г. В. Модуль морфологического анализа без словаря слов русского языка / Г. В. Дорохина, В. Ю. Трунов, Е. В. Шилова // Искусственный интеллект. – №2. – 2010. – С.32-36.

  4. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. - М: Наука, - 1985, - 144с.

  5. Дорохина Г. В. Автоматическое выделение синтаксически связан­ных слов простого распространенного неосложненного предложе­ния / Г.В. Дорохина, Д. С. Гнитько // «Сучасна інформаційна Україна: інформатика, економіка, філософія»: матеріали доповідей конфе­ренції, 12   13 травня 2011 року, Донецьк, 2011. Т. 1. – с. 34-38.




Добавить документ в свой блог или на сайт

Похожие:

Т. В. Ермоленко, А. С. Гайдамака iconМохнощекова И. Г., Ермоленко Г. Г
Роль лизинговых отношений, как объекта финансового менеджмента, на украинском и зарубежных рынках

Т. В. Ермоленко, А. С. Гайдамака iconЗакон о кабмине: новый баланс власти или авторитаризм? 13
Дмитрий Полетаев, Галина Ермоленко, "Вісті Придніпров'я", 14. 10. 2010, Дніпропетровська обл. 3

Т. В. Ермоленко, А. С. Гайдамака iconСинтез сложных эфиров целлюлозы с алифатическими аминокислотами коньшин В. В
Коньшин В. В., канд хим наук, Ермоленко В. Н., Ефрюшин Д. Д., Рогова А. С., Тимакова О. Н

Т. В. Ермоленко, А. С. Гайдамака iconКонкурс: Открытый Чемпионат фтсу, г. Запорожье, 17. 05. 2009 Главный...
Судьи: A. Ермоленко Анастасия (Запорожье) B. Широковская Александра (Харьков)

Т. В. Ермоленко, А. С. Гайдамака iconКонкурс: Открытый Чемпионат фтсу, г. Запорожье, 17. 05. 2009 Главный...
Судьи: A. Ермоленко Анастасия (Запорожье) B. Широковская Александра (Харьков)

Т. В. Ермоленко, А. С. Гайдамака iconЕрмоленко С. В
Тем самым, необходимо как бы «выйти» из текучки привычной профессиональной деятельности и посмотреть на «целое» философии как бы...

Т. В. Ермоленко, А. С. Гайдамака iconЕрмоленко О. В. Проблематика романа гора видала «вилли-во»
Несмотря на утверждения о «короткой памяти» американцев как черте их национального характера, военная тема явилась одной из стержневых...

Т. В. Ермоленко, А. С. Гайдамака iconЛитература XX века: проблемы, концепции, тенденции. Художественное...
Литература XX века: проблемы, концепции, тенденции. Художественное пространство новелл ж. П. Сартра

Т. В. Ермоленко, А. С. Гайдамака iconГ. Г. Ермоленко Экологическая ситуация в Автономной Республике Крым...
Экологическая ситуация в Автономной Республике Крым в настоящее время оценивается как напряженная и без достаточного финансирования...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
uchebilka.ru
Главная страница


<