EN BG

Семантична мрежа с широк спектър от семантични релации



Срок: 2017-2019

Вид на проекта: колективен

Финансиране: Фонд „Научни изследвания“, договор ДН 10/3 от 14.12.2016 г.



Ръководител: проф. д-р Св. Коева

Участници: проф. д-р Св. Коева, гл. ас. д-р Св. Лесева, гл. ас. д-р Цв. Димитрова, гл. ас. д-р М. Тодорова,гл. ас. д-р В. Стефанова, д-р Ив. Стоянова, Б. Ризов, Д. Христов, М. Ялъмов; проф. д-р Тинко Тинчев (СУ „Св. Климент Охридски“), проф. Мачей Пясецки (Вроцлавски технически университет, Полша).

Резюме:

Проектът предлага фундаментално научно изследване в областта на семантиката на естествения език. Семантичните мрежи са форма на представяне на познание във вид на граф, в който възлите са понятия или факти (имена, дати и др.), а дъгите между тях изразяват различни семантични отношения (релации). Основната цел на проекта е обогатяването на лексикално-семантичната мрежа УърдНет с гъста мрежа от семантични релации, като основният обект на изследване е Българският УърдНет. Обогатяването се постига чрез представяне на концептуални фреймове, кодиращи обобщено семантичните релации между предикат и аргументи.

За да се дефинира кои са потенциалните аргументи към конкретен предикат, се предлага детайлното онтологично представяне на семантичните класове на именните и глаголните синонимни множества в УърдНет. 82 114 синонимни множества на съществителни имена в УърдНет, групирани в 25 семантични класа, са съотнесени с 253 семантични типа в общо 171 359 съотнасяния (резултати). 13 465 глаголни синонимни множества, групирани в 15 семантични класа, са класифицирани посредством фреймове от ФреймНет и класове и суперкласове от ВърбНет (резултати).

Изследването се фокусира върху определянето на множеството от потенциални семантични релации за всеки клас глаголи с оглед на това да се идентифицират синонимни множества на съществителни имена, с които влизат в определени семантични отношения. За целта са изследвани семантичните релации, които обединяват няколко по-специфични релации в УърдНет или до момента не са въведени в структурата на УърдНет. Установено е, че при многократната конюнктивна хиперонимия, единият хипероним (може да) изразява същинска хиперонимия, а вторият хипероним (и следващите) изразяват някоя от следните семантични релации: произход, форма или функция. В рамките на морфосемантичните релации (14 семантични релации между глаголно и именно синонимно множество, за които свидетелстват деривационни връзки) се показва, че морфосемантичните релации не са неразложими, а обединяват по-специфични релации като: агенс, актор, експериенцер, реципиент, причинител, пациенс, явление артифакт, локатив, съдържание, тема, цел, резултат, инструмент. Описани са семантични релации между глаголно и именно синонимно множество, съответстващи на семантичните отношения между предикат и аргументи, които до момента не са въведени в в УърдНет: агенс, пациенс, причинител, експериенцер, възприемател, реципиент, тема, средство, дестинация, източник, локатив, протагонист, познавателен субект, характеристика. Представени са семантиката и формалните свойства на новите релации.

Резултатите са представени в девет публикации в индексирани и реферирани издания (SCOPUS, Web ISI, ERIH+) и на три международни конференции. Организирани са пет публични семинара, както и Специалната сесия за УърдНет и онтологии към третото издание на международната конференция „Компютърната лингвистика в България“ (2018).


Работен пакет 2: Аналитичен обзор на изследванията до момента


Изследване на съществуващите описания на семантични мрежи

➥ Светлозара Лесева. Представяне на знания чрез семантични мрежи. – сп. „Български език“, кн. 2, 2018.


Изследване на съществуващите описания на семантични релации

➥ Maciej Piasecki, Svetla Koeva. WordNet Relations in the Bulgarian-Polish Bilingual Perspective. В: Доклади от Международната юбилейна конференция на Института за български език, 2017, част I.

➥ Мария Тодорова, Ивелина Стоянова. Семантични релации: теоретични и приложни аспекти. – сп. „Български език“, кн. 2, 2018.


Изследване на съществуващите семантични класификации в рамките на следните части на речта: глаголи, съществителни


Работен пакет 3: Спецификация на семантичните класове в Уърднет


Анализ на семантичните примитиви на съществителните в Уърднет, детайлна спецификация на съществуващите семантични класове и отразяване на релевантните семантични подкласове в структурата

➥ УърдНет със съотнесени семантични типове на CPA към синонимните множества на съществителните имена (ресурс)

➥ Svetla Koeva, Tsvetana Dimitrova, Valentina Stefanova, Dimitar Hristov. Mapping WordNet Concepts with CPA Ontology. In: Proceedings of GWC 2018.


Анализ на семантичните примитиви на глаголите в Уърднет, спецификация на съществуващите семантични класове и отразяване на релевантните семантични подкласове в структурата

➥ Класификация на глаголните синсети в УърдНет (ресурс)

➥ Svetlozara Leseva, Ivelina Stoyanova, Maria Todorova. Classifying Verbs in WordNet by Harnessing Semantic Resources. In: Proceedings of CLIB 2018.


Изследване за наследяването на семантични примитиви между съществителни и глаголи

➥ Ivelina Stoyanova. Factors and Features Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet. In: Proceedings of CLIB 2018.


Работен пакет 4: Дефиниране на нови за Уърднет семантични релации


Дефиниране на нови релации в рамките на съществуващи семантични релации (хипонимия, хиперонимия, меронимия, холонимия, антонимия, е субсъбитие, има субсъбитие, причинява, е причинен от)

➥ Коева, Св., Стефанова, В., Христов Д. Семантични релации в рамките на многократната хиперонимия в УърдНет. – сп. „Чуждоезиково обучение“, кн. 4, 2018.


Разширяване на множеството от морфосемантични релации в Уърднет, включително посредством раздробяване на някои от съществуващите морфосемантични релации на по-специфични

➥ Цветана Димитрова. Морфосемантични релации и агентивни съществителни в Българския уърднет. – сп. „Български език“, кн. 2, 2018.


Дефиниране на нови семантични релации между глаголни и именни синонимни множества, съответстващи на семантичните отношения между предикат и аргументи

➥ Нови семантични релации, произтичащи от предикатно-аргументната структура (ресурс)

➥ Светлозара Лесева, Ивелина Стоянова, Христина Кукова, Мария Тодорова. Интегриране на субкатегоризационна информация в релационната структура на УърдНет. – сп. „Български език“, кн. 2, 2018.


1. Димитрова, Ц. Морфосемантични релации и агентивни съществителни в Българския уърднет. – В: Български език, кн. 2, 2018 г. ISSN:0005-4283, 41-58. (рефериране в ERIH+).

2. Коева, Св., Стефанова, В., Христов Д. Семантични релации в рамките на многократната хиперонимия в УърдНет. – В: Чуждоезиково обучение, 2018, кн. 4, 343 – 365. ISSN 0205 1834. (рефериране и индексиране в Web ISI).

3. Лесева, Св., Представяне на знания чрез семантични мрежи. – В: Български език, кн. 2, 2018 г. ISSN:0005-4283, 59-76. (рефериране в ERIH+).

4. Лесева, Св., Стоянова Ив., Кукова Хр., Тодорова, М. Интегриране на субкатегоризационна информация в релационната структура на УърдНет. – В: Български език, кн. 2, 2018 г. ISSN:0005-4283, 77-99. (рефериране в ERIH+).

5. Стоянова Ив., Тодорова M. Семантични релации: теоретични и приложни аспекти. – В: Български език, кн. 2, 2018 г. ISSN:0005-4283, 13-40. (рефериране в ERIH+).

6. Koeva, S., T. Dimitrova, V. Stefanova, D. Hristov. Mapping WordNet concepts with CPA ontology. – In: Proceedings of the 9th Global WordNet Conference (GWC’2018). Singapore: Nanyang Technological University (NTU) 2018, 1-10. (рефериране и индексиране в SCOPUS). pdf

7. Leseva S., Ivelina Stoyanova and Maria Todorova. Classifying Verbs in WordNet by Harnessing Semantic Resources. – In: Proceedings of the Third International Conference Computational Linguistics in Bulgaria (CLIB 2018). Sofia: The Institute for Bulgarian Language, 2018, ISSN:2367-5675, 115-125. (рефериране и индексиране в Web ISI – в процес на приемане). pdf

8. Piasecki, M., S. Koeva. WordNet Relations in the Bulgarian-Polish Bilingual Perspective. – В: Доклади от Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 15 – 16 май 2017 година), 1. София: Институт за български език „Проф. Любомир Андрейчин“, 2017, ISBN:978-954-924-899-9, 285-298. (рефериране и индексиране в Web ISI). pdf

9. Stoyanova, I. Factors and Features Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet. – In: Proceedings of the Third International Conference Computational Linguistics in Bulgaria (CLIB 2018). Sofia: The Institute for Bulgarian Language, 2018, ISSN:2367-5675, 135-145. (рефериране и индексиране в Web ISI – в процес на приемане). pdf

Обзорни научни студии

Светлозара Лесева. Представяне на знания чрез семантични мрежи. Студията е в обем от 40 стандартни страници и е анонимно рецензирана.

Стоянова Ив., Тодорова M. Семантични релации: теоретични и приложни аспекти.

Цветана Димитрова, Валентина Стефанова. Изследване на съществуващите семантични класификации в рамките на следните части на речта: глаголи, съществителни.

Резултатите от изследването бяха представени в съвместна разработка на Св. Коева и Мачей Пясецки на 16 май 2017 година на Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“. Докладът WordNet Relations in the Bulgarian-Polish Bilingual Perspective е публикуван в Доклади от Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 15 – 16 май 2017 година), София, който е индексиран в Thomson Reuters Conference Proceedings Citation Index.

В рамките на проекта беше подготвен и изнесен доклад на тема Mapping WordNet Concepts with CPA Ontology с автори Светла Коева, Цветана Димитрова, Валентина Стефанова и Димитър Христов, който беше представен на Глобалната УърдНет конференция (Global WordNet Conference) в Сингапур в периода 8 – 12 януари 2018 г.

В доклада беше представена работата по обогатяване на информацията за семантичните класове на съществителните в УърдНет чрез съотнасяне на семантичната информация за съществителните в УърдНет (семантични класове и йерархия на синонимните множества) със 253-те семантичните типа в онтологията на CPA, като в резултат хипонимите на синсета, който е съотнесен към съответния семантичен тип от CPA, наследяват не само семантичния клас от УърдНет, но и семантичния тип по CPA.

Представеният доклад беше публикуван като статия в сборника с доклади (тук), който е индексиран в Thomson Reuters Book Citation Index, Thomson Reuters Conference Proceedings Citation Index, SCOPUS.

На специалната научна сесия, посветена на уърднетите и онтологиите, провела се в рамките на третото издание на Международната научна конференция „Компютърната лингвистика в България“ (Computational Linguistics in Bulgaria – CLIB 2018), бяха изнесени два доклада, представящи изследователската работа, извършена в рамките на две подзадачи от проекта „Семантична мрежа с широк спектър от семантични релации“: „Анализ на семантичните примитиви на глаголите в УърдНет, спецификация на съществуващите семантични класове и отразяване на релевантните семантични подкласове в структурата“ и „Изследване за наследяването на семантични примитиви между съществителни и глаголи“.

В изнесения от Светлозара Лесева доклад (в съавторство с Ивелина Стоянова и Мария Тодорова) на тема Classifying Verbs in WordNet by Harnessing Semantic Resources се описва автоматичното приписване на семантични класове и подкласове и създаването на йерархична класификация на глаголите (така както са дефинирани в УърдНет) чрез съчетаването на семантична информация от три лингвистични ресурса – УърдНет, ФреймНет и ВърбНет.

В доклада на Ивелина Стоянова на тема Factors and Features Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet бяха представени механизмите за наследяване на семантични свойства между деривационно свързани глаголи и съществителни, типовете наследяване между семантичните примитиви на глаголите и съществителните и приложенията на тази информация за различни изследователски задачи.

Статиите са публикувани в Сборника с доклади от CLIB 2018, който кандидатства за рефериране в Thomson Reuters Conference Proceedings Citation Index.

В рамките на проекта „Семантична мрежа с широк спектър от семантични релации“, финансиран от Фонд „Научни изследвания“ по договор ДН 10/3 от 14.12 2016 г. Бяха организирани 5 публични семинара, на които участниците в проекта обсъждаха текущата работа по задачите и имаха възможност да обменят идеи и да получават съвети от световно известни специалисти, работили в областта на семантичното описание.

18.05.2017 г., Институт за български език, София
Лектор: д-р Мачей Пясецки от Вроцлавския технически университет (Полша)
Тема на лекцията: Latest Developments in plWordNet – a Large Wordnet for Polish. Towards plWordNet 4.0.

24.10.2017 г., Институт за български език, София
Лектор: Цветана Димитрова
Тема на представянето: Семантично обогатяване на езиковата информация за съществителните имена в УърдНет.
Съвместна разработка на Светла Коева, Цветана Димитрова, Валентина Стефанова, Димитър Христов

21.11.2017 г. Институт за български език, София
Лектор: Борислав Ризов
Тема на представянето: Изследване за наследяване на семантични примитиви между съществителни и глаголи.
Съвместна разработка на Тинко Тинчев и Борислав Ризов

28.11.2017 г. Институт за български език, София,
Лектор: Светлозара Лесева
Тема на представянето: Глаголна семантика – разширяване на класовете и подкласовете в БулНет.
Съвместна разработка на Светлозара Лесева, Ивелина Стоянова, Мария Тодорова

28.11.2017 г. Институт за български език, София,
Лектор: Ивелина Стоянова
Тема на представянето: Фактори и характеристики, обуславящи наследяването на семантичните примитиви между глаголи и съществителни имена в БулНет.

На 28 и 29 май 2018 година в Дома на Европа и Централно управление на Българската академия на науките в София се проведе третото издание на Международната научна конференция „Компютърната лингвистика в България“ (Computational Linguistics in Bulgaria – CLIB 2018).

Специалната сесия бе организирана в рамките на проекта „Семантична мрежа с широк спектър от семантични релации“, изпълняван от Секцията по компютърна лингвистика към Института за български език и финансиран от Фонда за научни изследвания по конкурсната сесия за финансиране на фундаментални научни изследвания за 2016 година.

Целта на специалната сесия, посветена на УърдНет и онтологиите, бе да се създаде форум за споделяне на изследвания в областта на лексикално-семантичните мрежи и онтологиите и взаимодействието и интегрирането между двата типа представяне на знанието в ресурси с различна насоченост. Опитът и резултатите, които бяха обменени, предложиха ценни насоки за бъдещето на изследванията в тази област и имат пряко отношение към осъществяването на следващия етап от проекта.

Докладът на Наталия Лукашевич и Борис Добров (Ontologies for Natural Language Processing: the Case of Russian) представи група езикови ресурси за руски език, RuThes, основаващи се на обединяването на УърдНет с тезауруси и формални онтологии, като данните са представени в единен формат. Получените ресурси се използват в областта на компютърната обработка на естествения език и извличането на информация. Едно от реалните приложения на ресурса е полуавтоматичното генериране на РуУърдНет.

Разработката, представена от Ранка Станкович, Миляна Младенович, Иван Обрадович, Марко Витас и Цветана Крстев (Resource-based WordNet Augmentation and Enrichment), демонстрира подход за обогатяване на Сръбския уърднет с помощта на сръбско-английски ресурси. Методът се базира на превод и корекция на дефинициите от Принстънския уърднет на сръбски и автоматичен подбор на кандидати за членове на синонимните множества от списъци с преводни еквиваленти, извлечени от двуезикови ресурси. Представена е оценка на резултатите, при които се взема предвид обемът от корекции, извършени от експерти върху автоматично създадения вариант.

Докладът на колегите от Румъния (Мария Митрофан, Вержиника Барбу Митителу, Григорина Митрофан – A Pilot Study for Enriching the Romanian WordNet with Medical Terms) представи пилотно проучване, ориентирано към обогатяването на Румънския уърднет със специализирана лексика, по-конкретно медицинска терминология. Статията изследва интеграцията на познанието от медицинския тезаурус SNOMED CT в йерархичната релационна структура на УърдНет и представя проблемни случаи, свързани с различната организация на познанието в двата ресурса.

В доклада на тема Classifying Verbs in WordNet by Harnessing Semantic Resources (Светлозара Лесева, Ивелина Стоянова и Мария Тодорова) бе представена класификация на глаголите (така както са дефинирани в УърдНет), създадена автоматично чрез обединяването на преимуществата на три семантични ресурса – самия УърдНет и неговата разклонена йерархична структура, богатото и гранулирано семантично описание и таксономичните отношения във ФреймНет и по-обобщеното семантично и синтактично базирано описание във ВърбНет. Въз основа на съотнасянето между трите ресурса и на вътрешната им структура се извлича класификация, чиито класификационни категории (семантичните класове) са пренесени от фреймовете (концептуалните структури) във ФреймНет, структурирани съобразно йерархичните отношения в УърдНет и ФреймНет, отразени в таксономията на двата ресурса. В резултат от създадената класификация са приписани автоматично и впоследствие ранкирани по вероятност класове на по-голямата част от синонимните множества в УърдНет.

Докладът на Ивелина Стоянова на тема Factors and Features Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet изследва механизмите за наследяване на семантични свойства между деривационно свързани глаголи и съществителни и определя три типа наследяване между семантичните примитиви на глаголите и съществителните: универсални – независими от аргументната структура на глагола, които могат да са събитийни и обстоятелствени; общи – характерни за цели класове глаголи (напр. агентивни/неагентивни); специфични за конкретни глаголи – зависят от аргументната структура (както е представена в ресурси като ВърбНет и ФреймНет). В разработката са предложени възможности за разширяване на покритието на семантичните релации въз основа на информация за аргументната структура и се дискутират закономерностите при наследяването на семантични характеристики от глаголите към съществителните и прилагането им за разширяване на УърдНет със семантични множества, за различни проверки на последователността на данните и мн. др.

В рамките на сесията бе представена и демонстрация на уеб базираната система за редактиране и визуализация на уърднети Хидра (Борислав Ризов и Цветана Димитрова – Online Editor for WordNets). Функционалностите на системата позволяват редактиране на синонимни множества в произволен брой уърднети, включително чрез добавяне/триене на синоними, съставяне и редактиране на тълковна дефиниция, примери и друга информация, добавяне или отстраняване на релации и др.

Високата научна стойност на докладите, одобрени за представяне в рамките на CLIB 2018, бе гарантирана чрез процедурата за подбор чрез двойно анонимно рецензиране. Всяка статия бе оценена от трима независими рецензенти, изтъкнати специалисти в съответната научна област. В продължение на традицията сборникът с доклади от Международната научна конференция „Компютърната лингвистика в България“ да се включва в престижни бази от данни с научни публикации, сборникът от третото издание е предложен за индексиране в ISI web of knowledge. За отразяването на събитието голяма роля изигра медийният партньор на Конференцията, Националното издателство за образование и наука „Аз Буки“, което също отрази събитието и публикува пространно интервю с проф. д-р Руслан Митков във вестник Аз Буки.

Сборникът с доклади (публикуван преди началото на конференцията), програмата и снимковият материал са достъпни и електронно на страницата на конференцията.

Спонсори на CLIB 2018 са компаниите А Дейта Про, Айдентрикс и Докумастър; медиен партньор е Националното издателство за образование и наука „Аз Буки“.

Copyright © 2015 Институт за български език. Всички права запазени.