EN BG

Семантична мрежа с широк спектър от семантични релации



Срок: 2017-2020

Вид на проекта: колективен

Финансиране: Фонд „Научни изследвания“, договор ДН 10/3 от 14.12.2016 г.



Ръководител: проф. д-р Св. Коева

Участници: проф. д-р Св. Коева, гл. ас. д-р Св. Лесева, гл. ас. д-р Цв. Димитрова, гл. ас. д-р М. Тодорова,гл. ас. д-р В. Стефанова, д-р Ив. Стоянова, Б. Ризов, Д. Христов, М. Ялъмов; проф. д-р Тинко Тинчев (СУ „Св. Климент Охридски“), проф. Мачей Пясецки (Вроцлавски технически университет, Полша).

Резюме:

Проектът предлага фундаментално научно изследване в областта на семантиката на естествения език. Семантичните мрежи са форма на представяне на познание във вид на граф, в който възлите са понятия или факти (имена, дати и др.), а дъгите между тях изразяват различни семантични отношения (релации). Основната цел на проекта е обогатяването на лексикално-семантичната мрежа Уърднет с гъста мрежа от семантични релации, като основният обект на изследване е Българският Уърднет. Обогатяването се постига чрез представяне на концептуални фреймове, кодиращи обобщено семантичните релации между предикат и аргументи.

За да се дефинира кои са потенциалните аргументи към конкретен предикат, се предлага детайлното онтологично представяне на семантичните класове на именните и глаголните синонимни множества в Уърднет. 82 114 синонимни множества на съществителни имена в Уърднет, групирани в 25 семантични класа, са съотнесени с 253 семантични типа в общо 171 359 съотнасяния (резултати). 13 465 глаголни синонимни множества, групирани в 15 семантични класа, са класифицирани посредством фреймове от Фреймнет и класове и суперкласове от Върбнет (резултати).

Изследването се фокусира върху определянето на множеството от потенциални семантични релации за всеки клас глаголи с оглед на това да се идентифицират синонимни множества на съществителни имена, с които влизат в определени семантични отношения. За целта са изследвани семантичните релации, които обединяват няколко по-специфични релации в Уърднет или до момента не са въведени в структурата на Уърднет. Установено е, че при многократната конюнктивна хиперонимия, единият хипероним (може да) изразява същинска хиперонимия, а вторият хипероним (и следващите) изразяват някоя от следните семантични релации: произход, форма или функция. В рамките на морфосемантичните релации (14 семантични релации между глаголно и именно синонимно множество, за които свидетелстват деривационни връзки) се показва, че морфосемантичните релации не са неразложими, а обединяват по-специфични релации като: агенс, актор, експериенцер, реципиент, причинител, пациенс, явление артифакт, локатив, съдържание, тема, цел, резултат, инструмент. Описани са семантични релации между глаголно и именно синонимно множество, съответстващи на семантичните отношения между предикат и аргументи, които до момента не са въведени в в Уърднет: агенс, пациенс, причинител, експериенцер, възприемател, реципиент, тема, средство, дестинация, източник, локатив, протагонист, познавателен субект, характеристика. Представени са семантиката и формалните свойства на новите релации.

Концептуалните фреймове се разглеждат като абстрактни структури, които се описват посредством уникално множество от семантични релации между: a) фрейм, представляван от глаголни предикати, организирани в синонимни множества на Уърднет и асоциирани с определен семантичен клас, който отразява свойствата на фрейма; б) елементи на фрейма, представяни от синонимни множества на съществителни имена, съотнесени с определен семантичен клас, който представя свойствата на елементите на фрейма; в) семантичните релации между фрейма и неговите елементи.

Компонентите от теоретичното описание на концептуалните фреймове, представящи съчетаемостта между семантични релации, глаголно синонимно множество от даден семантичен клас и множеството от именни синонимни множества, принадлежащи към даден семантичен клас или класове, включват дефиниране на йерархия от фреймови елементи, йерархия от семантични (предикатно-аргументни и предикатно-адюнктни) релации и основни семантични типове на фреймовите елементи. В рамките на приписаните фреймове към глаголните синонимни множества в Уърднет 5 025 фрейма са проверени ръчно.

Изследвани са условията, при които именни синонимни множества, между които няма семантична релация в Уърднет, могат да бъдат свързани семантично на базата на съществуващи връзки в структурата с глагол или прилагателно име. Формулирани са 21 нови семантични релации и 2 814 синонимни множества на съществителни имена са свързани от експерти с 589 релации.

Автоматично са приписани 2 904 глаголни модела на 2 593 глаголни синонимни множества в Уърднет (глаголните модели се състоят от подредени списъци с фреймове, чиито елементи се реализират като именни групи, които споделят общ семантичен компонент, представен от семантичния тип на елемента). В резултат на ръчна проверка и допълване общият брой на глаголните синонимни множества с приписаните модели в Уърднет е 3 986.

Семантичната мрежа с широк спектър от семантични релации е изключително полезна за работата на учени, редактори, преводачи и граждани с интерес към българския език и намира приложение в компютърната обработка на езика: за автоматичен превод, за автоматичен семантичен анализ (оценка на мнението на потребителите, проследяване и предсказване на събития, преобразуване и опростяване на текстове), за автоматично търсене и извличане на информация (създаване на кратки резюмета, класификация на документи, автоматично отговаряне на въпроси).

Резултатите от втория етап на проекта са представени в 19 публикации в индексирани и реферирани издания (SCOPUS, Web ISI, ERIH+) и на 5 международни конференции. Публикуван е специален рецензиран сборник със студии на английски език, който е одобрен за разпространение чрез базата данни CEEOL и базата данни РИНЦ.

Организирани са 2 публични семинара, както и Специална сесия за Уърднет и онтологии към четвъртото издание на международната конференция Компютърната лингвистика в България (2020).

Резултатите са публикувани и в сборник от студии:
➥ Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations. Prof. Marin Drinov Academic Publishing House of Bulgarian Academy of Sciences. Sofia, 2020. ISBN 978-619-245-057-1. DOI: 10.7546/TSN.2020


Работен пакет 2: Аналитичен обзор на изследванията до момента


Изследване на съществуващите описания на семантични мрежи

➥ Светлозара Лесева. Представяне на знания чрез семантични мрежи. – сп. „Български език“, кн. 2, 2018.


Изследване на съществуващите описания на семантични релации

➥ Maciej Piasecki, Svetla Koeva. WordNet Relations in the Bulgarian-Polish Bilingual Perspective. В: Доклади от Международната юбилейна конференция на Института за български език, 2017, част I. pdf

➥ Мария Тодорова, Ивелина Стоянова. Семантични релации: теоретични и приложни аспекти. – сп. „Български език“, кн. 2, 2018.


Изследване на съществуващите семантични класификации в рамките на следните части на речта: глаголи, съществителни

➥ Димитрова, Цветана. Морфосемантични релации и агентивни съществителни в Българския Уърднет. – В: сп. „Български език“, кн. 2, 2018, с. 41-58. ISSN 0005-4283. (ERIH+) pdf


Работен пакет 3: Спецификация на семантичните класове в Уърднет


Анализ на семантичните примитиви на съществителните в Уърднет, детайлна спецификация на съществуващите семантични класове и отразяване на релевантните семантични подкласове в структурата

➥ Уърднет със съотнесени семантични типове на CPA към синонимните множества на съществителните имена (ресурс)

➥ Svetla Koeva, Tsvetana Dimitrova, Valentina Stefanova, Dimitar Hristov. Mapping WordNet Concepts with CPA Ontology. In: Proceedings of GWC 2018. pdf


Анализ на семантичните примитиви на глаголите в Уърднет, спецификация на съществуващите семантични класове и отразяване на релевантните семантични подкласове в структурата

➥ Класификация на глаголните синсети в Уърднет (ресурс)

➥ Svetlozara Leseva, Ivelina Stoyanova, Maria Todorova. Classifying Verbs in WordNet by Harnessing Semantic Resources. In: Proceedings of CLIB 2018. pdf


Изследване за наследяването на семантични примитиви между съществителни и глаголи

➥ Ivelina Stoyanova. Factors and Features Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet. In: Proceedings of CLIB 2018. pdf


Работен пакет 4: Дефиниране на нови за Уърднет семантични релации


Дефиниране на нови релации в рамките на съществуващи семантични релации (хипонимия, хиперонимия, меронимия, холонимия, антонимия, е субсъбитие, има субсъбитие, причинява, е причинен от)

➥ Коева, Св., Стефанова, В., Христов Д. Семантични релации в рамките на многократната хиперонимия в Уърднет. – сп. „Чуждоезиково обучение“, кн. 4, 2018.


Разширяване на множеството от морфосемантични релации в Уърднет, включително посредством раздробяване на някои от съществуващите морфосемантични релации на по-специфични

➥ Цветана Димитрова. Морфосемантични релации и агентивни съществителни в Българския Уърднет. – сп. „Български език“, кн. 2, 2018.


Дефиниране на нови семантични релации между глаголни и именни синонимни множества, съответстващи на семантичните отношения между предикат и аргументи

➥ Нови семантични релации, произтичащи от предикатно-аргументната структура (ресурс)

➥ Светлозара Лесева, Ивелина Стоянова, Христина Кукова, Мария Тодорова. Интегриране на субкатегоризационна информация в релационната структура на Уърднет. – сп. „Български език“, кн. 2, 2018.


Работен пакет 5: Представяне на концептуални модели за семантични релации между класове от синонимни множества


Дефиниране на концептуални модели за съчетаемостта между семантични релации, глаголно синонимно множество от даден семантичен клас и множеството от именни синонимни множества, принадлежащи към даден семантичен клас или класове

➥ Йерархично представяне на фреймови елементи и релации. Йерархия на селективните ограничения и представянето им чрез множество от синсети. (ресурс)

➥ Приписани са семантични фреймове на 13 226 глаголни синонимни множества (от тях ръчно са проверени 5 025). Ръчно проверените фреймове са означени с „0++“. (ресурс)

➥ Leseva, S., Stoyanova, I. Enhancing Conceptual Description through Resource Linking and Exploration of Semantic Relations. In: Proceedings of the 10th Global WordNet Conference, Oficyna Wydawnicza Politechniki Wrocławskiej, 2019, p. 280-289. pdf

➥ Stoyanova, I., Leseva, S. A Structural Approach to Enhancing WordNet with Conceptual Frame Semantics. Proceedings of Recent Advances in Natural Language Processing, Varna, Bulgaria, Sep 2–4 2019, 2019, p. 629-637. pdf

➥ Leseva, S., Stoyanova, I., Todorova, M., Kukova, H. Frame Specialisation Motivated by Inter-Frame Relations in FrameNet. In: Proceedings of the 14th International Conference on Linguistic Resources and Tools for Natural Language Processing, Cluj-Napoca, 18-20 November 2019, Editura Universității „Alexandru Ioan Cuza” din Iași, 2019, 167-178.

➥ Leseva, Svetlozara, Ivelina Stoyanova, Maria Todorova, Hristina Kukova. A Theoretical Overview of Conceptual Frames and Semantic Restrictions on Frame Elements. – В: Балканско езикознание/Linguistique Balkanique, LVIII, 2, 2019, с. 172-186. ISSN 0324-1653. (SCOPUS). pdf pdf

➥ Leseva, Svetlozara, Ivelina Stoyanova, Maria Todorova, Hristina Kukova. A Semantic Description of the Combinability between Verbs and Nouns (on Material from Bulgarian and English). – В: Чуждоезиково обучение, 47, 2, 2020, с. 115 – 128. (Web of Science) резюме

➥ Leseva, S., I. Stoyanova, M. Todorova, H. Kukova. Putting Pieces Together: Predicate-Argument Relations and Selectional Preferences. – In: Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations, Professor Marin Drinov Publishing House of BAS, 2020, ISBN 978-619-245-057-1, pp. 49 – 86.


Извод на концептуални фреймове за съчетаемостта между семантични релации, именно синонимно множество от даден семантичен клас и множеството от именни синонимни множества, принадлежащи към даден семантичен клас или класове

➥ Формулирани са 21 нови семантични релации между синонимни множества на съществителни. 2 814 синонимни множества на съществителни имена са свързани от експерти с 589 релации. (ресурс)

➥ Dimitrova, T., V. Stefanova. On Hidden Semantic Relations between Nouns in WordNet. In: Proceedings of the Tenth Global WordNet Conference (July 23–27, 2019, Wrocław (Poland), Wroclaw: Oficyna Wydawnicza Politechniki Wrocławskiej, 2019, ISBN 978-83-7493-108-3, 54-63. pdf

➥ Стефанова, Валентина, Цветана Димитрова. За причастията в Българския Уърднет. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2020 г.). Т. 2, София: Издателство на БАН „Проф. „Марин Дринов“, 2020, с. 224-232. ISSN 2683-118Х (print); ISSN 2683-1198 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) pdf


Представяне на дефинираните концептуални фреймове като релации в Уърднет, в резултат на което Уърднет се обогатява с гъста мрежа от семантични релации

➥ Проверените и допълнени модели от Речника на моделите на английските глаголи са добавени към XML файла на Принстънския уърднет, който е използван за целите на настоящата работа, и са достъпни под лиценз CC. (ресурс)

➥ Koeva, S., D. Hristov, T. Dimitrova, V. Stefanova. Enriching Wordnet with Frame Semantics. Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 14 – 15 май 2019 г.), София: Издателство на БАН „Проф. Марин Дринов“, 2019, ISBN 978-954-322-987-1, 300-308. pdf

➥ Koeva, S., T. Dimitrova, V. Stefanova, D. Hristov. Towards Conceptual Frames. Чуждоезиково обучение, 46, 6, 2019, ISSN 1314–8508 (Online); 0205–1834 (Print), 551-564. pdf

➥ Koeva, S. Semantic Relations and Conceptual Frames (preface). – In: Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations, Professor Marin Drinov Publishing House of BAS, 2020, ISBN 978-619-245-057-1, pp. 7–20. pdf


Работен пакет 6: Проверка на непротиворечивостта на данните


Създаване на тестове за проверка и автоматизирани процедури с цел консистентно представяне на онтологията на семантичните класове на съществителните и глаголите в Уърднет

➥ Dimitrova, Tsvetana. On WordNet Semantic Classes: Is the Sum Always Bigger? – In: Proceedings of the Fourth International Conference “Computational Linguistics in Bulgaria” (CLIB 2020). Institute for Bulgarian Language – Bulgarian Academy of Sciences, 2020, 177-185. ISSN: 2367-5675. pdf


Създаване на тестове за проверка и автоматизирани процедури с цел консистентно представяне на гъстата мрежа от семантични релации в Уърднет

➥ Коева, Светла, Валентина Стефанова. Меронимията в Уърднет: дефиниране на субрелации. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2020 г.). Т. 2, София: Издателство на БАН „Проф. „Марин Дринов“, 2020, с. 212-223. ISSN 2683-118Х (print); ISSN 2683-1198 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) pdf


Създаване на тестове за проверка и автоматизирани процедури с цел консистентно представяне на концептуалните фреймове

➥ Leseva, Svetlozara, Ivelina Stoyanova. Consistency Evaluation towards Enhancing the Conceptual Representation of Verbs in WordNet. – In: Proceedings of the Fourth International Conference “Computational Linguistics in Bulgaria” (CLIB 2020), Institute for Bulgarian Language, 2020, pp. 165-175. ISSN 2367-5675 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) pdf

➥ Leseva, S., I. Stoyanova. Beyond Lexical and Semantic Resources: Linking WordNet with FrameNet and Enhancing Synsets with Conceptual Frames. – In: Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations, Professor Marin Drinov Publishing House of BAS, 2020, ISBN 978-619-245-057-1, pp. 7–20. pdf

➥ Лесева, Светлозара, Ивелина Стоянова. Отвъд лексикалните ресурси: валидиране на концептуалното описание в корпусни данни. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2020 г.). Т. 2, София: Издателство на БАН „Проф. „Марин Дринов“, 2020, с. 241-249. ISSN 2683-118Х (print); ISSN 2683-1198 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) pdf



Сборник с доклади по проекта

Koeva, Svetla. (Ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations. Sofia: Professor Marin Drinov Publishing House of BAS, 2020, 121 p. ISBN: 978-619-245-057-1. DOI: 10.7546/TSN.2020 (РИНЦ, CEЕOL) ➥ pdf

Статии и студии по проекта

В SCOPUS

Koeva, Svetla, Tsvetana Dimitrova, Valentina Stefanova, Dimitar Hristov. Mapping WordNet concepts with CPA ontology. – In: Proceedings of the 9th Global WordNet Conference (GWC’2018), Global Wordnet Association, Singapore, 2018, pp. 70-77. ISBN 978-981-11-7087-4. (SCOPUS). ➥ pdf

Stoyanova, Ivelina, Svetlozara Leseva. A Structural Approach to Enhancing WordNet with Conceptual Frame Semantics. – In: Proceedings of Recent Advances in Natural Language Processing, Varna, Bulgaria, Sep 2–4 2019, 2019, pp. 629-637. ISBN 978-954-452-056-4, ISSN 2603-2813. SJR (SCOPUS):0.143. ➥ pdf

Dimitrova, Tsvetana, Valentina Stefanova. On Hidden Semantic Relations between Nouns in WordNet. – In: Proceedings of the Tenth Global WordNet Conference (July 23–27, 2019, Wrocław (Poland). Wroclaw: Oficyna Wydawnicza Politechniki Wrocławskiej, 2019, pp. 54-63. ISBN 978-83-7493-108-3. (SCOPUS) ➥ pdf

Leseva, Svetlozara, Ivelina Stoyanova. Enhancing Conceptual Description through Resource Linking and Exploration of Semantic Relations. – In: Proceedings of the Tenth Global Wordnet Conference (July 23–27, 2019, Wrocław (Poland). Wroclaw: Oficyna Wydawnicza Politechniki Wrocławskiej, 2019, pp. 280-289. ISBN 978-83-7493-108-3. (SCOPUS). pdf ➥ pdf

Leseva, Svetlozara, Ivelina Stoyanova, Maria Todorova, Hristina Kukova. A Theoretical Overview of Conceptual Frames and Semantic Restrictions on Frame Elements. – В: Балканско езикознание/Linguistique Balkanique, LVIII, 2, 2019, с. 172-186. ISSN 0324-1653. (SCOPUS). pdf ➥ pdf

В Web of Science

Piasecki, Maciej, Svetla Koeva. WordNet Relations in the Bulgarian-Polish Bilingual Perspective. – В: Доклади от Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 15 – 16 май 2017 година). Т. 1, София: Институт за български език „Проф. Любомир Андрейчин“, 2017, с. 285-298. ISBN 978-954-924-899-9. (Web of Science). ➥ pdf

Leseva, Svetlozara, Ivelina Stoyanova, Maria Todorova. Classifying Verbs in WordNet by Harnessing Semantic Resources. – In: Proceedings of the Third International Conference Computational Linguistics in Bulgaria (CLIB 2018). Sofia: The Institute for Bulgarian Language, 2018, pp. 115-125. ISSN 2367-5675, (Web of Science). ➥ pdf

Stoyanova, Ivelina. Factors and Features. Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet. – In: Proceedings of the Third International Conference Computational Linguistics in Bulgaria (CLIB 2018). Sofia: The Institute for Bulgarian Language, 2018, pp. 135-145. ISSN 2367-5675. pdf (Web of Science) ➥ pdf

Коева, Светла, Валентина Стефанова, Димитър Христов. Семантични релации в рамките на многократната хиперонимия в Уърднет. – В: сп. „Чуждоезиково обучение“, кн. 4, 2018. (Web of Science). ➥ pdf

Koeva, Svetla, Tsvetana Dimitrova, Valentina Stefanova, Dimitar Hristov. Towards Conceptual Frames. – В: Чуждоезиково обучение, 46, 6, 2019, с. 551-564. ISSN 1314-8508 (online); 0205-1834 (print). (Web of Science). ➥ pdf

Коева Светла. Прости изречения в състава на сложното в български. Релации между присъединяваща част глагол и комплемент. – В: Bednarska, K., Kruk, D., Popov, B., Saprikina, O., Speed, T., Szafraniec, K., Terekhova, S., Tsonev, R., Wysocka, A. (Eds.), 2020, Contributions to the 23rd Annual Scientific Conference of the Association of Slavists (Polyslav). Wiesbaden, 2020, pp. 186-194. (Web of Science)

Leseva, Svetlozara, Ivelina Stoyanova, Maria Todorova, Hristina Kukova. A Semantic Description of the Combinability between Verbs and Nouns (on Material from Bulgarian and English). – В: Чуждоезиково обучение, 47, 2, 2020, с. 115 – 128. (Web of Science) ➥ резюме

В ERIH+

Лесева, Светлозара. Представяне на знания чрез семантични мрежи. – В: сп. „Български език“, кн. 2, 2018, с. 59-76. ISSN 0005-4283. (ERIH+) ➥ pdf

Стоянова Ивелина, Мария Тодорова. Семантични релации: теоретични и приложни аспекти. – В: сп. „Български език“, кн. 2, 2018, с. 13-40. ISSN 0005-4283. (ERIH+) ➥ pdf

Димитрова, Цветана. Морфосемантични релации и агентивни съществителни в Българския Уърднет. – В: сп. „Български език“, кн. 2, 2018, с. 41-58. ISSN 0005-4283. (ERIH+)➥ pdf

Лесева, Светлозара, Ивелина Стоянова, Христина Кукова, Мария Тодорова. Интегриране на субкатегоризационна информация в релационната структура на Уърднет. – В: сп. „Български език“, кн. 2, 2018, с. 77-99. ISSN 0005-4283. (ERIH+) ➥ pdf

В CEEOL

Koeva, Svetla. Semantic Relations and Conceptual Frames (preface). – In: Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations, Professor Marin Drinov Publishing House of BAS, 2020, pp. 7-20. ISBN 978-619-245-057-1. (РИНЦ, CEEOL) pdf ➥ pdf

Leseva, Svetlozara, Ivelina Stoyanova, Maria Todorova, Hristina Kukova. Putting Pieces Together: Predicate-Argument Relations and Selectional Preferences. – In: Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations. Sofia: Professor Marin Drinov Publishing House of BAS, 2020, pp. 49-86. ISBN 978-619-245-057-1. (РИНЦ, CEEOL) pdf ➥ pdf

Leseva, Svetlozara, Ivelina Stoyanova. Beyond Lexical and Semantic Resources: Linking WordNet with FrameNet and Enhancing Synsets with Conceptual Frames. – In: Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations. Sofia: Professor Marin Drinov Publishing House of BAS, 2020, pp. 21-48. ISBN 978-619-245-057-1. (РИНЦ, CEЕOL) pdf ➥ pdf

Koeva, Svetla, Tsvetana Dimitrova, Valentina Stefanova, Dimitar Hristov. Towards Conceptual Frames. – In: Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations. Sofia: Professor Marin Drinov Publishing House of BAS, 2020, pp. 87-120. ISBN 978-619-245-057-1. (РИНЦ, CEЕOL) pdf ➥ pdf

Подадени за оценка

Коева, Светла. Комплементите в български. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 14 – 15 май 2019 година). Ваня Мичева, Диана Благоева, Сия Колковска, Татяна Александрова, Христина Дейкова (отг. ред.), София: Издателство на БАН „Проф. Марин Дринов“, 2019, с. 57-69. ISBN 978-954-322-987-1. (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) pdf ➥ pdf

Koeva, Svetla, Dimitar Hristov, Tsvetana Dimitrova, Valentina Stefanova. Enriching Wordnet with Frame Semantics. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 14 – 15 май 2019 година). Ваня Мичева, Диана Благоева, Сия Колковска, Татяна Александрова, Христина Дейкова (отг. ред.), София: Издателство на БАН „Проф. Марин Дринов“, 2019, с. 300-308. ISBN 978-954-322-987-1. (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) ➥ pdf

Leseva, Svetlozara, Ivelina Stoyanova, Maria Todorova, Hristina Kukova. Frame Specialisation Motivated by Inter-Frame Relations in FrameNet. – In: Proceedings of the 14th International Conference on Linguistic Resources and Tools for Natural Language Processing, Cluj-Napoca, 18-20 November 2019, Editura Universității „Alexandru Ioan Cuza” din Iași, 2019, pp. 167-178. ISSN 1843-911X. (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) ➥ pdf

Dimitrova, Tsvetana. On WordNet Semantic Classes: Is the Sum Always Bigger? – In: Proceedings of the Fourth International Conference “Computational Linguistics in Bulgaria” (CLIB 2020). Sofia: Institute for Bulgarian Language, 2020, pp. 177-185. ISSN 2367-5675. (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) ➥ pdf

Leseva, Svetlozara, Ivelina Stoyanova. Consistency Evaluation towards Enhancing the Conceptual Representation of Verbs in WordNet. – In: Proceedings of the Fourth International Conference “Computational Linguistics in Bulgaria” (CLIB 2020), Institute for Bulgarian Language, 2020, pp. 165-175. ISSN 2367-5675 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) ➥ pdf

Коева, Светла, Валентина Стефанова. Меронимията в Уърднет: дефиниране на субрелации. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2020 г.). Т. 2, София: Издателство на БАН „Проф. „Марин Дринов“, 2020, с. 212-223. ISSN 2683-118Х (print); ISSN 2683-1198 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) ➥ pdf

Лесева, Светлозара, Ивелина Стоянова. Отвъд лексикалните ресурси: валидиране на концептуалното описание в корпусни данни. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2020 г.). Т. 2, София: Издателство на БАН „Проф. „Марин Дринов“, 2020, с. 241-249. ISSN 2683-118Х (print); ISSN 2683-1198 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) ➥ pdf

Стефанова, Валентина, Цветана Димитрова. За причастията в Българския Уърднет. – В: Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2020 г.). Т. 2, София: Издателство на БАН „Проф. „Марин Дринов“, 2020, с. 224-232. ISSN 2683-118Х (print); ISSN 2683-1198 (online). (Сборникът с доклади е подаден за оценка в Web of Science и SCOPUS.) ➥ pdf

Обзорни научни студии

Светлозара Лесева. Представяне на знания чрез семантични мрежи. Студията е в обем от 40 стандартни страници и е анонимно рецензирана.

Стоянова, Ивелина, Мария Тодорова. Семантични релации: теоретични и приложни аспекти.

Димитрова, Цветана, Валентина Стефанова. Изследване на съществуващите семантични класификации в рамките на следните части на речта: глаголи, съществителни.

Резултатите от изследването бяха представени в съвместна разработка на Св. Коева и Мачей Пясецки на 16 май 2017 година на Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“. Докладът WordNet Relations in the Bulgarian-Polish Bilingual Perspective е публикуван в Доклади от Международната юбилейна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 15 – 16 май 2017 година), София, който е индексиран в Thomson Reuters Conference Proceedings Citation Index.

В рамките на проекта беше подготвен и изнесен доклад на тема Mapping WordNet Concepts with CPA Ontology с автори Светла Коева, Цветана Димитрова, Валентина Стефанова и Димитър Христов, който беше представен на Глобалната Уърднет конференция (Global WordNet Conference) в Сингапур в периода 8 – 12 януари 2018 г.

В доклада беше представена работата по обогатяване на информацията за семантичните класове на съществителните в Уърднет чрез съотнасяне на семантичната информация за съществителните в Уърднет (семантични класове и йерархия на синонимните множества) със 253-те семантичните типа в онтологията на CPA, като в резултат хипонимите на синсета, който е съотнесен към съответния семантичен тип от CPA, наследяват не само семантичния клас от Уърднет, но и семантичния тип по CPA.

Представеният доклад беше публикуван като статия в сборника с доклади (тук), който е индексиран в Thomson Reuters Book Citation Index, Thomson Reuters Conference Proceedings Citation Index, SCOPUS.

На специалната научна сесия, посветена на Уърднетите и онтологиите, провела се в рамките на третото издание на Международната научна конференция „Компютърната лингвистика в България“ (Computational Linguistics in Bulgaria – CLIB 2018), бяха изнесени два доклада, представящи изследователската работа, извършена в рамките на две подзадачи от проекта „Семантична мрежа с широк спектър от семантични релации“: „Анализ на семантичните примитиви на глаголите в Уърднет, спецификация на съществуващите семантични класове и отразяване на релевантните семантични подкласове в структурата“ и „Изследване за наследяването на семантични примитиви между съществителни и глаголи“.

В изнесения от Светлозара Лесева доклад (в съавторство с Ивелина Стоянова и Мария Тодорова) на тема Classifying Verbs in WordNet by Harnessing Semantic Resources се описва автоматичното приписване на семантични класове и подкласове и създаването на йерархична класификация на глаголите (така както са дефинирани в Уърднет) чрез съчетаването на семантична информация от три лингвистични ресурса – Уърднет, ФреймНет и ВърбНет.

В доклада на Ивелина Стоянова на тема Factors and Features Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet бяха представени механизмите за наследяване на семантични свойства между деривационно свързани глаголи и съществителни, типовете наследяване между семантичните примитиви на глаголите и съществителните и приложенията на тази информация за различни изследователски задачи.

Статиите са публикувани в Сборника с доклади от CLIB 2018, който кандидатства за рефериране в Thomson Reuters Conference Proceedings Citation Index.

* * * * *

През 2019 две разработки бяха представени на престижната международна конференция Global WordNet Conference (23–27 юли 2019, Вроцлав, Полша):

Dimitrova, T., V. Stefanova. On Hidden Semantic Relations between Nouns in WordNet. Global WordNet Conference (July 23–27, 2019, Wrocław (Poland), Wroclaw: Oficyna Wydawnicza Politechniki Wrocławskiej, 2019.

Leseva, S., Stoyanova, I.. Enhancing Conceptual Description through Resource Linking and Exploration of Semantic Relations. Global WordNet Conference(July 23–27, 2019, Wrocław (Poland), Wroclaw: Oficyna Wydawnicza Politechniki Wrocławskiej, 2019.

Съвместна разработка на Св. Коева, Д. Христов, Цв. Димитрова и В. Стефанова със заглавие „Enriching Wordnet with Frame Semantics“ беше представена на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 14 – 15 май 2019 г.), София: Издателство на БАН „Проф. Марин Дринов“, 2019.

Светла Коева представи „Комплементите в български“ на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 14 – 15 май 2019 г.).

Св. Лесева представи „A Structural Approach to Enhancing WordNet with Conceptual Frame Semantics“ (съвместна разработка на Св. Лесева и Ив. Стоянова) на престижната международнародна конференция Recent Advances in Natural Language Processing RANLP 2019 (Варна, 4 септември 2019 г.).

Св. Коева представи „Прости изречения в състава на сложното в български. Релации между присъединяваща част глагол и комплемент“ на международния форум International Academic Conference POLYSLAV-XXIII (Благоевград, 9 – 11 септември 2019 г.).

Съвместна презентация на С. Лесева, Ив. Стоянова, М. Тодорова и Хр. Кукова със заглавие „Frame Specialisation Motivated by Inter-Frame Relations in FrameNet“ беше представена на международна конференция през ноември 2019 в Румъния: 14th International Conference on Linguistic Resources and Tools for Natural Language Processing, Cluj-Napoca, 18-20 November 2019, Editura Universității „Alexandru Ioan Cuza” din Iași, 2019.

* * * * *

През 2020 две разработки бяха представени на Четвъртата международна конференция „Компютърната лингвистика в България“ (25–26 юни 2020):

Цветана Димитрова представи „On WordNet Semantic Classes: Is the Sum Always Bigger?”. Видеозапис на представянето

Ивелина Стоянова представи „Consistency Evaluation towards Enhancing the Conceptual Representation of Verbs in WordNet“ (съвместна разработка на Светлозара Лесева, Ивелина Стоянова)
Видеозапис на представянето

В рамките на проекта „Семантична мрежа с широк спектър от семантични релации“, финансиран от Фонд „Научни изследвания“ по договор ДН 10/3 от 14.12 2016 г., бяха организирани 7 публични семинара, на които участниците в проекта обсъждаха текущата работа по задачите и имаха възможност да обменят идеи и да получават съвети от световно известни специалисти, работили в областта на семантичното описание.

18.05.2017 г., Институт за български език, София
Лектор: д-р Мачей Пясецки от Вроцлавския технически университет (Полша)
Тема на лекцията: Latest Developments in plWordNet – a Large Wordnet for Polish. Towards plWordNet 4.0.

24.10.2017 г., Институт за български език, София
Лектор: Цветана Димитрова
Тема на представянето: Семантично обогатяване на езиковата информация за съществителните имена в Уърднет.
Съвместна разработка на Светла Коева, Цветана Димитрова, Валентина Стефанова, Димитър Христов

21.11.2017 г. Институт за български език, София
Лектор: Борислав Ризов
Тема на представянето: Изследване за наследяване на семантични примитиви между съществителни и глаголи.
Съвместна разработка на Тинко Тинчев и Борислав Ризов

28.11.2017 г. Институт за български език, София,
Лектор: Светлозара Лесева
Тема на представянето: Глаголна семантика – разширяване на класовете и подкласовете в БулНет.
Съвместна разработка на Светлозара Лесева, Ивелина Стоянова, Мария Тодорова

28.11.2017 г. Институт за български език, София,
Лектор: Ивелина Стоянова
Тема на представянето: Фактори и характеристики, обуславящи наследяването на семантичните примитиви между глаголи и съществителни имена в БулНет.

20.06.2019 г., Институт за български език, София
Лектор: Цветана Димитрова
Тема на представянето: „Скрити“ семантични релации между съществителните в Уърднет.
Съвместна разработка на Цветана Димитрова и Валентина Стефанова.

10.06.2019 г., Институт за български език, София
Лектор: Светлозара Лесева
Тема на представянето: Към обогатяване на концептуалното описание чрез свързване на ресурси и изследване на семантични релации.
Съвместна разработка на Светлозара Лесева и Ивелина Стоянова.

На 28 и 29 май 2018 година в Дома на Европа и Централно управление на Българската академия на науките в София се проведе третото издание на Международната научна конференция „Компютърната лингвистика в България“ (Computational Linguistics in Bulgaria – CLIB 2018).

Специалната сесия бе организирана в рамките на проекта „Семантична мрежа с широк спектър от семантични релации“, изпълняван от Секцията по компютърна лингвистика към Института за български език и финансиран от Фонда за научни изследвания по конкурсната сесия за финансиране на фундаментални научни изследвания за 2016 година.

Целта на специалната сесия, посветена на Уърднет и онтологиите, бе да се създаде форум за споделяне на изследвания в областта на лексикално-семантичните мрежи и онтологиите и взаимодействието и интегрирането между двата типа представяне на знанието в ресурси с различна насоченост. Опитът и резултатите, които бяха обменени, предложиха ценни насоки за бъдещето на изследванията в тази област и имат пряко отношение към осъществяването на следващия етап от проекта.

Докладът на Наталия Лукашевич и Борис Добров (Ontologies for Natural Language Processing: the Case of Russian) представи група езикови ресурси за руски език, RuThes, основаващи се на обединяването на Уърднет с тезауруси и формални онтологии, като данните са представени в единен формат. Получените ресурси се използват в областта на компютърната обработка на естествения език и извличането на информация. Едно от реалните приложения на ресурса е полуавтоматичното генериране на РуУърднет.

Разработката, представена от Ранка Станкович, Миляна Младенович, Иван Обрадович, Марко Витас и Цветана Крстев (Resource-based WordNet Augmentation and Enrichment), демонстрира подход за обогатяване на Сръбския Уърднет с помощта на сръбско-английски ресурси. Методът се базира на превод и корекция на дефинициите от Принстънския Уърднет на сръбски и автоматичен подбор на кандидати за членове на синонимните множества от списъци с преводни еквиваленти, извлечени от двуезикови ресурси. Представена е оценка на резултатите, при които се взема предвид обемът от корекции, извършени от експерти върху автоматично създадения вариант.

Докладът на колегите от Румъния (Мария Митрофан, Вержиника Барбу Митителу, Григорина Митрофан – A Pilot Study for Enriching the Romanian WordNet with Medical Terms) представи пилотно проучване, ориентирано към обогатяването на Румънския Уърднет със специализирана лексика, по-конкретно медицинска терминология. Статията изследва интеграцията на познанието от медицинския тезаурус SNOMED CT в йерархичната релационна структура на Уърднет и представя проблемни случаи, свързани с различната организация на познанието в двата ресурса.

В доклада на тема Classifying Verbs in WordNet by Harnessing Semantic Resources (Светлозара Лесева, Ивелина Стоянова и Мария Тодорова) бе представена класификация на глаголите (така както са дефинирани в Уърднет), създадена автоматично чрез обединяването на преимуществата на три семантични ресурса – самия Уърднет и неговата разклонена йерархична структура, богатото и гранулирано семантично описание и таксономичните отношения във ФреймНет и по-обобщеното семантично и синтактично базирано описание във ВърбНет. Въз основа на съотнасянето между трите ресурса и на вътрешната им структура се извлича класификация, чиито класификационни категории (семантичните класове) са пренесени от фреймовете (концептуалните структури) във ФреймНет, структурирани съобразно йерархичните отношения в Уърднет и ФреймНет, отразени в таксономията на двата ресурса. В резултат от създадената класификация са приписани автоматично и впоследствие ранкирани по вероятност класове на по-голямата част от синонимните множества в Уърднет.

Докладът на Ивелина Стоянова на тема Factors and Features Determining the Inheritance of Semantic Primes between Verbs and Nouns within WordNet изследва механизмите за наследяване на семантични свойства между деривационно свързани глаголи и съществителни и определя три типа наследяване между семантичните примитиви на глаголите и съществителните: универсални – независими от аргументната структура на глагола, които могат да са събитийни и обстоятелствени; общи – характерни за цели класове глаголи (напр. агентивни/неагентивни); специфични за конкретни глаголи – зависят от аргументната структура (както е представена в ресурси като ВърбНет и ФреймНет). В разработката са предложени възможности за разширяване на покритието на семантичните релации въз основа на информация за аргументната структура и се дискутират закономерностите при наследяването на семантични характеристики от глаголите към съществителните и прилагането им за разширяване на Уърднет със семантични множества, за различни проверки на последователността на данните и мн. др.

В рамките на сесията бе представена и демонстрация на уеб базираната система за редактиране и визуализация на Уърднети Хидра (Борислав Ризов и Цветана Димитрова – Online Editor for WordNets). Функционалностите на системата позволяват редактиране на синонимни множества в произволен брой Уърднети, включително чрез добавяне/триене на синоними, съставяне и редактиране на тълковна дефиниция, примери и друга информация, добавяне или отстраняване на релации и др.

Високата научна стойност на докладите, одобрени за представяне в рамките на CLIB 2018, бе гарантирана чрез процедурата за подбор чрез двойно анонимно рецензиране. Всяка статия бе оценена от трима независими рецензенти, изтъкнати специалисти в съответната научна област. В продължение на традицията сборникът с доклади от Международната научна конференция „Компютърната лингвистика в България“ да се включва в престижни бази от данни с научни публикации, сборникът от третото издание е индексиран в Web of Science.

За отразяването на събитието голяма роля изигра медийният партньор на Конференцията, Националното издателство за образование и наука „Аз Буки“, което също отрази събитието и публикува пространно интервю с проф. д-р Руслан Митков във вестник „Аз Буки“.

Сборникът с доклади (публикуван преди началото на конференцията), програмата и снимковият материал са достъпни и електронно на страницата на конференцията.

Спонсори на CLIB 2018 са компаниите А Дейта Про, Айдентрикс и Докумастър; медиен партньор е Националното издателство за образование и наука „Аз Буки“.



На 25 и 26 юни 2020 г. се състоя четвъртото издание на Международната научна конференция „Компютърната лингвистика в България“ (CLIB 2020). Форумът се проведе в смесен формат – присъствено (в зала „Проф. Марин Дринов“ на Българската академия на науките) и онлайн с помощта на платформа за провеждане на видеоконференции. Конференцията се излъчи на живо по канала на Секцията по компютърна лингвистика в YouTube.

Мисията на конференцията, чието начало бе поставено през 2014 г., е да задълбочи и надгради сътрудничеството между българските учени, които извършват изследвания в областта на компютърната лингвистика у нас и по света, и чуждестранни учени, разработващи езикови технологии, приложими за български език.

За участие в конференцията се регистрираха 85 участници от над 10 държави: България, Великобритания, Германия, Катар, Румъния, Русия, Сърбия, Словакия, Турция, Украйна, Швейцария, Япония, а за интереса към нея може да се съди по броя показвания на записите: близо 500 пъти от провеждането на конференцията досега.

По време на конференцията бяха изнесени три пленарни доклада от водещи български учени в областта на компютърната лингвистика, които представиха постиженията си в актуални научни области: идентифицирането на съдържанието на изображения (проф. д.м.н. Галя Ангелова), обработката и извличането на информация от специализирани (медицински) документи (доц. Светла Бойчева) и разпознаването на фалшиви новини в информационния поток (д-р Преслав Наков). В програмата бе включена и специална демонстрация на Европейската езикова мрежа (European Language Grid), която бе представена от координатора на проекта д-р Георг Рем.

В рамките на основната научна програма бяха изнесени 14 доклада, представящи достиженията на изследователи от България, Великобритания, Румъния, Русия, Сърбия, Турция, Япония, Швейцария. За втори път се проведе и специална научна сесия, посветена на лексикално-семантичните мрежи и онтологиите (5 доклада).
Организатори на конференцията са Секцията по компютърна лингвистика към Института за български език „Проф. Любомир Андрейчин“ и Институтът за информационни и комуникационни технологии при Българската академия на науките.

CLIB 2020 се провежда с подкрепата на Европейската асоциация за езикови ресурси (ELRA) и технологичната компания „Мозайка“. Специалната сесия за лексикално-семантични мрежи и онтологии се осъществява по проекта „Семантична мрежа с широк спектър от семантични релации“, финансиран от Фонд „Научни изследвания“.

Доц. Светла Бойчева


Д-р Преслав Наков


Демонстрация на European Language Grid

Сборникът „Towards a Semantic Network Enriched with a Variety of Semantic Relations“ (съставител Светла Коева) съдържа три студии, представящи резултатите от проекта – интеграцията на знание от различни семантични ресурси за целите на обогатяването на семантичното описание на глаголите.

Koeva, S. (ed.) Towards a Semantic Network Enriched with a Variety of Semantic Relations. Prof. Marin Drinov Academic Publishing House of Bulgarian Academy of Sciences. Sofia, 2020. ISBN 978-619-245-057-1. DOI: 10.7546/TSN.2020

Copyright © 2015 Институт за български език. Всички права запазени.