EN BG

Enriching the Semantic Network WordNet with Conceptual Frames



Duration: 2021-2023

Type of project: collective

Funding: National Science Research Fund



Principal Investigator: Prof. S. Koeva, Ph.D.

Participants: Prof. S. Koeva, Prof. Mila Dimitrova-Valchanova (Norwegian University of Science and Technology, Trondheim), Prof. Tinko Tinchev (Department of Mathematics and Informatics, Sofia University), Assist. Prof. S. Leseva, Assist. Prof. T. Dimitrova, Assist. Prof. M. Todorova, Assist. Prof. Valentina Stefanova, I. Stoyanova, M. Yalamov, K. Belev, H. Kukova, V. Petrova.

Summary:

The proposed theoretical research is aimed at devising a semantic description and a typology of verb predicates belonging to the basic conceptual apparatus. The semantic description will be based on the elaboration of a system of abstract conceptual frames representing the semantic structure of verbs belonging to the basic vocabulary (including the vocabulary of children of a certain age group) and the integration of conceptual frames into the structure of the semantic network Wordnet.

The fundamental objective of the proposed research is to achieve an abstract representation of the range of conceptual frames which describe the set of semantic relations between verb predicates and noun classes realised as (mandatory or optional) components of predicate structures.

Our hypothesis states that as far as conceptualisation reflects the world around us and allows cross-language communication, such abstract and (to a large extent) language independent description is possible.

In order to achieve our goal, we define the following objectives:

  • Development of a system of conceptual frames representing the semantic structure of verbs from the basic vocabulary (including the vocabulary of children of a certain age group).
  • Detailed ontological presentation of the semantic classes of nouns in WordNet, participating in the semantic structure of verbs from the basic vocabulary.
  • Integrating the system of conceptual frames into the structure of the WordNet semantic network.
  • Derivation of theoretical generalisations for the ontological description of the semantic classes of nouns, for the system of conceptual frames, as well as for the complex presentation of semantic information.

Prerequisite for achieving the main goal and specific objectives is the use of automatic procedures for analysis of large volumes of text with a view to the identification of verb predicates and their surroundings, as well as the implementation and use of an online system for creation, editing and visualisation of conceptual frames.

At the heart of this aspect of the study is the understanding that reliable theoretical conclusions can be drawn on the basis of quantitative and distributive analysis performed using modern language technologies.

In fulfilling the outlined objectives, another fundamental goal will be achieved: differentiation of the main similarities and differences in the models for conceptualisation, lexicalisation and grammaticalisation of different semantic classes of predicates in the modern Bulgarian language. This will highlight language-specific and language-independent semantic characteristics that have general theoretical significance (or are valid for a large group of languages).

The project activities are organised in working packages.

The plan for realisation and dissemination of the results is oriented towards providing wide public access to the acquired new knowledge under non-exclusive and non-discriminatory conditions: providing free online access, dissemination of the created semantic resources with CC-BY-SA license, wide popularisation through participation in national and international scientific forums, integration of teaching results, organisation of events aimed at the general public.

1. Providing online access to project results

A web page will be developed where up-to-date information about the project and its progress will be published. Through this page the project team will make available the scientific results of the project. Access to the project results will also be provided through the page of the Institute for Bulgarian Language. To increase their visibility, the project results (databases and publications describing them) will be published on the META-SHARE page on the website of the Institute for Bulgarian Language: or other similar platforms.

This will ensure wide access to the project results, including: a) the developed semantic resources with free access (license CC-BY-SA) – a collection of verb synonym sets that form a part of the basic vocabulary; an ontology of the semantic classes of nouns in Wordnet; a system of conceptual frames representing the semantic structure of verbs from the basic vocabulary; a database of verb synonym sets and their conceptual frames; a system of conceptual frames integrated into the Wordnet structure; b) software for creation, editing and visualisation of conceptual frames; (c) freely available publications and presentations of reports at scientific forums (in the form of multimedia presentations, video recordings, etc.).

2. Publications

The project envisages preparation and publication of minimum 6 papers in refereed and indexed journals, such as Lingvisticae Investigationes: International Journal of Linguistics and Language Resources, as well in the journals published by the Institute for Bulgarian Language – Balgarski ezik (Bulgarian Language) and Balkansko ezikoznanie (Balkan Linguistics) (indexed in SCOPUS), Proceedings of the Institute of Bulgarian Language “Prof. L. Andreychin” of which at least two are in editions with impact factor (Web of Science) and impact rank (SCOPUS); in peer-reviewed thematic collections of papers and in proceedings of prestigious international conferences in which members of the project team will participate.

Some of the publications will be submitted to free access journals. The most significant theoretical and experimental results will be published in a special collective monograph with studies which will be accepted after being reviewed. To ensure maximum visibility of the project results, the volume will be included in relevant databases of refereed and indexed publications (e.g. SCOPUS, Web of Science, ERIH, EBSCO Publishing), and/or will be distributed via portals for sharing scientific literature (ResearchGate, Academia, etc .).

3. Participation in scientific forums

The main direction for the future dissemination of the results is through participation with at least 6 scientific presentations in international scientific forums in the field of computational linguistics, semantic networks and ontologies, and publications in prestigious international editions. Project participants will submit papers to national and international scientific forums, such as: the Language Resources and Evaluation Conference (LREC’2022), the Conference on Semantics (SEMANTICS), the Conference on Lexical and Computational Semantics (*SEM), the accompanying workshops, the Grammar Forum, organized by the Institute of Bulgarian Language, Sofia, 2021 and 2022, the International Annual Conference of the Institute of Bulgarian Language, Sofia, 2022 and 2023. It is envisaged to provide free access to the reports: multimedia presentations, videos and / or others.

4. Lectures to the scientific community, students and teachers

The results of the project and the analysis done will be represented to students who participate in Linguistics and Computational linguistics competitions and to integrated into the relevant courses in the Master’s programs in Computational Linguistics where some of the team members teach, or are traditionally invited as lecturers: the linguistic seminar of the PHD school at Sofia University; courses in Contemporary Syntactic Theories and Formal Description of Natural Languages in the Master’s Programme Computational Linguistics. Internet technologies in the Humanities.

5. Dissemination of the project results to the general public

As a practical application of future theoretical and applied research and the development and enrichment of the elaborated resources (Wordnet and Framenet) it is envisaged to create educational games for students of different ages and for the general public, in which to integrate the conceptual knowledge of predicates` compatibility and of semantic relations in a way that encourages the application of a research approach in solving the set language tasks.

The publication of the results in renowned refereed and indexed publications, the participation with scientific communications at scientific forums, the organisation of the Special Session on Wordnet and Ontologies, as well as scientific seminars will contribute for the dissemination of results, the development of scientific cooperation with Bulgarian and international teams and for the establishment, maintenance and development of international scientific networks (eg the European Network of Excellence META-NET, the European Federation of National Language Institutes, etc.), in accordance with indicators for the results of this proposal.



Ресурсите, резултат от проекта, се разпространяват със свободен лиценз Creative Commons Attribution-ShareAlike 4.0 International (CC-BY-SA 4.0).


Дейност 2.1. Семантичен ресурс: Колекция от 5074 глагола, организирани в синонимни множества, оценени по специална методика, включваща количествени и качествени критерии с цел да се провери принадлежността им към основния речников запас.

За изтегляне (pdf)


Дейност 2.1. Семантичен ресурс: Колекция от 269 глагола, оценени експериментално за степента на тяхното овладяване сред ученици от начален етап на обучение.

За изтегляне (pdf)


Дейност 2.1. Задачи от експеримента за за степента на тяхното овладяване сред ученици от начален етап на обучение.

Към задачите (онлайн достъп)


Дейност 2.2. Семантичен ресурс: Система от концептуални фреймове, представящи семантичната структура на глаголи от основния речников запас. При приемането на работата по етапа, системата ще бъде отворена за разглеждане от потребители.

Към системата (онлайн достъп: bulframe-editor@dcl.bas.bg | admin)


Дейност 2.2. Семантичен ресурс: Автоматично приписани семантични фреймове от Фреймнет на глаголи от основния речников запас.

За изтегляне (pdf)


Дейност 2.3. Семантичен ресурс: Онтология на семантичните класове на съществителните имена, съотнесени със синонимни множества в Уърднет, участващи в семантичната структура на глаголи от основния речников запас.

За изтегляне (pdf)


Дейност 3.1. Техническа спецификация на системата за свързване, редактиране и визуализация на концептуални фреймове.

За изтегляне (pdf)


Дейност 3.2. Софтуер за създаване, редактиране и визуализация на концептуални фреймове.

Към системата (онлайн достъп)


Дейност 3.3. Онлайн система за създаване, редактиране и визуализация на концептуални фреймове.

Към системата (онлайн достъп)

Коева, Св. Към типологичен анализ на комплементността в български. Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2021). Светла Коева, Максим Стаменов (съставители), т. 2, Т. 2, София: Издателство на БАН „Проф. Марин Дринов“, 2021, ISSN:2683-118Х (print); ISSN 2683-1198 (online), 13-27. (pdf)

Тодорова, М., Цв. Димитрова, В. Стефанова. Изследване на основния понятиен апарат и речников запас на глаголи при ученици в начален етап на обучение. сп. „Педагогика“, 94, 7, 2022, ISSN:1314–8540 (Online); ISSN 0861–3982 (Print), DOI:10.53656/ped2022-7.06, 896-913. (pdf)

Лесева, Св., Стоянова, Ив. Семантично описание на глаголи за промяна и йерархична организация на концептуалните фреймове. Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“. Светла Коева, Максим Стаменов (съставители), Издателство на БАН „Проф. Марин Дринов“, 2021, ISSN:2683-118Х, DOI:10.7546/ConfIBL2021.II.31, 76-85. (pdf)

Коева, Св., Дойчев, Е. Булфрейм – система за създаване и редактиране на концептуални фреймове. Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2022 година). Светла Коева, Максим Стаменов (съставители), ISSN 2683-118X (print), ISSN 2683-1198 (online), 544-553. (pdf)

Димитрова-Вълчанова, М., В. Вълчанов. Аргументи за добро и за лошо: фактори, влияещи на процеса на активното разбиране на свободни глаголни словосъчетания и глаголни идиоми с еднаква опора. Български език, Приложение (Доклади от Осмия форум „Българска граматика“), 69 (2022), 23-41. (pdf)

Leseva, Sv., Stoyanova, Iv. Linked Resources towards Enhancing the Conceptual Description of General Lexis Verbs Using Syntactic Information (Лексикални ресурси, насочени към обогатяването на концептуалното описание на основна глаголна лексика със семантична и синтактична информация). Proceedings of the Fifth International Conference Computational Linguistics in Bulgaria (CLIB 2022), 2022, ISSN:2367-5675, 214-223. Индексира се в Scopus. (pdf)

Koeva, S., E. Doychev. Ontology Supported Frame Classification (Класификация на фреймове, основана на онтология). Proceedings of the Fifth International Conference Computational Linguistics in Bulgaria (CLIB 2022), 2022, ISSN:2367-5675, 214-223. Индексира се в Scopus. (pdf)

Представяне на конференции

Доклад на Светла Коева на тема Към типологичен анализ на комплементността в български, изнесен на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“, провела се на 15.05.2021 г.

Доклад на Светлозара Лесева и Ивелина Стоянова на тема Семантично описание на глаголи за промяна и йерархична организация на концептуалните фреймове, изнесен на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“, провела се на 15.05.2021 г.

Доклад на Светла Коева и Емил Дойчев на тема Булфрейм – система за създаване и редактиране на концептуални фреймове, изнесен на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“, провела се на 15. 05. 2022 г.

Доклад на Мила и Валентин Вълчанови на тема Аргументи за добро и за лошо: фактори, влияещи на процеса на активното разбиране на свободни глаголни словосъчетания и глаголни идиоми с еднаква опора, изнесен на Осмия форум „Българска граматика“, организиран от Института за български език „Проф. Любомир Андрейчин“, провел се на 21 и 22 октомври 2021.

Доклад на Светлозара Лесева и Ивелина Стоянова на тема Linked Resources towards Enhancing the Conceptual Description of General Lexis Verbs Using Syntactic Information (Лексикални ресурси, насочени към обогатяването на концептуалното описание на основна глаголна лексика със семантична и синтактична информация), изнесен на Петата международна конференция Компютърната лингвистика в България (CLIB 2022), която се проведе през септември 2022 г.

Доклад на Светла Коева и Емил Дойчев на тема Ontology Supported Frame Classification (Класификация на фреймове, основана на онтология), изнесен на Петата международна конференция Компютърната лингвистика в България (CLIB 2022), която се проведе през септември 2022 г.

Научни семинари

Семинар на 27 октомври 2021, Институт за български език „Проф. Любомир Андрейчин“

11 – 13 часа Обща среща по Работен пакет 2. Формално описание на семантичната структура на глаголни синонимни множества, част от основния речников запас с всички участници: проф. д-р Светла Коева, проф. д-р Мила Димитрова-Вълчанова, проф. д-р Валентин Вълчанов, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Мария Тодорова, гл ас. д-р Валентина Стефанова, д-р Ивелина Стоянова, гл. ас. д-р Цветана Димитрова, Христина Кукова. Проф. Мила Димитрова-Вълчанова е ръководител на Работния пакет. По време на срещата бяха направени:

Преглед и оценка на резултатите от изпълнението на задача 2.1. Определяне на глаголните синонимни множества, част от основния речников запас: от месец 1 до месец 6.
Обсъждане на текущата работа по задача 2.2. Определяне на концептуалните фреймове, необходими за описанието на избраните глаголни синонимни множества: от месец 7 до месец 18.

15 – 17 часа Обсъждане на експериментите за определяне на основния лексикален запас от глаголи в различни възрастови групи и на техните концептуални фреймове: тематични области; критерии за подбор на елементите, които участват в експериментите; степен на сложност; влияние на реда на задачите в експериментите.
Участници: проф. Мила Димитрова-Вълчанова, проф. Валентин Вълчанов, гл. ас. Мария Тодорова, гл. ас. Валентина Стефанова, гл. ас. Цветана Димитрова, Христина Кукова.

Семинар на 28 октомври 2021, Институт за български език „Проф. Любомир Андрейчин“

10 – 11 часа Лекция на проф. Мила Димитрова-Вълчанова (от Норвежкия университет за наука и технологии в Трондхайм, Норвегия) на тема „Аспектът в съзнанието на говорещия“ в рамките на Есенния лингвистичен семинар на Института за български език

14 – 16 часа Обсъждане на съвместна публикация, отразяваща постигнатите до момента резултати. Участници в срещата: проф. д-р Светла Коева, проф. д-р Мила Димитрова-Вълчанова, проф. д-р Валентин Вълчанов, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Мария Тодорова, д-р Ивелина Стоянова

Семинар на 29 октомври 2021, Институт за български език „Проф. Любомир Андрейчин“

10 – 12 часа Набелязване на основните цели и задачи за изпълнение във връзка със задача 2.3. Представяне на онтология на семантичните класове на съществителните имена в Уърднет: от месец 13 до месец 18. В резултат от анализа, осъществен в Дейност 2.2., ще бъдат обособени семантичните класове, валидни за концептуалните фреймове на избраните глаголни синонимни множества. Участници в срещата: проф. д-р Светла Коева, проф. д-р Мила Димитрова-Вълчанова, проф. д-р Валентин Вълчанов, проф. д-р Тинко Тинчев, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Мария Тодорова, гл ас. д-р Валентина Стефанова, д-р Ивелина Стоянова, гл. ас. д-р Цветана Димитрова.

14 – 16 часа Обща среща по проекта на проф. Мила Димитрова-Вълчанова и проф. Валентин Вълчанов с всички участници. Целта на срещата е обобщение на постигнатите до момента резултати, преглед на задачите, които остава да бъдат изпълнени до края на първия етап, набелязване на конкретни подзадачи и условията за тяхното изпълнение.

Copyright © 2015-2022 Department of computational linguistics. All rights reserved.