EN BG

Обогатяване на семантичната мрежа Уърднет с концептуални фреймовеСрок: 2021-2023

Вид на проекта: колективен

Финансиране: Фонд „Научни изследвания“Ръководител: проф. д-р Св. Коева

Участници: проф. д-р Св. Коева, проф. Тинко Тинчев (Факултет по математика и информатика, Софийски университет), проф. Мила Димитрова-Вълчанова (Норвежки университет за наука и технологии, Трондхайм), гл. ас. д-р Св. Лесева, гл. ас. д-р Цв. Димитрова, гл. ас. д-р М. Тодорова,гл. ас. д-р В. Стефанова, д-р Ив. Стоянова, М. Ялъмов, К. Белев, Хр. Кукова, В. Петрова.

Резюме:

Предлаганото теоретично изследване е насочено към семантично описание и типологизация на глаголните предикати. Семантичното описание ще се основава на разработването на система от абстрактни концептуални фреймове, представящи семантичната структура на глаголи от основната лексика (включително лексиката на деца от определена възрастова група), и интегрирането на концептуалните фреймове в структурата на семантичната мрежа Уърднет.

Основната цел на проекта е абстрактно представяне на типовете концептуални фреймове, които съотнасят глаголни предикати и класовете съществителни имена, които се реализират (задължително или не) в областта на действие на предикатите.

Хипотезата ни е, че доколкото концептуализацията отразява света, който ни заобикаля, и позволява междуезиковата комуникация, подобно абстрактно (и до голяма степен) езиково независимо описание е възможно.

За да се постигне основната цел на проекта, са формулирани следните по-специфични цели:

  • Разработване на система от концептуални фреймове, представящи семантичната структура на глаголи от основния речников запас (включително на деца от определена възрастова група).
  • Детайлно онтологично представяне на семантичните класове на съществителните имена в Уърднет, участващи в семантичната структура на глаголи от основния речников запас.
  • Интегриране на системата от концептуални фреймове в структурата на семантичната мрежа Уърднет.
  • Извеждане на теоретични обобщения за онтологичното описание на семантичните класове на съществителните, за системата от концептуални фреймове, както и за комплексното представяне на семантична информация.

Предпоставка за постигането на основната цел и специфичните цели е използването на автоматизираните процедури за анализ на големи масиви от текстове с оглед на реализацията на глаголни предикати и техните обкръжения, както и разработването и използването на онлайн система за създаване, редактиране и визуализация на концептуални фреймове.

В основата на този аспект от изследването стои разбирането, че достоверни теоретични заключения могат да бъдат направени въз основа на количествен и дистрибутивен анализ, извършен с помощта на съвременните езикови технологии.

При изпълнението на описаните цели ще бъде постигната още една цел с фундаментален характер: диференциране на основните прилики и разлики при моделите за концептуализация, лексикализация и граматикализация при различните семантични класове предикати в съвременния български език. Това ще открои езиково специфичните и езиково независимите семантични характеристики, които имат общотеоретично значение (или са валидни за голяма група езици).

Дейностите в рамките на проекта са организирани в работни пакети.

Работен пакет 1 „Управление на проекта“

Дейност 1.1. Изготвяне и изпълнение на детайлен работен план за работата по проекта; от месец 1 до месец 36.

Дейност 1.2 Изготвяне и приемане на финансови и научни отчети по проекта: от месец 16 до месец 18 и от месец 34 до месец 36.

Дейност 1.3. Организиране на одит на проекта: от месец 16 до месец 18 и от месец 34 до месец 36.

Работен пакет 2 „Формално описание на семантичната структура на глаголни синонимни множества, част от основния речников запас“

Дейност 2.1. Определяне на глаголните синонимни множества, част от основния речников запас: от месец 1 до месец 6.

Дейност 2.2. Определяне на концептуалните фреймове, необходими за описанието на избраните глаголни синонимни множества: от месец 7 до месец 18.

Дейност 2.3. Представяне на онтология на семантичните класове на съществителните имена в Уърднет: от месец 13 до месец 18.

Работен пакет 3 „Изграждане на система за създаване, редактиране и визуализация на концептуални фреймове“

Дейност 3.1 Спецификация на функционалностите и дизайн на архитектурата на системата: от месец 7 до месец 12.

Дейност 3.2. Имплементация на системата за свързване, редактиране и визуализация на концептуални фреймове: от месец 7 до месец 12.

Дейност 3.3. Интензивно тестване на системата и фиксиране на установени несъответствия: от месец 13 до месец 18.

Работен пакет 4 „Обогатяване на семантичната мрежа Уърднет с концептуални фреймове“

Дейност 4.1. Автоматично обогатяване на семантичната мрежа Уърднет с концептуални фреймове: от месец 19 до месец 24.

Дейност 4.2. Въвеждане и редакция на концептуални фреймове в семантичната мрежа Уърднет с помощта на създадената за целта система: от месец от месец 22 до
месец 30.

Дейност 4.3. Автоматични тестове за приложимостта на системата от концептуални фреймове: от месец 30 до месец 36.

Работен пакет 5 „Теоретични обобщения за комплексното представяне на семантична информация“

Дейност 5.1. Теоретични обобщения за системата от семантични класове на съществителните имена: от месец 19 до месец 24.

Дейност 5.2. Теоретични обобщения за системата от концептуални фреймове: от месец 19 до месец 24.

Дейност 5.3. Теоретични обобщения за комплексното представяне на семантична информация: от месец 25 до месец 36.

Работен пакет 6 „Разпространение на резултатите от проекта“

Дейност 6.1. Осигуряване на свободен достъп до резултатите от проекта в интернет: от месец 1 до месец 36.

Дейност 6.2. Представяне на резултатите от проекта на реномирани международни форуми или списания: от месец 1 до месец 36.

Дейност 6.3. Разработване на план за реализация на резултатите от проекта: от месец 33 до месец 36.


Планът за реализация и разпространение на резултатите е ориентиран към осигуряването на широк обществен достъп до придобитото ново знание при неизключителни и недискриминационни условия: предоставяне на свободен онлайн достъп, разпространение на създадените семантични ресурси с лиценз CC-BY-SA, широко популяризиране чрез участие в национални и международни научни форуми, интегриране на резултатите в преподаването, организиране на прояви, ориентирани към широката общественост.

1. Осигуряване на онлайн достъп до резултатите от проекта

Ще бъде разработена специална уебстраница, на която ще се публикува актуална информация за проекта. Чрез нея ще бъде осигурен достъп и до научните резултати от работата. Достъп до резултатите ще има и чрез страницата на Института за български език. За повишаване на видимостта резултатите (бази от данни и публикации) ще бъдат публикувани на страницата на центъра МЕТА-СПОДЕЛЯНЕ към Института или на сходна по предназначение платформа. МЕТА-СПОДЕЛЯНЕ е отворена инфраструктура, която осигурява разпределен и сигурен достъп до информация за езикови технологии и ресурси за множество европейски езици, като достъпът до нея се извършва от различни центрове за езикови технологии в Европа.

По този начин ще се осигури широк достъп до резултатите от проекта, в това число: а) разработените семантични ресурси със свободен достъп (лиценз CC-BY-SA) – колекция от глаголни синонимни множества, част от основния речников запас; онтология на семантичните класове на съществителните имена в Уърднет; система от концептуални фреймове, представящи семантичната структура на глаголи от основния речников запас; база от данни с глаголни синонимни множества и техните концептуални фреймове; система от концептуални фреймове, интегрирани в структурата на Уърднет; б) софтуер за създаване, редактиране и визуализация на концептуални фреймове; в) свободнодостъпни публикации и представяния на доклади на научни форуми (мултимедийни презентации, видеозаписи или под.).

2. Публикации

По проекта се предвижда подготвяне и издаване на минимум 6 публикации в реферирани и индексирани издания (напр. Lingvisticae Investigationes: International Journal of Linguistics and Language Resources, както и в изданията на Института за български език – сп. „Български език“, сп. „Балканско езикознание“ (индексира се в Скопус), „Известия на Института за български език „Проф. Л. Андрейчин“ (от които поне две в издания с импакт фактор (Web of Science) и импакт ранг (SCOPUS), в рецензирани тематични сборници и в сборниците от международни конференции, в които членовете на екипа ще участват.
Предвижда се част от тези публикации да бъдат в издания със свободен достъп. Информация за публикациите ще бъде разпространявана както на специализираната страница на проекта, така и на страниците на Института за български език и на личните страници на участниците в проекта.

Предвижда се най-значимите теоретични резултати да бъдат публикувани в специална колективна монография със студии, които ще бъдат рецензирани. Колективната монография ще бъде разпространявана както през уебстраницата на проекта, така и чрез порталите за споделяне на научна литература (ResearchGate, Academia и др.) и научни бази от данни (CEEOL и др.).

3. Участие в научни форуми

Основна насока за бъдещото разпространение на резултатите е чрез участие с минимум 6 научни съобщения в специализирани международни научни форуми в областта на компютърната лингвистика, семантичните мрежи и онтологиите, и публикации в престижни международни издания. Участниците в проекта ще подготвят публикации за участие в национални и международни научни форуми като Конференцията за езикови ресурси и оценка (LREC’2022), „Семантика“ (SEMANTICS), Конференцията за лексикална и компютърна семантика (*SEM) и съпътстващите ги уъркшопи, както и на редица лингвистични конференции, организирани специално за разпространението на резултатите от проекта. Mладите учени и постдокторантите, участващи в проекта, ще се възползват от възможностите за научни изяви на форумите, по време на които също ще бъдат обсъждани научните дейности по проекта.

4. Лекции пред научната общност, студенти и преподаватели

Разработваните ресурси ще бъдат представени и пред ученици – състезатели по лингвистика и компютърна лингвистика и пред студенти от бакалавърски и магистърски програми в Софийския университет „Св. Кл. Охридски“, където членовете от екипа преподават или традиционно са канени като гост лектори: лингвистичния семинар на докторантското училище към СУ; курсовете по Съвременни синтактични теории и Формално описание на естествените езици в магистърската програма „Компютърна лингвистика. Интернет технологии в хуманитаристиката“.

5. Разпространение на резултатите от проекта пред широката общественост

Като практически резултат от бъдещите теоретични и приложни изследвания и надграждането и обогатяването на разработваните ресурси (Уърднет и Фреймнет) се предвижда създаването на образователни игри, насочени към ученици от различни възрасти и широката общественост, в които да се интегрира концептуалното знание за предикатите и тяхната съчетаемост и за семантичните релации по начин, насърчаващ прилагането на изследователски подход при решаването на поставените езикови задачи.

Публикуването на резултатите в реномирани реферирани и индексирани издания, участието с научни съобщения в научни форуми, организирането на Специалната сесия, посветена на Уърднет и онтологиите, както и на научни семинари ще допринесе за разпространението на резултатите, развитието на научното сътрудничество с български и международни екипи и за изграждането, поддържането и развитието на международни научни мрежи (например Европейската мрежа за върхови постижения МЕТА-НЕТ, Европейската федерация на националните езикови институти и др.), в съответствие с индикаторите за резултатите от настоящото предложение.Ресурсите, резултат от проекта, се разпространяват със свободен лиценз Creative Commons Attribution-ShareAlike 4.0 International (CC-BY-SA 4.0).


Дейност 2.1. Семантичен ресурс: Колекция от 5074 глагола, организирани в синонимни множества, оценени по специална методика, включваща количествени и качествени критерии с цел да се провери принадлежността им към основния речников запас.

За изтегляне (pdf)


Дейност 2.1. Семантичен ресурс: Колекция от 269 глагола, оценени експериментално за степента на тяхното овладяване сред ученици от начален етап на обучение.

За изтегляне (pdf)


Дейност 2.1. Задачи от експеримента за за степента на тяхното овладяване сред ученици от начален етап на обучение.

Към задачите (онлайн достъп)


Дейност 2.2. Семантичен ресурс: Система от концептуални фреймове, представящи семантичната структура на глаголи от основния речников запас. При приемането на работата по етапа, системата ще бъде отворена за разглеждане от потребители.

Към системата (онлайн достъп: bulframe-editor@dcl.bas.bg | admin)


Дейност 2.2. Семантичен ресурс: Автоматично приписани семантични фреймове от Фреймнет на глаголи от основния речников запас.

За изтегляне (pdf)


Дейност 2.3. Семантичен ресурс: Онтология на семантичните класове на съществителните имена, съотнесени със синонимни множества в Уърднет, участващи в семантичната структура на глаголи от основния речников запас.

За изтегляне (pdf)


Дейност 3.1. Техническа спецификация на системата за свързване, редактиране и визуализация на концептуални фреймове.

За изтегляне (pdf)


Дейност 3.2. Софтуер за създаване, редактиране и визуализация на концептуални фреймове.

Към системата (онлайн достъп)


Дейност 3.3. Онлайн система за създаване, редактиране и визуализация на концептуални фреймове.

Към системата (онлайн достъп)

Коева, Св. Към типологичен анализ на комплементността в български. Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2021). Светла Коева, Максим Стаменов (съставители), т. 2, Т. 2, София: Издателство на БАН „Проф. Марин Дринов“, 2021, ISSN:2683-118Х (print); ISSN 2683-1198 (online), 13-27. (pdf)

Тодорова, М., Цв. Димитрова, В. Стефанова. Изследване на основния понятиен апарат и речников запас на глаголи при ученици в начален етап на обучение. сп. „Педагогика“, 94, 7, 2022, ISSN:1314–8540 (Online); ISSN 0861–3982 (Print), DOI:10.53656/ped2022-7.06, 896-913. (pdf)

Лесева, Св., Стоянова, Ив. Семантично описание на глаголи за промяна и йерархична организация на концептуалните фреймове. Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“. Светла Коева, Максим Стаменов (съставители), Издателство на БАН „Проф. Марин Дринов“, 2021, ISSN:2683-118Х, DOI:10.7546/ConfIBL2021.II.31, 76-85. (pdf)

Коева, Св., Дойчев, Е. Булфрейм – система за създаване и редактиране на концептуални фреймове. Доклади от Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“ (София, 2022 година). Светла Коева, Максим Стаменов (съставители), ISSN 2683-118X (print), ISSN 2683-1198 (online), 544-553. (pdf)

Димитрова-Вълчанова, М., В. Вълчанов. Аргументи за добро и за лошо: фактори, влияещи на процеса на активното разбиране на свободни глаголни словосъчетания и глаголни идиоми с еднаква опора. Български език, Приложение (Доклади от Осмия форум „Българска граматика“), 69 (2022), 23-41. (pdf)

Leseva, Sv., Stoyanova, Iv. Linked Resources towards Enhancing the Conceptual Description of General Lexis Verbs Using Syntactic Information (Лексикални ресурси, насочени към обогатяването на концептуалното описание на основна глаголна лексика със семантична и синтактична информация). Proceedings of the Fifth International Conference Computational Linguistics in Bulgaria (CLIB 2022), 2022, ISSN:2367-5675, 214-223. Индексира се в Scopus. (pdf)

Koeva, S., E. Doychev. Ontology Supported Frame Classification (Класификация на фреймове, основана на онтология). Proceedings of the Fifth International Conference Computational Linguistics in Bulgaria (CLIB 2022), 2022, ISSN:2367-5675, 214-223. Индексира се в Scopus. (pdf)

Представяне на конференции

Доклад на Светла Коева на тема Към типологичен анализ на комплементността в български, изнесен на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“, провела се на 15.05.2021 г.

Доклад на Светлозара Лесева и Ивелина Стоянова на тема Семантично описание на глаголи за промяна и йерархична организация на концептуалните фреймове, изнесен на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“, провела се на 15.05.2021 г.

Доклад на Светла Коева и Емил Дойчев на тема Булфрейм – система за създаване и редактиране на концептуални фреймове, изнесен на Международната годишна конференция на Института за български език „Проф. Любомир Андрейчин“, провела се на 15. 05. 2022 г.

Доклад на Мила и Валентин Вълчанови на тема Аргументи за добро и за лошо: фактори, влияещи на процеса на активното разбиране на свободни глаголни словосъчетания и глаголни идиоми с еднаква опора, изнесен на Осмия форум „Българска граматика“, организиран от Института за български език „Проф. Любомир Андрейчин“, провел се на 21 и 22 октомври 2021.

Доклад на Светлозара Лесева и Ивелина Стоянова на тема Linked Resources towards Enhancing the Conceptual Description of General Lexis Verbs Using Syntactic Information (Лексикални ресурси, насочени към обогатяването на концептуалното описание на основна глаголна лексика със семантична и синтактична информация), изнесен на Петата международна конференция Компютърната лингвистика в България (CLIB 2022), която се проведе през септември 2022 г.

Доклад на Светла Коева и Емил Дойчев на тема Ontology Supported Frame Classification (Класификация на фреймове, основана на онтология), изнесен на Петата международна конференция Компютърната лингвистика в България (CLIB 2022), която се проведе през септември 2022 г.

Семинар на Светла Коева на тема Bulgarian FrameNet: current state and future prospects (Българският Фреймнет: състояние и перспективи), изнесен на 04.10.2022 г. в рамките на инициативата Global FrameNet Tuesdays.

Научни семинари

Семинар на 27 октомври 2021, Институт за български език „Проф. Любомир Андрейчин“

11 – 13 часа Обща среща по Работен пакет 2. Формално описание на семантичната структура на глаголни синонимни множества, част от основния речников запас с всички участници: проф. д-р Светла Коева, проф. д-р Мила Димитрова-Вълчанова, проф. д-р Валентин Вълчанов, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Мария Тодорова, гл ас. д-р Валентина Стефанова, д-р Ивелина Стоянова, гл. ас. д-р Цветана Димитрова, Христина Кукова. Проф. Мила Димитрова-Вълчанова е ръководител на Работния пакет. По време на срещата бяха направени:

Преглед и оценка на резултатите от изпълнението на задача 2.1. Определяне на глаголните синонимни множества, част от основния речников запас: от месец 1 до месец 6.
Обсъждане на текущата работа по задача 2.2. Определяне на концептуалните фреймове, необходими за описанието на избраните глаголни синонимни множества: от месец 7 до месец 18.

15 – 17 часа Обсъждане на експериментите за определяне на основния лексикален запас от глаголи в различни възрастови групи и на техните концептуални фреймове: тематични области; критерии за подбор на елементите, които участват в експериментите; степен на сложност; влияние на реда на задачите в експериментите.
Участници: проф. Мила Димитрова-Вълчанова, проф. Валентин Вълчанов, гл. ас. Мария Тодорова, гл. ас. Валентина Стефанова, гл. ас. Цветана Димитрова, Христина Кукова.

Семинар на 28 октомври 2021, Институт за български език „Проф. Любомир Андрейчин“

10 – 11 часа Лекция на проф. Мила Димитрова-Вълчанова (от Норвежкия университет за наука и технологии в Трондхайм, Норвегия) на тема „Аспектът в съзнанието на говорещия“ в рамките на Есенния лингвистичен семинар на Института за български език

14 – 16 часа Обсъждане на съвместна публикация, отразяваща постигнатите до момента резултати. Участници в срещата: проф. д-р Светла Коева, проф. д-р Мила Димитрова-Вълчанова, проф. д-р Валентин Вълчанов, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Мария Тодорова, д-р Ивелина Стоянова

Семинар на 29 октомври 2021, Институт за български език „Проф. Любомир Андрейчин“

10 – 12 часа Набелязване на основните цели и задачи за изпълнение във връзка със задача 2.3. Представяне на онтология на семантичните класове на съществителните имена в Уърднет: от месец 13 до месец 18. В резултат от анализа, осъществен в Дейност 2.2., ще бъдат обособени семантичните класове, валидни за концептуалните фреймове на избраните глаголни синонимни множества. Участници в срещата: проф. д-р Светла Коева, проф. д-р Мила Димитрова-Вълчанова, проф. д-р Валентин Вълчанов, проф. д-р Тинко Тинчев, гл. ас. д-р Светлозара Лесева, гл. ас. д-р Мария Тодорова, гл ас. д-р Валентина Стефанова, д-р Ивелина Стоянова, гл. ас. д-р Цветана Димитрова.

14 – 16 часа Обща среща по проекта на проф. Мила Димитрова-Вълчанова и проф. Валентин Вълчанов с всички участници. Целта на срещата е обобщение на постигнатите до момента резултати, преглед на задачите, които остава да бъдат изпълнени до края на първия етап, набелязване на конкретни подзадачи и условията за тяхното изпълнение.

Copyright © 2015-2022 Department of computational linguistics. All rights reserved.