Срок: 2017 – 2019
Вид на проекта: колективен
Финансиране: бюджетна субсидия
Ръководител: проф. д-р Св. Коева
Участници: проф. д-р Св. Коева, гл. ас. д-р Цв. Димитрова, гл. ас. д-р Св. Лесева, гл. ас. д-р М. Тодорова, д-р И. Стоянова, Б. Ризов, Л. Джаков, М. Ялъмов.
Анотация:
Целите на проекта са насочени към по-нататъшно увеличаване на обема на Българския национален корпус (БНК), повишаване на неговата представителност и балансираност и разширяване на възможностите за достъп до него. Чрез изпълнението на тези цели ще се осигури по-ефективното използване на БНК като база за извършване на разнообразни лингвистични изследвания и за лексикографско описание на актуалното състояние на българския език.
За нуждите на по-нататъшното разширяване на БНК (включително и на паралелните многоезикови корпуси в него) ще продължи автоматичното идентифициране и събиране на подходящи документи от интернет. Важна насока в усъвършенстването на БНК ще бъде и доизграждането на таксономично организиран класификационен модел за описание на документите в корпуса, който ще позволи включване на нови категории текстове и лесна реорганизация. Във връзка с лингвистичната анотация на БНК ще продължи работата по автоматично анотиране на документите в него. За да се осигури оптимално лексикографско приложение на БНК, се предвижда извършването на подбор на корпусни единици, които ще бъдат използвани в системата за търсене за лексикографски цели, а също така и подобряване на възможностите за извличане на специализирани едноезикови и многоезикови корпуси.
Работата върху разширяването на корпуса и достъпа до него обединява различни научни направления като лингвистика и компютърна лингвистика, лексикография и корпусна лингвистика и др. и води до високи и ефективни интердисциплинарни научни постижения. Създаващите се по проекта и на основата на резултатите от проекта електронни ресурси и приложения стоят в основата на социалноориентирани софтуерни решения и технологични продукти – автоматично резюмиране на големи по обем документи за нуждите на администрацията, медиите и библиотеките, автоматично търсене на съответните документи в дадена област, интелигенти програми, подпомагащи преводачите; система от езикови правила, улесняваща хора със слухови увреждания и др. Проектът участва в две от приоритетните за Института за български език области: Теоретични езиковедски изследвания и Електронни езикови ресурси и програми за тяхната обработка.
Форма на представяне на резултатите: усъвършенствана система за търсене в Българския национален корпус; речник на съставните лексикални единици; усъвършенствана система за откриване на неологизми; усъвършенствана система за извличане на цитати; студии и статии, представящи теоретични изследвания и работата по изграждането на корпуса и неговите приложения.