Настоящи


Българският национален корпус (2011-2013) Електронни езикови ресурси и програми за тяхната обработка (БулНет и ФреймНет) (2011-2013) Многоезикови паралелни корпуси – в помощ на съвременните езикови технологии (2012-2014) Интегриране на нови практики и знания в обучението по компютърна лингвистика (2012-2014) От лексикално-семантични мрежи към бази от знания: обогатяване на Българския и Румънския wordnet с морфо-семантична информация


Българският национален корпус (2011-2013)

Срок: 2011-2013 г. Финансиране: бюджeтна субсидия, съфинансиране от НФНИ по проекта “Многоезикови паралелни корпуси – в помощ на съвременните езикови технологии“

Проектът цели разширяване и обогатяване на Българския национален корпус с нови корпусни единици, усъвършенстване на критериите за оценка и анализ на Корпуса с оглед на представителността и балансираността му. Работи се по създаване на принципи, методология, добри практики и стандарти за разработване на многоезикови паралелни корпуси с оглед на изработването на обща рамка за създаването и анотирането им, като е възприет и единен подход по отношение на начините на допълване на корпуса с корпусни единици - събирането на документите е автоматично - от интернет, приписването на метаданните е автоматично (доколкото е възможно), анотирането на документите и съотнасянето на единици между паралелни документи на различни езици също са автоматични. Концепцията за организацията на корпуса е следната - основната цел е събирането на максимален брой езикови образци, характеризирането на тези единици посредством разнообразни метаданни и снабдяването им с изчерпателна лингвистична информация. Разнообразните метаданни са източник на класификационна информация за създаването на различни специализирани корпуси или корпуси, балансирани според конкретни задачи за изследване. Богатството на езиковия материал е източник на достоверна информация за различен тип лингвистични феномени. Различните езици се включват в Корпуса, описват и анотират по унифициран модел. Специфицират се и параметрите за разширяване на функционалностите на търсещата система в Корпуса.

Синхронизирани са форматите за автоматична обработка на български и английски текстове, както и между програмите за анотиране и търсещата система.

(обратно в началото)


Електронни езикови ресурси и програми за тяхната обработка (БулНет и ФреймНет) (2011-2013)

Срок: 2011-2013 г. Финансиране: бюджетно финансиране; съфинансиране по проект "ЦЕЗАР – Централно и южноевропейски езикови ресурси" по програма ICT PSP

Една от основните цели на проекта е разширяването на Българската лексикално-семантична мрежа БулНет с нови синонимни множества и техните семантични релации, съпроводено с подобряването на показателите за пълнота и непротиворечивост на езиковите данни. Усъвършенства се и системата за отстраняване на семантична многозначност. Последният вариант на системата е хибриден, използва статистически алгоритми и алгоритми, базирани на знания. Подобряват се модулите на програмата Hydra за визуализация и работа с ресурсите, както следва: конфигурацията на системата и достъпът до нея; проверка за автентичност на потребителя; поддръжка на полета в базата за работа с обектите с външен ключ. във връзка с разпространението на програмата като свободен код е определен и добавен лицензът, съставени са ръководства – за инсталация и потребители.

Разработва се и подробно описание на функционалностите и компонентите на компютърна система за създаване, редактиране и визуализация на Българския ФреймНет, съобразена с новите теоретични разработки. Разработва се и концепция за по-нататъшно изграждане и развитие на Българския ФреймНет. В компютърната система за разработка на Българския ФреймНет са моделирани обектите и релациите между тях, които са необходими за въвеждане на семантични фреймове.

(обратно в началото)


Многоезикови паралелни корпуси – в помощ на съвременните езикови технологии (2012-2014)

Национален проект, финансиран по програма „Млади учени“ на Фонд „Научни изследвания“

(обратно в началото)


Интегриране на нови практики и знания в обучението по компютърна лингвистика (2012-2014)

Срок: март 2012 г. - септември 2014 г. Финансиране: Европейски социален фонд по Оперативна програма "Развитие на човешките ресурси" Партньор: Софийски университет "Св. Климент Охридски"

Целта на проекта е прилагане и надграждане на придобитите по време на обучението знания и умения на докторанти, постдокторанти, специализанти и млади учени за формиране и динамично развитие на педагогически компетенции и практическата им реализация в областта на компютърната лингвистика, интегриране на научноизследователската и педагогическата дейност в съответствие с най-добрите световни практики.

(обратно в началото)


От лексикално-семантични мрежи към бази от знания: обогатяване на Българския и Румънския wordnet с морфо-семантична информация

Проект, финансиран по ЕБР

Проектът цели разработването на обща методология за работа при включването на словообразувателните релации и на семантичните релации в Българския wordnet и в Румънския wordnet, за да бъдат разширени със съответните релации Системата Хидра, разработена в Секцията за компютърна лингвистика, ще бъде адаптирана за използване с Румънския wordnet и с цел включване на новите релации.

(обратно в началото)