Завършени
През последните двадесет години членовете на секцията са участвали в следните по-важни международни научни проекти:
CESAR: CEntral and South-east europeAn Resources ATLAS: Applied Technology for Language-Aided CMS Уеб приложения за редактиране на български текстове LexIt – информационна среда за комплексно лексикографско описание на словното богатство на българския език (от началото на XIX в. до наши дни) Квантификация на време и аспект в български, полски и английски на базата на Българо-полската съпоставителна граматика (теоретични изследвания и компютърно приложение) (2009-2011) Математическа логика и компютърна лингвистика: развитие и взаимно проникване BulNet - лексикално-семантична мрежа на българския език (2005-2010) Глаголна семантика: семантико-синтактичен речник на българския език (2005-2010) Автоматична граматична корекция на български език (Grammar Checker) (2008-2010) Езикови ресурси и технологии за машинен превод (2008-2010) DaskaL - електронно обучение (2004-2006) RILA - Автоматично извличане на информация (2005-2006) Разбираема България (2006) BalkaNet (2001-2004) TELRI I и II (1997-1997, 1999-2002) INTEX (1999-2000, 2001-2002) ELAN (1999) Граматичен www сървър (1997-1998) LATESLAV (1994-1996)
CESAR: CEntral and South-east europeAn Resources
Международен проект, финансиран по програмата на ЕС ICT PSP
Проектът CESAR, в сътрудничество с META-NET, цели увеличаването, подобряването, стандартизацията и междуезиковите връзки на широк кръг от езикови ресурси и програми за обработка на езика. Проектът ще направи достъпни множество езикови ресурси и програми за български, унгарски, полски, хърватски, сръбски и словашки, които включват едно- и многоезикови корпуси, речници, лексикално-семантични мрежи и релевантните програми за тяхната обработка като токанизатори, лематизатори, тагери и парсери, които ще бъдат достъпни като теб сервиси или като част от META_SHARE.
ATLAS: Applied Technology for Language-Aided CMS
Международен проект, финансиран по програмата на ЕС ICT PSP: CIP-ICT-PSP-2009-3
Европейският проект ATLAS е насочен към създаването на система за публикуване и поддръжка на електронно съдържание на различни езици. Системата включва съществуващи програмни ресурси за компютърна обработка на български, гръцки, румънски, хърватски, полски, немски и английски. Системата има три компонента: с iLibrarian и iPublisher потребителите могат лесно да създават, поддържат и публикуват многоезиково съдържание в интернет, а с EUDocLib могат да имат достъп до европейските правни документи.
Платформата на системата е с отворена архитектура, така че могат да се поддържат и други езици или да се добавят други програми за компютърна обработка на езика. Основните услуги, които се предлагат, са: автоматична категоризация на документи, автоматично генериране на резюмета на документи, автоматичен превод на резюметата, извличане на думи и изрази, които са “най-важни” за даден документ, интелигентно търсене в многоезиковото съдържание.
Уеб приложения за редактиране на български текстове
Проект, финансиран по програма Идеи от НФНИ, ДИД 02/19 от 17.12.2009
Целта на проекта е предоставянето на разнообразни уеб базирани услуги, които позволяват лесно и бързо редактиране и коригиране на правописа и граматиката на български текстове, справки в различни типове речници (синонимни, тълковни, преводни), както и редица улеснения при работата с български текстове. Това включва създаване на уеб базирани услуги (уеб сървиси, уеб компоненти и уеб приложения) за: проверка на коректността на български текстове (правопис и граматика), откриване на допуснатите грешки и генериране на най-подходящите пред ложения за корекция; ускоряване на бързината на работа с български текстове (коректно сричкопренасяне, автокорекция на правопис, автоматично вмъкване или замяна на символи или текст, зададени от потребителя); подпомагане на качеството на работа с български текстове (търсене на думи в синонимен речник, търсене на думи в преводен (българо-английски) речник, търсене на значенията на думи в тълковен речник).
LexIt – информационна среда за комплексно лексикографско описание на словното богатство на българския език (от началото на XIX в. до наши дни)
Финансиран по програма Развитие н научния потенциал, НФНИ, ДИД 02/53
Целта на проекта е създаването на уеб базирана среда, в която да се извършва комплексно лексикографско описание на лексикалния състав на българския език и да се създават различни типове печатни и електронни речници. Първоначално проектът ще е насочен към потребностите на работата по най-мащабното лексикографско издание у нас – многотомния Речник на българския език, обхващащ лексиката от началото на ХІХ в. до днес. Проектираната информационна среда ще включва както специализиран лексикографски софтуер, така и различни интегрирани е зикови ресурси (електронни речници, лексикални бази от данни, електронни корпуси и др.).
Квантификация на време и аспект в български, полски и английски на базата на Българо-полската съпоставителна граматика (теоретични изследвания и компютърно приложение) (2009-2011)
Предлаганият проект е продължение на многогодишния проект Българо-полска съпоставителна граматика, в който са работили редица изявени учени от двете академични институции и чиито резултати са обобщени в девет тома. Българо-полската съпоставителна граматика представлява фундаментално изследване, представящо в съпоставителен план граматичната структура на двата славянски езика. Освен с изчерпателното граматично описание, Българо-полската съпоставителна граматика се отличава с използването на единен формален език, който позволява приложението на резултатите за компютърна обработка.
Основната цел на предлагания проект е разширяване на формалното описание (от Българо-полската съпоставителна граматика на категориите време и аспект, които основно се засягат при квантификацията на двете категории), което ще бъде от полза както при създаването на компютърна програма за идентификация на феномените, така и за други приложения за автоматична обработка на естествения език. Обектът на изследване в съпоставителен план се разширява: български, полски и английски.
В началото на проекта ще бъдат проучени съществуващите начини за формално представяне на квантификацията на време и аспект в български, полски и английски. Ще бъде направено типологично описание на квантификацията на време и аспект в български, полски и английски.
Известно е, че програмните продукти за обработка на естествен език са до голяма степен езиково зависими и съществуващите програми не могат да бъдат адаптирани за даден език без доста сериозни промени. Следователно за компютърното представяне на изследваните феномени трябва да бъдат разработени методи и формални модели, специфични за работа с текстове на български, полски и английски език. Вторият основен фокус на проекта е изработването на логически модел за формално представяне на квантификацията на време и аспект. Логическият модел ще се базира на научни резултати, постигнати в Българо-полската съпоставителна граматика, и в максимална степен ще позволява описанието на езици с различни типологични характеристики, каквито са български, полски и английски. Логическият модел ще бъде верифициран с езикови данни от трите езика и ако е необходимо, усъвършенстван. Формалното описание на граматичната структура на български, полски и английски език с оглед на категориите време и аспект ще позволи създаването на уеб базирана програма за илюстрация на явленията в трите езика. Програмата ще може да бъде използвана както за бъдещи теоретични съпоставителни изследвания, така и с практическа насоченост – при обучението на български и полски като чужд или роден език.
Основните научни приноси на този проект ще бъдат формалното описание на граматичната структура на български, полски и английски език, което позволява автоматичната обработка, и приложението на ефективен метод за разпознаване на квантификацията на вид и време.
Математическа логика и компютърна лингвистика: развитие и взаимно проникване
Проект, финансиран от Европейски социален фонд, Оперативна програма „Човешки ресурси”, Схема за безвъзмездна финансова помощ „Подкрепа на докторанти, постокторанти, специализанти и млади учени”
Целта на проекта е мотивиране и подкрепа на докторанти, млади учени, специализанти и постдокторанти. Специфичните цели включват: подобряване на качеството на научните разработки в областта на математическа логика, информатика и компютърна лингвистика и изграждане на общност от млади учени за интердисциплинарни изследвания.
Проектът е планова задача на ИБЕ в сътрудничество с още три институции: Института по математика и информатика на БАН , Факултета по математика и информатика на Софийския университет и Института за стандартизация.
BulNet - лексикално-семантична мрежа на българския език (2005-2010)
Към края на проекта българската лексикално-семантична мрежа BulNet съдържа над 31 000 синонимни множества, разпределени по части на речта. Възлите в лексикално-семантичната мрежа wordnet са синонимни множества (наречени синсети), които съдържат думи или съставни думи (наречени литерали). Дъгите в wordnet изразяват семантични, словообразувателни и екстралингвистични релации между обектите, разположени във възлите. Семантиката на лексикалните възли се изразява имплицитно чрез синонимната релация между литералите в синонимното множество и релациите към другите възли в мрежата и експлицитно чрез тълковното значение и примерите за употреба. Българската лексикално-семантична мрежа е интегрирана в мрежата на балканските езици BalkaNet и на европейските езици EuroWordnet посредством межуезиков индекс, свързващ еквивалентните синонимни множества в различните езици.
Основната цел на настоящия тригодишен етап от многогодишния проект BulNet - лексикално-семантична мрежа на българския език е разширяването на Българската лексикално-семантична мрежа с нови синонимни множества и техните семантични релации, съпроводено с подобряването на показателите за пълнота и непротиворечивост на езиковите данни. Важен теоретичен принос ще представлява по-нататъшното формално дефиниране на семантичните, морфо-семантичните, деривационните и екстралингвистичните релации в зависимост от езиково независимия или езиково специфичния им характер, както и по отношение на зависимостите помежду им.
Разширяването на Българския wordnet е в тясна връзка с работата по семантично анотирания корпус на българския език, в който всяка лексикална единица се асоциира еднозначно със значение от wordnet. Автоматичното отстраняване на семантичната многозначност е един от най-сложните проблеми при компютърната обработка на естествените езици. Целта ни е (с помощта на разработваните езикови и програмни ресурси) да се разработи метод за разрешаване на многозначността, както и да се създадат съответните програмни имплементации.
Основните задачи ще се съпътстват с усъвършенстване и доразработване на програмните продукти за демонстрация, визуализация, справки, проверки, редактиране и изграждане на Българския wordnet, на системата за анотиране на корпуси и на система за търсене (по думи, характеристики на думи или техни булеви комбинации) в големи по обем корпуси (над 100 милиона думи).
Не на последно място по важност е по-нататъшното разпространение на резултатите от проекта чрез участия в конференции и публикации, поддържане и обновяване на уеб страницата на проекта.
Глаголна семантика:семантико-синтактичен речник на българския език (2005-2010)
Синтактичният речник на българския език съдържа информация за синтактичните обкръжения на лексикалните единици, за тяхната семантична съчетаемост, както и за възможното образуване на диатези. Структурата на речниковата статия съдържа следните съставни части: заглавна дума и част на речта, класификация на глагола към съответен клас значение, включващо описателно аргументите; информация за всеки аргумент поотделно, включваща следните компоненти; вид на фразата (експлицитност на фразата, синтактична функция, семантични признаци за всеки аргумент, онтологии, предлозите при предложните групи, въвеждаща връзка за подчиненото изречение, други коментари); информация за допустимите диатези на съответния глагол в следния ред: (вид диатеза, примери).
Основната цел на настоящия тригодишен етап от многогодишния проект Глаголна семантика: семантико-синтактичен речник на българския език е разширяването на семантико-синтактичния речник с нови глаголни значения и техните задължителни обкръжения, съпроводено с подобряването на показателите за пълнота и непротиворечивост на езиковите данни. Правилното кодиране на лингвистичната информация за вида на глагола, броя и вида на принадлежащите му аргументи, както и селективните им признаци се проверява чрез генерирането на съответните диатези за всеки глагол. Увеличаването на базата от данни ще доведе до корекция в теоретичните предвиждания и в съответното прецизиране на тестовете за проверка.
Важен теоретичен принос ще представлява по-нататъшното формално дефиниране на класове български глаголи, както и на явлението синтактично (и семантично) редуване с цел да се покажат българските (не)съответствия с английски. Ще бъде направена подробна класификация на българските редувания (диатези и алтернации) в зависимост от това, дали са свързани с промяна на броя на аргументите или характера на семантичните релации, дали редуванията се осъществяват на равнището на лема или словоформа, дали е регистрирана промяна при изразяването на аргументите на синтактично равнище и дали се наблюдават ограничения в глаголната парадигма на производния предикат.
Основните задачи на проекта ще се съпътстват с усъвършенстване и доразработване на програмните продукти за демонстрация, визуализация, справки, проверки, редактиране и изграждане на семантико-синтактичния речник и на система за търсене (по думи, характеристики на думи или техни булеви комбинации) в големи по обем корпуси (над 100 милиона думи). В момента за изработването на базата от данни се използва системата Syntext (Syntactic lexicon Tool), която е уеб базирана, информативно ориентирана, езиково независима, както и независима от лингвистичната теория система. Системата ще бъде усъвършенствана, ако е необходимо, в зависимост от увеличаването на данните и свързването с другите електронни ресурси на Секцията по компютърна лингвистика. Не на последно място по важност е по-нататъшното разпространение на резултатите от проекта чрез участия в конференции и публикации, поддържане и обновяване на уеб страницата на проекта.
Научният колектив на Секцията по компютърна лингвистика е награден с първа награда и грамота от НСНИ - МОН за постигнати научни резултати при разработката на научноизследователския проект “Глаголна семантика – проблеми на интерфейса” (декември 2005).
Автоматична граматична корекция на български език (Grammar Checker) (2008-2010)
Крайната цел на проекта е разработването на напълно функционален (платформено независим) софтуерен продукт за граматична проверка на български език (Grammar checker). Въпреки че най-популярните текстови редактори предлагат автоматична проверка на правописа на български език (включително програмата Ita est! - Така е! за Microsoft Office, създадена от участниците в проекта), до момента няма добра система за граматична проверка на български език. За разлика от програмите за проверка на правописа (Spell checker), които работят чрез сравняване на отделни думи от документа със списък от думи, отговарящи на правописните правила, за осъществяването на автоматична граматична проверка се изисква значително по-сложен контекстно зависим синтактичен анализ.
Известно е, че програмните продукти за обработка на естествен език са до голяма степен езиково зависими и съществуващите програми не могат да бъдат адаптирани за български без доста сериозни промени. Следователно за автоматичната граматична проверка трябва да бъдат разработени методи и алгоритми, специфични за работа с текстове на български език. За крайния резултат са важни няколко основни етапа – формулирането на множеството от възможни грешки, които системата трябва да описва, изборът на начин за формално представяне на граматичната структура и разработването на технология за автоматична проверка.
В началото на проекта ще бъдат проучени съществуващите системи за граматична проверка на други езици по отношение на лингвистичните характеристики, които обхващат, и техническите параметри, които демонстрират. Ще бъде направена типологична класификация на възможните граматични грешки, специфични за български език, като се използва корпус от нередактирани текстове, създаден за нуждите на проекта, в който допуснатите грешки са анотирани. Всеки тип грешка ще бъде оценен според относителната си честота на срещане, проверена чрез автоматични заявки в интернет. Резултат от тази предварителна работа ще бъде формулирането на множество от възможни граматични грешки, което ще бъде включено в програмата за граматична проверка на български език.
Изборът на стратегия за компютърна обработка - базирана на лингвистични правила, на статистически методи или на различни комбинации от тях, е важен за всяка специфична задача. Предимството на лингвистичните подходи е, че граматичната проверка би била толкова по-пълна, колкото е по-пълна съответната граматиката, така че да покрива всички типове текстове, които подлежат на проверка. Статистическите подходи обикновено работят с предварително анотиран тренировъчен корпус и зависят както от казачеството на корпуса, така и от определянето на прага, който ще разграничи рядко срещаните от грешните граматични последователности в текста.
При подхода, който е избран за реализация на настоящия проект, ще бъдат създадени контекстно зависими граматични правила, които се базират на предварително извлечено знание за неправилните последователности от граматични категории. Ще бъде използвана проста, но на практика много ефективна технология за автоматично разпознаване на позициите в текста, в които се очакват граматични грешки. Тази технология се основава на идеята за търсене на конфигурации от граматични характеристики, които не съществуват в правилно оформен текст.
Езикови ресурси и технологии за машинен превод (2008-2010)
Крайната цел на проекта е да се осигурят за съвременното информационно общество необходимите езикови и технологични ресурси за автоматичен превод. Тази основна цел ще бъде постигната чрез създаването на научна инфраструктура, чиито задачи са насочени към напредък на научните изследвания и технологии в областта на автоматичния превод със специален фокус върху български и румънски език. Автоматичният превод безспорно ще бъде в услуга на междуезиковите комуникации в областта на бизнес отношенията, образованието, културните връзки и научните изследвания.
Езиците, които ще бъдат обект на изследване в проекта, са български и румънски, и английски като език посредник: това означава автоматичен превод в следните посоки: български – английски; английски – български, румънски – английски, английски – румънски, български – румънски, румънски - български.
Български се говори от около 9 милиона носители на езика в страната и чужбина. Румънският език е романски език, който се говори приблизително от 28 милиона жители на Румъния и Молдова. И българският, и румънският са индоевропейски езици, като българският принадлежи към семейството на южнославянските езици, а българският и румънският – към Балканския езиков съюз. Езиците в Балканския езиков съюз демонстрират общи черти по отношение на своята граматика, лексика и фонетичен състав. Макар че тези езици имат сравнително малко количество обща лексика, техните граматични структури имат много сходни черти – например по отношение на падежната система.
Иновациите в областта на информационните технологии подпомагат развитието на езиковите технологии. Наблюдава се безпрецедентно нарастване на използването на автоматичния превод (предимно на и от английски) в много области. Един от приоритетите на изследователите в съвременното „интернет доминирано” общество е развитието на системи за автоматичен превод, които са едновременно прецизни и ефективни.
Основната цел на предлагания проект е да се осигурят необходимите езикови и технологични ресурси, които ще подпомогнат машинния превод между посочените езици и английски. Проектът ще позволи на изследователските колективи да прилагат различни стратегии в областта на машинния превод (например статистически методи или методи по аналогия, при които на основата на големи по обем паралелни корпуси се измерва близостта между даден езиков фрагмент и множество от примери) и / или да създадат свои собствени методологии за автоматичен превод, като в същото време партньорите се грижат за създаването, поддържането и координацията на многоезиковите паралелни ресурси, така че тяхната експлоатация да позволява гъвкав и висококачествен автоматичен превод.
Използването на корпуси от многоезикови паралелни текстове предполага обещаващи резултати в областта на машинния превод, благодарение на развитието на компютърната техника, както и на наличието на голямо количество електронни текстове. Нещо повече, многоезиковите паралелни корпуси са много богати на информация, защото осигуряват информация за това как дадена езикова система си взаимодейства с друга езикова система при превод. За целите на проекта в паралелните корпуси ще бъде направена различен тип езикова анотация: токанизация (автоматично определяне в документите на последователности от символи), автоматично определяне на частта на речта и друга граматична информация за думите, лематизация (автоматично определяне на основната форма), автоматично определяне на основата на думите, съотнасяне на паралелните текстове по изречения и думи. Целта е да се създаде надеждна езикова инфраструктура, съдържаща езикови ресурси, които по-нататък могат да се увеличават и допълват, както и да се използват за създаването на ефективни системи за автоматичен превод.
Съществуват редица методи за превод по аналогия и статистически методи за машинен превод, които могат да се тестват и оценят, като се използват паралелни корпуси. Използването на статистически методи позволява анализ на големи по обем езикови ресурси и автоматично конструиране на системи за машинен превод. За някои езикови двойки като китайски и английски и арабски и английски статистическите системи за машинен превод, които са създадени в научноизследователски центрове, вече превъзхождат комерсиалните системи. Някои последни експерименти показват, че показателите на съществуващите системи за машинен превод зависят в значителна степен както от изходния език, така и от паралелните корпуси, които се използват за тяхното създаване. Предлаганият проект цели научни изследвания в областта на системите за автоматичен превод и преводни модели за езици с комплексна морфология (като славянските, какъвто е българският) и относително свободен словоред (каквито са български и румънски).
Методът за машинен превод по аналогия (еxample-based machine translation approach) се характеризира с използването на двуезичен корпус ката основна база от данни. При този подход за постигането на по-добри резултати могат да се изполват семантчини ресурси като лексикално-семнатични мрежи или терминологични бази от данни. Статистическите подходи в машинния превод генерират превод на основата на двуезични корпуси. Когато такива корпуси са налице, могат да бъдат постигнати съществени резултати особено при текстове от определени тематични области – към момента обаче такива корпуси все още са рядкост. През 2007 г. статистическите методи са най-широко използваната парадигма в машинния превод. Предимствата на статистическите подходи в машинния превод над останалите известни методи са: (1) статистическите методи не са свързани с конкретни двойки езици. (2) методите, базирани на правила, изискват формулирането на тези правила, което е много трудоемко и обикновено не може да се прилага при други езици.
В предлагания проект ще бъдат използвани различни методологии, следващи най-добрите практики, за създаване и разработване на необходимите езикови ресурси и технологии за машинен превод. В момента според мнението на водещи експерти в областта на компютърната обработка на естествения език преобладаващата част от научните изследвания и разработки в областта трябва да се концентрират към машинния превод.
DaskaL - електронно обучение (2004-2006)
Системата DaskaL е предназначена за подпомагане на чуждоезиковото обучение за начинаещи и напреднали. Системата е предвидена за обучение по български, сръбски, хърватски, чешки и полски, но архитектурата й е така организиране, че ще позволява включването на произволен език за обучение.
DaskaL дава възможност за създаване на няколко типа упражнения и възможните комбинации от тях, които ще могат да се използват самостоятелно от потребителите на системата (преподаватели, които съставят упражнения и тестове, и обучаващи се, които ги изпълняват).
В зависимост от нивото на студентите и от целите на обучението езиковите единици за работа, които ще бъдат включвани в упражненията, могат да са от различно равнище - звук, морфема, дума, словосъчетание, изречение, текст.
Различаваме три структурни единици - задача, упражнение и тест. Включени са следните основни типове задачи:
• словоредни задачи (задачи за подреждане на правилната последователност на езикови единици от различни равнища);
• семантични задачи (задачи за създаване на свободен текст, за отговаряне на въпроси в диалог и т.н.).
Типовете задачи, поддържани от системата, не са изолирани една от друга, а могат да се комбинират - например при отговор на въпроси в диалог за определени позиции може да има граматични и/или словоредни задачи.
Упражнението, като единица за работа в системата, представлява конкретната реализация на задачите - самостоятелно или комбинирано.
Начините на задаване (от преподавателя) на възможностите за избор са или експлицитно изброяване, или по критерии, което означава, че се маркира множеството от граматични характеристики, на които дадена езикова единица трябва да отговаря. Езиковите единици и граматичната информация към тях са организирани в бази от данни, така че правилната употреба се генерира динамично от базата данни според зададените критерии. Това позволява голямо разнообразие от подтипове упражнения, тъй като според критериите могат автоматично да се генерират списъци, от които студентите да избират правилния отговор, или от специфицираните критерии ще зависи дали попълнена форма (произволна или към конкретна основна форма) е вярна.
Тъй като упражненията са реалните единици за работа в системата DaskaL, те се използват като основа за генерирането на различни тестове за проверка и оценяване.
RILA - Автоматично извличане на информация (2005-2006)
Целта на проекта е автоматичното извличане на информация от текстове, базирано на предварително кодирани семантични релации. Предвижда се създаването на адекватна методология за включване на семантичните отношения като 'синонимия' и 'хиперонимия' в компютърна система за обработка на естествен език.
Думите в естествените езици участват в различни семантични отношения помежду си, чрез които се свързват в сложна лексикално-семантична мрежа, чието формално описание е известно в световната практика под името WordNet. WordNet представлява структуриран тезаурус (носещ признаците и на онтология), който се състои от синонимни множества, включващи думи с едно и също значение, тоест взаимозаменяеми в определен контекст. Между отделните синонимни множества могат да бъдат дефинирани редица семантични отношения, например хиперонимия (отношението общо понятие - частно понятие), меронимия (отношението част - цяло), антонимия и други семантични, морфо-семантични и екстралингвистични релации (отношения).
За семантичните релации, които са от най-голямо значение при автоматичното извличане на информация, се предвижда създаването на специализирани семантични речници за английски, френски и български език, като речниковите единици представляват двойки думи, включващи лема и суперлема, между които е дефинирана определената релация. Съставянето на речниците се извършва на базата на лексикално-семантичната мрежа WordNet и електронните морфологични речници на словоформите и съставните думи за избраните езици. Това позволява автоматичното лематизиране (приписване на основните форми) на словоформите, а оттам и свързването им, от една страна, със съответното синонимно множество в WordNet, а от друга, с всички синонимни множества, с които участват в определената семантична релация.
Компютърната система, в която се интегрират семантичните речници е системата NooJ. NooJ e система за автоматично извличане на разнообразна лингвистична информация, която включва големи по обем речници и граматики и обработва текстове с големина от няколко милиона думи в реално време. Екипът на Секцията по компютърна лингвистика е разработил разнообразни лингвистични решения за различните изследователски задачи, които обработката на езика поставя: крайни автомати за разпознаване и маркиране на изреченията в българския език; DELAF речник на словоформите в българския език, крайни автомати и DELAFC речници за описание на съставни лексикални единици, съкращения и др.
В рамките на предлагания проект трябва да се разрешат някои проблеми, произтичащи от семантичната многозначност, най-вече в случаите, в които тя води до погрешно извличане на информация. За редуцирането на тези грешки се използват, от една страна, паралелни текстове на трите езика, а от друга, свойствата на семантичните релации, например при отстраняването на затварянията (циклите) при транзитивните релации.
Основните приложения на семантичните речници са в областта на информационните технологии, ориентирани към създаването на интелигентни компютърни системи за извличане на информация от големи по обем текстове, най-вече в Интернет. В бъдеще създадената методология и установените стандарти за създаване, проверка и интегриране на такива речници в автоматичните системи може да се използва и в други лингвистично и технологично базирани програмни продукти, като например софтуерни програми за автоматично категоризиране, автоматично резюмиране на текстове и автоматично отговаряне на въпроси.
Разбираема България (2006)
Компютърното приложение за транслитерация на собствени имена, създадено от Секцията по компютърна лингвистика към ИБЕ – БАН, за разлика от другите системи за автоматична транслитерация винаги предлага коректна транслитерация в двете посоки. Това се дължи на факта, че заявките за транслитерация се правят към база от данни. Ако потребителят направи погрешна заявка за дадено собствено име (на лице, географско название и т.н.) – например изпише го с малки букви, системата предлага за избор най-близките думи, които се съдържат в базата. Ако собствено име на човек е уникално – например Телефонка, то то се транслитерира по правилата за транслитерация от кирилски към латински символи. Заявките към системата се запазват и по този начин базата може да се увеличава с рядко срещаните собствени имена на лица. Потребителите могат да правят заявки и да получават справки от базата данни в Интернет браузър. Това, което отличава нашето компютърно приложение, са допълнителните възможности за разпространение: чрез интегриране в други Интернет страници и чрез web service. Web service e услуга (предлагана и от Google), чрез която потребителите могат да достъпват функционалността „транслитерация” на сървъра, използвайки други приложения. Планираме да включим и WAP/WML поддръжка за справки от мобилни телефони.
Функционалности на компютърната система:
• За собствено име, написано с кирилски букви, от базата от данни се предлага транслитерацията му с латински букви и допълнителна информация като вид и др.
• Ако името, написано с кирилски букви, го няма в базата от данни, се предлагат най-близките имена, за които (с линк) потребителят може да направи справка. За целта се използва построяване на минимален краен автомат и алгоритъм за близост.
• За собствено име, написано с латински букви, от базата от данни се предлага транслитерацията му с кирилски букви и допълнителна информация като вид и др.
• Ако името, написано с латински букви, го няма в базата от данни, се предлагат най-близките имена, за които (с линк) потребителят може да направи справка.
• За собствено име, написано с кирилски букви, ако нито името, нито близки на него имена ги има в базата, се предлага изписване на името с латински букви по правилата за транслитерация.
• Web service – услуга, чрез която потребителите могат да достъпват функционалността „транслитерация” на сървъра, използвайки други приложения.
• Web script – услуга, чрез която потребителите могат да вградят код в тяхна html страница, чрез който ще стартират приложението за транслитерация от собствения си сайт.
Софтуерът по независещи от СКЛ причини не се използва.
BalkaNet (2001-2004)
Европейският проект BalkaNet "Многоезична семантична мрежа на балканските езици" предвижда създаването на синхронизирани семантични бази от данни за следните балкански езици - български, гръцки, румънски, сръбски, турски, и разширяване на чешката лексикално-семантична мрежа. Основната цел на проекта е както изграждането на електронни семантични мрежи за шестте изброени езика, така и демонстрирането на тяхното приложение в областта на автоматичната обработка на естествените езици.
Резултатът от изпълнението на проекта BalkaNet е огромна мрежа от синонимни множества и семантични отношения между тях, която позволява междуезикови съпоставки и откриване на преводни еквиваленти и успешно се използва при автоматичното търсене (IR) и автоматичното извличане на информация (IE). Други по-важни приложения на многоезиковата лексикално-семантична мрежа на балканските езици са: отстраняване на семантичната многозначност (WSD), автоматично отговаряне на въпроси (QA); разрешаване на анафоричността (AR); автоматичен превод (MT) и т.н.
TELRI I и II (1997-1997, 1999-2002)
Проектът TELRI "Общоевропейска инфраструктура на езиковите ресурси" е инициатива за създаване на инфраструктура, която да обединява водещите европейски научни центрове за езикови технологии, за да осигури обща платформа за индустрията, научните организации и университетите и свободен достъп до съществуващите едно- и многоезикови лингвистични ресурси. Основните цели на TELRI са: да заздрави общоевропейската инфраструктура за многоезикови научни изследвания; да събира, разпространява и да прави достъпни едно- и многоезиковите лингвистични ресурси и компютърните програми за извличане на езикови данни; да предлага разностранни услуги на академичните и индустриалните потребители.
INTEX (1999-2000, 2001-2002)
В рамките на проекта INTEX "Компютърно представяне на български граматични данни" се разработват разнообразни лингвистични ресурси за български език - DELAF речник на словоформите в българския език, крайни автомати и DELAFC речници за описание на съставни лексикални единици, съкращения и др. Системата INTEX за български се използва за образователни цели в магистърската програма по компютърна лингвистика към Софийския университет.
ELAN (1999)
Основните цели на проекта ELAN (European Language Activity Network) "Мрежа от дейности, свързани с европейските езици" European Language Activity Network са в помощ на многоезиковия електронен пазар. Те се изразяват в създаването или затвърждаването на международните стандарти за описание на европейските езици чрез осигуряване на стандартизирани ресурси и унифициран език за търсене (ELAN-CQL) и във функционирането на потребителска мрежа с ясна политика за авторските права, за подпомагане на потребителите и др.
Граматичен www сървър (1997-1998)
Проектът Граматичен www сървър се състои в изработването на компютърна система за разнообразни езикови справки: граматична характеристика на думите, словообразувателен речник, транскрипция на думите, система за определяне на ударението и звуково възпроизвеждане на думите.
LATESLAV (1994-1996)
Основната цел на проекта LATESLAV "Езикови технологии на славянските езици" е приложението на съвременните езикови технологии при описанието на чешки (представител на източнославянските езици) и български език (представител на южнославянските езици). Почти всички изследвания в проекта са с практическа насоченост - към създаването на прототип на система за автоматична корекция на правописа и пунктуацията за български и чешки.