Wordnet


Българският WordNet (BulNet) е създаден в рамките на европейския проект БалкаНет - многоезична семантична мрежа на балканските езици, който е насочен към изграждането на синхронизирани семантични бази от данни за следните балкански езици - български, гръцки, румънски, сръбски, турски, и разширяване на чешката лексикално-семантична мрежа. След приключването на проекта БалкаНет, изграждането на Българския WordNet продължава в рамките на национално финансираните проекти "BulNet - лексикално-семантична мрежа на българския език" (2005-2010) и "Електронни езикови ресурси и програми за тяхната обработка" (2011-2013), вторият от които е съфинансиран по проекта "ЦЕЗАР – Централно- и южноевропейски езикови ресурси" по програма ICT PSP: CIP-ICT-PSP-2010.6.1.

Към момента Българският WordNet съдържа повече от 49 189 (към 21.01.2013 г.) синонимни множества, разпределени в девет части на речта - съществителни, глаголи, прилагателни, наречия, местоимения, предлози, съюзи, частици и междуметия. Думите, които са включени в Българския WordNet, са избирани по различни критерии, като доминиращи са били честотният анализ на срещанията на думите в големи корпуси от текстове (при това не на словоформи, което би довело до грешка в анализа, а на основни форми), както и включването на тези синонимни множества, които вече фигурират в базите данни на другите езици, и синонимни множества, съответстващи на значения, които се срещат с голяма честота в паралелни корпуси.

Всяко синонимно множество - SYNSET, кодира релация на еквивалентност между няколко единици - LITERALS (поне един трябва да присъства експлицитно в множеството), които имат уникално лексемно значение (специфицирано чрез стойността на SENSE), принадлежат към една и съща част на речта (специфицирана чрез стойността на POS), и изразяват еднакво значение (което се специфицира чрез стойността на DEF). Всяко синонимно множество се свързва с кореспондиращото синонимно множество в PWN3.0 чрез идентификационен номер - ID. Общите синонимни множества в балканските езици са маркирани като подмножества на общи концепти - BCS. Трябва да има поне една вътрешно езикова релация (може да има повече) между две синонимни множества в едноезичната база данни. Може да има също така незадължителна информация, която кодира употребата, някои стилистични, морфологични или синтактични признаци, маркираща автора, както и последната промяна.


По-подробна информация за Българския WordNet, заедно с актуални данни за броя и разпределението на синонимните множества по части на речта, е представена на специално разработената уебстраница: http://dcl.bas.bg/BulNet/wordnet_bg.html.