Описание

Корпус от текстове на български език

Началото на Българския национален корпус е поставено през 2009 година като като отговор на нарастващите нужди от качествени езикови ресурси за целите на българската компютърна лингвистика, различни приложения за обработка на езика, теоретичното езикознание и други. Първоначално БНК е създаден като едноезиков корпус с текстове на български език. Обогатяването на БНК с паралелни корпуси в последните години е свързано с разширяване на интересите в областта на компютърната лингвистика към разработване на многоезикови приложения – машинен превод, извличане на информация от многоезикови ресурси и други.

 

Ядрото на Българския национален корпус се състои от текстове на български език. Те наброяват 1.2 милиарда думи в над 240 000 текстови документа.

 

Оригиналните текстове на български език представляват 37.1% от корпуса, преводните – 40.5%, а за останалите 22.4% липсва информация за източника или посоката на превода.

 

В БНК са включени и текстове от различна модалност: преобладаващо писмени (97.35%) с устни текстове (2.65%) от ограничен брой типове – лекции, парламентарни дебати и субтитри.

 

По-голямата част от текстовете (97.5%) са събрани от интернет чрез автоматичен кроулинг или ръчно изтегляне, докато останалата част (2.5%) са предоставени от автори или издатели.

 

Разпределението на текстовия материал в БНК по стилове е представено на долната диаграма.

Разпределение на текстовете по стил.

Паралелни корпуси на други езици

Паралелните корпуси в състава на БНК колективно се наричат Bul-X-Cor и обхващат 47 паралелни корпуса на различни езици, създадени с акцент върху българския език. Паралелните корпуси се различават по големина и по покритие на отделните текстови категории. Разнообразието им се определя от наличните текстове в интернет за дадена двойка езици. Корпусите обхващат английски, немски, френски, повечето славянски и балкански езици, както и други европейски и неевропейски езици.

Организация на паралелните корпуси в БНК

Всеки паралелен корпус се състои от текстове, които имат българско съответствие – като българският текст може да бъде оригиналът или превод от другия език, както и превод от трети език. Паралелните корпуси са неделима част от БНК. Тяхната структура, формат и описание следват модела на БНК. Текстовете са снабдени с подробни метаданни, които най-често са извлечени автоматично и при необходимост са ръчно обработени.

 

Основният принцип на организация на корпуса е показан на долната диаграма. Всеки текст се съхранява в един екземпляр. Всеки паралелен еквивалент се свързва директно със своето българско съответствие и индиректно – със съответствия на другите езици, ако такива съществуват.

Основен принцип на организация в БНК.

Структурата на всеки паралелен корпус отразява структурата на ядрото на БНК – едноезиковия български корпус, като повтаря класификацията, основана на стил, тематична област и жанр.

Големина на паралелните корпуси

Паралелните корпуси непрекъснато се увеличават и обогатяват с разнообразни текстове от различни стилове, жанрове и тематични области. Понастоящем (края на януари, 2013) общата големина на паралелните текстове е 4.2 милиарда думи.

 

Най-големият паралелен корпус в състава на БНК е Българско-английският паралелен корпус, който съдържа около 260 милиона думи за език. Шест корпуса имат големина от 200-250 милиона, 14 корпуса са с големина 150-200 милиона, три корпуса между 100 и 150 милиона думи. Останалите корпуси са сравнително малки: 11 корпуса с големина между 1 и 15 милиона и 15 корпуса под един милион. Най-малкият корпус е Българско-японският, който наброява 50 хиляди думи за език.

Най-големите паралелни корпуси в БНК.

Паралелен корпус Код Брой текстове Брой думи
Българско-английски BG-EN 113545 260681821
Българско-румънски BG-RO 114440 235859637
Българско-френски BG-FR 71935 231486663
Българско-гръцки BG-EL 113849 229749068
Българско-португалски BG-PT 70697 211824204
Българско-италиански BG-IT 71195 209083677
Българско-холандски BG-NL 70629 204309755
Българско-полски BG-PL 78055 197762449
Българско-чешки BG-CS 72545 196769297
Българско-немски BG-DE 77502 194497872
Българско-испански BG-ES 62879 191092782
Българско-датски BG-DA 71316 190843358
Българско-словашки BG-SK 71790 189752630
Българско-словенски BG-SL 71343 188776967
Българско-унгарски BG-HU 71618 183530929
Българско-шведски BG-SV 70115 180752058
Българско-литовски BG-LT 70858 170381570
Българско-латвийски BG-LV 70015 167600804
Българско-малтийски BG-MT 65218 163515445
Българско-естонски BG-ET 71558 160175247
Българско-фински BG-FI 71247 156288741
Българско-турски BG-TR 36655 13297328
Българско-ирландски BG-GA 2230 13287693
Българско-хърватски BG-HR 33948 11950183
Българско-албански BG-SQ 35787 9781443
Българско-македонски BG-MK 35761 9542940
Българско-босненски BG-BS 20736 6195646
Българско-руски BG-RU 211 3293243
Българско-иврит BG-HE 446 2872765
Българско-арабски BG-AR 370 2446857
Българско-сръбски BG-SR 865 1832323
Българско-норвежки BG-NO 173 1588561
Българско-исландски BG-IS 41 762894
Българско-украински BG-UK 40 744815
Българско-каталански BG-CA 26 640522
Българско-галисийски BG-GL 25 629272
Българско-казахски BG-KK 29 486766
Българско-баски BG-EU 25 461080
Българско-китайски BG-ZH 34 229293
Българско-таджикски BG-TG 16 160123
Българско-арменски BG-HY 16 139802
Българско-азербайджански BG-AZ 16 137238
Българско-монголски BG-MN 16 135076
Българско-киргизки BG-KY 16 135031
Българско-грузински BG-KA 16 128502
Българско-туркменски BG-TK 15 127430
Българско-японски BG-JA 10 50194
ОБЩО 1,789,872 4,195,791,994

 

Големина на паралелните корпуси в брой текстове и брой думи.

Българско-английски паралелен корпус

Най-големият паралелен корпус в състава на БНК е Българско-английският паралелен корпус с големина 260.7 милиона думи за английски и 263.1 милиона думи за български. Разпределението на текстовете по стилове в Българско-английския корпус е показано на диаграмата..

Разпределение на стиловете в Българско-английския паралелен корпус.

Българско-английският паралелен корпус намира редица приложения за изследователски задачи. Например, Българско-английски паралелен корпус със съотнесени изречения и клаузи (BulEnAC) е съставен от извадки от Българско-английския паралелен корпус. BulEnAC се използва за трениране на приложения за обработка на естествения език, съпоставяне на паралелни текстове и машинен превод.