Описание

Корпус от текстове на български език

Началото на Българския национален корпус е поставено през 2009 година като като отговор на нарастващите нужди от качествени езикови ресурси за целите на българската компютърна лингвистика, различни приложения за обработка на езика, теоретичното езикознание и други. Първоначално БНК е създаден като едноезиков корпус с текстове на български език. Обогатяването на БНК с паралелни корпуси в последните години е свързано с разширяване на интересите в областта на компютърната лингвистика към разработване на многоезикови приложения – машинен превод, извличане на информация от многоезикови ресурси и други.

Ядрото на Българския национален корпус се състои от текстове на български език. Те наброяват 1.2 милиарда думи в над 240 000 текстови документа.

Оригиналните текстове на български език представляват 37.1% от корпуса, преводните – 40.5%, а за останалите 22.4% липсва информация за източника или посоката на превода.

В БНК са включени и текстове от различна модалност: преобладаващо писмени (97.35%) с устни текстове (2.65%) от ограничен брой типове – лекции, парламентарни дебати и субтитри.

По-голямата част от текстовете (97.5%) са събрани от интернет чрез автоматичен кроулинг или ръчно изтегляне, докато останалата част (2.5%) са предоставени от автори или издатели.

Разпределението на текстовия материал в БНК по стилове е представено на долната диаграма.

Разпределение на текстовете по стил.

Паралелни корпуси на други езици

Паралелните корпуси в състава на БНК колективно се наричат Bul-X-Cor и обхващат 47 паралелни корпуса на различни езици, създадени с акцент върху българския език. Паралелните корпуси се различават по големина и по покритие на отделните текстови категории. Разнообразието им се определя от наличните текстове в интернет за дадена двойка езици. Корпусите обхващат английски, немски, френски, повечето славянски и балкански езици, както и други европейски и неевропейски езици.

Организация на паралелните корпуси в БНК

Всеки паралелен корпус се състои от текстове, които имат българско съответствие – като българският текст може да бъде оригиналът или превод от другия език, както и превод от трети език. Паралелните корпуси са неделима част от БНК. Тяхната структура, формат и описание следват модела на БНК. Текстовете са снабдени с подробни метаданни, които най-често са извлечени автоматично и при необходимост са ръчно обработени.

Основният принцип на организация на корпуса е показан на долната диаграма. Всеки текст се съхранява в един екземпляр. Всеки паралелен еквивалент се свързва директно със своето българско съответствие и индиректно – със съответствия на другите езици, ако такива съществуват.

Основен принцип на организация в БНК.

Структурата на всеки паралелен корпус отразява структурата на ядрото на БНК – едноезиковия български корпус, като повтаря класификацията, основана на стил, тематична област и жанр.

Големина на паралелните корпуси

Паралелните корпуси непрекъснато се увеличават и обогатяват с разнообразни текстове от различни стилове, жанрове и тематични области. Понастоящем (края на януари, 2013) общата големина на паралелните текстове е 4.2 милиарда думи.

Най-големият паралелен корпус в състава на БНК е Българско-английският паралелен корпус, който съдържа около 260 милиона думи за език. Шест корпуса имат големина от 200-250 милиона, 14 корпуса са с големина 150-200 милиона, три корпуса между 100 и 150 милиона думи. Останалите корпуси са сравнително малки: 11 корпуса с големина между 1 и 15 милиона и 15 корпуса под един милион. Най-малкият корпус е Българско-японският, който наброява 50 хиляди думи за език.

Най-големите паралелни корпуси в БНК.

Паралелен корпус	Код	Брой текстове	Брой думи
Българско-английски	BG-EN	113545	260681821
Българско-румънски	BG-RO	114440	235859637
Българско-френски	BG-FR	71935	231486663
Българско-гръцки	BG-EL	113849	229749068
Българско-португалски	BG-PT	70697	211824204
Българско-италиански	BG-IT	71195	209083677
Българско-холандски	BG-NL	70629	204309755
Българско-полски	BG-PL	78055	197762449
Българско-чешки	BG-CS	72545	196769297
Българско-немски	BG-DE	77502	194497872
Българско-испански	BG-ES	62879	191092782
Българско-датски	BG-DA	71316	190843358
Българско-словашки	BG-SK	71790	189752630
Българско-словенски	BG-SL	71343	188776967
Българско-унгарски	BG-HU	71618	183530929
Българско-шведски	BG-SV	70115	180752058
Българско-литовски	BG-LT	70858	170381570
Българско-латвийски	BG-LV	70015	167600804
Българско-малтийски	BG-MT	65218	163515445
Българско-естонски	BG-ET	71558	160175247
Българско-фински	BG-FI	71247	156288741
Българско-турски	BG-TR	36655	13297328
Българско-ирландски	BG-GA	2230	13287693
Българско-хърватски	BG-HR	33948	11950183
Българско-албански	BG-SQ	35787	9781443
Българско-македонски	BG-MK	35761	9542940
Българско-босненски	BG-BS	20736	6195646
Българско-руски	BG-RU	211	3293243
Българско-иврит	BG-HE	446	2872765
Българско-арабски	BG-AR	370	2446857
Българско-сръбски	BG-SR	865	1832323
Българско-норвежки	BG-NO	173	1588561
Българско-исландски	BG-IS	41	762894
Българско-украински	BG-UK	40	744815
Българско-каталански	BG-CA	26	640522
Българско-галисийски	BG-GL	25	629272
Българско-казахски	BG-KK	29	486766
Българско-баски	BG-EU	25	461080
Българско-китайски	BG-ZH	34	229293
Българско-таджикски	BG-TG	16	160123
Българско-арменски	BG-HY	16	139802
Българско-азербайджански	BG-AZ	16	137238
Българско-монголски	BG-MN	16	135076
Българско-киргизки	BG-KY	16	135031
Българско-грузински	BG-KA	16	128502
Българско-туркменски	BG-TK	15	127430
Българско-японски	BG-JA	10	50194
ОБЩО		1,789,872	4,195,791,994

Големина на паралелните корпуси в брой текстове и брой думи.

Българско-английски паралелен корпус

Най-големият паралелен корпус в състава на БНК е Българско-английският паралелен корпус с големина 260.7 милиона думи за английски и 263.1 милиона думи за български. Разпределението на текстовете по стилове в Българско-английския корпус е показано на диаграмата..

Разпределение на стиловете в Българско-английския паралелен корпус.

Българско-английският паралелен корпус намира редица приложения за изследователски задачи. Например, Българско-английски паралелен корпус със съотнесени изречения и клаузи (BulEnAC) е съставен от извадки от Българско-английския паралелен корпус. BulEnAC се използва за трениране на приложения за обработка на естествения език, съпоставяне на паралелни текстове и машинен превод.