Началото на Българския национален корпус е поставено през 2009 година като като отговор на нарастващите нужди от качествени езикови ресурси за целите на българската компютърна лингвистика, различни приложения за обработка на езика, теоретичното езикознание и други. Първоначално БНК е създаден като едноезиков корпус с текстове на български език. Обогатяването на БНК с паралелни корпуси в последните години е свързано с разширяване на интересите в областта на компютърната лингвистика към разработване на многоезикови приложения – машинен превод, извличане на информация от многоезикови ресурси и други.
Ядрото на Българския национален корпус се състои от текстове на български език. Те наброяват 1.2 милиарда думи в над 240 000 текстови документа.
Оригиналните текстове на български език представляват 37.1% от корпуса, преводните – 40.5%, а за останалите 22.4% липсва информация за източника или посоката на превода.
В БНК са включени и текстове от различна модалност: преобладаващо писмени (97.35%) с устни текстове (2.65%) от ограничен брой типове – лекции, парламентарни дебати и субтитри.
По-голямата част от текстовете (97.5%) са събрани от интернет чрез автоматичен кроулинг или ръчно изтегляне, докато останалата част (2.5%) са предоставени от автори или издатели.
Разпределението на текстовия материал в БНК по стилове е представено на долната диаграма.
Паралелните корпуси в състава на БНК колективно се наричат Bul-X-Cor и обхващат 47 паралелни корпуса на различни езици, създадени с акцент върху българския език. Паралелните корпуси се различават по големина и по покритие на отделните текстови категории. Разнообразието им се определя от наличните текстове в интернет за дадена двойка езици. Корпусите обхващат английски, немски, френски, повечето славянски и балкански езици, както и други европейски и неевропейски езици.
Всеки паралелен корпус се състои от текстове, които имат българско съответствие – като българският текст може да бъде оригиналът или превод от другия език, както и превод от трети език. Паралелните корпуси са неделима част от БНК. Тяхната структура, формат и описание следват модела на БНК. Текстовете са снабдени с подробни метаданни, които най-често са извлечени автоматично и при необходимост са ръчно обработени.
Основният принцип на организация на корпуса е показан на долната диаграма. Всеки текст се съхранява в един екземпляр. Всеки паралелен еквивалент се свързва директно със своето българско съответствие и индиректно – със съответствия на другите езици, ако такива съществуват.
Структурата на всеки паралелен корпус отразява структурата на ядрото на БНК – едноезиковия български корпус, като повтаря класификацията, основана на стил, тематична област и жанр.
Паралелните корпуси непрекъснато се увеличават и обогатяват с разнообразни текстове от различни стилове, жанрове и тематични области. Понастоящем (края на януари, 2013) общата големина на паралелните текстове е 4.2 милиарда думи.
Най-големият паралелен корпус в състава на БНК е Българско-английският паралелен корпус, който съдържа около 260 милиона думи за език. Шест корпуса имат големина от 200-250 милиона, 14 корпуса са с големина 150-200 милиона, три корпуса между 100 и 150 милиона думи. Останалите корпуси са сравнително малки: 11 корпуса с големина между 1 и 15 милиона и 15 корпуса под един милион. Най-малкият корпус е Българско-японският, който наброява 50 хиляди думи за език.
Паралелен корпус | Код | Брой текстове | Брой думи |
Българско-английски | BG-EN | 113545 | 260681821 |
Българско-румънски | BG-RO | 114440 | 235859637 |
Българско-френски | BG-FR | 71935 | 231486663 |
Българско-гръцки | BG-EL | 113849 | 229749068 |
Българско-португалски | BG-PT | 70697 | 211824204 |
Българско-италиански | BG-IT | 71195 | 209083677 |
Българско-холандски | BG-NL | 70629 | 204309755 |
Българско-полски | BG-PL | 78055 | 197762449 |
Българско-чешки | BG-CS | 72545 | 196769297 |
Българско-немски | BG-DE | 77502 | 194497872 |
Българско-испански | BG-ES | 62879 | 191092782 |
Българско-датски | BG-DA | 71316 | 190843358 |
Българско-словашки | BG-SK | 71790 | 189752630 |
Българско-словенски | BG-SL | 71343 | 188776967 |
Българско-унгарски | BG-HU | 71618 | 183530929 |
Българско-шведски | BG-SV | 70115 | 180752058 |
Българско-литовски | BG-LT | 70858 | 170381570 |
Българско-латвийски | BG-LV | 70015 | 167600804 |
Българско-малтийски | BG-MT | 65218 | 163515445 |
Българско-естонски | BG-ET | 71558 | 160175247 |
Българско-фински | BG-FI | 71247 | 156288741 |
Българско-турски | BG-TR | 36655 | 13297328 |
Българско-ирландски | BG-GA | 2230 | 13287693 |
Българско-хърватски | BG-HR | 33948 | 11950183 |
Българско-албански | BG-SQ | 35787 | 9781443 |
Българско-македонски | BG-MK | 35761 | 9542940 |
Българско-босненски | BG-BS | 20736 | 6195646 |
Българско-руски | BG-RU | 211 | 3293243 |
Българско-иврит | BG-HE | 446 | 2872765 |
Българско-арабски | BG-AR | 370 | 2446857 |
Българско-сръбски | BG-SR | 865 | 1832323 |
Българско-норвежки | BG-NO | 173 | 1588561 |
Българско-исландски | BG-IS | 41 | 762894 |
Българско-украински | BG-UK | 40 | 744815 |
Българско-каталански | BG-CA | 26 | 640522 |
Българско-галисийски | BG-GL | 25 | 629272 |
Българско-казахски | BG-KK | 29 | 486766 |
Българско-баски | BG-EU | 25 | 461080 |
Българско-китайски | BG-ZH | 34 | 229293 |
Българско-таджикски | BG-TG | 16 | 160123 |
Българско-арменски | BG-HY | 16 | 139802 |
Българско-азербайджански | BG-AZ | 16 | 137238 |
Българско-монголски | BG-MN | 16 | 135076 |
Българско-киргизки | BG-KY | 16 | 135031 |
Българско-грузински | BG-KA | 16 | 128502 |
Българско-туркменски | BG-TK | 15 | 127430 |
Българско-японски | BG-JA | 10 | 50194 |
ОБЩО | 1,789,872 | 4,195,791,994 |
Големина на паралелните корпуси в брой текстове и брой думи.
Най-големият паралелен корпус в състава на БНК е Българско-английският паралелен корпус с големина 260.7 милиона думи за английски и 263.1 милиона думи за български. Разпределението на текстовете по стилове в Българско-английския корпус е показано на диаграмата..
Българско-английският паралелен корпус намира редица приложения за изследователски задачи. Например, Българско-английски паралелен корпус със съотнесени изречения и клаузи (BulEnAC) е съставен от извадки от Българско-английския паралелен корпус. BulEnAC се използва за трениране на приложения за обработка на естествения език, съпоставяне на паралелни текстове и машинен превод.