Съдържание

Особености на Българския Браун корпус

Всяка корпусна единица представлява извадка от текст, чиято дължина d е приблизително 2 000 думи. Терминът 'корпусна единица' разграничава целия текст от включената в корпуса част от него. Българският корпус, според модела на Принстънския Браун корпус, се състои от 500 корпусни единици и наброява 1 001 286 думи. Въпреки стремежа да се спази изискването за обем от приблизително 2 000 думи, жанрът на 136 текста в корпуса предопределя по-малкия им размер.

Принстънският Браун корпус е изграден от текстове, издадени в рамките на една календарна година (1961), за да отразява относително статично състояние на езика. Докато българският корпус включва текстове, създадени или публикувани като първо издание в сравнително широк период от време - 1990 - 2005 г., като основна част от текстовете са публикувани след 2000-та година. Тази особеност на българския корпус се дължи на от една страна на източника, от който текстовете са събирани в електронен вид - интернет, по тази причина не може да бъде уточнена и датата (годината) на публикуване на много от текстовете, от друга страна категориите на Принстънския Браун корпус са твърде мащабни за българските текстови издания и не могат да бъдат покрити с текстове, издадени в по-кратък период.


Основни критерии за съставяне на корпуса (подредени по приоритет)

  1. Текстовете да са оригинални, непреводни.
  2. Текстовете да са създадени след 1990 година, за предпочитане след 2000 година.
  3. Да се спазват категориите и подкатегориите, както и броят корпусни единици във всяка категория, според класификацията на Принстънския Браун корпус.
    Изключения:
  4. Да е достъпен (валиден към датата на добавяне на текста в корпуса) източникът на текста .
    Изключения: 20 корпусни единици без посочен източник.
  5. Корпусната единица да е включена и в първия вариант на корпуса.
    Изключения: 385 корпусни единици са заменени с нови поради неспазване на някое от условията 1-4.
  6. Корпусната единица да е текст или текстове, създадени от един автор.
    Изключения: 46 корпусни единици са създадени от повече от един автор; 70 са с неизвестен автор.
  7. Всяка корпусната единица да е част от един текст.
    Изключения: 104 корпусни единици включват повече от един текст, от тях 88 са части от текстове на различни автори (принадлежат към категории, които обхващат кратки жанрове).
  8. Броят на думите на всяка корпусна единица да е 2 000+ (до първи край на изречение след 2 000-ната дума).
    Изключения: 136 текста съдържат по-малко думи, от които: