Българският Браун корпус (БулСемКор) е общ, представителен, статичен корпус с текстове на български език, създаден от Секцията по компютърна лингвистика към Института за български език при Българската академия на науките съобразно методологията, разработена в университета Браун (Brown university, Providence, Rhode Island, USA) и приложена за английски език при създаването на оригиналния Браун корпус (Brown University Standard Corpus of Present-Day American English). В него се илюстрира езиковата реализация на информативни или художествени текстови типове, разпределени в категории според стилов, тематичен и/или жанров принцип. За да се осигури добра представителност, балансираност и илюстративност на Българския Браун корпус, създаването му се базира на предварителен структурен модел и таксономия на текстовите категории, илюстрирани с подходящи текстове.
Език: български
Тип: общ представителен едноезиков текстов корпус
Състав: Българският Браун корпус включва 500 текста, разпределени в 15 категории от 2 типа – художествени и информативни. Дължината на текстовете е приблизително фиксирана на 2 000 думи. Броят на думите варира с оглед на запазване на границите на началното и крайно изречение на всяка извадка. Големината на корпуса е 1 001 286 думи. Корпусните единици са части от текстове, създадени или публикувани като първо издание в периода 1990-2005, основната част – след 2000 година.
История на създаване: Първата версия на корпуса е създадена през 2001-2002 година. При съставянето, поради невъзможност да се покрият всички категории, са пренебрегнати някои принципи на оригиналния Браун корпус (оригиналност и съвременност на текстовете и др.). Опитът от създаването на първата версия, както и значителното нарастване на електронните публикации в периода 2002-2005 г. дават възможност за съставянето на втората версия на корпуса.
Анотация: Корпусът е документиран, нормализиран и редактиран
Условия за достъп:
- Свободен достъп за търсене онлайн.
- Свободно изтегляне с лиценза Криейтив комънс признание – Споделяне на споделеното (Creative Commons Attribution-ShareAlike 4.0 International, CC BY-SA 4.0).
Изтегляне:
➥ Корпус и метаданни | ➥ Само метаданни (в .xlsx формат)
ПРОЕКТИ
- Национално финансиран проект „БулНет – лексикално-семантична мрежа на българския език“ (2005–2007; 2008–2010)
- Национално финансиран проект „Български национален корпус“ (2010 – 2013) финансиран по рамкови програми на ЕС и от НФНИ
- Национално финансиран проект „Електронни езикови ресурси и програми за тяхната обработка (БулНет и Фреймнет)“ (2011– 2013)
УЧАСТНИЦИ
В съставянето на Българския семантично анотиран корпус са участвали:
- проф. д-р Светла Коева (ръководител)
- гл. ас. д-р Светлозара Лесева, д-р Ивелина Стоянова, доц. д-р Екатерина Търпоманова Борислав Ризов и Никола Обрешков (компилация на изходния корпус)
➥ Особености на Българския Браун корпус
➥ Основни критерии за съставяне на корпуса
➥ Описание на корпусните единици
Особености на Българския Браун корпус
Представителността е постигната чрез т.нар. стратифицирана случайна извадка от текстове, разделени в относително хомогенни групи.
Всяка корпусна единица в Българския Браун корпус представлява извадка от текст, чиято дължина е приблизително 2 000 думи. Терминът ‘корпусна единица’ разграничава целия текст от включената в корпуса част от него. Българският корпус, според модела на оригиналния Браун корпус, се състои от 500 корпусни единици и наброява 1 001 286 думи. Въпреки стремежа да се спази изискването за обем от приблизително 2 000 думи, жанрът на 136 текста в корпуса предопределя по-малкия им размер.
За разлика от оригиналния Браун корпус (Brown University Standard Corpus of Present-Day American English), който е изграден от текстове, издадени в рамките на една календарна година (1961), за да отразява относително статично състояние на езика, Българският Браун корпус включва текстове, създадени или публикувани като първо издание в сравнително дълъг период от време – 1990 – 2005 г., като основна част от текстовете са публикувани след 2000-та година. Тази особеност на българския корпус се дължи от една страна на източника, от който текстовете са събирани в електронен вид – интернет, по тази причина не може да бъде уточнена и датата (годината) на публикуване на много от текстовете, от друга страна категориите на оригиналния Браун корпус са твърде мащабни за българските текстови издания и не могат да бъдат покрити с текстове, издадени в по-кратък период.
Основни критерии за съставяне на корпуса (подредени по приоритет)
- Текстовете да са оригинални, непреводни.
- Текстовете да са създадени след 1990 година, за предпочитане след 2000 година.
- Да се спазват категориите и подкатегориите, както и броят корпусни единици във всяка категория, според класификацията на оригиналния Браун корпус.
Изключения:
- Категория F е с преразпределени подкатегории.
- В категории A-C е премахнато разделението на ежедневни и седмични периодични издания.
- Да е достъпен (валиден към датата на добавяне на текста в корпуса) източникът на текста.
Изключения: 20 корпусни единици без посочен източник.
- Корпусната единица да е включена и в първия вариант на корпуса.
Изключения:385 корпусни единици са заменени с нови поради неспазване на някое от условията 1-4.
- Корпусната единица да е текст или текстове, създадени от един автор.
Изключения: 46 корпусни единици са създадени от повече от един автор; 70 са с неизвестен автор.
- Всяка корпусна единица да е част от един текст.
Изключения: 104 корпусни единици включват повече от един текст, от тях 88 са части от текстове на различни автори (принадлежат към категории, които обхващат кратки жанрове).
- Броят на думите на всяка корпусна единица да е 2 000+ (до първи край на изречение след 2 000-ната дума).
Изключения: 136 текста съдържат по-малко думи, от които:
- 57 текста са с 1990-1999 думи;
- 69 текста са с 1900-1989 думи;
- 10 текста са с по-малко от 1900 думи.
Класификация
Класификацията организира текстовете според характеристиките:
- Тип – информативен или художествен;
- Категория (определена според стилов, тематичен и / или жанров принцип);
- Подкатегория (определена в зависимост от категорията, дължината d и източника);
- Жанр (няма класификационна, а само описателна и конкретизираща функция).
Таблица. Класификация на българския корпус (превод на категориите)
Категория | Подкатегория | Брой текстове |
I. Информативни текстове | ||
A. Преса: Новини | Политика | 14 |
Спорт | 7 | |
Общество | 3 | |
Горещи новини | 9 | |
Икономика | 4 | |
Култура | 7 | |
общо | 44 | |
B. Преса: Статии и анализи | Институции | 10 |
Лични | 10 | |
Писма | 7 | |
общо | 27 | |
C. Преса: Рецензии | Рецензии | 17 |
общо | 17 | |
D. Религия | Книги | 7 |
Преса | 6 | |
Кратки | 4 | |
общо | 17 | |
E. Свободно време | Книги | 2 |
Преса | 34 | |
общо | 43 | |
F. Популярни четива | Книги | 10 |
Преса | 38 | |
общо | 43 | |
G. Документалистика | Книги | 38 |
Преса | 37 | |
общо | 75 | |
H. Административни документи | Държавни документи | 24 |
Организационни документи | 2 | |
Индустриални отчети | 2 | |
Учебни документи | 1 | |
Индустриално издание | 1 | |
общо | 30 | |
J. Научни текстове | Естествени науки | 12 |
Медицина | 5 | |
Математика | 4 | |
Социални науки | 14 | |
Политология, право, педагогика | 15 | |
Хуманитарни науки | 18 | |
Технологични науки | 12 | |
общо | 80 | |
ОБЩО ИНФОРМАТИВНИ ТЕКСТОВЕ | 374 | |
II. Художествени текстове |
||
K. Класическа литература | Романи | 20 |
Разкази | 9 | |
общо | 29 | |
L. Детективска литература | Романи | 20 |
Разкази | 4 | |
общо | 24 | |
M. Научна фантастика | Романи | 3 |
Разкази | 3 | |
общо | 6 | |
N. Приключенска литература | Романи | 15 |
Разкази | 14 | |
общо | 29 | |
P. Любовна литература | Романи | 14 |
Разкази | 15 | |
общо | 29 | |
R. Хумористична литература | Романи | 3 |
Есета и др. | 6 | |
общо | 9 | |
ОБЩО ХУДОЖЕСТВЕНИ ТЕКСТОВЕ | 126 | |
ОБЩО ВСИЧКИ | 500 |
Разширени категории поради промяна в актуалността на тематичното разпределение:
- Детективска литература – в тази категория освен детективски романи / разкази са включени и полицейски романи / разкази в стил „екшън“.
- Приключенска литература – поради липсата на типично приключенски романи / разкази, категорията обхваща „фентъзи“ (приключенски романи / разкази с приказни и фантастични елементи), както и психологически романи / разкази, имащи характер на приключенски, а понякога и на антиприключенски.
Описание на корпусните единици
Обща информация
Описанието на всяка корпусна единица включва обща информация за текста и определяне на категорията, към която се отнася.
- Име на файла;
- Път до файла;
- Старо име и път до файла – в случай, че във втората версия на корпуса е включен текст от първата версия;
- Информация за автора – дали е един, неизвестен или са няколко, както и името му, когато е известно;
- Информация за текста – дали е един, или няколко, заглавие;
- Форма на текста – писмена, устна;
- Брой думи на корпусната единица;
- Дата на добавяне на корпусната единица към корпуса – посочените данни за източника са актуални спрямо тази дата;
- Дата (година) на създаване на текста или първата публикация;
- Дата (година) на текущата публикация – в този вид или вариант на текста;
- Информация за източника;
- Допълнителни бележки.
Пълно описание
Пълното описание на Българския Браун корпус можете да свалите като MS Excel file.
Авторско право върху корпусните единици, включени в корпуса
Свободно използване без заплащане на възнаграждение (загл.изм., ДВ, бр.77 от 2002 г.)
Чл. 24. (изм., ДВ, бр.77 от 2002 г.)
Без съгласието на носителя на авторското право и без заплащане на възнаграждение е допустимо:
- временното възпроизвеждане на произведения, ако то има преходен или инцидентен характер, няма самостоятелно значение, съставлява неделима и съществена част от техническия процес и се прави с единствената цел да позволи:
- предаване в мрежа чрез посредник, или
- друго разрешено използване на произведение;
- използването на цитати от вече разгласени произведения на други лица при критика или обзор при посочване на източника и името на автора, освен ако това е невъзможно; цитирането трябва да съответства на обичайната практика и да е в обем, оправдан от целта;
- използването на части от публикувани произведения или на неголям брой произведения в други произведения в обем, необходим за анализ, коментар или друг вид научно изследване; такова използване е допустимо само за научни и образователни цели при посочване на източника и името на автора, освен ако това е невъзможно…
Закон за авторското право и сродните му права (обн., ДВ, бр. 56 от 29 юни 1993 г.; изм., ДВ, бр. 63 от 1994 г., бр.10 от 1998 г., бр.28 от 2000 г.; доп.,бр.107 от 2000 г.; изм. и доп., бр.77 от 9 август 2002 г.)
Нито корпусът като цяло, нито отделни корпусни единици ще бъдат препубликувани. Единствено описанието на корпуса и програмите за извличане на информация са публикувани открито и достъпни за използване.
Описанието на корпуса и програмите за обработка и извличане на данни от него се разпространяват безплатно, не се използват за търговски цели, а единствено за научно-изследователски и образователни.
Авторско право върху Българския Браун корпус и неговото описание
Авторско право върху сборници, антологии, библиографии и бази данни (загл.изм.,ДВ,бр.28 от 2000 г.)
Чл.11.
(1) Авторското право върху сборници, антологии, библиографии, бази данни и други подобни принадлежи на лицето, което е извършило подбора или подреждането на включените произведения и/или материали, освен ако в договор е предвидено друго.
Авторското право върху включените в такова произведение от отделни части, които имат характер на произведения на литературата, изкуството и науката, принадлежи на техните автори.
(2) За включването на произведения или части от тях в такова произведение е необходимо съгласието на техните автори, освен ако законът не предвижда друго.
Изтегляне:
➥ Корпус и метаданни | ➥ Само метаданни (в .xlsx формат)
Ресурсът предоставя възможности за търсене с лингвистично-изследователски, образователни и други цели.
Части от Българския Браун корпус са използвани при създаването на БулСемКор и БулПосКор.
Изследването на Българския Браун корпус поставя въпроси и осигурява среда за теоретично и практическо изучаване на различни проблеми, които като цяло са слабо застъпени в научните изследвания. Такива са например въпросите, свързани с изследване и оценяване на адекватността на приложения модел, създаден през 1962-1963 година главно въз основа на наблюдения върху печатните американски публикации (не толкова въз основа на статистически анализи) в университета в Браун, за различни съвременни цели. Изследването на този проблем поставя редица научни задачи като този доколко критериите за подбор на текстовете се отнасят към текстовете на български, както и доколко печатните и електронните текстове се вместват в едни и същи категории.
Интересна задача е и оценката на актуалността на модела за 2005 година (годината на създаване на Българския Браун корпус). Отворен остава и до днес въпросът доколко статистическите методи (основани на количествени анализ) са приложими при създаване на методология за изграждане на корпуси.
Цитирайте в разработките си, основани на Българския Браун корпус, някоя от следните публикации: