Българският Браун корпус « Секция по компютърна лингвистика

Начало
Описание
Авторски права
Приложение
Публикации
Връзки

Българският Браун корпус (БулСемКор) е общ, представителен, статичен корпус с текстове на български език, създаден от Секцията по компютърна лингвистика към Института за български език при Българската академия на науките съобразно методологията, разработена в университета Браун (Brown university, Providence, Rhode Island, USA) и приложена за английски език при създаването на оригиналния Браун корпус (Brown University Standard Corpus of Present-Day American English). В него се илюстрира езиковата реализация на информативни или художествени текстови типове, разпределени в категории според стилов, тематичен и/или жанров принцип. За да се осигури добра представителност, балансираност и илюстративност на Българския Браун корпус, създаването му се базира на предварителен структурен модел и таксономия на текстовите категории, илюстрирани с подходящи текстове.

Език: български

Тип: общ представителен едноезиков текстов корпус

Състав: Българският Браун корпус включва 500 текста, разпределени в 15 категории от 2 типа – художествени и информативни. Дължината на текстовете е приблизително фиксирана на 2 000 думи. Броят на думите варира с оглед на запазване на границите на началното и крайно изречение на всяка извадка. Големината на корпуса е 1 001 286 думи. Корпусните единици са части от текстове, създадени или публикувани като първо издание в периода 1990-2005, основната част – след 2000 година.

История на създаване: Първата версия на корпуса е създадена през 2001-2002 година. При съставянето, поради невъзможност да се покрият всички категории, са пренебрегнати някои принципи на оригиналния Браун корпус (оригиналност и съвременност на текстовете и др.). Опитът от създаването на първата версия, както и значителното нарастване на електронните публикации в периода 2002-2005 г. дават възможност за съставянето на втората версия на корпуса.

Анотация: Корпусът е документиран, нормализиран и редактиран

Условия за достъп:

Свободен достъп за търсене онлайн.
Свободно изтегляне с лиценза Криейтив комънс признание – Споделяне на споделеното (Creative Commons Attribution-ShareAlike 4.0 International, CC BY-SA 4.0).

Изтегляне:

➥ Корпус и метаданни | ➥ Само метаданни (в .xlsx формат)

ПРОЕКТИ

Национално финансиран проект „БулНет – лексикално-семантична мрежа на българския език“ (2005–2007; 2008–2010)
Национално финансиран проект „Български национален корпус“ (2010 – 2013) финансиран по рамкови програми на ЕС и от НФНИ
Национално финансиран проект „Електронни езикови ресурси и програми за тяхната обработка (БулНет и Фреймнет)“ (2011– 2013)

УЧАСТНИЦИ

В съставянето на Българския семантично анотиран корпус са участвали:

проф. д-р Светла Коева (ръководител)
гл. ас. д-р Светлозара Лесева, д-р Ивелина Стоянова, доц. д-р Екатерина Търпоманова Борислав Ризов и Никола Обрешков (компилация на изходния корпус)

➥ Особености на Българския Браун корпус

➥ Основни критерии за съставяне на корпуса

➥ Класификация

➥ Описание на корпусните единици

Особености на Българския Браун корпус

Представителността е постигната чрез т.нар. стратифицирана случайна извадка от текстове, разделени в относително хомогенни групи.

Всяка корпусна единица в Българския Браун корпус представлява извадка от текст, чиято дължина е приблизително 2 000 думи. Терминът ‘корпусна единица’ разграничава целия текст от включената в корпуса част от него. Българският корпус, според модела на оригиналния Браун корпус, се състои от 500 корпусни единици и наброява 1 001 286 думи. Въпреки стремежа да се спази изискването за обем от приблизително 2 000 думи, жанрът на 136 текста в корпуса предопределя по-малкия им размер.

За разлика от оригиналния Браун корпус (Brown University Standard Corpus of Present-Day American English), който е изграден от текстове, издадени в рамките на една календарна година (1961), за да отразява относително статично състояние на езика, Българският Браун корпус включва текстове, създадени или публикувани като първо издание в сравнително дълъг период от време – 1990 – 2005 г., като основна част от текстовете са публикувани след 2000-та година. Тази особеност на българския корпус се дължи от една страна на източника, от който текстовете са събирани в електронен вид – интернет, по тази причина не може да бъде уточнена и датата (годината) на публикуване на много от текстовете, от друга страна категориите на оригиналния Браун корпус са твърде мащабни за българските текстови издания и не могат да бъдат покрити с текстове, издадени в по-кратък период.

Нагоре

Основни критерии за съставяне на корпуса (подредени по приоритет)

Текстовете да са оригинални, непреводни.
Текстовете да са създадени след 1990 година, за предпочитане след 2000 година.
Да се спазват категориите и подкатегориите, както и броят корпусни единици във всяка категория, според класификацията на оригиналния Браун корпус.
Изключения:
- Категория F е с преразпределени подкатегории.
- В категории A-C е премахнато разделението на ежедневни и седмични периодични издания.
Да е достъпен (валиден към датата на добавяне на текста в корпуса) източникът на текста.
Изключения: 20 корпусни единици без посочен източник.
Корпусната единица да е включена и в първия вариант на корпуса.
Изключения:385 корпусни единици са заменени с нови поради неспазване на някое от условията 1-4.
Корпусната единица да е текст или текстове, създадени от един автор.
Изключения: 46 корпусни единици са създадени от повече от един автор; 70 са с неизвестен автор.
Всяка корпусна единица да е част от един текст.
Изключения: 104 корпусни единици включват повече от един текст, от тях 88 са части от текстове на различни автори (принадлежат към категории, които обхващат кратки жанрове).
Броят на думите на всяка корпусна единица да е 2 000+ (до първи край на изречение след 2 000-ната дума).
Изключения: 136 текста съдържат по-малко думи, от които:
- 57 текста са с 1990-1999 думи;
- 69 текста са с 1900-1989 думи;
- 10 текста са с по-малко от 1900 думи.

Нагоре

Класификация

Класификацията организира текстовете според характеристиките:

Тип – информативен или художествен;
Категория (определена според стилов, тематичен и / или жанров принцип);
Подкатегория (определена в зависимост от категорията, дължината d и източника);
Жанр (няма класификационна, а само описателна и конкретизираща функция).

Таблица. Класификация на българския корпус (превод на категориите)

Категория	Подкатегория	Брой текстове
I. Информативни текстове
A. Преса: Новини	Политика	14
	Спорт	7
	Общество	3
	Горещи новини	9
	Икономика	4
	Култура	7
	общо	44
B. Преса: Статии и анализи	Институции	10
	Лични	10
	Писма	7
	общо	27
C. Преса: Рецензии	Рецензии	17
C. Преса: Рецензии	общо	17
D. Религия	Книги	7
	Преса	6
	Кратки	4
	общо	17
E. Свободно време	Книги	2
	Преса	34
	общо	43
F. Популярни четива	Книги	10
	Преса	38
	общо	43
G. Документалистика	Книги	38
	Преса	37
	общо	75
H. Административни документи	Държавни документи	24
	Организационни документи	2
	Индустриални отчети	2
	Учебни документи	1
	Индустриално издание	1
	общо	30
J. Научни текстове	Естествени науки	12
	Медицина	5
	Математика	4
	Социални науки	14
	Политология, право, педагогика	15
	Хуманитарни науки	18
	Технологични науки	12
	общо	80
ОБЩО ИНФОРМАТИВНИ ТЕКСТОВЕ		374
II. Художествени текстове
K. Класическа литература	Романи	20
	Разкази	9
	общо	29
L. Детективска литература	Романи	20
	Разкази	4
	общо	24
M. Научна фантастика	Романи	3
	Разкази	3
	общо	6
N. Приключенска литература	Романи	15
	Разкази	14
	общо	29
P. Любовна литература	Романи	14
	Разкази	15
	общо	29
R. Хумористична литература	Романи	3
	Есета и др.	6
	общо	9
ОБЩО ХУДОЖЕСТВЕНИ ТЕКСТОВЕ		126
ОБЩО ВСИЧКИ		500

Разширени категории поради промяна в актуалността на тематичното разпределение:

Детективска литература – в тази категория освен детективски романи / разкази са включени и полицейски романи / разкази в стил „екшън“.
Приключенска литература – поради липсата на типично приключенски романи / разкази, категорията обхваща „фентъзи“ (приключенски романи / разкази с приказни и фантастични елементи), както и психологически романи / разкази, имащи характер на приключенски, а понякога и на антиприключенски.

Нагоре

Описание на корпусните единици

Обща информация

Описанието на всяка корпусна единица включва обща информация за текста и определяне на категорията, към която се отнася.

Име на файла;
Път до файла;
Старо име и път до файла – в случай, че във втората версия на корпуса е включен текст от първата версия;
Информация за автора – дали е един, неизвестен или са няколко, както и името му, когато е известно;
Информация за текста – дали е един, или няколко, заглавие;
Форма на текста – писмена, устна;
Брой думи на корпусната единица;
Дата на добавяне на корпусната единица към корпуса – посочените данни за източника са актуални спрямо тази дата;
Дата (година) на създаване на текста или първата публикация;
Дата (година) на текущата публикация – в този вид или вариант на текста;
Информация за източника;
Допълнителни бележки.

Пълно описание

Пълното описание на Българския Браун корпус можете да свалите като MS Excel file.

Нагоре

Авторско право върху корпусните единици, включени в корпуса

Свободно използване без заплащане на възнаграждение (загл.изм., ДВ, бр.77 от 2002 г.)

Чл. 24. (изм., ДВ, бр.77 от 2002 г.)

Без съгласието на носителя на авторското право и без заплащане на възнаграждение е допустимо:

временното възпроизвеждане на произведения, ако то има преходен или инцидентен характер, няма самостоятелно значение, съставлява неделима и съществена част от техническия процес и се прави с единствената цел да позволи:
- предаване в мрежа чрез посредник, или
- друго разрешено използване на произведение;
използването на цитати от вече разгласени произведения на други лица при критика или обзор при посочване на източника и името на автора, освен ако това е невъзможно; цитирането трябва да съответства на обичайната практика и да е в обем, оправдан от целта;
използването на части от публикувани произведения или на неголям брой произведения в други произведения в обем, необходим за анализ, коментар или друг вид научно изследване; такова използване е допустимо само за научни и образователни цели при посочване на източника и името на автора, освен ако това е невъзможно…

Закон за авторското право и сродните му права (обн., ДВ, бр. 56 от 29 юни 1993 г.; изм., ДВ, бр. 63 от 1994 г., бр.10 от 1998 г., бр.28 от 2000 г.; доп.,бр.107 от 2000 г.; изм. и доп., бр.77 от 9 август 2002 г.)

Нито корпусът като цяло, нито отделни корпусни единици ще бъдат препубликувани. Единствено описанието на корпуса и програмите за извличане на информация са публикувани открито и достъпни за използване.

Описанието на корпуса и програмите за обработка и извличане на данни от него се разпространяват безплатно, не се използват за търговски цели, а единствено за научно-изследователски и образователни.

Авторско право върху Българския Браун корпус и неговото описание

Авторско право върху сборници, антологии, библиографии и бази данни (загл.изм.,ДВ,бр.28 от 2000 г.)

Чл.11.

(1) Авторското право върху сборници, антологии, библиографии, бази данни и други подобни принадлежи на лицето, което е извършило подбора или подреждането на включените произведения и/или материали, освен ако в договор е предвидено друго.

Авторското право върху включените в такова произведение от отделни части, които имат характер на произведения на литературата, изкуството и науката, принадлежи на техните автори.

(2) За включването на произведения или части от тях в такова произведение е необходимо съгласието на техните автори, освен ако законът не предвижда друго.

Изтегляне:

➥ Корпус и метаданни | ➥ Само метаданни (в .xlsx формат)

Ресурсът предоставя възможности за търсене с лингвистично-изследователски, образователни и други цели.

Части от Българския Браун корпус са използвани при създаването на БулСемКор и БулПосКор.

Изследването на Българския Браун корпус поставя въпроси и осигурява среда за теоретично и практическо изучаване на различни проблеми, които като цяло са слабо застъпени в научните изследвания. Такива са например въпросите, свързани с изследване и оценяване на адекватността на приложения модел, създаден през 1962-1963 година главно въз основа на наблюдения върху печатните американски публикации (не толкова въз основа на статистически анализи) в университета в Браун, за различни съвременни цели. Изследването на този проблем поставя редица научни задачи като този доколко критериите за подбор на текстовете се отнасят към текстовете на български, както и доколко печатните и електронните текстове се вместват в едни и същи категории.

Интересна задача е и оценката на актуалността на модела за 2005 година (годината на създаване на Българския Браун корпус). Отворен остава и до днес въпросът доколко статистическите методи (основани на количествени анализ) са приложими при създаване на методология за изграждане на корпуси.

Цитирайте в разработките си, основани на Българския Браун корпус, някоя от следните публикации:


Коева, Св., Д. Благоева (ред.). Езикови ресурси и технологии за български език. София: Академично издателство „Проф. Марин Дринов“, 2014, 310 с. ISBN: 978-954-322-797-6.			@BOOK{2014-Ezikovi-resursi, editor = {Св. Коева and Д. Благоева}, title = {{Езикови ресурси и технологии за български език}}, year = 2014, pages = {310}, publisher = {{София: Академично издателство „Проф. Марин Дринов“}}, ISBN = {{978-954-322-797-6}}, } }
Ivelina Stoyanova, Svetla Koeva, Svetlozara Lesseva. Applying and analysing Brown corpus model for Bulgarian. Presentation at The Third Inter-Varietal Applied Corpus Studies (IVACS) group International Conference on “LANGUAGE AT THE INTERFACE” 23rd – 24th June 2006, Nottingham, UK.			@MISC{2006-Applying-and-analysing-Brown, editor = {Ivelina Stoyanova and Svetla Koeva and Svetlozara Lesseva}, title = {{Applying and analysing Brown corpus model for Bulgarian (Presentation)}}, year = 2006, venue = {{The Third Inter-Varietal Applied Corpus Studies (IVACS) group International Conference on “LANGUAGE AT THE INTERFACE” 23rd – 24th June 2006, Nottingham, UK}}, } }
Koeva, S., S. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova. Bulgarian Tagged Corpora. – In: Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages, 2006, pp. 78 – 86.			@INPROCEEDINGS{2006-Bulgarian-Tagged-Corpora, author = {S. Koeva and S. Leseva and I. Stoyanova and E. Tarpomanova and M. Todorova}, title = {{Bulgarian Tagged Corpora}}, year = 2006, pages = {78 — 86}, booktitle = {{Proceedings of the Fifth International Conference Formal Approaches to South Slavic and Balkan Languages}}, }
Koeva, S., S. Leseva, M. Todorova. Bulgarian Sense Tagged Corpus. – In: Proceedings of the 5th SALTMIL Workshop on Minority Languages: Strategies for Developing Machine Translation for Minority Languages, 2006, pp. 79 – 87.			@INPROCEEDINGS{2006-Bulgarian-Sense-Tagged-Co, author = {S. Koeva and S. Leseva and M. Todorova}, title = {{Bulgarian Sense Tagged Corpus}}, year = 2006, pages = {79 — 87}, booktitle = {{Proceedings of the 5th SALTMIL Workshop on Minority Languages: Strategies for Developing Machine Translation for Minority Languages}}, }