Информация

Общо описание

Българският национален корпус е създаден в Института за български език „Проф. Любомир Андрейчин” от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени няколко отделни електронни корпуса, разработени в периода 2001-2009 г. за целите на двете секции. Материалите в корпуса отразяват състоянието на българския език (предимно в неговата писмена форма) от средата на ХХ в. (1945 г.) до наши дни.

Нарастването на Българския национален корпус се извършва не само чрез събирането на текстове на български език, но и чрез включването на паралелни корпуси, в които централният език е български. Това означава, че текстовете на чужди езици задължително имат съответствие на български, което се включва в ядрото на корпуса, съдържащо всички текстове на български език, включени в него.

Към 2014 година ядрото на корпуса съдържа приблизително 1,2 милиарда думи и над 240 000 текста. В момента са включени паралелни корпуси на 47 езика с обем около 4,2 милиард думи. Общият обем на Българския национален корпус е приблизително 5,4 милиарда думи.

Корпусът включва три нива на анотация:

подробни метаданни, включващи информация за автор, дата на създаване, дата на публикуване, тип, жанр, област и др.;
едноезикова анотация – токънизация и разделяне на изречения; автоматично приписване на частта на речта, на граматичните характеристики и основната форма на думите; автоматично приписване на значенията на думите от Българския WordNet;
многоезикова анотация – съотнасяне на различни езикови нива, за момента – съотнасяне по изречения и по клаузи (прости изречения в състава на сложното) за част от корпуса.

Създадена е специална система за търсене в корпуса, която дава възможност за комплексни заявки по различни езикови критерии.

Тагсетът, използван при анотацията на Българския национален корпус, е достъпен оттук.

Българския национален корпус

Системата за търсене в Българския национален корпус

Езици: общо 48 езика: български и 47 чужди езика (включени в паралелните корпуси)

Тип: общ многоезиков корпус от писмена и устна реч, включващ множество специализирани подкорпуси; снабден с подробни метаданни и многослойна лингвистична анотация

Съдържание: над 240,000 текста, разпределени в 9 категории; общ обем: около 5,4 милиарда думи

Приложение: Българският национален корпус дава възможност за редица приложения в различни области на езикознанието: в компютърната лингвистика; в лексикографията; за теоретични изследвания на определени лингвистични явления; за наблюдения върху особеностите на отделни области на езика; за извличане на примери за демонстрация при обучението по български език и др.

Анотация: едноезикова анотация: токънизация и разделяне на изречения; автоматично приписване на частта на речта, на граматичните характеристики и основната форма на думите; автоматично приписване на значенията на думите от Българския WordNet; многоезикова анотация: съотнасяне по изречения и клаузи на част от корпуса; подробни метаданни;

Условия за достъп: Свободен достъп чрез интернет чрез системата за търсене на Българския национален корпус:

свободно търсене онлайн, ограничено до 30 случайни резултата (за нерегистрирани потребители);
пълен достъп до резултатите (за регистрирани потребители);
свободно изтегляне на незащитените с авторско право текстове (за регистрирани потребители).