Дизайн

Следните основни принципи бяха приети при изграждане на Българския национален корпус:

1. Дизайнът не е зависим от конкретните цели и задачи, като се цели събирането на големи количества едноезикови и многоезикови данни, илюстриращи различни типове текст от различни стилове, жанрове и тематични области.

 

2. Структурата на корпуса позволява разширяване с новопоявили се категории текстове в езиковата продукция.

 

3. Гъвкавост и устойчивост на дизайна, за да се осигури възможност за промени и преструктуриране на класификационната информация за текстовете. Прецизните механизми за преструктуриране трябва да осигурят безпроблемни промени, при които да се осигури коректната класификация на наличните текстове в корпуса към момента на промените.

 

4. Възприемане на механизми за включване в корпуса на текстове, принадлежащи към повече от една категории, като се дава възможност за отразяване на това в описанието.

 

5. Лесен достъп до съответните документи, както и прости и ефективни методи за извличане на информация и създаване на подкорпуси.

 

Дизайнът на корпуса цели да осигури едновременната поддръжката на едноезикови и многоезикови паралелни корпуси в състава на БНК, както и тяхната компилация, предварителна обработка, анотация, оценка и достъп чрез общи или сходни компютърни програми, в съответствие със схемите за метаданни и лингвистична анотация. Този подход осигурява стандартизация, възможности за широка употреба и автоматизиране на всички равнища от развитието и приложенията на корпуса.

 

Създадена е единна и непротиворечива система за структуриране на БНК, за съхраняване на текстовите данни и за описание на включените в него текстове. Дизайнът се отличава с ясна структура, основана на изчерпателно описание на категориите и ясно установено съответствие между паралелните текстове на различни езици. От друга страна, корпусната структура трябва да е гъвкава, за да позволява преструктуриране на корпуса въз основа на различни класификационни признаци. Това се осъществява чрез детайлни и последователни метаданни.