Метаданни

Метаданните за описание на текстовите единици в корпуса обхващат 27 категории, които от една страна са в съответствие с установените стандарти, а от друга – отговарят на конкретните цели при изграждането на БНК.

 

filename path_to_file date_added_to_corpus
author_info author translator_info
translator text_info title
year_of_creation publishing_date source_type
source translated medium
number_of_words style genre
genre_info domain1 domain2
domain_info notes keywords
languages quality accessibility

Категориите в системата на метаданните.

Метаданните могат също да бъдат представени във вид на граф, като върховете означават отделните категории, а ребрата – бинарните релации между категориите (стил, тематична област, жанр и др.). При някои релации в метаданните, например стил, множеството от възможни стойности е ограничено, докато при други, например автор, възможните стойности представляват отворено множество. Представянето е опростено, например авторството е отразено само веднъж за всички всеки български текст и чуждоезиковите му съответствия. Допълнително предимство на представянето като граф е възможността за добавяне на нови категории и релации, както и за сливане или разделяне на категории.

Примерно представяне на метаданните във вид на граф.

Основна цел при описанието на текстовите единици е метаданните да бъдат детайлни и изчерпателни, за да се осигури лесната класификация на текстовете, преструктуриране на корпуса, оценка, извличане на подкорпуси по определени критерии (например година на публикуване, тематична област и др.). Някои категории метаданни, отбелязани с _info, са незадължителни и съдържат допълнителни детайли за основната категория. Предвидена е възможността за отразяване на принадлежност към две тематични области. Понастоящем текстовете на български и английски език за снабдени с подробно описание, а за другите езици ползват това описание и наследяват класификационната информация.