Метаданните за описание на текстовите единици в корпуса обхващат 27 категории, които от една страна са в съответствие с установените стандарти, а от друга – отговарят на конкретните цели при изграждането на БНК.
filename | path_to_file | date_added_to_corpus |
author_info | author | translator_info |
translator | text_info | title |
year_of_creation | publishing_date | source_type |
source | translated | medium |
number_of_words | style | genre |
genre_info | domain1 | domain2 |
domain_info | notes | keywords |
languages | quality | accessibility |
Категориите в системата на метаданните.
Метаданните могат също да бъдат представени във вид на граф, като върховете означават отделните категории, а ребрата – бинарните релации между категориите (стил, тематична област, жанр и др.). При някои релации в метаданните, например стил, множеството от възможни стойности е ограничено, докато при други, например автор, възможните стойности представляват отворено множество. Представянето е опростено, например авторството е отразено само веднъж за всички всеки български текст и чуждоезиковите му съответствия. Допълнително предимство на представянето като граф е възможността за добавяне на нови категории и релации, както и за сливане или разделяне на категории.
Примерно представяне на метаданните във вид на граф.
Основна цел при описанието на текстовите единици е метаданните да бъдат детайлни и изчерпателни, за да се осигури лесната класификация на текстовете, преструктуриране на корпуса, оценка, извличане на подкорпуси по определени критерии (например година на публикуване, тематична област и др.). Някои категории метаданни, отбелязани с _info, са незадължителни и съдържат допълнителни детайли за основната категория. Предвидена е възможността за отразяване на принадлежност към две тематични области. Понастоящем текстовете на български и английски език за снабдени с подробно описание, а за другите езици ползват това описание и наследяват класификационната информация.