Българският национален корпус е създаден в Института за български език „Проф. Любомир Андрейчин” от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени няколко отделни електронни корпуса, разработени в периода 2001-2009 г. за целите на двете секции. Материалите в корпуса отразяват състоянието на българския език (предимно в неговата писмена форма) от средата на ХХ в. (1945 г.) до наши дни.
Нарастването на Българския национален корпус се извършва не само чрез събирането на текстове на български език, но и чрез включването на паралелни корпуси, в които централният език е български. Това означава, че текстовете на чужди езици задължително имат съответствие на български, което се включва в ядрото на корпуса, съдържащо всички текстове на български език, включени в него.
Към 2014 година ядрото на корпуса съдържа приблизително 1,2 милиарда думи и над 240 000 текста. В момента са включени паралелни корпуси на 47 езика с обем около 4,2 милиард думи. Общият обем на Българския национален корпус е приблизително 5,4 милиарда думи.
Създадена е специална система за търсене в корпуса, която дава възможност за комплексни заявки по различни езикови критерии.
Тагсетът, използван при анотацията на Българския национален корпус, е достъпен оттук.
Езици: общо 48 езика: български и 47 чужди езика (включени в паралелните корпуси)
Тип: общ многоезиков корпус от писмена и устна реч, включващ множество специализирани подкорпуси; снабден с подробни метаданни и многослойна лингвистична анотация
Съдържание: над 240,000 текста, разпределени в 9 категории; общ обем: около 5,4 милиарда думи
Приложение: Българският национален корпус дава възможност за редица приложения в различни области на езикознанието: в компютърната лингвистика; в лексикографията; за теоретични изследвания на определени лингвистични явления; за наблюдения върху особеностите на отделни области на езика; за извличане на примери за демонстрация при обучението по български език и др.
Анотация: едноезикова анотация: токънизация и разделяне на изречения; автоматично приписване на частта на речта, на граматичните характеристики и основната форма на думите; автоматично приписване на значенията на думите от Българския WordNet; многоезикова анотация: съотнасяне по изречения и клаузи на част от корпуса; подробни метаданни;
Условия за достъп: Свободен достъп чрез интернет чрез системата за търсене на Българския национален корпус: