Заглавна

Българският Браун корпус е създаден съобразно методологията, разработена в университета Браун (Brown university, Providence, Rhode Island, USA) и приложена в създаването на известния Brown Corpus. Българският Браун корпус включва 500 текста, разпределени в 15 категории от 2 типа - художествени и информативни. Дължината на текстовете е приблизително фиксирана на 2 000 думи. Броят на думите варира с оглед на запазване на границите на началното и крайно изречение на всяка извадка. Големината на корпуса е 1 001 286 думи. Корпусните единици са части от текстове, създадени или публикувани като първо издание в периода 1990-2005, основната част - след 2000 година.

Корпусът е документиран и нормализиран, направени са проверки за погрешна замяна на кирилски с латински букви и за правописни и пунктуационни грешки. Първата версия на корпуса е създадена през 2001-2002 година. При съставянето, поради невъзможност да се покрият всички категории, са пренебрегнати някои принципи на Принстънския Браун корпус (оригиналност и съвременност на текстовете и др.). Опитът от създаването на първата версия, както и значителното нарастване на електронните публикации в периода 2002-2005 г. дават възможност за съставянето на втората версия на корпуса.