Първоначално от Българския национален корпус бяха извлечени 54 текста, наброяващи 754 814 думи общо за времевите периоди до 1950 (за периодите 1951-1990 и 1990-2021 не бяха намерени подходящи текстове в БНК със свободни права).
Допълнително за обогатяване на данните за периодите 1951-1990 и 1990-2021 бяха събрани автоматично текстове от следните източници: Литернет, Словото, Project Gutenberg, Литературен свят, Култура и др.
Бяха включени 11 нови текста със свободен лиценз, наброяващи 341 926 думи.
Всички текстове са снабдени с подробни метаданни по модела на метаданните в Българския национален корпус.
Времеви периоди: 1851-1880; 1881-1910; 1911-1930; 1931-1950; 1951-1990; 1991-2021.
Тематични области: художествена литература, публицистика, научна литература. Подборът е направен въз основа на наблюдението, че тези области имат покритие през повечето периоди, макар и с различно разпределение и покритие. Административни и други текстове не са включени, тъй като не са добре представени в по-ранните периоди.
| Период | Брой текстове | Брой думи | Брой автори | Покритие на тематични области |
| 1850-1880 | 5 | 154 886 | 4 | Художествена, Публицистична, Научна |
| 1881-1910 | 10 | 252 426 | 7 | Художествена, Публицистична, Научна |
| 1911-1930 | 24 | 180 241 | 10 | Художествена, Публицистична, Научна |
| 1931-1950 | 15 | 167 261 | 5 | Художествена, Публицистична, Научна |
| 1951-1990 | 5 | 195 500 | 5 | Художествена |
| 1991-2021 | 6 | 146 426 | 6 | Художествена |
| ОБЩО | 65 | 1 096 740 | 37 | Художествена, Публицистична, Научна |
Корпусът се разпространява с лиценз Creative Commons Attribution 4.0 International (CC BY 4.0).
Достъпни за сваляне са подкорпуси за следните периоди:
Общи данни за Диахронния корпус на български език
| Период | #токъни | #думи | #изречения | #прости изр-я | #същ. | #глаголи | #прил. | #наречия |
| 1850-1880 | 154886 | 137656 | 6499 | 15550 | 38088 | 21055 | 17072 | 7059 |
| 1881-1910 | 252426 | 215243 | 12655 | 29963 | 57533 | 36832 | 21293 | 12584 |
| 1911-1930 | 180241 | 168087 | 8689 | 20849 | 46590 | 26533 | 17671 | 9836 |
| 1931-1950 | 167261 | 149937 | 7736 | 17795 | 41590 | 22271 | 17155 | 8854 |
| 1951-1990 | 195500 | 132885 | 9015 | 20402 | 30467 | 25070 | 11072 | 10071 |
| 1991-2021 | 146426 | 133989 | 9375 | 19083 | 38727 | 23578 | 12031 | 7358 |
Статистическият анализ на данниоте показва сходно разпределение на думите, съотношение между брой графични думи и брой леми и т.н. през различните времеви интервали. Подобна е и мярката за сложност на изреченията, измерена въз основа на броя прости изречения в рамките на сложното (средно между 2.0 и 2.4 прости изречения). По-значителна е разликата в дължината на изречението, измерена като брой думи – 21.2 в най-ранния етап (1850-1880), която спада на 14.7 и 14.3 съответно в последните два етапа (1951-1990 и 1991-2021). По-задълбочен анализ е необходим, за да се потвърди дали причината за това е в подбора на текстовете.
Наблюденията върху 100-те най-често употребявани понятия (уникални значения, senses) за всеки времеви период показаха следното: (а) Общо 222 значения се появяват общо в списъците със 100-те най-често употребявани значения за всичките 6 периода (което показва значително припокриване между тях). (b) 44 значения се срещат във всичките 6 периода, а още 13 се срещат в 5 периода – това са високочестотни думи от общата лексика като година, място, път, мисля, български, работа, имам, живот и др.
Броят думи (форми и леми) и изречения за всеки от шестте времеви периода в Диахронния корпус на български език
| Период | #думи / изр. | #прости изр. / изр. | #уникални форми / 1000 думи | #уникални леми / 1000 думи |
| 1850-1880 | 21.18 | 2.39 | 161.57 | 92.97 |
| 1881-1910 | 17.01 | 2.37 | 174.28 | 100.13 |
| 1911-1930 | 19.34 | 2.40 | 176.24 | 98.84 |
| 1931-1950 | 19.38 | 2.30 | 185.84 | 106.09 |
| 1951-1990 | 14.74 | 2.26 | 200.29 | 109.08 |
| 1991-2021 | 14.29 | 2.04 | 198.37 | 111.03 |
Разглеждаме филтриран списък със значения, извлечен след автоматично отстраняване на семантичната многозначност в текстовете от корпуса. Анализът е в следните насоки:
(1) Преброяваме срещанията на всяко значение от Бейбълнет (като преброяваме всички леми, които са използвани с това значение) и анализираме: (а) значения, които се срещат във всички времеви периоди – това са думи, запазили своята употреба във времето; (б) разминавания в употребата на думите в различните периоди, което може да показва промени в употребата на дадени понятия в езика в зависимост от времевия период. По-долу привеждаме примери и техния анализ.
Примерите представят възможен анализ въз основа на наличните данни, който е сравнително достоверен само за думите с по-висока честота и повече срещания в корпуса. Потвърждаването на изведените хипотези може да стане само след по-задълбочено разглеждане на повече данни. В примерите отбелязваме честотния модел с 6 символа (напр. ХХХХХХ, 00ХХХХ и т.н.), където с Х означаваме, ако думата / значението се среща през периода, 0 – ако не се среща.
Пример 1. Думи с общо значение, срещащи се във всички периоди, но със значително по-ниска честота в даден период.
bn:00036632n Група хора с обща идеология и цели движение_NOUN Брой срещания 203 (XXXXXX)
1850-1880 43 21.2 (%)
1881-1910 35 17.2
1911-1930 57 28.1
1931-1950 59 29.1
1951-1990 7 3.4
1991-2021 2 1.0
В последните периоди намалява употребата на думата ‘движение’ в значението й на група хора с обща идеология.
Пример 2. Думи, срещащи се във всички периоди с подчертано по-малка честота в даден период и пик в друг период.
bn:00018819n Християнска група, подразделение на християнството, със собствени вярвания и религиозни обичаи църква_NOUN (church) Брой срещания 186 (XXXXXX)
1850-1880 108 58.1 (%)
1881-1910 24 12.9
1911-1930 18 9.7
1931-1950 30 16.1
1951-1990 3 1.6
1991-2021 3 1.6
Има пик на употребите на думата ‘църква’ в текстове през Възраждането, а употребата й в последните периоди намалява.
Пример 3. Думи, които се срещат в ранните периоди, но не и в по-късните.
(а)
bn:00060072n Представител на цивилната или военната власт в Турция и Египетпаша_NOUN Брой срещания 92 (XXXX00)
1850-1880 19 20.7
1881-1910 24 26.1
1911-1930 22 23.9
1931-1950 27 29.3
1951-1990 0.0
1991-2021 0.0
(б)
bn:00069885n Ортографична система писменост_NOUN Брой срещания 76 (XXXX00)
1850-1880 10 13.2
1881-1910 62 81.6
1911-1930 3 3.9
1931-1950 1 1.3
1951-1990 0.0
1991-2021 0.0
(в)
bn:00074113n Кораб, задвижван с пара параход_NOUN (steam ship) Брой срещания 40 (XXX000)
1850-1880 2 5.0
1881-1910 5 12.5
1911-1930 33 82.5
1911-1930 0.0
1951-1990 0.0
1991-2021 0.0
(г)
bn:00012135n Учен човек (в областта на хуманитарните науки) книжар_NOUN; книжовник_NOUN; Брой срещания 28 (XXXX00)
1850-1880 13 46.4
1881-1910 7 25.0
1911-1930 6 21.4
1931-1950 2 7.1
1951-1990 0.0
1991-2021 0.0
Несрещането или ниската честота на някои думи в последните периоди, може да се дължи на това, че понятието е било актуално за даден исторически период и е загубило актуалност (напр. ‘паша’ и ‘книжовник’ са актуални през Възраждането, а сега са вече исторически понятия) или не се използва в съвременния живот (напр. ‘параход’).
Пример 4. Думи, които се срещат само в по-късни периоди
(а)
bn:00023101n Тапицирана седалка за повече от един човек диван_NOUN; 14 000XXX
1850-1880 0.0
1881-1910 0.0
1911-1930 0.0
1931-1950 1 7.1
1951-1990 9 64.3
1991-2021 4 28.6
(б)
bn:00013723n Дейността по построяване на нещо (сгради и под.) строителство_NOUN 8 0000XX
1850-1880 0.0
1881-1910 0.0
1911-1930 0.0
1931-1950 0.0
1951-1990 6 75.0
1991-2021 2 25.0
(в)
bn:00109067a Който е свързан с професия или изкарване на прехраната професионален_ADJ; 4 000XXX
1850-1880 0.0
1881-1910 0.0
1911-1930 0.0
1931-1950 1 25.0
1951-1990 2 50.0
1991-2021 1 25.0
(г)
bn:00055448n Представяне, образ на нещо (обикновено в умален размер или схематичен вид) модел_NOUN; 7 00000X
1850-1880 0.0
1881-1910 0.0
1911-1930 0.0
1931-1950 0.0
1951-1990 0.0
1991-2021 7 100.0
Пример 5. Думи, които се срещат само в най-ранните и най-късните периоди, но не и в междинните
bn:00047693n Дейността по публикуване, оповестяване издаване_NOUN; 7 XX000X
1850-1880 4 57.1
1881-1910 2 28.6
1911-1930 0.0
1931-1950 0.0
1951-1990 0.0
1991-2021 1 14.3
Думата ‘издаване’ е актуална през Възраждането и след Освобождението, а в последния период придобива и нови значения, свързани с издаване на електронни медии.
(2) За всяко значение в Бейбълнет разглеждаме срещанияъа на всички леми с това значение. Интересуваме се от значителни разлики в употребата на дадени думи пред други думи със същото значение, което показва тенденции и предпочитания на носителите на езика към дадени лексикални единици през определени периоди.
Пример 6. Синоними, които имат сравнително равномерна употреба през различните периоди.
bn:00021644n Съществуване (за даден период) в определена форма или по определен начин състояние_NOUN; положение_NOUN;
Пример 7. Значения, при които даден синоним консистентно доминира в употребата през всички периоди.
(а)
bn:00028934n Твърдата външна повърхност на планетата Земя земя_NOUN; суша_NOUN;
Думата ‘земя’ чувствително се предпочита (375 срещания) пред ‘суша’ (3 срещания) и това е валидно за всички периоди.
(б)
bn:00005846n Излъчване от страна на обект, което се възприема чрез носа мирис_NOUN; миризма_NOUN
Думата ‘миризма’ се предпочита (12 срещания) пред ‘мирис’ (5 срещания) през различни периоди.
Пример 8. Случаи, при които даден синоним се използва само в по-ранните периоди.
bn:00003242n Чувство на силна изненада удивление_NOUN; изумление_NOUN;
Думата ‘изумление’ е със значително по-ниска честота и се среща само в по-ранните периоди преди 1910, докато ‘удивление’ се употребява и в по-късните периоди (с изключение на последния).
Пример 9. Случаи, при които даден синоним се използва само в последните периоди.
bn:00001304n Представяне в устна форма пред публика реч_NOUN; изказване_NOUN; слово_NOUN;
Както се вижда и от диаграмата, ‘изказване’ се среща само в последните периоди, но започва да доминира над другите два синонима, които се срещат с голяма честота в ранните периоди.
(3) За всяка дума (основна форма) анализираме различните значения, с които думата се среща. Това може да е полезно за анализ на развитието на полисемия и появата на семантични неологизми.
Пример 10. Метафорична употреба на думи в даден период.
bn:00074459n Безредици, свързани с насилие буря_NOUN (1850-1880 и 1881-1910) Брой срещания 6
bn:00074458n Атмосферно време, свързано със силен вятър, дъжд, често и светкавици и гръмотевици буря_NOUN (всички периоди) Брой срещания 58
Примерът показва употреба на думата ‘буря’ в ранни текстове в метафорична употреба при описване на живота и борбите на българите по време на османската власт.
Пример 11. Употреба на многозначни думи и омоними.
(а)
bn:00062658n Селскостопански инструмент с няколко остри пръчки в края, който се използва най-често за слама вила_NOUN
bn:00080000n Провинциална къща за отдих вила_NOUN
Думата ‘вила’ (селскостопански инструмент) се среща само в текстове от периода 1911-1930, докато ‘вила’ (къща за отдих) се среща само след 1931.
(б)
bn:00036632n Група хора с обща идеология и цели движение_NOUN
bn:00056030n Спонтанно или причинено събитие, при което обект променя местоположението си движение_NOUN
И двете се срещат във всички времеви периоди.
(в)
bn:00023310n Пространство, оградено със стени, сгради или ограда двор_NOUN
bn:00024541n Прилежащо пространство към къща или друга сграда двор_NOUN
bn:00023306n Най-близкото обкръжение на монарх двор_NOUN
Докато първите две значения се срещат през всички периоди, последното се среща само до 1950 и вероятно губи актуалност, тъй като България става република.
Пример 12. Случаи, когато дума придобива нови значения.
bn:00034949n Обект, фиксиран на определено място (обикновено свързано с поддръжката на дома) инсталация_NOUN
bn:00046934n Привеждане на даден уред в готовност за употреба инсталация_NOUN
Първото значение се среща след 1930 година, а второто – само след 1990, вероятно свързано с бума на технологиите.