EN BG

Извадки за честотата и контекста на различни езикови изрази в корпуси:

 

Най-често срещани лексикални съкращения в Българския национален корпус. download pdf file.
Най-често срещани графични съкращения в Българския национален корпус. download pdf file.
Честотна статистика на глаголите в корпус от 342 642 думи download txt file.

 

Най-често срещаните десет български съществителни в корпус от 35 000 000 думи са:
време, година, нещо, път, час, страна, ден, хора, място, човек.

 

Най-често срещаните десет български собствени имена в същия корпус са:
Боби, Иван, Мария, Вера, Елена, Стоян, Андрей, Георги, Павел, Христо

 

Думата България в корпус от 35 000 000 думи се среща 18 743 пъти.

 

Съчетанието от буквите ‘тс’ се среща 54 689 пъти в следните думи, извадени от Големия писмен корпус на българския език download txt file. При транслитерация на тези думи според някои предложения за стандарт би се получила нееднозначност с буквата ‘ц’, ако за нея се използват символите ‘ts’.
Съчетанието от буквите ‘зх’ се среща 23 378 пъти в следните думи, извадени от Големия писмен корпус на българския език download txt file. При транслитерация на тези думи според сегашния стандарт би се получила нееднозначност с буквата ‘ж’, която се предава със символите ‘zh’.
Съчетанието от буквите ‘сх’ се среща 5 834 пъти в следните думи, извадени от Големия писмен корпус на българския език download txt file. При транслитерация на тези думи според сегашния стандарт би се получила нееднозначност с буквата ‘ш’, която се предава със символите ‘sh’.
Ако транслитерираме българската буква ‘ъ’ с латинския знак ‘a’, могат да се получат интересни двусмислици, например:
varna (Варна или върна), grad (град или гръд), gram (грам или гръм), kadri (кадри или къдри), kasa (каса или къса), lak (лак или лък), laskav (ласкав или лъскав), papka (папка или пъпка}, san (сан или сън), tapa (тапа или тъпа) и др.
Изразите ‘футбол’ и ‘1994 година’ се срещат едновременно в един текст 3 156 пъти в корпус от 35 000 000 думи.
Минало несвършено време на глагола ‘чета’ се среща 29 пъти в корпус от 1 000 000 думи.
Синонимният ред с най-много семантични релации е {cardinal; 2} с дефиниция ‘being or denoting a numerical quantity but not order’

 

Най-често срещаните 10 заявки за транслитерация (кирилски букви -> латински букви) към 15.05.2006 г.:

 

Собствено име Брой
София 804
Иван 552
Николай 469
Георги 414
България 394
Мария 337
петър 331
Русе 286
Ивайло 249
Димитър 244

 

Разнообразни справки могат да бъдат направени по ваша заявка.

Copyright © 2015 Институт за български език. Всички права запазени.