EN BG

Frequency Dictionaries

General overview

The Frequency Dictionaries are derived from the Bulgarian National Corpus (BulNC), which is the largest systematically created and representative corpus of Bulgarian. The Frequency Dictionaries reflect the frequency of occurrence of lexical items in the corpus (BulNC version: December 2011).

The classification of the BulNC samples is based on their style, domain and genre. Texts are divided into the following style categories: administrative, science, fiction, journalism, popular science and informal (at present, the informal style is not represented), as well as the complex style of Informal/Fiction (subtitles).

 

Download

A separate frequency dictionary is compiled for each style, as well as a general dictionary on the entire corpus. Dictionaries are in two formats: (1) sorted by inverse frequency; and (2) sorted in alphabetical order.

You can download the collection of dictionary from here.

The table below represents the dictionaries in the zip archive:

 

 

Style By frequency In alphabetical order
Administrative A-Administrative0001_byFreq A-Administrative0001
Science B-Science0001_byFreq B-Science0001
Journalism C-MassMedia_byFreq C-MassMedia
Fiction D-Fiction0001_byFreq D-Fiction0001
Popular Science G-PopularScience_byFreq G-PopulatScience
Informal/Fiction F-InformalFiction0001_byFreq F-InformalFiction0001
GENERAL General_byFreq General

Peculiar facts

 

The 10 most frequent nouns by style…

 

 

Admin. Science Journal. Fiction Pop. science Inf./Fiction
член

266338

време

45893

дейност

593828

ръка

346208

година

313524

време

7518

приложение

129727

страна

35334

дружество

503259

време

336264

име

178088

работа

7432

продукт

126140

година

33277

година

471047

око

262226

град

146002

ден

6049

параграф

109092

живот

28064

решение

451104

човек

235301

България

145400

път

5902

регламент

108626

човек

27253

съд

428999

глава

227805

село

135208

човек

5227

пациент

107662

България

23637

страна

420421

жена

216530

време

111212

приятел

4866

комисия

100875

отношение

22634

основание

329249

ден

215662

част

108164

година

4619

страна

94042

българин

22526

връзка

316379

лице

196089

картинка

107028

момче

4600

директива

84838

сила

20685

България

291094

дума

182541

страна

94392

живот

4511

общност

80519

свят

20583

време

279257

работа

170813

София

93760

жена

4386

The 10 most frequent full meaning verbs by style…

 

Admin. Science Journal. Fiction Pop. science Inf./Fiction
посоча

75598

има

45661

има

402643

кажа

738644

има

115988

кажа

23293

прилагам

67750

имам

24528

представлявам

212984

знам

446495

става

62056

имам

18810

има

67064

кажа

14636

вписвам

195481

има

412418

намирам

61336

има

14551

следва

61217

давам

13058

кажа

190833

искам

323231

използвам

57506

мисля

14234

съдържам

54570

стана

11780

впиша

187118

имам

244482

мина

47588

видя

10690

взема

48235

намирам

11589

имам

185742

мисля

202970

родя

43756

направя

9887

предвидя

40513

съществувам

10967

управлявам

181217

взема

167420

участвам

36256

правя

9828

определя

38404

използвам

10802

получа

107053

видя

165892

имам

32566

казвам

7292

приема

36668

дам

10714

заявя

101955

попитам

162334

видя

32300

дойда

7270

предоставя

32952

взема

10602

направя

93137

дойда

161240

получавам

31504

взема

6519

Copyright © 2015-2022 Department of computational linguistics. All rights reserved.