EN BG

N-грами върху Българския национален корпус

Списъците с N-грами са извлечени от настоящата версия на Българския национален корпус (обхващащ 1.2 милиарда думи на български език). Списъците са по леми (N-gram lemma) и по словоформи (N-gram wordform).

N-грамите са: униграми, биграми, 3-, 4- и 5-грами. Моделите (1-5) са по стандарта ARPA в текстов и бинарен формат.

Copyright © 2015-2022 Институт за български език. Всички права запазени.