Списъците с N-грами са извлечени от настоящата версия на Българския национален корпус (обхващащ 1.2 милиарда думи на български език). Списъците са по леми (N-gram lemma) и по словоформи (N-gram wordform).
N-грамите са: униграми, биграми, 3-, 4- и 5-грами. Моделите (1-5) са по стандарта ARPA в текстов и бинарен формат.