EN BG

Езикови ресурси

Корпусът Wiki1000+ с анотирани несвободни фрази

Корпусът Wiki1000+ с анотирани несвободни фрази

Общо описание Wiki1000+ е корпус със статии от Уикипедия, създаден за целите на изследването на съставните лексикални единици в българския език. Общата големина на Wiki1000+ е 6311 текстови единици и 13.4 милиона думи. Корпусът е включен в Българския национален корпус. Компилация Корпусът е съставен автоматично с помощта на компютърна програма (уеб кроулер), която последователно обхожда всички страници от българската част…

Българско-английски паралелен корпус със съотнесени изречения и прости изречения

Българско-английски паралелен корпус със съотнесени изречения и прости изречения

Общо описание Българско-английският паралелен корпус със съотнесени изречения и клаузи (BulEnAC) е извадка от Българско-английския паралелен корпус, част от Българския национален корпус (БНК) с обем 260,7 милиона токъна за български и 263,1 милиона токъна за английски. BulEnAC включва 176 397 токъна в българския подкорпус и 190 468 токъна в английския подкорпус (общо 366 865 токъна). Броят на изреченията в българския…

N-грами върху Българския национален корпус

N-грами върху Българския национален корпус

Списъците с N-грами са извлечени от настоящата версия на Българския национален корпус (обхващащ 1.2 милиарда думи на български език). Списъците са по леми (N-gram lemma) и по словоформи (N-gram wordform). N-грамите са: униграми, биграми, 3-, 4- и 5-грами. Моделите (1-5) са по стандарта ARPA в текстов и бинарен формат.

Честотни речници

Честотни речници

Общо представяне Честотните речници на българския език са извлечени от Българския национален корпус (БНК), който е най-големият систематично създаден и представителен корпус за български език. Настоящите речници отразяват честотата на употреба на лексикалните единици в Корпуса (версия на БНК: декември 2011).   Основните признаци за класификация на текстовете в БНК са стил, тематична област и жанр. Текстовете са разделени в…

Многоезични речници

Многоезични речници

Общо описание Многоезиковият речник на 6 езика представлява колекция от различни речници за всички двойки измежду следните езици: български, английски, немски, румънски, гръцки и полски. Речниците са извлечени основно от Уикипедия и включват прости думи, съставни думи и фрази, като превес имат преводните еквиваленти от фраза към фраза. За всяка двойка езици са включени следните речници: • общ двуезиков речник;…

Списъци с несвободни фрази, извлечени от корпус

Списъци с несвободни фрази, извлечени от корпус

Тук използваме класификацията на несвободните фрази, предложена от Baldwin et al. (Baldwin, T., C. Bannard, T. Tanaka, D. Widdows. An Empirical Model of Multiword Expression Decomposability. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition and Treatment. 2003), които ги разделят на неразложими, идиосинкретично разложими и прости разложими. Свободните колокации са свободни фрази, които обаче са статистически маркирани,…

Паралелни корпуси между български и език Х

Паралелни корпуси между български и език Х

Паралелните корпуси (Bul-X-Cor) са част от Българския национален корпус (БНК). БНК е създаден като обща рамка за текстове от различна модалност (писмени – устни), период (съвременни – стари), както и на множество езици (паралелни, при които единият език е български). Паралелните корпуси включват текстове на 48 езика, между които английски, немски, френски, славянски и балкански езики, както и други европейски…

Българският национален корпус

Българският национален корпус

Българският национален корпус е създаден в Института за български език „Проф. Любомир Андрейчин” от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени няколко отделни електронни корпуса, разработени в периода 2001-2009 г. за целите на двете секции. Корпусът непрекъснато се обогатява с нови текстове. Българският национален корпус се състои от едноезикова българска…

Речник на съставните лексикални единици в българския език

Речник на съставните лексикални единици в българския език

Речникът на съставните лексикални единици в българския език включва 27 744 съставни лексикални единици, разделени в 13 категории според степента на идиоматичност, оценена на базата на следните характеристики: • дали съставната лексикална единица е именувана същност; • дали съставната лексикална единица съдържа референция към именувана същност; • степента на композируемост и “прозрачност” на съставната лексикална единица. Лексикалните единици, включени в…

Copyright © 2015-2022 Институт за български език. Всички права запазени.