EN BG

Българско-английски паралелен корпус със съотнесени (прости) изречения



Българско-английският паралелен корпус със съотнесени (прости) изречения (БулЕнСИ) е структуриран корпус с паралелни текстове на български и английски език, в рамките на който съответстващите си по съдържание изречения и прости изречения в състава на сложните са съотнесени помежду си. Извършена е и анотация на вида на синтактичната връзка между двойките прости изречения в състава на сложното. Корпусът е създаден от екип от Секцията по компютърна лингвистика към Института за български език „Проф. Любомир Андрейчин“ при Българската академия на науките.

Езици: български, английски.

Тип: паралелен двуезиков текстов корпус, обогатен с лингвистична анотация.

Състав: БулЕнСИ съдържа общо 366 865 токъна, като българският подкорпус включва 176 397 токъна, а английският подкорпус – 190 468 токъна.

Анотация: токънизация, лематизация, разделяне на изречения и прости изречения в сложните, съотнасяне на изречения и прости изречения в сложните между двата езика, определяне на вида на синтактичната връзка.

Условия за достъп: Свободно изтегляне с лиценза Криейтив комънс признание – Споделяне на споделеното (Creative Commons Attribution-ShareAlike 4.0 International, CC BY-SA 4.0).

ПРОЕКТИ

Национално финансиран проект „Електронни езикови ресурси и програми за тяхната обработка (БулНет и Фреймнет)“ (2011– 2013)

CESAR: Central and South-east europeAn Resources (Езикови ресурси за езиците от Централна и Югоизточна Европа), проект, финансиран от Европейската комисия

УЧАСТНИЦИ

проф. д-р Светла Коева (ръководител)

гл. ас. д-р Цветана Димитрова, гл. ас. д-р Христина Кукова, гл. ас. д-р Светлозара Лесева, доц. д-р Екатерина Търпоманова, гл. ас. д-р Росица Декова (външен сътрудник за определен период) (анотатори)

Борислав Ризов (автор на програмата за анотация)

д-р Ивелина Стоянова, Ангел Генов (компилация на изходния корпус)

Copyright © 2015-2022 Институт за български език. Всички права запазени.