EN BG

Паралелни корпуси между български и език Х

Паралелните корпуси (Bul-X-Cor) са част от Българския национален корпус (БНК). БНК е създаден като обща рамка за текстове от различна модалност (писмени – устни), период (съвременни – стари), както и на множество езици (паралелни, при които единият език е български).

Паралелните корпуси включват текстове на 48 езика, между които английски, немски, френски, славянски и балкански езики, както и други европейски и неевропейски езици.

Включени са само текстове, които имат българско съответствие – или оригиналът, или преводът е на български, а в някои случаи два паралелни текста може да са превод от трети език.

Към януари 2013 БНК обхваща 4.2 милиарда думи, което го прави най-големият паралелен корпус за български език. Езиците не са равномерно разпределени: най-голям е българско-английският корпус (със съответно 280.8 и 283.1 млн. думи за български и английски); още 18 корпуса съдържат над 200 млн. думи за език, 2 корпуса са с големина 100-200 млн. думи за език, 11 с големина 5-15 млн. думи за език, а останалите 15 под 1 млн. думи, като най-малък е корпусът за японски с 50,000 думи. Всеки паралелен корпус отразява структурата на българския корпус.

Структурата, форматирането и описанието следват модела на БНК. Всички български и английски текстове са снабдени с подробни метаданни. Българско-английският корпус е анотиран с лингвистична информация на различни езикови нива.

Основното приложение на паралелните корпуси е в областта на компютърната лингвистика: машинен превод, двуезични лексикални ресурси и др. Анотацията дава възможност за по-широко приложение на корпусите.

Copyright © 2015-2022 Институт за български език. Всички права запазени.