Българско-английски паралелен корпус със съотнесени изречения и клаузи


>> Корпуси

Общо описание

Българско-английският паралелен корпус със съотнесени изречения и клаузи (BulEnAC) е извадка от Българско-английския паралелен корпус, част от Българския национален корпус (БНК) с обем 260,7 милиона токъна за български и 263,1 милиона токъна за английски.
BulEnAC включва 176 397 токъна в българския подкорпус и 190 468 токъна в английския подкорпус (общо 366 865 токъна). Броят на изреченията в българския подкорпус е 14 667, със средна дължина на изреченията 12,02 думи, а в английския - 15 718, със средна дължина на изреченията 12,11 думи. Средният брой на простите изречения в състава на сложното е 1,67 за български и 1,85 за английски.
Българско-английският паралелен корпус е обработен на няколко нива: токънизация, разделяне на изречения, лематизация. За обработката на българския подкорпус е използвана Българската многокомпонентна система за първична обработка и лингвистична анотация на текстове, а за английската Apache OpenNLP и Stanford CoreNLP (Коева и др. 2012a, Коева и др. 2012b).


(обратно в началото)

Компилация

Текстовете са разделени в следните пет категории (стилове): Административни текстове (20,5%), Художествена литература (21,35%), Публицистика (37,13%), Научни текстове (11,16%) и Разговорни/Художествени текстове (9,84%).


Средна дължина на българските и английските изречения в различните стилове според броя на простите изречения в техния състав


Корпусът е представен в плитък XML формат и е снабден с различни нива на едноезикова и многоезикова лингвистична анотация. Едноезиковата анотация и за двата подкорпуса включва разделяне на изречения, токънизация, лематизация, автоматично определяне на частта на речта и на граматичните характеристики. Двуезиковата анотация включва съотнасяне на изреченията и клаузите в българския и в английския подкорпус.
Всяка дума е представена като елемент от тип word. Всеки елемент от този тип се дефинира от множество атрибути, които съответстват на различните нива на анотация:

• лексикално ниво (лематизация) – атрибутите w и l означават съответно словоформа и лема;
• синтактично ниво (изреченско ниво) – комбинацията от два атрибута e=True и sen=senID обозначава края на изречението и съответното id на изречението в корпуса;
• синтактично ниво (ниво на клаузите) – атрибутът cl съответства на идентификатора id на клаузата, в която се появява думата;
• синтактично ниво (само за съюзи) – атрибутът cl2 означава идентификатор id на клаузата, с която дадена съюзна дума свързва синтактично клаузата, чийто конституент е. Атрибутът m обозначава типа на релацията между двете клаузи cl и cl2 (координация или субординация), посоката на релацията (при субординацията) и позицията на съюзната дума по отношение на клаузите, които свързва;
• синтактично ниво (междуезиково съотнасяне) – атрибутите sen_al и cl_al дефинират съотнасянето на ниво изречение и на ниво клаузи, съответно. Съответстващите си изречения/клаузи в два паралелни текста получават един и същи идентификатор id.


(обратно в началото)

Анотация

Съотнасянето на ниво изречения и клаузи от човек, както и проверката и корекцията на автоматичното съотнасяне, са извършени със специално разработена програма – ClauseChooser.
Програмата има два режима на работа – за едноезикова и за паралелна анотация.
Режимът за едноезикова анотация включва следните функции:
• разделяне на изречения;
• разделяне на клаузи;
• корекция на неправилно определени изречения или клаузи (сливане или разделяне на изречения и клаузи);
• анотация на съюзни думи;
• означаване на типа релация между двойки синтактично свързани клаузи.


Режим за едноезикова анотация в ClauseChooser


Режимът за паралелна анотация използва резултатът от едноезиковата анотация. Включва следните функции:
• ръчно съотнасяне на изречения;
• ръчно съотнасяне на клаузи.


Режимът за паралелна анотация на ClauseChooser


(обратно в началото)

Съотнасяне по изречения и клаузи

Българската и английската част на корпуса са автоматично разделени и съотнесени на ниво изречение. Разделянето на изреченията в българския подкорпус е извършено с помощта на програмата BG Sentence Splitter, която разпознава на границите на изреченията в необработен текст на български език с помощта на правила и речник (Коева и Генов 2011). Разделянето на изреченията в английския подкорпус е извършено с имплементация на предварително трениран модел на OpenNLP. Съотнасянето на изреченията в двата езика е изпълнено автоматично с помощта на HunAlign, с последваща проверка и при необходимост корекция от експерти.


съотнасяне BG:EN честота дял от общия брой в %
0:1 1187 7.60
1:0 225 1.44
1:1 13697 87.74
1:2 264 1.69
2:1 187 1.20
други 15 0.33

Типове съотнасяне по изречения


За определяне на границите на простите изречения в състава на сложното в английския подкорпус е използван предварително трениран OpenNLP парсер, след което резултатите са проверени и коригирани от експерти. Българските сложни изречения са ръчно разделени на прости изречения. При извършване на задачата са взети предвид конкретните синтактични правила, както и установената граматична традиция и анотационни практики за съответните езици, чрез което се цели автентичност на решенията при анотацията и очертаване на езиково специфични проблеми на междуезиковото съотнасяне на езикови единици.
След разделянето и/или проверката на разделените клаузи са идентифицирани съюзните думи, типът релация, която въвеждат, и клаузите, между които е валидна, както и посоката на релацията.
Паралелните клаузи са ръчно съотнесени в рамките на съответстващите си изречения.


съотнасяне BG:EN честота дял от общия брой в %
0:1 1745 7.05
1:0 482 1.95
1:1 18997 76.80
1:2 2256 9.12
1:3 239 1.33
1:4 99 0.40
2:1 621 2.51
2:2 87 0.32
други 128 0.52

Типове съотнасяне на клаузи


(обратно в началото)

Приложения

Приложенията на корпуса BulEnAC в областта на обработката на език обхващат поне три взаимосвързани области:
• разработване на методи за автоматично разделяне и съотнасяне по клаузи;
• разработване на методи за промяна на словореда на клаузи с оглед на оптимизиране на тренировъчните данни за статистическия автоматичен превод (SMT) (Коева и др. 2012b);
• съотнасяне на ниво думи и фрази.


(обратно в началото)

Публикации

Коева и др. 2012a: Koeva, Svetla, Borislav Rizov, Ekaterina Tarpomanova, Tsvetana Dimitrova, Rositsa Dekova, Ivelina Stoyanova, Svetlozara Leseva, Hristina Kukova, and Angel Genov (2012a) "Application of Clause Alignment for Statistical Machine Translation". In: Proceedings of SSST-6, Sixth Workshop on Syntax, Semantics and Structure in Statistical Translation, Jeju, Republic of Korea, 12 July 2012, The Association for Computational Linguistics: ACL 2012 / SIGMT / SIGLEX Workshop, 2012, pp. 102-110. ISBN: 978-1-937284-38-1. pdf

Коева и др. 2012b: Koeva, Svetla, Borislav Rizov, Ekaterina Tarpomanova, Tsvetana Dimitrova, Rositsa Dekova, Ivelina Stoyanova, Svetlozara Leseva, Hristina Kukova, and Angel Genov (2012b) "Bulgarian-English Sentence- and Clause-Aligned Corpus" – In: Proceedings of the Second Workshop on Annotation of Corpora for Research in the Humanities (ACRH-2), Lisbon, 29 November 2012., Lisboa: Colibri, 2012, pp. 51-62. ISBN: 978-989-689-273-9. pdf

Коева и Генов 2011: Koeva, Sv., Genov, A. (2011) "Bulgarian Language Processing Chain." In Proceeding of the Workshop on the Integration of Multilingual Resources and Tools in Web Applications in conjunction with GSCL 2011, 26 September 2011, Hamburg.

(обратно в началото)