Уеб базирани услуги на СКЛ


>> Програми

Общо описание

Българската многокомпонентна система за първична обработка и лингвистична анотация на текстове включва следните видове езикова обработка:
• разделяне на изречения; • токънизация; • автоматично определяне на частта на речта и на граматичните характеристики на думите; • лематизация (автоматично определяне на основната форма).
Тагерът BgTagger


Тагерът определя най-вероятната част на речта за дадена дума в конкретен контекст и ѝ приписва еднозначна морфосинтактична информация. Тагерът е базиран на Метода на опорните вектори (Support Vector Machines) и предсказва частта на речта въз основа на множество от характеристики, които описват думата и нейния контекст. Тези характеристики включват:
• думи, дву- и триграми от думи в контекст от няколко токъна вляво и вдясно спрямо тагираната словоформа;
• тагове за частта на речта, дву- и триграми от такива тагове в определения контекстов прозорец;
• информация за суфикси, префикси, главни букви, сричкопренасяне и др. за думи, които не са неразпознати от речника.
Тагерът е трениран и тестван върху корпус, в който частите на речта и граматичните характеристики на думите са определени от експерти (БулПосКор). Стратегията за трениране има следните параметри: (i) две обхождания вляво и вдясно; (ii) контекстов прозорец от пет токъна, като тагираната дума е на втора позиция; (iii) дву- и триграми от думи или части на речта, лексикални параметри като префикси, суфикси, граница на изречение, главни букви и др.
Тренираният езиков модел е използван за еднозначно приписване на част на речта и морфосинтактични характеристики в корпуси от текстове на български език. Програмата има точност от 96,58%.
Българският лематизатор


Българският лематизатор определя основната форма на думите и ѝ преписва подробна граматична информация. Лематизацията се базира на резултата от тагирането и информацията от Граматичния речник. За тагирането се използва редуциран тагсет (75 класа в съпоставка с 1029 уникални граматични тага в речника), компилиран по начин, който осигурява минималната необходима информация за еднозначно съотнасяне със съответната лема. За разрешаване на многозначността се прилагат малък брой правила и ограничения.
Други компоненти


• програми за допълнителни нива на обработка и анотация;
• програми за анотация и съотнасяне на паралелни текстове на изреченско и подизреченско ниво.

(обратно в началото)


Достъпност

За осигуряването на лесен достъп до програмите за предварителна обработка и лингвистична анотация на български текстове е създадена високо скалируема уеб инфраструктура. Предвидени са три нива на достъп до системата:
• достъп чрез интернет - подходящ за потребители, които извършват обработване на относително малки по обем данни еднократно или рядко;
• достъп чрез RESTful API - подходящ за разработчици на софутер, които желаят да интегрират програмите за лингвистична обработка в софтуерни приложения;
• асинхронен достъп - подходящ за времеемки задачи, каквато е обработката на големи по обем корпуси; при този тип достъп потребителят предоставя за обработка архивирания корпус чрез интерфейса на уеб инфраструктурата; при приключване на задачата системата уведомява автоматично потребителя чрез имейл, след което той може да изтегли анотирания корпус.
Фиг. 1. Интерфейсът за асинхронни задачи на уеб инфраструктурата

(обратно в началото)


Предимства


Основните предимства на уеб инфраструктурата са следните:
• позволява висококачествена лингвистична обработка на езикови ресурси за български език;
• осигурява комплексна и взаимно съвместима анотация на различни езикови нива;
• имплементирана с най-съвременните технологии;
• осигурява различни нива на достъп в съответствие с нуждите на различните потребители;
• високо скалируема, позволява разпределение на процесите на различни компютри.

(обратно в началото)


Системни характеристики


• Език на програмиране: C++. PHP;
• Платформа на изпълнение: Linux

(обратно в началото)


Условия за достъп


Уеб базирана инфраструктура за лингвистична обработка на данни на български език се предоставя при заявка след направена регистрация. За да се регистрирате, изпратете имейл на адрес: dcl@dcl.bas.bg

(обратно в началото)


Публикации


Koeva, Sv., Genov, A. Bulgarian Language Processing Chain. In Proceeding of the Workshop on the Integration of Multilingual Resources and Tools in Web Applications, 26 September 2011, Hamburg.

(обратно в началото)


Документация


По-подробна информация и инструкции за използване на инфраструктурата са описани в Ръководството за използване на уеб интерфейса.

(обратно в началото)