Уеб сървис за колокации
Описание
Сървисът за колокации е уеб базирана услуга за търсене и извличане на статистическа информация за асоциацията на думата от заявката и нейните колокати от Българския национален корпус, включително в паралелните корпуси. Сървисът ползва NoSketchEngine, система за обработка на корпуси, комбинираща Manatee и Bonito.
Достъп
Сървисът за колокации е REST уеб услуга, която поддържа комплексни http заявки. Резултатът съдържа колокациите на дадена дума във формата на NoSketchEngine. Също така системата поддържа всички аргументи, допустими от NoSketchEngine, които имат и стойности по подразбиране, както и незадължителен аргумент за задаване на език.
Заявките имат следната форма, като XXXX означава думата на заявката:
(1) Обща заявка без зададен език (български по подразбиране)
http://dcl.bas.bg/collocations/?cmd=collocations&word=XXXX
(2) Следният пример ограничава търсенето до английски език:
http://dcl.bas.bg/collocations/?cmd=collocations&word=XXXX&lang=en
Резултатът е представен в JSON (JavaScript Object Notation) формат като лист от всички колокации на дадена дума. JSON се поддържа от различни браузъри: например с JSONView за Firefox и Chrome, или JsonViewer за Opera. JSON форматът е лесен за обработка и има различни библиотеки за C, C++, C#, Java, Python, и други (http://www.json.org/).
Пример
Заявка
http://dcl.bas.bg/collocations/?cmd=collocations&word=хиперактивен
Детайли за достъп
Потребителско име: bulnc
Парола: bulnc
Резултат
Приложения
Колокациите имат разнообразни приложения в корпусната и компютърната лингвистика, по-специално в сферата на машинния превод, генерирането на текст, автоматичното резюмиране на документи и други. Сървисът за колокации позволява наблюдения върху честотата на думи и езикови конструкции, както и генерирането на честотни списъци и езикови модели.