Уеб сървис за колокации


>> Програми

Описание

Сървисът за колокации е уеб базирана услуга за търсене и извличане на статистическа информация за асоциацията на думата от заявката и нейните колокати от Българския национален корпус, включително в паралелните корпуси. Сървисът ползва NoSketchEngine, система за обработка на корпуси, комбинираща Manatee и Bonito.

(обратно в началото)

Достъп

Сървисът за колокации е REST уеб услуга, която поддържа комплексни http заявки. Резултатът съдържа колокациите на дадена дума във формата на NoSketchEngine. Също така системата поддържа всички аргументи, допустими от NoSketchEngine, които имат и стойности по подразбиране, както и незадължителен аргумент за задаване на език.

Заявките имат следната форма, като XXXX означава думата на заявката:
(1) Обща заявка без зададен език (български по подразбиране)
http://dcl.bas.bg/collocations/?cmd=collocations&word=XXXX
(2) Следният пример ограничава търсенето до английски език:
http://dcl.bas.bg/collocations/?cmd=collocations&word=XXXX&lang=en

Резултатът е представен в JSON (JavaScript Object Notation) формат като лист от всички колокации на дадена дума. JSON се поддържа от различни браузъри: например с JSONView за Firefox и Chrome, или JsonViewer за Opera. JSON форматът е лесен за обработка и има различни библиотеки за C, C++, C#, Java, Python, и други (http://www.json.org/).

(обратно в началото)

Пример

Заявка
http://dcl.bas.bg/collocations/?cmd=collocations&word=хиперактивен

Детайли за достъп
Потребителско име: bulnc
Парола: bulnc

Резултат


(обратно в началото)

Приложения

Колокациите имат разнообразни приложения в корпусната и компютърната лингвистика, по-специално в сферата на машинния превод, генерирането на текст, автоматичното резюмиране на документи и други. Сървисът за колокации позволява наблюдения върху честотата на думи и езикови конструкции, както и генерирането на честотни списъци и езикови модели.


(обратно в началото)