Конкорданси

Системата за търсене позволява комплексни езикови заявки, включващи различни нива на анотация и комбинации от тях, които могат да се изпълняват както в едноезиковите, така и в паралелните корпуси поради единния формат, в който те се поддържат. Синтаксисът на езика за заявки включва търсене по (комбинации от) словоформи, граматични характеристики и семантични релации. Атомарните формули дават възможност за дефиниране както на наредени, така и на ненаредени заявки и булеви операции – отрицание, дизюнкция, конюнкция, импликация и еквивалентност. Благодарение на извършеното съотнасяне на ниво изречения системата за търсене позволява достъп и до съответстващите си изречения в паралелните документи. Резултатите са странирани, а самите съвпадения – маркирани в друг цвят. Потребителите разполагат с детайлна информация за всяко изречение в списъка с резултати, включваща метаданни за документа, от който е извлечено конкретното изречение, непосредствения му контекст, съответствията му в паралелните корпуси, ако има такива.

Инструкции за търсене

Символите за релация се ограждат в скоби //. В момента може да се търсят: синоними /S/ на съществителни, глаголи, прилагателни и наречия; хипероними /H/ на съществителни и глаголи и релацията подобен на /L/ за прилагателни.

 

Например заявката хубав/S/ намира всички синоними на думата хубав в Българския wordnet и техните форми, които се срещат в корпуса: хубав, хубава, добър, добра и т.н. Заявкатамусака/H/ намира всички хипероними на думата мусака и техните форми: ястие, блюдо, блюда и т.н. Заявката велик/L/ намира всички литерали и техните форми, които се срещат в Българския wordnet и в корпуса, свързани с релацията подобен на с думата велик: значим, значима, голям, големи, важен, важно и т.н.

 

Символът за словоформи се огражда в скоби /F/, защото се разглежда като вид граматична релация между основната форма и словоформите. Заявката рисувам/F/ намира всички синтетични форми на думата рисувам, които се срещат в корпуса. Думата, чиито форми се търсят, може да не е в основна форма. Заявката рисуват/F/ намира всички синтетични форми на рисувам, които се срещат в корпуса.

 

Символите за граматични характеристики се ограждат във фигурни скоби {}. Тъй като граматичните характеристики могат да се разглеждат като признак, на който се приписват определени стойности, например граматичната категория число има стойностите единствено число, множествено число и бройна форма за български език, то заявките имат следния вид атрибут=стойност. Атрибутите и стойностите, които могат да бъдат търсени в момента, както и символите, с които се записват, са изброени по-долу:

 

Част на речта POS със стойности съществително N, глагол V, прилагателно A, наречие ADV, местоимение P, числително NUM, предлог PREP, съюз CONJ, частица PART, междуметие I. Род на съществително имe G и стойности за характеристики на лемата мъжки M, женски F, среденNE. Тип на съществителното име NT и стойности нарицателно CO и собствено PR. Тип на числителното име NUMT и стойности бройно C и редно O. Вид на глагола VA и стойности свършен PE и несвършен вид IM. Преходност на глагола VT и стойности преходен T и непреходен IN. Тип на местоимението PT и стойности лично L, притежателно POSS. Число N и стойности единствено s, множествено pf и бройна форма cf. Лице P и стойности първо 1,второ2 и трето 3. Род FG и стойности мъжки mf, женски ff и среден nf. Определеност D и стойности нечленувана форма 0, членувана форма df. Време T и стойности сегашно r, минало свършеноe и минало несвършено j. Нелична глаголна форма IVF със стойности сегашно деятелно y, минало свършено x, минало несвършено q, страдателно причастие w и деепричастие z.

 

Заявката син/F/{FG=ff} намира формите за женски род на думата син. Заявката син/F/{D=df} намира членуваните форми на думата син.

 

Символът * означава произволна дума, характеризирана с определено множество граматични характеристики. Например завяката *{POS=A} намира всички прилагателни.

 

Наредена заявка се огражда в ъглови скоби <>. Например заявката <хубав/F/{D=df} *{POS=N}> намира членувана форма на прилагателното хубав пред съществително: хубавите дами, хубавото птиче, хубавите мебели. Заявката <*{POS=A} и *{POS=A}> намира две съчинително свързани прилагателни имена със съюза и, например малкия и средния, културна и просветна и т.н. Заявката <*{POS=A} *{POS=N} и *{POS=A} *{POS=N}> намира съчинително свързани именни групи: елитните университети и средните училища, различни похвати и различни теми и т.н.

 

Произволни думи в наредената заявка се отбелязват в правоъгълни скоби [], а броят им от – до: с цифри. Заявката <на [1,2] ден> намира последователностите от предлога на, най-малко една и най-много две произволни думи и думата ден. Заявката <на [2,2] *{POS=N}> намира предлога на, две произволни думи и съществително име.

 

Конюнкция се отбелязва с &, дизюнкция – с |, отрицание – с !, импликация – с =>, еквивалентност – с <=>.. За групиране се използват кръгли скоби (). Например заявката този&нов намира едновременно срещане на този и нов. Заявката този|нов намира алтернативно срещане на този и нов. Заявката !български/F/&банка намира изреченията, в които се среща думата банка, но не се среща думата български в някоя от формите си. Отрицанието на импликацията !(фигура=>шахмат/F/) намира всички изречения, в които се среща само фигура.