Конкорданси

Системата за търсене в Българския национален корпус позволява извършването на разнообразни езикови заявки, които съчетават търсене по (комбинации от) словоформи, граматични характеристики и семантични релации. Възможно е дефинирането както на ненаредени, така и на наредени заявки и прилагане на булеви операции – отрицание, дизюнкция (‘или’), конюнкция (‘и’), импликация и еквивалентност. Списъкът с резултати е подреден по страници, а резултатите от заявката – маркирани в друг цвят. За всяко изречение в списъка с резултати потребителите могат да видят информация за документа, в който се намира.

Инструкции за търсене

Търсене по форма на дума

Заявката по форма на дума позволява извличането на всички или на ограничени по определена граматична характеристика форми на съответната дума или думи. Например при търсене на формата асистент като резултат ще се върнат единствено срещанията на тази форма, но не и асистентът, асистента и т.н. 

Търсенето на всички форми на дадена дума се извършва чрез задаване на ограничението /F/ след произволна форма на думата в полето за търсене или чрез избор на Форми в падащия списък на менюто Асистент (фигура 1).

Пример 1

Заявката асистент/F/ намира всички форми на думата асистент (асистент, асистентът, асистента, асистенти, асистентите), които се срещат в Българския национален корпус. 

Фигура 1.

 

Търсене по граматични характеристики

Означенията на граматичните характеристики се ограждат във фигурни скоби {}. Заявките имат вида ‘категория=стойност’. Категориите и стойностите, по които може да се извършва търсене, както и символите, с които се означават, са изброени по-долу.

Части на речта

Категорията ‘част на речта’ с означение POS има следните стойности: ‘съществително’ N, ‘глагол’ V, ‘прилагателно’ A, ‘наречие’ ADV, ‘местоимение’ P, ‘числително’ NUM, ‘предлог’ PREP, ‘съюз’ CONJ, ‘частица’ PART, ‘междуметие’ I

Граматични категории

  • Категория ‘род на съществително имe’ с означение G и стойности ‘мъжки’ MF, ‘женски’ FF, ‘среден’ NF
  • Категория ‘тип на съществителното име’ с означение NT и стойности ‘нарицателно’ CO и собствено PR
  • Категория ‘тип на числителното име’ с означение NUMT и стойности ‘бройно’ C и ‘редно’ O.
  • Категория ‘вид на глагола’ с означение VA и стойности ‘свършен’ PE и ‘несвършен’ IM.
  • Категория ‘преходност на глагола’ с означение VT и стойности ‘преходен’ T и ‘непреходен’ IN
  • Категория ‘тип на местоимението’ с означение PT и стойности ‘лично’ L и ‘притежателно’ POSS
  • Категория ‘число’ с означение N и стойности ‘единствено’ s, ‘множествено’ pf и ‘бройна форма’ cf
  • Категория ‘лице’ с означение P и стойности ‘първо’ 1, ‘второ’ 2 и ‘трето’ 3
  • Категория ‘род’ с означение GF и стойности ‘мъжки’ mf, ‘женски’ ff и ‘среден’ nf.
  • Категория ‘определеност’ с означение D и стойности ‘нечленувана форма’ 0f и ‘членувана форма’ df
  • Категория ‘време’ с означение T и стойности ‘сегашно’ r, ‘минало свършено’ e и ‘минало несвършено’ j
  • Категория ‘причастие’ с означение IVF със стойности ‘сегашно деятелно’ y, ‘минало свършено деятелно’ x, ‘минало несвършено деятелно’ q, ‘страдателно’ w и ‘деепричастие’ z.

Формулиране на заявки

Заявките се формулират в полето за търсене или с помощта на менюто Асистент.

Стойностите на категориите се задават чрез знак за равенство.

Символът * означава произволна дума, удовлетворяваща определено множество от граматични характеристики. 

Пример 2

Заявката син/F/{POS=A GF=ff} намира формите за женски род на прилагателното син: синя, синята.

Пример 3

Заявката *{POS=V N=pf VA=IM VT=T P=2 T=r} открива преходни (VT=T) глаголи (POS=V) от несвършен вид (VA=IM) във второ лице (P=2), множествено число (N=pf), сегашно време (T=r), например виждате, губите, държите, знаете.

Използване на менюто Асистент

Менюто Асистент предлага възможност граматичните характеристики на думите да се избират чрез отбелязване на съответните категории и стойности.

При избор на дадена част на речта в диалоговия прозорец на менюто се появяват възможните категории за съответната част на речта и техните стойности.

Пример 4

Еквивалентната заявка на заявката *{POS=V N=pf VA=IM VT=T P=2 T=r} (Пример 3), зададена чрез менюто Асистент, има следния вид:

Фигура 2.

Внимание: При търсене на формите на конкретна дума с дадено множество от граматични характеристики задължително се избира ограничението за търсене по форма Форми (/F/).

Пример 5

Заявката, представена на фигура 3, открива форми на глагола съм за минало свършено време второ и трето лице: съм/F/{P=2 P=3 T=e}. Заявката съм{P=2 P=3 T=e}, в която ограничението за търсене по форма и пропуснато, не извежда резултати.

Фигура 3.

Наредени заявки  

Наредената заявка се състои от две или повече думи в конкретни или произволни форми, които се откриват в точно зададената последователност без други думи помежду им. 

Наредена заявка се огражда в ъглови скоби <>. 

Пример 6

Заявката <хубав/F/{D=df} *{POS=N}> открива членувана форма на прилагателното хубав, следвано от  произволно съществително. 

Пример 7

Заявката <*{POS=A} *{POS=N} и *{POS=A} *{POS=N}> намира съчинително свързани със съюза и именни групи, всяка от които се състои от прилагателно и съществително (фиг. 4): 

Фигура 4.

Формулиране на заявка, включваща произволни думи между елементите на наредената заявка

Задаването на произволни думи между елементите на наредена заявка се въвежда с помощта на правоъгълни скоби [], в които се отбелязва минималният и максималният брой допустими думи.

Пример 8

Заявката <в [1,2] голям/L/ къща/F/> намира последователностите от предлога в, най-малко една и най-много две произволни думи, следвани от прилагателно име, което се намира в релация на подобие с прилагателното голям, и произволна форма на думата къща: в една просторна къща, в сянката на голямата къща, в някоя богата къща и пр.

Пример 9

Заявката <съм/F/{T=r} [0,2] *{IVF=x}> открива форма на глагола съм в сегашно време, следвана от между 0 и 2 произволни думи, следвани от минало свършено деятелно причастие: са пристигнали, съм го изпълнил, са му се сторили (фиг. 5). 

Фигура 5.

Точно определен брой произволни думи между елементите на заявката се задава чрез една и съща стойност за минимален и максимален брой думи.

Пример 10

Заявката <на [1,1] *{POS=N N=s D=0f}> намира предлога на, следван от точно една произволна дума и произволно нечленувано съществително име в единствено число: на хубаво място, на пълна мощност, на главния монитор.

Булеви операции

Езикът за търсене позволява включването на следните булеви операции и техни съчетания: конюнкция, дизюнкция, отрицание, импликация и еквивалентност. 

Означенията на булевите операции са следните: конюнкция – & (и), дизюнкция – | (или), отрицание – !, импликация – =>, еквивалентност – <=>. За групиране се използват кръгли скоби (). 

Пример 11 

Заявката този&нов намира изреченията, в които едновременно се срещат формите този и нов (фиг. 6). 

Пример 12

Заявката този|нов открива срещанията на този или нов

Пример 13

Отрицанието на импликацията !(фигура=>шахмат/F/) намира всички изречения, за които е изпълнено следното условие: в тях се среща формата фигура, но не и думата шахмат в която и да е от формите ѝ.

Заявката !български/F/&банка намира изреченията, в които се среща формата банка, но не и думата български в която и да е от формите ѝ. 

Фигура 6.

Търсене по семантична релация

Търсенето по семантична релация включва откриване на: синоними на съществителни, глаголи, прилагателни и наречия; хипероними на съществителни и глаголи; прилагателни, свързани с релацията подобен на

Резултатите по релации са извлечени от Българския уърднет (БулНет) – лексикално-семантична мрежа за български език, включваща над 120 хиляди синонимни множества и релациите, чрез които са свързани. На всяка дума в Българския национален корпус са приписани автоматично всички синонимни множества от БулНет, в които тя се среща. Чрез поставяне на курсора върху търсената дума в резултатите от произволно търсене, потребителят може да види списък с тълковните дефиниции на всички синонимни множества, свързани с нея.

Заявката за търсене по семантична релация включва: думата, за която се извличат свързани думи, следвана непосредствено от символа за релацията, по която се търси, ограден в скоби // (/S/ за синоними, /H/ за хипероними, /L/ за подобие); видът на релацията може да се избере от падащия списък на менюто Асистент.

Пример 14

Заявката хубав/S/ открива всички синоними на думата хубав и техните форми: красив, красива и т.н.

Пример 15 

Заявката мусака/H/ намира всички хипероними на думата мусака и техните форми: ястие, блюдо, блюда и т.н. 

Пример 16

Заявката велик/L/ намира всички думи и техните форми, свързани с релацията подобен на с думата велик: значим, значима, голям, големи, важен, важно и т.н.

Фигура 7.

Търсене в подкорпуси

Търсенето в подкорпуси се осъществява по разнообразие от критерии: категория (тематична област), форма, година на създаване, тип източник, дата на публикуване, жанр, стил, автор, преводач, подкатегория

Формулирането на заявките също има вида ‘категория=стойност’. Имената на категориите са в зависимост от избрания език на интерфейса (български или английски), като по-долу са дадени и за двата езика. Полетата и стойностите, за които има превод на английски в речника на интерфейса, са на английски език; ако не е наличен такъв превод, полетата и стойностите излизат в транслитериран вариант.

Тук е представено накратко търсенето по някои от основните категории.

Фигура 8.

Категорията ‘style’ / ‘стил’ позволява търсене в текстове от определен функционален стил и има следните стойности: ‘Аdministrative’ (административен), ‘Fiction’ (художествена литература), ‘MassMedia’ (публицистичен), ‘Science’ (научен), ‘Informal’ (разговорен).

Полетата ‘category’ / ‘категория’ (по-обобщено и не е налично за всички корпусни единици) и ‘category1’ / ‘подкатегория’ позволява търсене по тематична област. Допустимите стойности за това поле се определят от стойността на категорията ‘style’ / ‘стил’. Препоръчва се търсене по полето ‘category1’ / ‘подкатегория’, което обхваща по-конкретни категории и което е запълнено за по-голяма част от текстовите единици: 

  • ‘Аdministrative’ (административен): най-често срещаните стойности включват ‘General’, ‘Economy’, ‘Agriculture’, ‘Ecology’, ‘Court’ и др.
  • ‘Fiction’ (художествена литература): най-често срещаните стойности включват ‘General’, ‘Fantasy’, ‘Adventure literature’, ‘Detective literature’, ‘Romantic literature’, ‘Science fiction’ и др.
  • ‘MassMedia’ (публицистичен): най-често срещаните стойности включват ‘Economy’, ‘Politics’, ‘Sport’, ‘Military’, ‘Technology’ и др.
  • ‘Science’ (научен): най-често срещаните стойности включват ‘Biology’, ‘Chemistry’, ‘Physics’, ‘History и др.

Полето ‘genre’ / ‘жанр’ позволява търсене по жанра на текста. Допустимите стойности за това поле зависят от стойността на категорията ‘style’ / ‘стил’.

  • ‘Аdministrative’ (административен): най-често срещаните стойности включват ‘Agreement’, ‘Decision’, ‘Protocol’, ‘Regulation’ и др.
  • ‘Fiction’ (художествена литература): най-често срещаните стойности включват ‘novel’, ‘story’, ‘novella’, ‘drama’ и др.
  • ‘MassMedia’ (публицистичен): най-често срещаните стойности включват ‘news’, ‘article’ и др.
  • ‘Science’ (научен): най-често срещаната стойност e ‘article’.

Категорията ‘medium’ / ‘форма’ се отнася до формата, в която е създаден текстът, и има следните стойности: ‘written’ (писмена), ‘spoken’ (устна) и ‘written speech’ (устна за говорене).

Категорията ‘source type’ / ‘тип източник’ позволява търсене според източника, от който е придобит текстът. Стойностите му са ‘from internet’ (от интернет), ‘BulNC’ (от текстовия архив на Института за български език от 1950 насам).

Категорията ‘translated’ / ‘превод’ позволява формулирането на заявки за търсене в преводни или оригинални текстове, чиито стойности са съответно ‘true’ (преводен текст), ‘false’ (оригинален текст) и ‘unknown’ (липсва информация).

Категорията ‘author’ / ‘автор’ съдържа информация за името на автора на текста, чиито стойности имат вида Име Фамилия, като се изписват на латиница по правилата, изложени в Закона за транслитерацията (тъй като в описанието на корпусните единици не се съдържа информация за оригиналното изписване на имената на английски език). 

Категорията ‘translator’ / ‘преводач’ позволява търсене в текстове с определен преводач. Стойностите имат вида Име Фамилия, като се изписват на латиница по правилата, изложени в Закона за транслитерацията. 

Стойностите за категориите ‘author’ / ‘автор’ и ‘translator’ / ‘преводач’ могат да се избират и от падащото меню (като имената са транслитерирани).

Категориите ‘year of creation from’ / ‘година на създаване от’ и ‘year of creation to’ / ‘година на създаване до’ се използват за задаване на времеви интервал за ограничаване на търсенето до текстове, създадени в определен период. Преобладаващата част от корпусните единици са от периода от 1950 до 2013 година.

Пример 14

Заявката, показана на фигура 9, открива писмени текстове от стил ‘Fiction’ (Художествена литература), жанр ‘novel’ (роман), създадени в периода 1990 1995 г.

Фигура 9.