Търсене по шаблон

Възможности за употреба на корпуса

Търсенето по шаблон се извършва в Българския Браун корпус. Търсенето по шаблон може да се осъществява със заявка, която съдържа последователност от символи (низове), или с регулярни изрази.

Търсене с низове

При търсенето с последователности от символи (низове) резултатът е точно съвпадение на заявката. Например низът чета открива контексти (и изречения), в които се среща чета. Низът Бяла река открива контекстите, в които се среща заявката. Може да бъде избрана опция (важи и за търсене по регулярни изрази) за различаване или неразличаване на главни букви, при неразличаване заявката бяла река ще съответства на резултатите Бяла река и бяла река.

Търсене с регулярни изрази

Регулярните изрази са символни низове (поредици от символи), които дефинират шаблон, определящ множество от низове (даден регулярен език). Регулярните изрази са средство за обработка на текст: могат да служат за извличане на информация от текста по зададен шаблон, за проверка на текстова информация, както и за промяна или изтриване на последователности от символи в текста. Например чрез регулярния израз закон в даден текст ще бъде намерена последователността от символи закон, които може да са отделна дума или част от друга дума: закон, закона, законът, закони, законите, законен, законна, законност, беззаконие и т.н.; чрез регулярния израз закон\w* ще бъдат намерени всички последователности от символи, които включват редицата от символи закон и един или повече символи, които я следват: закона, законът, закони, законите, законен, законна, законност, беззаконие,1, беззаконен и т.н.

Регулярните изрази използват специален синтаксис за описанието на шаблоните. Синтаксисът е еднакъв на всички платформи (с малки изключения). Регулярните изрази, които се използват за търсене в Българския Браун корпус, имат синтаксис и семантика като тези, използвани в Perl.

Синтаксисът на регулярните изрази има два компонента – символи (литерали) и специални символи (метасимволи). Литералите са константи, които задават точно определен подниз. Значението на литералите в регулярния израз е обичайното им значение, т. е. графичната стойност на символа. Такива са буквите от азбуката и цифрите. Най-простият тип регулярни изрази се състои от единичен символ. Например регулярният израз: a обозначава множеството, което съдържа редицата „a” и нищо друго. При търсене в текст с този регулярен израз ще бъдат намерени всички срещания на „а”. Метасимволите описват символни класове или задават специални правила в шаблона, тоест тяхното значение не съвпада с графичната стойност на самия символ. Специалните символи биват:




  1. Контекстът, в който се открива съвпадението на даден регулярен израз, е изречение, но в случая (и по-нататък) се дават примери за части от контекста, които съвпадат с границите на дума.