EN BG

Кратък речник на основни термини в компютърната лингвистика

Компютърна лингвистика

 

Съдържанието на термина “компютърна лингвистика” се тълкува по различен начин. Какво разбираме ние под компютърна лингвистика? Лингвистиката, за разлика от другите точни науки, започва да използва формални методи за описание значително по-късно. В този смисъл, ако в понятието “компютърна” влагаме приложението на формални методи за описание на езиковите данни и подобряването на точността и бързината на анализ с помощта на специализирани компютърни програми, то тогава съвременната лингвистика е компютърна лингвистика, а съвременната физика например трябва да се нарича компютърна физика.

 

Компютърна лингвистика в нашето разбиране е по-широко понятие. Освен формалното описание на естествения език (лингвистиката) това понятие включва и т.нар. компютърна обработка на естествения език, което означава създаването, от една страна, на ефективни теоретични модели и технологии, а от друга – на компютърни приложения и системи, които влияят на качеството и ефективността на общуването на различни равнища: автоматична корекция на правописа и пунктуацията; автоматичен превод от един език на друг; категоризиране и резюмиране на документи; търсене и извличане на информация; трансформиране на писмен текст в реч и обратно; разпознаване на текст от изображения и много други.

 
Wordnet

 

Лексикално-семантичната мрежа на Дж. Милър и неговите последователи в Принстънския университет е специфична форма на традиционните семантични мрежи. Възлите в лексикално-семантичната мрежа (WordNet) са множества от действителни думи в английския език, които имат общо значение и са синоними в даден контекст. Дъгите изразяват семантични, морфо-семантични и екстралингвистични релации между възлите.

 

Синонимните множествата от думи, наречени synsets (synonymy sets), са изграждащите части на лексикалното знание, включено в WordNet. Както и при семантичните множества, семантиката на лексикалните възли се изразява чрез свойствата на възела (имплицитно чрез синонимната релация между единиците в синонимното множество и експлицитно чрез тълковното значение, прикрепено към реда, както и чрез определени примери за употреба) и чрез релациите към другите възли в мрежата.

 
Корпус от примери (sample corpus)

 

Корпус с ограничен обем, предварително фиксиран (неголям) брой текстови единици и/или (неголям) обем на текстовите единици, както и предварително зададена структура, който се използва за изследване на конкретни езикови явления, поради което трябва да съдържа показателен брой примери от изследваните явления.

 
Представителен корпус (representative corpus)

 

Представителна извадка от езиковата продукция, която е в подходящ обем за статистически анализи и обхваща основните типове текстове (категории, тематични групи, жанрове и т.н.).

 
Анотиран корпус (annotated corpus)

 

Корпус с въведена лингвистична информация на езикови единици от различни нива – лексикално, морфологично, синтактично.

Copyright © 2015 Институт за български език. Всички права запазени.