Корпусът Wiki1000+ с анотирани несвободни фрази « Секция по компютърна лингвистика

Общо описание

Wiki1000+ е корпус със статии от Уикипедия, създаден за целите на изследването на съставните лексикални единици в българския език. Общата големина на Wiki1000+ е 6311 текстови единици и 13.4 милиона думи. Корпусът е включен в Българския национален корпус.

Компилация

Корпусът е съставен автоматично с помощта на компютърна програма (уеб кроулер), която последователно обхожда всички страници от българската част на Уикипедия и запазва съответните документи. При запазване на файловете автоматично е извлечено и тяхното описание, организирано във формата на метаданните на Българския национален корпус.

Предпочетено е анотирането на текстовете в XML формат поради съдържащата се допълнителна информация и възможностите за лесна обработка. С тази цел са използвани специалните страници Специални:Изнасяне, които се генерират от уикисофтуера при заявка. Корпусът от Уикипедия наброява общо 176,622 текста и 41 милиона думи.

В корпуса Wiki1000+ са включени само текстове с над 1000 тоукъна, за да се улесни неговата обработка и анализ.

Формат на данните и анотация

Текстовите единици в корпуса са представени в плосък XML формат, който е съвместим с програмата за визуализация и анотация Chooser.

Пример:
<word w="Редом" l="редом" sen="13" pos="D" /> <word w="с" l="с" sen="13" pos="R" /> <word w="тези" l="този" sen="13" pos="PDOp" /> <word w="названия" l="название" sen="13" pos="NCNpon" /> <word w="местното" l="местен" sen="13" pos="Asnd" mwe="2:0" mwe_type="7" /> <word w="население" l="население" sen="13" pos="NCNson" mwe="2:1" mwe_type="7" /> <word w="я" l="аз" sen="13" pos="PHza3sf" /> <word w="нарича" l="наричам" sen="13" pos="VLITe2s" /> <word w="и" l="и" sen="13" pos="C" /> <word w="с" l="с" sen="13" pos="R" /> <word w="името" l="име" sen="13" pos="NCNsdn" /> <word w="“" l="“" sen="13" pos="U" /> <word w="Балзена" l="балзена" sen="13" pos="Ns" /> <word w="”" l="”" sen="13" pos="U" /> <word w="." l="." sen="13" pos="U" />

Корпусът е сегментиран на изречения, токанизиран, анотиран с части на речта и граматически характеристики. Съставните лексикални единици, които се състоят от две или повече графични думи, са анотирани с ID и тип на единицата според признака идиоматичност (дали единицата е наименование; дали съдържа препратка към наименование; доколко значението е композиционирано от значенията на компонените). Компонентите на една съставна лексикална единица са тагирани с нейното ID и поредния номер на съответния компонент в структурата на единицата.

Класификация

Тематична област	Означение	Брой текстове	Брой думи
Археология	A-Archeology	5	10250
Биология	B-Biology	70	134115
Химия	C-Chemistry	25	56,127
Физика	D-Physics	23	47,786
Икономика	E-Economics	98	20,3368
Философия	F-Philosophy	157	342,099
География	G-Geography	1,102	2,267,690
История	H-History	505	1,048,621
Литература	I-Literature	37	66,902
Медицина	J-Medicine	58	117,123
Астрономия	K-Astronomy	20	59,418
Езикознание	L-Linguistics	18	34,649
Математика	M-Maths	34	61,622
Социология	N-Sociology	14	41,878
Психология	O-Psychology	17	31,970
Образование	P-Education	69	125,177
Право	Q-Law	17	34,341
Технологии	R-Тechnology	119	255,550
Политика	S-Politics	459	1,038,629
Култура	T-Culture	253	502,641
Архитектура	U-Architecture	12	31,116
Спорт	V-Sport	135	315,819
Военно дело	W-Military	250	497,445
Популярни	Y-Popular	5	7,537
Неопределен	Z	2,809	6,101,939
Общо		6,311	13,433,812

Структура на Wiki1000+ – брой текстове и брой думи по тематична област.

Изтегляне на корпуса

Корпусът се предоставя безплатно за научни и образователни цели с лиценз Creative Commons Attribution-NonCommercial 3.0 Unported License.

Корпусът е достъпен за изтегляне от тук.

Корпусът Wiki1000+ с анотирани несвободни фрази

Общо описание

Компилация

Формат на данните и анотация

Класификация

Изтегляне на корпуса

Българския WordNet

Многоезиков корпус с изображения

Българският национален корпус

Речник на българския език, онлайн реализация на СКЛ

МЕТА СПОДЕЛЯНЕ – достъп до разнообразни езикови ресурси и технологии

Система за анализ на бизнес информация в интернет, езикови ресурси, разработени от СКЛ