Wiki1000+ корпус с анотирани съставни лексикални единици


>> Корпуси

Общо описание

Wiki1000+ е корпус със статии от Уикипедия, създаден за целите на изследването на съставните лексикални единици в българския език. Общата големина на Wiki1000+ е 6311 текстови единици и 13.4 милиона думи. Корпусът е включен в Българския национален корпус.

(обратно в началото)

Компилация

Корпусът е съставен автоматично с помощта на компютърна програма (уеб кроулер), която последователно обхожда всички страници от българската част на Уикипедия и запазва съответните документи. При запазване на файловете автоматично е извлечено и тяхното описание, организирано във формата на метаданните на Българския национален корпус.

Предпочетено е анотирането на текстовете в XML формат поради съдържащата се допълнителна информация и възможностите за лесна обработка. С тази цел са използвани специалните страници Специални:Изнасяне, които се генерират от уикисофтуера при заявка. Корпусът от Уикипедия наброява общо 176,622 текста и 41 милиона думи.

В корпуса Wiki1000+ са включени само текстове с над 1000 тоукъна, за да се улесни неговата обработка и анализ.

(обратно в началото)

Формат на данните и анотация

Текстовите единици в корпуса са представени в плосък XML формат, който е съвместим с програмата за визуализация и анотация Chooser.

Пример:

<word w="Редом" l="редом" sen="13" pos="D" />
<word w="с" l="с" sen="13" pos="R" />
<word w="тези" l="този" sen="13" pos="PDOp" />
<word w="названия" l="название" sen="13" pos="NCNpon" />
<word w="местното" l="местен" sen="13" pos="Asnd" mwe="2:0" mwe_type="7" />
<word w="население" l="население" sen="13" pos="NCNson" mwe="2:1" mwe_type="7" />
<word w="я" l="аз" sen="13" pos="PHza3sf" />
<word w="нарича" l="наричам" sen="13" pos="VLITe2s" />
<word w="и" l="и" sen="13" pos="C" />
<word w="с" l="с" sen="13" pos="R" />
<word w="името" l="име" sen="13" pos="NCNsdn" />
<word w="“" l="“" sen="13" pos="U" />
<word w="Балзена" l="балзена" sen="13" pos="Ns" />
<word w="”" l="”" sen="13" pos="U" />
<word w="." l="." sen="13" pos="U" />

Корпусът е сегментиран на изречения, токанизиран, анотиран с части на речта и граматически характеристики. Съставните лексикални единици, които се състоят от две или повече графични думи, са анотирани с ID и тип на единицата според признака идиоматичност (дали единицата е наименование; дали съдържа препратка към наименование; доколко значението е композиционирано от значенията на компонените). Компонентите на една съставна лексикална единица са тагирани с нейното ID и поредния номер на съответния компонент в структурата на единицата.

(обратно в началото)

Класификация

Тематична област Означение Брой текстове Брой думи
Археология A-Archeology 5 10250
Биология B-Biology 70 134115
Химия C-Chemistry 25 56,127
Физика D-Physics 23 47,786
Икономика E-Economics 98 20,3368
Философия F-Philosophy 157 342,099
География G-Geography 1,102 2,267,690
История H-History 505 1,048,621
Литература I-Literature 37 66,902
Медицина J-Medicine 58 117,123
Астрономия K-Astronomy 20 59,418
Езикознание L-Linguistics 18 34,649
Математика M-Maths 34 61,622
Социология N-Sociology 14 41,878
Психология O-Psychology 17 31,970
Образование P-Education 69 125,177
Право Q-Law 17 34,341
Технологии R-Тechnology 119 255,550
Политика S-Politics 459 1,038,629
Култура T-Culture 253 502,641
Архитектура U-Architecture 12 31,116
Спорт V-Sport 135 315,819
Военно дело W-Military 250 497,445
Популярни Y-Popular 5 7,537
Неопределен Z 2,809 6,101,939
Общо 6,311 13,433,812

Структура на Wiki1000+ - брой текстове и брой думи по тематична област.

(обратно в началото)

Изтегляне на корпуса

Корпусът се предоставя безплатно за научни и образователни цели с лиценз Creative Commons Attribution-NonCommercial 3.0 Unported License.
Creative Commons Licence

Корпусът е достъпен за изтегляне от тук.

(обратно в началото)