Wiki1000+ корпус с анотирани съставни лексикални единици
Общо описание
Wiki1000+ е корпус със статии от Уикипедия, създаден за целите на изследването на съставните лексикални единици в българския език. Общата големина на Wiki1000+ е 6311 текстови единици и 13.4 милиона думи. Корпусът е включен в Българския национален корпус.
Компилация
Корпусът е съставен автоматично с помощта на компютърна програма (уеб кроулер), която последователно обхожда всички страници от българската част на Уикипедия и запазва съответните документи. При запазване на файловете автоматично е извлечено и тяхното описание, организирано във формата на метаданните на Българския национален корпус.
Предпочетено е анотирането на текстовете в XML формат поради съдържащата се допълнителна информация и възможностите за лесна обработка. С тази цел са използвани специалните страници Специални:Изнасяне, които се генерират от уикисофтуера при заявка. Корпусът от Уикипедия наброява общо 176,622 текста и 41 милиона думи.
В корпуса Wiki1000+ са включени само текстове с над 1000 тоукъна, за да се улесни неговата обработка и анализ.
Формат на данните и анотация
Текстовите единици в корпуса са представени в плосък XML формат, който е съвместим с програмата за визуализация и анотация Chooser.
Пример:
<word w="Редом" l="редом" sen="13" pos="D" />
<word w="с" l="с" sen="13" pos="R" />
<word w="тези" l="този" sen="13" pos="PDOp" />
<word w="названия" l="название" sen="13" pos="NCNpon" />
<word w="местното" l="местен" sen="13" pos="Asnd" mwe="2:0" mwe_type="7" />
<word w="население" l="население" sen="13" pos="NCNson" mwe="2:1" mwe_type="7" />
<word w="я" l="аз" sen="13" pos="PHza3sf" />
<word w="нарича" l="наричам" sen="13" pos="VLITe2s" />
<word w="и" l="и" sen="13" pos="C" />
<word w="с" l="с" sen="13" pos="R" />
<word w="името" l="име" sen="13" pos="NCNsdn" />
<word w="“" l="“" sen="13" pos="U" />
<word w="Балзена" l="балзена" sen="13" pos="Ns" />
<word w="”" l="”" sen="13" pos="U" />
<word w="." l="." sen="13" pos="U" />
Корпусът е сегментиран на изречения, токанизиран, анотиран с части на речта и граматически характеристики. Съставните лексикални единици, които се състоят от две или повече графични думи, са анотирани с ID и тип на единицата според признака идиоматичност (дали единицата е наименование; дали съдържа препратка към наименование; доколко значението е композиционирано от значенията на компонените). Компонентите на една съставна лексикална единица са тагирани с нейното ID и поредния номер на съответния компонент в структурата на единицата.
Класификация
Тематична област | Означение | Брой текстове | Брой думи |
Археология | A-Archeology | 5 | 10250 |
Биология | B-Biology | 70 | 134115 |
Химия | C-Chemistry | 25 | 56,127 |
Физика | D-Physics | 23 | 47,786 |
Икономика | E-Economics | 98 | 20,3368 |
Философия | F-Philosophy | 157 | 342,099 |
География | G-Geography | 1,102 | 2,267,690 |
История | H-History | 505 | 1,048,621 |
Литература | I-Literature | 37 | 66,902 |
Медицина | J-Medicine | 58 | 117,123 |
Астрономия | K-Astronomy | 20 | 59,418 |
Езикознание | L-Linguistics | 18 | 34,649 |
Математика | M-Maths | 34 | 61,622 |
Социология | N-Sociology | 14 | 41,878 |
Психология | O-Psychology | 17 | 31,970 |
Образование | P-Education | 69 | 125,177 |
Право | Q-Law | 17 | 34,341 |
Технологии | R-Тechnology | 119 | 255,550 |
Политика | S-Politics | 459 | 1,038,629 |
Култура | T-Culture | 253 | 502,641 |
Архитектура | U-Architecture | 12 | 31,116 |
Спорт | V-Sport | 135 | 315,819 |
Военно дело | W-Military | 250 | 497,445 |
Популярни | Y-Popular | 5 | 7,537 |
Неопределен | Z | 2,809 | 6,101,939 |
Общо | 6,311 | 13,433,812 |
Структура на Wiki1000+ - брой текстове и брой думи по тематична област.
Изтегляне на корпуса
Корпусът се предоставя безплатно за научни и образователни цели с лиценз Creative Commons Attribution-NonCommercial 3.0 Unported License.
Корпусът е достъпен за изтегляне от тук.