bgMWE е програма за обработване на корпуси, разпознаване и тагиране на съставни лексикални единици (СЛЕ), създадена през 2012 година. Разработена е на езика за програмиране Java, поради което е платформено независима. bgMWE включва няколко модула, приложими за определени задачи при обработката на езика. До голяма степен програмата е езиково независима и не се нуждае от допълнителни лексикални ресурси. Същевременно позволява интегрирането на лексикални ресурси, което води и до повишаване на качеството на резултатите. Програмата включва следните модули:
- уеб кроулер за Уикипедия;
- извличане на лексикални данни – списъци от прости думи и съставни лексикални единици;
- конвертор за различни формати, който поддържа вертикални формати, XML и др.;
- модул за първична обработка – поддържа обработка с чънкери, тагери и други програми;
- извличане на данни за честотата;
- разпознаване и тагиране на съставни лексикални единици.
Предвиждат се следните разширения на функциите на програмата bgMWE:
- повишаване на ефективността;
- имплементиране на различни методи за разпознаване на СЛЕ;
- разработване на интерфейс за визуализация или вграждане на съществуващи методи за визуализация с
- отворен код;
- модул за детайлна оценка на резултатите.
Условия за достъп
Програмата е софтуер с отворен код и се разпространява под лиценза Creative Commons Attribution-NonCommercial 3.0 Unported License.
Изтегляне
bgMWE е достъпна за изтегляне оттук.
За контакти: Ивелина Стоянова