bgMWE - програма за разпознаване на съставни лексикални единици
Общо описание
bgMWE е програма за обработване на корпуси, разпознаване и тагиране на съставни лексикални единици (СЛЕ). Разработена е на езика за програмиране Java, поради което е платформено независима. bgMWE включва няколко модула, приложими за определени задачи при обработката на езика. До голяма степен програмата е езиково независима и не се нуждае от допълнителни лексикални ресурси. Същевременно позволява интегрирането на лексикални ресурси, което води и до повишаване на качеството на резултатите. Програмата включва следните модули:
• уеб кроулер за Уикипедия;
• извличане на лексикални данни – списъци от прости думи и съставни лексикални единици;
• конвертор за различни формати, който поддържа вертикални формати, XML и др.;
• модул за първична обработка – поддържа обработка с чънкери, тагери и други програми;
• извличане на данни за честотата;
• разпознаване и тагиране на съставни лексикални единици.
Предвиждат се следните разширения на функциите на програмата bgMWE:
• повишаване на ефективността;
• имплементиране на различни методи за разпознаване на СЛЕ;
• разработване на интерфейс за визуализация или вграждане на съществуващи методи за визуализация с отворен код;
• модул за детайлна оценка на резултатите.
Условия за достъп
Програмата е софтуер с отворен код и се разпространява под лиценза Creative Commons Attribution-NonCommercial 3.0 Unported License.
Изтегляне
bgMWE е достъпна за изтегляне оттук.