EN BG

bgMWE – програма за разпознаване на съставни лексикални единици

bgMWE е програма за обработване на корпуси, разпознаване и тагиране на съставни лексикални единици (СЛЕ). Разработена е на езика за програмиране Java, поради което е платформено независима. bgMWE включва няколко модула, приложими за определени задачи при обработката на езика. До голяма степен програмата е езиково независима и не се нуждае от допълнителни лексикални ресурси. Същевременно позволява интегрирането на лексикални ресурси, което води и до повишаване на качеството на резултатите. Програмата включва следните модули:

 

  • уеб кроулер за Уикипедия;
  • извличане на лексикални данни – списъци от прости думи и съставни лексикални единици;
  • конвертор за различни формати, който поддържа вертикални формати, XML и др.;
  • модул за първична обработка – поддържа обработка с чънкери, тагери и други програми;
  • извличане на данни за честотата;
  • разпознаване и тагиране на съставни лексикални единици.

 

Предвиждат се следните разширения на функциите на програмата bgMWE:

 

  • повишаване на ефективността;
  • имплементиране на различни методи за разпознаване на СЛЕ;
  • разработване на интерфейс за визуализация или вграждане на съществуващи методи за визуализация с
  • отворен код;
  • модул за детайлна оценка на резултатите.

 

Условия за достъп

 

Програмата е софтуер с отворен код и се разпространява под лиценза Creative Commons Attribution-NonCommercial 3.0 Unported License.

 

Creative Commons Licence

 

Изтегляне

 

bgMWE е достъпна за изтегляне оттук.

Copyright © 2015 Институт за български език. Всички права запазени.