Програми
Chooser Hydra MacEst WinEst WebEst "ItaEst - Taka e!" WebEst+ BGDictionary bgMWE Speechlab Система за търсене в корпуси Уеб сървис за колокации BGTokenizer (Bulgarian Sentence Splitter and Tokenizer) BgTagger Уеб базирана инфраструктура за лингвистична обработка на данни на български език BGWSD
Общо описание: Програмата Chooser е многофункционална платформа, която може да се използва при изпълнението на различни задачи за езикова обработка, свързани с анотиране.
Език: български (до голяма степен системата е езиково независима)
Необходими езикови ресурси (и техният формат): корпус от текстове за анотиране и лингвистични ресурси (лексикално-семантични мрежи, речници и др.), осигуряващи информацията, която се асоциира с лингвистичните единици в корпуса
Езиков формат: текст
Предназначение: за създаване на анотирани корпуси
Потребители: за лингвистични изследвания и обработка на езика
Език на програмиране: Python
Платформа на изпълнение: платформено независима
Условия за достъп: Софтуер с отворен код
URL: http://dcl.bas.bg/Chooser_bg.html
Общо описание: Hydra е програма за визуализация, редактиране и проверка на бази данни от типа на wordnet.
Език: езиково независима
Необходими езикови ресурси (и техният формат): wordnet файлове в XML формат
Езиков формат: текст
Предназначение: за изграждане на wordnet
Потребители: за лингвистични изследвания и обработка на езика
Език на програмиране: Python, MySql
Платформа на изпълнение: Unix/Linux
Условия за достъп: Софтуер с отворен код
URL: http://dcl.bas.bg/hydra-bg.html
Общо описание: MacEst е програма за корекция на правописни грешки в документи на български език.
Език: български
Езиков формат: текст
Необходими езикови ресурси (и техният формат): документи
Предназначение: корекция на правописа
Потребители: за крайни потребители
Език на програмиране: Objective C
Платформа на изпълнение: Mac OS
Условия за достъп: свободен достъп
URL: http://dcl.bas.bg/MacEst.html
Общо описание: WinEst е програма за корекция на правописни грешки в документи на български език.
Език: български
Езиков формат: текст
Необходими езикови ресурси (и техният формат): MS Office документи
Предназначение: корекция на правописа
Потребители: за крайни потребители
Език на програмиране: C++
Платформа на изпълнение Office 2007 (32-bit), Office 2010 (32-bit), Windows XP, Windows 7
Условия за достъп: свободен достъп
URL: http://dcl.bas.bg/winest-bg.html
Общо описание: WebEst е уеб сървис на програмата за корекция на правописа, който позволява както проверката на правописа онлайн, така и интегриране в блогове, чат форуми, онлайн магазини, медии и др.
Език: български
Езиков формат: текст
Необходими езикови ресурси (и техният формат): текстови документи
Предназначение: корекция на правописа
Потребители: за крайни потребители
Език на програмиране: PHP, JavaScript, Objective C
Платформа на изпълнение сървърно приложение
Условия за достъп: свободен достъп чрез Интернет
URL: уеб сървис за вграждане: http://dcl.bas.bg/est/, меню "Вграждане"; проверка на правописа онлайн: http://dcl.bas.bg/est/checker.php
Общо описание: "ItaEst - Taka e!" е програма за корекция на правописни грешки и сричкопренасяне в документи на български език.
Език: български
Езиков формат: текст
Необходими езикови ресурси (и техният формат): MS Office документи
Предназначение: корекция на правописа
Потребители: за крайни потребители
Език на програмиране: ANSI C
Платформа на изпълнение: Office 2000, XP и 2003
Условия за достъп: свободен достъп чрез Интернет
URL: http://www.bacl.org/itaestbg.html
Общо описание: WebEst+ е уеб сървис на програмата за корекция на граматичната правилност на български текстове.
Език: български
Езиков формат: текст
Необходими езикови ресурси (и техният формат): текстови документи
Предназначение: граматична корекция
Потребители: за крайни потребители
Език на програмиране: C++, PHP
Платформа на изпълнение: сървърно приложение
Условия за достъп: свободен достъп чрез Интернет
URL: уебстраницата на WebEst: http://dcl.bas.bg/est/index.php;
Граматична проверка онлайн http://dcl.bas.bg/est/grammarcheck.php
Общо описание: Показва парадигмата и граматичната информация за дадена дума.
Език: български
Необходими езикови ресурси (и техният формат): речникова база данни
Езиков формат: текст
Предназначение: за езикови справки за правопис и граматична информация
Потребители: за крайни потребители
Език на програмиране: PHP, Perl
Платформа на изпълнение: сървърно приложение
Условия за достъп: свободен достъп чрез Интернет
URL: http://dcl.bas.bg/est/dict.php
Общо описание: bgMWE е програма за разпознаване и тагиране на съставни лексикални единици (СЛЕ) в текстови корпуси.
Език: български (до голяма степен системата е езиково независима)
Необходими езикови ресурси (и техният формат): текстов корпус
Езиков формат: текст
Предназначение: разпознаване и тагиране на съставни лексикални единици
Потребители: за лингвистични изследвания и обработка на езика, както и за крайни потребители
Език на програмиране: Java
Платформа на изпълнение: платформено независима
Условия за достъп: свободен достъп
URL: http://dcl.bas.bg/bgMWE_bg.html
Общо описание: SpeechLab е система за синтезиране на българска реч.
Език: български
Необходими езикови ресурси (и техният формат): SpeechLab чете текстове от разнообразни източници – електронни книги, бази данни, WWW страници, електронна поща, SMS и много други.
Езиков формат: реч
Предназначение: за синтезиране на реч
Потребители: за всички крайни потребители
Език на програмиране: ANSI C
Платформа на изпълнение: Windows 98/2000/XP
Условия за достъп: Хората със зрителни увреждания могат да получат безплатен индивидуален лиценз за некомерсиално ползване на SpeechLab 2.0 от Фондация "Хоризонти" или от Съюза на слепите в България.
URL: http://www.bacl.org/specbg.html
Общо описание: Системата е предназначена за търсене (по думи, граматични и семантични характеристики на думи или техни булеви комбинации) в големи по обем корпуси (над 100 милиона думи).
Език: езиково независима
Езиков формат: текст
Необходими езикови ресурси (и техният формат): тагиран корпус, граматичен речник, wordnet
Предназначение: извличане на информация
Потребители: за лингвистични изследвания и обработка на езика, както и за крайни потребители
Език на програмиране: Java, Python
Платформа на изпълнение: сървърно приложение
Условия за достъп: Ограничен свободен достъп чрез Интернет, неограничен онлайн достъп при заявка
URL: http://search.dcl.bas.bg/bg/
Общо описание: Уеб сървисът позволява извличане на колокации от Българския национален корпус.
Език: езиково независима
Необходими езикови ресурси (и техният формат): текстови корпуси
Езиков формат: текст
Предназначение: извличане на информация
Потребители: за лингвистични изследвания и обработка на езика, както и за крайни потребители
Език на програмиране: n/a
Платформа на изпълнение: сървърно приложение
Условия за достъп свободен достъп чрез Интернет
URL: http://dcl.bas.bg/collocationService_bg.html
BGTokenizer (Bulgarian Sentence Splitter and Tokenizer)
Общо описание: Токънизаторът разпознава съкращения, собствени имена, числа, дати и граници на изречения.
Език: български
Необходими езикови ресурси (и техният формат): списъци от съкращения, собствени имена и заглавия
Езиков формат: текст
Предназначение: за първоначална обработка на текст
Потребители: за лингвистични изследвания и обработка на езика, както и вграден в програми за крайни потребители
Език на програмиране: C++
Платформа на изпълнение: платформено независима
Условия за достъп: свободен достъп
URL: Bulgarian Sentence Splitter and Tokenizer (Linux 32-bit) или Bulgarian Sentence Splitter and Tokenizer (Linux 64-bit)
Общо описание: Програмата е SVM тагер за еднозначно автоматично определяне на частите на речта в произволни текстове.
Език: български
Необходими езикови ресурси (и техният формат): ръчно тагиран тренировъчен корпус
Езиков формат: текст
Предназначение: за първоначална обработка на текст
Потребители: за лингвистични изследвания и обработка на езика, както и вграден в програми за крайни потребители
Език на програмиране: C++
Платформа на изпълнение: платформено независима
Условия за достъп: при заявка
URL: dcl@dcl.bas.bg.
Уеб базирана инфраструктура за лингвистична обработка на данни на български език
Общо описание: Уеб базираната инфраструктура за лингвистична обработка на данни на български език включва няколко взаимно интегрирани програми за лингвистична обработка на данни на български език.Език: български
Необходими езикови ресурси (и техният формат): текст
Езиков формат: текст
Предназначение: за първоначална обработка на текст и създаване на анотирани корпуси
Потребители: за лингвистични изследвания и обработка на езика, както и вградена в програми за крайни потребители
Език на програмиране: C++, PHP
Платформа на изпълнение: Linux
Условия за достъп: при заявка
URL: http://dcl.bas.bg/DCLservices-bg.html
Общо описание: BGWSD е вероятностна програма за отстраняване на семантична многозначност.
Език: български
Необходими езикови ресурси (и техният формат): семантично анотиран корпус
Езиков формат: текст
Предназначение: за семантичен анализ
Потребители: за лингвистична работа и е вграден в програми за крайни потребители
Език на програмиране: C++/Perl
Платформа на изпълнение: платформено независима
Условия за достъп: при заявка
URL: dcl@dcl.bas.bg