Колекция от данни за изкуствен интелект 2030 « Секция по компютърна лингвистика

Информация
Цел на проекта
Резултат

Заглавие: Колекция от данни за изкуствен интелект 2030 (AID 2030)

Срок: март – април 2023

Финансиране: Проектът „Колекция от данни за изкуствен интелект 2030“ се финансира по проекта Европейско езиково равенство.

Членове на екипа

Ръководител: проф. д-р Светла Коева

Участници: проф. д-р Светла Коева, доц. д-р Емил Дойчев, гл. ас. д-р Валентина Стефанова, гл. ас. д-р Георги Чолаков.

Резюме:

Проектът ще предложи проучване и прогноза за необходимите данни за трениране и тестване на технологиите, наречени изкуствен интелект, насочени към разбиране, генериране и трансформация на естествен език. Ще бъдат формулирани множество от критерии, според които изискванията към данните трябва да бъдат адаптирани в зависимост от технологичния напредък и специфичната технологична поддръжка за отделните езици.

Целта на проекта е спецификация на ресурсите (корпуси, модели, набори от данни, необходими за разработване на компютърни приложения, базирани на изкуствен интелект (ИИ).

Критерии:

Гъвкавост: адаптиране на изискванията към данните и техните характеристики в зависимост от напредъка на технологиите, както и на методите за обработка на различните езици.

Мащабиране: наличие на различни ресурси за езици с отлична, добра, умерена, фрагментарна или слаба поддръжка, както и без поддръжка на езикови технологии.

Фокус: отчитане на новите приложения за анализ, генериране и трансформация на естествен език, базирани на методи за разбиране и генериране на езика и насочени към универсален изкуствен интелект.

Достъп: начин на разпространение на ресурсите, приложенията и услугите за езикови технологии.

Стандартизация: осигуряване на оперативна съвместимост на данните и метаданните и насърчаване на стандартизацията в областта на езиковите технологии и изкуствения интелект.

Въздействие

Научните изследвания: насърчаване на споделянето на данни и технологии, фокусирано върху надеждни, стандартизирани и оперативно съвместими източници; позволяващо по-добро моделиране и обединение на мултимодални и многоезикови среди.

Бизнеса: използване на приложения, базирани на изкуствен интелект, благодарение на едновременното увеличаване на достъпа до качествени данни, на изчислителните възможности и високоскоростните комуникационни връзки.

Законодателството: необходимост от промяна на правните рамки, позволяваща по-голяма достъпност до (езикови) данни, чрез акцентиране върху важността на данните за разработване на езикови технологии, приложения и услуги на различни езици.

Проучване по проекта Колекция от данни за изкуствен интелект 2030

Доклад за проекта Колекция от данни за изкуствен интелект 2030

Видео представяне на проекта Колекция от данни за изкуствен интелект 2030

Колекция от данни за изкуствен интелект 2030

Българския WordNet

Многоезиков корпус с изображения

Българският национален корпус

Речник на българския език, онлайн реализация на СКЛ

МЕТА СПОДЕЛЯНЕ – достъп до разнообразни езикови ресурси и технологии

Система за анализ на бизнес информация в интернет, езикови ресурси, разработени от СКЛ