EN BG

Списъци с несвободни фрази, извлечени от корпус

Тук използваме класификацията на несвободните фрази, предложена от Baldwin et al. (Baldwin, T., C. Bannard, T. Tanaka, D. Widdows. An Empirical Model of Multiword Expression Decomposability. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition and Treatment. 2003), които ги разделят на неразложими, идиосинкретично разложими и прости разложими. Свободните колокации са свободни фрази, които обаче са статистически маркирани, т.е. появяват се с висока честота в корпус, но не са езиково маркирани.

Списъците са резултат от автоматични и полуавтоматични методи, приложени върху корпуса Wiki1000+ (13.4 млн. думи), и включват:

  • Неразложими – 700,
  • Идиосинкретично разложими – 3,156,
  • Прости разложими:
    • имена без връзка между компонентите – 36,932,
    • с пълнозначни компонени – 11,248,
    • със слаба връзка между компонентите – 1,460,
    • с връзка, която не може да бъде изведена – 1,086,
    • с дескриптор – 18,962,
    • съдържащи име като компонент – 27,373,
    • нарицателни с лесно възстановима връзка между компонентите – 140,394,
    • наименования с лесно възстановима връзка между компонентите – 16,653,
    • нарицателни с експлицитна връзка – 1,468
  • “Свободни колокации” – 49,651,
  • Свободни фрази – 1,197,762.
Copyright © 2015-2022 Институт за български език. Всички права запазени.