Тук използваме класификацията на несвободните фрази, предложена от Baldwin et al. (Baldwin, T., C. Bannard, T. Tanaka, D. Widdows. An Empirical Model of Multiword Expression Decomposability. In: Proceedings of the ACL Workshop on Multiword Expressions: Analysis, Acquisition and Treatment. 2003), които ги разделят на неразложими, идиосинкретично разложими и прости разложими. Свободните колокации са свободни фрази, които обаче са статистически маркирани, т.е. появяват се с висока честота в корпус, но не са езиково маркирани.
Списъците са резултат от автоматични и полуавтоматични методи, приложени върху корпуса Wiki1000+ (13.4 млн. думи), и включват:
- Неразложими – 700,
- Идиосинкретично разложими – 3,156,
- Прости разложими:
- имена без връзка между компонентите – 36,932,
- с пълнозначни компонени – 11,248,
- със слаба връзка между компонентите – 1,460,
- с връзка, която не може да бъде изведена – 1,086,
- с дескриптор – 18,962,
- съдържащи име като компонент – 27,373,
- нарицателни с лесно възстановима връзка между компонентите – 140,394,
- наименования с лесно възстановима връзка между компонентите – 16,653,
- нарицателни с експлицитна връзка – 1,468
- “Свободни колокации” – 49,651,
- Свободни фрази – 1,197,762.