частотных распределений subword tokens (упорядоченных по рангу), и они ложатся более-менее в распределение Ципфа (=на лог-лог шкале получается прямая линия).
НО: хотелось бы как-то измерить это "более-менее". То есть если нам дано реальное распределение, посчитать степень отклонения от идеального распределения Ципфа или, например, аппроксимировать значения альфы-бэты самого близкого распределения Ципфа.
Не подскажете ли случайно, может, есть какие-то готовые/близкие решения?
Значения параметров распределения Ципфа (или похожего на него, но более простого распределения Парето) можно оценить методом максимального правдоподобия (вот пример вывода формулы для Парето). Сравнить степень отклонения реального распределения от идеального можно с помощью статистики Колмогорова-Смирнова. Если я ничего не путаю, и то и другое умеет считать scipy.
Обсуждают сегодня