Дорогие, я захотел смоделировать количество слов, которые встретились только в

Question

Дорогие, я захотел смоделировать количество слов, которые встретились только в

одном тексте из корпуса Шекспира. Получился вот такой график. Я хочу научиться предсказывать количество уникальных слов на основании длины текста. Как видно на рисунке, получаются два кластера: с всякими мелкими тексатми, и с всякими крупными текстами, а между ними дыра, так что регрессия, которая бы смотрела на все это вместе, наверное, бессмысленна. Что бы вы предложили? Я придумал искусствено разделить на эти кластеры и использовать их в качестве предиктора, однако мне это решение не совсем нравится. Можно выкинуть маленькие тексты (они составляют 2% всего корпуса), но тогда модель их эффект вообще не учтет.

Проблема взята из раздела 6.2 "Computer Age Statistical Inference"

#programming #r #russian

0

09.03.2020

1 ответов

42 просмотра

Eva Shelley · Accepted Answer

Eva Shelley

Может, всё же ввести дамми-переменную или делать две модели?

0

09.03.2020

169 похожих чатов

Дорогие, я захотел смоделировать количество слов, которые встретились только в

1 ответов

Похожие вопросы