функцию распределения, чтобы далее с помощью нее генерить похожие распределения?
бустрапирование имеющейся выборки не подходит, иначе полученные сгенерированные выборки не будут независимыми
хочу написать функцию, с помощью которой можно будет проверить стат. критерии на конкретных данных, имея лишь одну выборку
Зафитить максимально похожим распределением?
хм а можно поподробнее какой функцией можно сделать и методами ? тут важна скорость генерации дальнейших выборок
Навскидку scipy.optimize
да я хочу из моей выборки сгенерить множество похожих выборок так, чтобы это работало шустро и не было бустрапированием моей выборки
а ок спс, там покопаюсь, пока оттуда curve_fit использовал
Да, curve_fit мб как раз подходящая вещь
Думаю стоит формализовать вашу цель и будет понятнее что можно сделать
я хочу найти способ получить из моей выборки множество похожих выборок быстрым алгоритмом. бутстреп не подходит - т.к. он не совсем верен в данном случае. я вижу это как: я даю функции мою выборку, далее считается функция распределения и на основании этой функции + генераторе случайных чисел создаются множество похожих выборок, на которых я уже далее проверяю стат. критерии
Вот надо описать математически что такое похожая выборка
честно говоря не очень понимаю как это сделать) вот я могу сгенерировать две выборки через scipy.stats.expon с одинаковым параметром scale и эти обе выборки будут в данном случае похожими но независимыми - мне это и нужно. Только у меня есть одна реальная выборка, а я хочу сгенерировать аналогично похожую на нее выборку. Но не бутстрапируя мою выборку, т.к. вроде как получится, что выборки тогда будут зависимыми
Выборки будут из одного распределения. Похожими они будут с вероятностью 1 разными это точно. Но если вы знаете функции распределения можно из нее генерировать. Различными методами
а есть вариант найти функцию распределения из моей выборки для последующей генерации похожих выборок ? я пока смотрю в направлении scipy.stats.rv_continuous и scipy.stats.rv_histogram
Все же я не доконца понял что вы имели ввиду под "похожими они будут с вероятностью 1 разными это точно"
>создаются множество похожих выборок, на которых я уже далее проверяю стат. критерии отсюда поподробнее. вы генерируете полностью выдуманные данные, но пытаетесь использовать какой-то статистический критерий, который задуман как инструмент оценки реальных данных? вряд ли так делается.
вобще способ проверки критериев на генерируемых выборках, например через scipy.stats.expon - вроде бы стандартное решение. но его минус в том, что на реальных данных картина может отличаться. поэтому я и хочу не просто генерить полностью выдуманные выборки, а взять мою выборку, найти ее функцию распределения и дальше генерить чз эту функцию похожие выборки
и в этот момент она станет полностью выдуманной выборкой
ну и пусть, главное чтобы с точки зрения распределения "похожие" выборки соответствовали моей)
У вас распределение дискретное или непрерывное, сколько данных? Одномерное или многомерное?
одномерное непрерывное
Обсуждают сегодня