(под стандартные плохо лезут) и известна корреляция, то для вычисления вероятности x*y достаточно p(x)* p(y) - cov(x, y)?
p(x)* p(y) - cov(x, y)? - формула странная, откуда она? p(x)*p(y) меньше единицы, а cov может произвольные значения принимать, даже отрицательные То есть `0<= p(x)* p(y) <= 1`, `-Inf <= cov(x, y) <= + Inf`
А можно задачу поподробнее?
Есть транзакции из банкоматов за полугодовой период, нужно оценить объём снимаемой оттуда валюты. Сначала хотел выстроить во временной ряд, но, к сожалению, далеко не для всех транзакций есть точное время. Следующая идея - составить распределение вероятности снятия из банкомата определённой суммы за сутки, изучив а) распределение снимаемых за 1 транзакцию сумм и б) распределение количества снятий за сутки.
Хм. А вам не кажется, что более логичным было бы сначала сделать группировку (посуточную), и уже по ней строить или временной ряд, или искать распределение?
я думаю, это огрубление анализа, потому что, во-первых, в полугоде всего около 180 суток, а транзакций - многие тысячи, поэтому смотреть распределение суточного съёма даст горазд более шаткий и толстый на доверительные интервалы результат. Во-вторых, система устроена так, что на уровне дат кэш за выходные и праздничные дни автоматически записывается на следующий за ними рабочий день, поэтому в понедельник расход, грубо говоря, в эн раз больше реального. А транзакция - она более-менее всегда транзакция
Ага. Этого я не знал. И вы хотите умножить а) на б) и получить среднюю снимаемую сумму в день?
Я хочу получить вероятностное распределение суммы за день. А там уже решить, какой квантиль поставить, чтобы такой расход удовлетворять
Обсуждают сегодня