?

Log in

No account? Create an account

Предыдущий пост Поделиться Следующий пост
Текущее. Фокус проблемы
Веселый
chispa1707
Комп снова занялся своими делами.
Пишет, что я не могу ничего делать со своими файлами, потому что ими занята "другая программа".
"Другая программа" ресурсов жрёт столько, что Эксель, бедолага, виснет на простейших задачах.
Но кое-что за день сделать сумел.

Случилось ровно то, чего опасался: коррелирующие группы дат перестроились с 23 на 9.
Однако, те ключевые швы, что были в 23-рядной, налицо, хотя и стали заметно слабее.
Добавились новые швы )))

А теперь - по большому счету:
Сравнил два свежеобработанных массива: 15 тысяч дат в катастрофах и 37 тысяч дат - прочих.
Общее число обработанных ячеек: 3,37 млн. в катастрофах и 3,69 млн. - в прочих.
Средний коэффициент корреляции (с отрицательными): 0,0006 в катастрофах и 0,016 в прочих.
То есть, в "прочих" в 2,7 раза выше.

Причина: задействованных дат в "прочих" - в 2,5 раза больше, то есть, вероятность "попадания" заметно выше.
Сейчас поясню.

Когда я брал два 300-летних отрезка и сравнивал тренды распределения по дням, они показывали очень сильную согласованность.
Потому что неважно, на сколько лет отбросили событие - на 50, 100, 150, 200 или 250, - они все равно остались внутри массива.
Но чем меньше сравниваемые периоды, тем ниже вероятность того, что коррелирующие события остались внутри них.
Я задал период 8 или 23 года, а события перенесли на 251 год.
Проблема в том, что в разных странах события переносили по-разному: в России любят число 108, в Испании - 251, а во Франции - 167.
Если сравниваешь два периода по 300 лет, это не фатально. Но стоит начать уменьшать массив...

Раздельный, по странам, к примеру, анализ возможен - теоретически.
В реальности Россия в 1936 году без Польши, а в 1854 - с Польшей, и таких нюансов - тьма.
История ВСЯ состоит именно из таких нюансов.

Ищу обходной маневр. Что-нибудь простое. Нересурсоемкое.
Что-то типа... стравить большое и малое - чтоб не я их порознь проверял. а они - друг друга.


  • 1
Хотите сравнить "маленькую" и "большую" выборки?
Способ ресурсоемкий.
Взять большую выборку, выбрать из нее случайным образом значения, общим числом с "маленькую" выборку. Посчитать среднее для попадающих под ваши критерии, запомнить. Повторить 3 тысячи раз. Сложить полученные средние, разделить на 3000.
Вообще для полученного в итоге ряда можно посчитать стандартное отклонение - значения среднего выборки размером с "маленькую" в 95% случаев будет в пределах двух стандартных отклонений от середины. Сравнить с маленькой выборкой - попадает ли оно в этот диапазон? Если нет, то можно более-менее уверенно говорить, что выборки различаются.
Называется бутсреп.
На эксель (сам не пробовал):
http://4analytics.ru/prognozirovanie/model-bootstrapping-prognoz-neregulyarnix-/-redkix-prodaj.html

Не на эксель:
http://r-analytics.blogspot.ru/2014/05/blog-post.html#.WHU5L3WLTUI

  • 1