chispa1707 (chispa1707) wrote,
chispa1707
chispa1707

Category:

Наука Статистика или бесконечно прекрасное

Намедни я приводил график относительного количества дублей в десятилетие (к общему количеству событий на десятилетие.
http://chispa1707.livejournal.com/1823443.html#comments
Получилась красивая картинка, но нужно было выполнить таки обозначенный в 3-ем сверху комментарии план.
Для чего события снизу были ограничены 1600-м годом, где у нас начала получаться более-менее красивая прямая. После этого наши данные были разделены на 2 группы, до и после 1820 года и выполнено их сравнение с помощью теста Стьюдента. Нулевая гипотеза гласит, что это не 2 независимые группы а 2 случайные выборки из единой совокупности. Получилось следующее:
t = 12.528, df = 36.502, p-value = 8.751e-15
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.06412023 0.08887581
sample estimates:
mean in group 1 mean in group 2
0.14146116 0.06496314

p-value это вероятность ошибки при отклонении нулевой гипотезы (ошибки первого рода).

Т.е. отклоняя нашу нулевую гипотезу мы ошибаемся с вероятностью 8,75х10 в минус 15-й степени. Т.е. различия между группами относительного количества дублей на событие до и после 1820 года можно признать статистически значимыми.

График после 1600 года менее красив, чем приведенные по ссылке, и на нем ранее 1 четверти 18 века наблюдаются интересные вещи.
Изображение - savepic.net — сервис хранения изображений

На цифровых данных понятно, почему в качестве гграницы достоверной истории был выбран 1820 год.
На всякий случай поясню - я в том комментарии написал, что
"Но ступенька будет обязательно.
Просто потому, что предполагаемый автор не обладает пред-видением, и не сможет точно предсказать распределение относительного количества дубликатов в будущем. "

В 1820 году у нас четкая ступенька - разрыв.

Но 1850-й тоже неплохой кандидат.


1 otn year
1 0.16126280 1600
2 0.11672474 1610
3 0.12524851 1620
4 0.16197866 1630
5 0.13733906 1640
6 0.14825046 1650
7 0.16955017 1660
8 0.14906832 1670
9 0.16370107 1680
10 0.14825307 1690
11 0.16112957 1700
12 0.14755352 1710
13 0.15238095 1720
14 0.14767255 1730
15 0.14795474 1740
16 0.13656388 1750
17 0.12293388 1760
18 0.11703865 1770
19 0.12383901 1780
20 0.14244687 1790
21 0.11364546 1800
22 0.11760966 1810
23 0.08892128 1820
24 0.09460564 1830
25 0.09808716 1840
26 0.08095741 1850
27 0.07378463 1860
28 0.06976033 1870
29 0.07322603 1880
30 0.06643559 1890
31 0.06022568 1900
32 0.05371740 1910
33 0.04848038 1920
34 0.03807462 1930
35 0.04248102 1940
36 0.04079339 1950
37 0.04341943 1960
38 0.04450343 1970
39 0.05154815 1980
40 0.05776608 1990
41 0.11530871 2000
42 0.05716653 2010
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 2 comments