Катастрофы проиндексированы на 100 % и очень точно. Хуже всего с изобретениями.
Обычно это выглядит так: Д. Шмидт изобрел паровой свисток" - а где это случилось, и на кого этот Д. Шмидт работал, не сообщается.
Часть событий проиндексирована криво - в самом начале ошибся.
Исправляю, вымарывая Францию (26 тысяч), Британию и индекс ru - для России у меня есть индексы губерний, что надежнее.
Ну, и выбрасываю редкие индексы, например, сберкассы, свидетельств о которых всего 13.
В целом индексов набирается под 400 тысяч, из которых в работу допускаю до 200 тысяч.
Я бы сказал, что главное, к чему можно придти этим путем, сделано. Матрица налицо.
Прямо сейчас в работе кусок хронологии с 1448 по 1861 год. 130 тысяч событий в 50 тысячах ячеек.
Матрица почти квадратная: 416 индексов в 413 годах.
Часть ячеек пусты, в других стоит до десятка однотипных событий. Упрощению поддается.
Вот так это выглядит.
Обкатал функцию КОРРЕЛ. Недоволен.
Вот она мне выдала индекс корреляции 0,893309233 между группой "Сражения" и событиями в штате Миссури.
Индекс хороший - лучше не надо.
Но сражения у меня плотно стоят по всей шкале, начиная с 1448 года, а Миссури впервые упоминается в 1673 году, а массированно - только в 19 веке.
Эксель считает это хорошей корреляцией, а я - нет.
Прямо сейчас у меня около 4 тысяч пар индексов со значением корреляции более 0,5, из которых больше тысячи пар со значением корреляции более 0,8.
То есть, можно сопоставить порядка тысячи пар рядов дат событий определенного типа, в расчете выйти на какой-то результат.
Но как это сделать, не понимаю.
У кого-нибудь математики знакомые есть? Чтоб хотя бы проконсультироваться.
А в идеале и обсчитать.