- сначала к городу подступает армия, и лишь потом заводят речь об откупе от штурма;
- сначала вводят новые юридические нормы, и лишь потом заводят речь о выкупе ленов;
- сначала инквизицию вводят, и лишь потом она приступает к сожжениям еретиков.
Поскольку в каждом случае мы видим два этапа единого процесса, она происходят почти одновременно, местами с разницей до года. То есть, что в половине случаев связанные процессы будут зафиксированы в одном календарном году, а в половине случаев - в двух сопредельных, и второй этап не может наступить раньше первого.
Если сопоставить все индексы со всеми в одном году и в двух сопредельных, будет получена выборка с числовыми значениями, в целом, верными. В тех местах, где итоговые правила последовательности соблюдаться не будут, наиболее вероятно, расположен "шов" между разными массивами. Я, к примеру, держусь гипотезы о 6-летнем шаблоне, и эта гипотеза подтвердится, если "швы" лягут каждые 6 лет. Однако, на деле, где швы лягут, там и будет реальная граница. Те же блоки данных, в которых все правила будут уверенно соблюдены, можно будет сопоставить и точно сказать, которые из них логические дубликаты друг друга.
Задачу можно и укрупнить: ввести индексы регионов, сверить не только сопредельные годы, но и разделенные 1, 2, 3 и так далее годами (лучше, если не более 5). Можно сверять сам факт события, а можно учитывать их общее число в году. Каждая новая порция сверямых данных лишь добавит точности.
Я этот путь уже прошел до конца - успешно. Помеха: трудоемкость. Я сверил массив по одному индексу типа событий, а таковых в моей базе 879, и полная выборка должна составить 879 в квадрате вариантов по всей шкале из 2,5 тысяч дат. Это порядка 2 млрд ячеек, и такой объем Эксель заведомо не тянет. Плюс, моими методами на это надо лет пять )))
Потребуется оптимизация, а еще лучше - новые способы сортировки. Но главное здесь то, что этот подход, вне всяких сомнений, вполне рабочий. Хронология действительно восстановима математическими методами.