chispa1707 (chispa1707) wrote,
chispa1707
chispa1707

Об алгоритме восстановления хронологии

Суть дела: обязана существовать хронологическая связанность событий разного типа:
- сначала к городу подступает армия, и лишь потом заводят речь об откупе от штурма;
- сначала вводят новые юридические нормы, и лишь потом заводят речь о выкупе ленов;
- сначала инквизицию вводят, и лишь потом она приступает к сожжениям еретиков.

Поскольку в каждом случае мы видим два этапа единого процесса, она происходят почти одновременно, местами с разницей до года. То есть, что в половине случаев связанные процессы будут зафиксированы в одном календарном году, а в половине случаев - в двух сопредельных, и второй этап не может наступить раньше первого.

Если сопоставить все индексы со всеми в одном году и в двух сопредельных, будет получена выборка с числовыми значениями, в целом, верными. В тех местах, где итоговые правила последовательности соблюдаться не будут, наиболее вероятно, расположен "шов" между разными массивами. Я, к примеру, держусь гипотезы о 6-летнем шаблоне, и эта гипотеза подтвердится, если "швы" лягут каждые 6 лет. Однако, на деле, где швы лягут, там и будет реальная граница. Те же блоки данных, в которых все правила будут уверенно соблюдены, можно будет сопоставить и точно сказать, которые из них логические дубликаты друг друга.

Задачу можно и укрупнить: ввести индексы регионов, сверить не только сопредельные годы, но и разделенные 1, 2, 3 и так далее годами (лучше, если не более 5). Можно сверять сам факт события, а можно учитывать их общее число в году. Каждая новая порция сверямых данных лишь добавит точности.

Я этот путь уже прошел до конца - успешно. Помеха: трудоемкость. Я сверил массив по одному индексу типа событий, а таковых в моей базе 879, и полная выборка должна составить 879 в квадрате вариантов по всей шкале из 2,5 тысяч дат. Это порядка 2 млрд ячеек, и такой объем Эксель заведомо не тянет. Плюс, моими методами на это надо лет пять )))

Потребуется оптимизация, а еще лучше - новые способы сортировки. Но главное здесь то, что этот подход, вне всяких сомнений, вполне рабочий. Хронология действительно восстановима математическими методами.
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 21 comments