?

Log in

No account? Create an account

Результаты 2
Веселый
chispa1707
Как сделать точную математическую сортировку, пока не придумал, а потому поступил нагло: выкрасил самые малые и самые большие значения таблицы в разные цвета и вручную их разделил. Результат: я получил четко отделенные один от другого два этапа исторического развития цивилизации. В традиционной хронологии они оба идут вперемешку с 822 года по 1852 год, а я уже вижу, что есть что. События каждого этапа тесно меж собой связаны. Я и так уже знал, что это разные этапы, но теперь это подтвердилось математически. Подход оказался работающим. В принципе, хронологию можно уже начинать восстанавливать. Спешить не стану, но принципиальных препятствий больше нет - только технические. Выложу результат под катом.

Читать дальше...Свернуть )

О предстоящих технических задачах
Веселый
chispa1707
Пост для желающих знать, чем я озабочен.
Предстоит следующий набор работ:

Вот есть у меня в Экселе табличка:
1-й столбец - год
2-й столбец - двухбуквенный индекс места события
3-й столбец - двухбуквенный индекс типа события
Индексы места можно пока не рассматривать. Оставлю на сладкое.
Типов событий у меня сейчас 879.
Свидетельств в базе - 145 тысяч строк

Первая задача.
Требуется выяснить, например, как часто разные события встречаются в одном и том же году году. Для 85 индексов я это в Экселе сделал, но для 879 мне не потянуть. В итоге должна получиться табличка 879 строк на 879 столбцов, а на пересечении в ячейке - цифра, говорящая, сколько раз индекс столбца встретился в одном году с индексом строки.
Если все получится, то для тех же 879 индексов сверяем совпадения со сдвигом в год, два, три, четыре и пять. Но это - задача-максимум.
Вторая задача.
Берем эту таблицу 879 на 879, и выводим процент совпадений. Например, если индекс столбца всего встречается 100 раз, а с выбранным индексом строки он встретился 14 раз, то частота совпадений именно с этим индексом - 14 %. Это сделать легко.
Третья задача, важная. Некоторые индексы будут тяготеть один к другому, встречаться часто. В итоге индексы, на деле, составят несколько групп с высоким процентом совпадений внутри группы и с малым процентом совпадений с индексами из других групп. Число этих групп отразит число разных этапов развития цивилизации.
Четвертая задача несложная. Я добавлю в базу столько столбцов, сколько вышло групп-этапов, и в каждом столбце размещу те индексы, что относятся к выбранной группе - напротив тех дат, которым они отвечают. И моя база данных покажет, какие блоки данных каким иным блокам родственны, и как именно сделан хронологический подлог, и как, соответственно, его исправлять.
Никак не могу привыкнуть к состоянию победы. Словно не со мной это случилось )

Текущие проблемы
Веселый
chispa1707
Вывел результат на график. В результате обнаружил новый принципиальный момент: ипотека и сберкассы, однажды появившись, более не прекращаются, и граница исторического этапа сползает в настоящее время. Это доставляет трудности, но в целом, очень хорошо, поскольку появляется понимание, как именно следует изменить индексацию базы. Начинаю менять.

Когда будет решен вопрос с обработкой на порядок больших массивов (не 85, а 879 индексов), введу индексы места события, увеличу число индексов на порядок и получу заметно более точный результат. Удовлетворен.


Техфайл
Веселый
chispa1707
Для желающих лично оценить масштабы сортировочной проблемы, выкладываю техфайл.
Эксель-2007. https://my-files.ru/qwyi0r
Данные позже 1852 года можно и удалить, там все ясно.

Первичная задача: установить число совпадений разных индексов год в год.
Позже можно опробовать и со сдвижкой в 1-5 лет.
Здесь у меня пять вариантов: индексы типа события в разных сочетаниях с индексами места.
"Штаты" - территории учтены до уровня штатов (областей), там, где они указаны.
"Регионы" - территории укрупнены до регионов типа "Западная Сибирь", это тоже имеет свой смысл.
Если бы сортировка шла быстро, я бы обкатал все пять вариантов.
***
Сам я сейчас усиленно поправляю индексы в базе.
***
Размещаю свой рабочий файл здесь: https://my-files.ru/em9hqo
Все получилось, но этот путь ужасно трудоемкий.