?

Log in

No account? Create an account

Обновленная База данных и уточненный Техфайл
Веселый
chispa1707
База данных на 16 октября 2018 года: https://my-files.ru/thnl5j
Техфайл с учетом последних исправлений: https://my-files.ru/q5jxth

№ базы это:
1 - Общие
3 - Изобретения
4 - Катастрофы
5 - Суэцкий канал
7 - Водные системы
8 - Эмиграция
9 - Не обработано

Агент это страна, активная в данном районе, например, Британия в условной Кении.
Если агент - местный, то речь идет о революции или оборонительной войне.
В техфайле индексы места даны в четырех вариантах:
- со штатами (областями, землями, провинциями) там, где они указаны;
- то же, но унифицированное до уровня страны;
- то же, но унифицированное до уровня региона (например, Западная Сибирь);
- то же, но унифицированное до уровня части света (например, Центральная Америка).
Это все имеет смысл, если хочется глянуть, как все обстоит по большому счету. В Африке, например, мы не обнаружим изобретений, и это чрезвычайно важно, поскольку показывает, что историческое развитие движется асинхронно. У колонизатора одна логика исторического развития, а у колонизуемого - другая.

ОСНОВНОЕ:
Вот эта информация - все, что у нас есть. Принципиальных улучшений уже не будет.
Хронологию придется восстанавливать из этого; из того, что есть. И это пора делать.

Техфайл для себя: https://my-files.ru/k3dfa0
Метки:

Последние солнечные деньки
Веселый
chispa1707
Требуется собрать семян полевых цветов (аналог подмаренника). У дома доминирует флора строительных пустырей, а километрах в трех есть чудесные полевые цветы - неприхотливые и великолепно цветущие по осени. Есть смысл частично сменить во дворе биоценоз. Но времени осталось в обрез: если к субботе семена созреют, все получится, а если не успеют, - я даже не знаю, как быть. Синоптики обещают перемены.
Похоже, у земли, по которой я гуляю, появился собственник. Печалька. Прежде на 15 км пешего пути можно было не встретить никого. Теперь на полпути ухожу к трассе, - там все общее.
Есть и хорошее: маргаритки мои не просто прижились, а стали на своем газоне  доминантой.
Впереди - укоренение глицинии. Интересно: в открытом грунте ей раз в 10 лучше, чем в специально ей выделенном огромном ведре. Воля она и есть воля.


Одна тех.проблема решена
Веселый
chispa1707
Число совпадений индексов удобно считать формулой СУММЕСЛИ. Пишут, что она тянет лишь 255 строк, но на практике она потянула 2045 строк, - я так понимаю, Эксель-2007 такие объемы тянет. В результате я получил намного больше, чем рассчитывал: учтены даже количественные значения. Причем, здесь у меня количественные значения не простые, и повторов нет: если какое-то событие произошло 14 раз в году, это, на деле означает, что оно произошло на 14 разных территориях - странах или штатах.
Рабочий файл выложил здесь: https://my-files.ru/qf70x8

Нет никаких проблем и с тем, чтобы получить то же самое со сдвигами: то, на что по прежней методике мне требовалось 5 лет, считается теперь за 15 минут.

Хронология разных типов событий теперь легко поддается количественным оценкам.
Осталось решить проблему сортировки индексов на родственные группы. Можно сделать и руками, но Экселем лучше; с ним труднее спорить; ему не скажешь "сам дурак".

Фантастика!

Еще раз поясню что случилось. Мы теперь можем дать количественную оценку связи упоминаний например, о цехах и гильдиях с упоминаниями, например, о монетных дворах. И прямо сейчас такие количественные оценки уже есть для 616225 пар имеющих историческое значения типов событий. И, да, это поддается дальнейшей обработке.

Техфайл
Веселый
chispa1707
Для желающих лично оценить масштабы сортировочной проблемы, выкладываю техфайл.
Эксель-2007. https://my-files.ru/qwyi0r
Данные позже 1852 года можно и удалить, там все ясно.

Первичная задача: установить число совпадений разных индексов год в год.
Позже можно опробовать и со сдвижкой в 1-5 лет.
Здесь у меня пять вариантов: индексы типа события в разных сочетаниях с индексами места.
"Штаты" - территории учтены до уровня штатов (областей), там, где они указаны.
"Регионы" - территории укрупнены до регионов типа "Западная Сибирь", это тоже имеет свой смысл.
Если бы сортировка шла быстро, я бы обкатал все пять вариантов.
***
Сам я сейчас усиленно поправляю индексы в базе.
***
Размещаю свой рабочий файл здесь: https://my-files.ru/em9hqo
Все получилось, но этот путь ужасно трудоемкий.

Текущие проблемы
Веселый
chispa1707
Вывел результат на график. В результате обнаружил новый принципиальный момент: ипотека и сберкассы, однажды появившись, более не прекращаются, и граница исторического этапа сползает в настоящее время. Это доставляет трудности, но в целом, очень хорошо, поскольку появляется понимание, как именно следует изменить индексацию базы. Начинаю менять.

Когда будет решен вопрос с обработкой на порядок больших массивов (не 85, а 879 индексов), введу индексы места события, увеличу число индексов на порядок и получу заметно более точный результат. Удовлетворен.


О предстоящих технических задачах
Веселый
chispa1707
Пост для желающих знать, чем я озабочен.
Предстоит следующий набор работ:

Вот есть у меня в Экселе табличка:
1-й столбец - год
2-й столбец - двухбуквенный индекс места события
3-й столбец - двухбуквенный индекс типа события
Индексы места можно пока не рассматривать. Оставлю на сладкое.
Типов событий у меня сейчас 879.
Свидетельств в базе - 145 тысяч строк

Первая задача.
Требуется выяснить, например, как часто разные события встречаются в одном и том же году году. Для 85 индексов я это в Экселе сделал, но для 879 мне не потянуть. В итоге должна получиться табличка 879 строк на 879 столбцов, а на пересечении в ячейке - цифра, говорящая, сколько раз индекс столбца встретился в одном году с индексом строки.
Если все получится, то для тех же 879 индексов сверяем совпадения со сдвигом в год, два, три, четыре и пять. Но это - задача-максимум.
Вторая задача.
Берем эту таблицу 879 на 879, и выводим процент совпадений. Например, если индекс столбца всего встречается 100 раз, а с выбранным индексом строки он встретился 14 раз, то частота совпадений именно с этим индексом - 14 %. Это сделать легко.
Третья задача, важная. Некоторые индексы будут тяготеть один к другому, встречаться часто. В итоге индексы, на деле, составят несколько групп с высоким процентом совпадений внутри группы и с малым процентом совпадений с индексами из других групп. Число этих групп отразит число разных этапов развития цивилизации.
Четвертая задача несложная. Я добавлю в базу столько столбцов, сколько вышло групп-этапов, и в каждом столбце размещу те индексы, что относятся к выбранной группе - напротив тех дат, которым они отвечают. И моя база данных покажет, какие блоки данных каким иным блокам родственны, и как именно сделан хронологический подлог, и как, соответственно, его исправлять.
Никак не могу привыкнуть к состоянию победы. Словно не со мной это случилось )

Результаты 2
Веселый
chispa1707
Как сделать точную математическую сортировку, пока не придумал, а потому поступил нагло: выкрасил самые малые и самые большие значения таблицы в разные цвета и вручную их разделил. Результат: я получил четко отделенные один от другого два этапа исторического развития цивилизации. В традиционной хронологии они оба идут вперемешку с 822 года по 1852 год, а я уже вижу, что есть что. События каждого этапа тесно меж собой связаны. Я и так уже знал, что это разные этапы, но теперь это подтвердилось математически. Подход оказался работающим. В принципе, хронологию можно уже начинать восстанавливать. Спешить не стану, но принципиальных препятствий больше нет - только технические. Выложу результат под катом.

Читать дальше...Свернуть )

Результаты обработки по алгоритму
Веселый
chispa1707
Полную машинную обработку пока обеспечить не могу, - комп заведомо не потянет, поэтому простым языком расскажу, что получается на сегодня. Я взял события с 822 по 1852 год и сверил их по 85 типам событий, относящихся к переходу с матрилинейного наследования на патрилинейное и переделу собственности.

В первой группе типы событий, не склонных продолжаться в следующем году. Эти события происходили очень быстро, видимо, организованно, и бесповоротно. Да, кое-что протягивается на 2-3 года, но основной удар происходит в первом же году. Сразу - общий список. Важно: эти события не обязательно произошли одновременно; этот список отражает лишь то, что делается быстро. Кое-что откомментирую ниже списка.
Читать дальше...Свернуть )

Личное
Веселый
chispa1707
Жена регулярно говорит, что ощущение праздника длится только до 31 декабря. Едва последние салаты нарезаны, тихий праздничный восторг в душе заканчивается. Надобность говорить тосты совсем не то же, что предощущение чуда.
За это неделю сделан принципиальный прорыв. Да, работы впереди - тьма, но это неважно, поскольку появилось главное - понимание, как этот узел развязать. А праздника в душе нет. Потому что это все - то же самое 31 декабря - уже наступившее. Я даже водочки посреди бела дня накатил, - без толку.
Слежующим постом кое-что (немногое) распишу.
А пока - Хор Мормонов.


Об алгоритме восстановления хронологии
Веселый
chispa1707
Суть дела: обязана существовать хронологическая связанность событий разного типа:
- сначала к городу подступает армия, и лишь потом заводят речь об откупе от штурма;
- сначала вводят новые юридические нормы, и лишь потом заводят речь о выкупе ленов;
- сначала инквизицию вводят, и лишь потом она приступает к сожжениям еретиков.

Поскольку в каждом случае мы видим два этапа единого процесса, она происходят почти одновременно, местами с разницей до года. То есть, что в половине случаев связанные процессы будут зафиксированы в одном календарном году, а в половине случаев - в двух сопредельных, и второй этап не может наступить раньше первого.

Если сопоставить все индексы со всеми в одном году и в двух сопредельных, будет получена выборка с числовыми значениями, в целом, верными. В тех местах, где итоговые правила последовательности соблюдаться не будут, наиболее вероятно, расположен "шов" между разными массивами. Я, к примеру, держусь гипотезы о 6-летнем шаблоне, и эта гипотеза подтвердится, если "швы" лягут каждые 6 лет. Однако, на деле, где швы лягут, там и будет реальная граница. Те же блоки данных, в которых все правила будут уверенно соблюдены, можно будет сопоставить и точно сказать, которые из них логические дубликаты друг друга.

Задачу можно и укрупнить: ввести индексы регионов, сверить не только сопредельные годы, но и разделенные 1, 2, 3 и так далее годами (лучше, если не более 5). Можно сверять сам факт события, а можно учитывать их общее число в году. Каждая новая порция сверямых данных лишь добавит точности.

Я этот путь уже прошел до конца - успешно. Помеха: трудоемкость. Я сверил массив по одному индексу типа событий, а таковых в моей базе 879, и полная выборка должна составить 879 в квадрате вариантов по всей шкале из 2,5 тысяч дат. Это порядка 2 млрд ячеек, и такой объем Эксель заведомо не тянет. Плюс, моими методами на это надо лет пять )))

Потребуется оптимизация, а еще лучше - новые способы сортировки. Но главное здесь то, что этот подход, вне всяких сомнений, вполне рабочий. Хронология действительно восстановима математическими методами.