?

Log in

No account? Create an account

Предыдущий пост Поделиться Следующий пост
База данных в графическом виде
Веселый
chispa1707
Пока я тут падаю духом и судорожно ищу новых путей, френд выдал результат на основании того, что уже есть.


it4history
Путь, предложенный @curiousmole, который говорил про графы - приводит к картинкам.

Вот, например, свежий файл сводная.xlsx , созданный из 00_База_2018_10_14.xlsx в Gephi после разбивки на 3 кластера (показаны цветом вершин) и обработки ForceLayout (он притягивает связанные вершины-типы событий на основании количества совпадений в одном году ) мне видится так:


или с далека

Я не художник, но считаю, что нужно учится объяснять читателям полученные результаты на картинках тоже.
Главное, что имеются точные исторические данные.

Сгруппировал события по подгруппе из листа Легенда файла 00_База_2018_10_14.xlsx. Получил файл https://github.com/it4history/reconstruction/blob/master/Excel/EventsIndexing/Tests/out/%D1%81%D0%B2%D0%BE%D0%B4%D0%BD%D0%B0%D1%8F%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B0.xlsx

В Gephi его можно увидеть так ():

.

  • 1

Конечно надо объяснять каждую картинку


Похоже на те схемы как американские бюро рисуют связи вы экономических сообществах.

Еще бы справку получить по прибыльности тех или иных связей.
Прибыля оценить можно следующим образом.
Долгий срок выкупа земель думаю был связан с невысокой прибыльностью с\х и высокой портебностью в сгенерированных деньгах: новая Вена, Париж и др города были построены на деньги от заложенных земель.
Если считать что металло- и железячные бизнесы имеют прибыльность около 10 % то с\х предположительно 5%

Очень прибыльные системы это те которые ничего не производят и занимаются обслуживанием потребностей населения: города и государства: 15 %

Прибыльнее всего корпорации по хатйеку: 20+% Сверхприбыля на хайтеке манят инвесторов и они не вкладываются в проекты государств, вместо этого вкладываются в проекты хайтек корпораций, что приводит к дроблению государств на более мелкие. Кроме того издержки растут - пенсии всякие, пособия.
Старые фильмы про индустрию интересно смотреть: оказывается Дженерал Электрик уже в 1915 г запустила трансконтинентальную ЖД линию на электротяге.
Такими темпами до 1929 г они могли в космос полететь.


Edited at 2018-10-21 10:21 (UTC)

Первые результаты анализа в 1С.
Для каждой пары "год-страна" сформировал список индексов.

Результат анализа "Поиск ассоциативных правил".
Сначала идёт таблица "Часто встречаемые группы".
Например: пара индексов уй(евреи) и ит(репрессии) Встречается 412 раза, что составляет 1,97% от общего количества комбинаций "год-страна" (20 935).

Следующая таблица в том же файле: "Ассоциативные правила".
Для той же пары уй-ит в ней два правила:
1. Если в какой-то стране в каком-то году были репрессии, то с вероятностью 65% рядом встретится индекс уй(евреи).
2. Обратная вероятность гораздо меньше, ибо о евреях говорят не только в контексте репрессий. Поскольку отчёт формировал с отбором Минимальная достоверность:50%, то это правило в выборку не попало.

Для групп из трёх и более событий количество ассоциативных правил резко возрастает. Берутся все варианты деления группы на две и для каждого считается вероятность присутствия второй подгруппы, если есть первая.

Ссылки:
Очень часто встречаемые комбинации индексов (1% от 20 935)
По индексам:
https://drive.google.com/file/d/1dLbMbyf9DG5XOXreuP8g9pHnYjLi0SBc/view?usp=sharing
По названиям индексов:
https://drive.google.com/open?id=1eFifLZE2vMxyj2z6A_KdFoz9b42C88kI

Просто часто встречаемые комбинации индексов (0.1% от 20 935)
По индексам:
https://drive.google.com/open?id=1iVqiiyinmjm_zZ6ELgsGoJKck4yT7y-M
По названиям индексов:
https://drive.google.com/open?id=1zwCkNfW8k1Edoz2TaX_2Tbsl7J5tSzLK


Результат анализа "Поиск последовательностей".
Ищется, какая последовательность индексов повторяется во многих странах.
Например: если поставить "Максимальный интервал:2 года", то обнаружится, что в 24-х странах через год после индекса уй(евреи) встречался индекс ио (Миграции,изгнание,высылка,удалил,удаление).

Ссылки:
Максимальный интервал:Год X 2
По индексам:
https://drive.google.com/open?id=1Ebp3T3ZHnToe1yGzXBjGl11nAhl8DjSn
По названиям индексов:
https://drive.google.com/open?id=1maHHx2ryGRcZchLQZ0EMNA3tIRrtektZ

Максимальный интервал:Год X 5
По индексам:
https://drive.google.com/open?id=1mBWgWJvj5UHF-6u4_01ibiap-1Hglcrr
По названиям индексов:
https://drive.google.com/open?id=1sP1f6JwAlVkSI4K-g1uGI6GeEs0BYADW

Дневник, исходные и промежуточные данные в Телеграме:
https://t.me/historical_statistics

Впечатлен. Иду смотреть, как выглядит.

Как по мне, то там одни войны, восстания, победы, договоры...
Но, может быть, Вам всё-таки пригодится...

Да, эта проблема с войнами существует. Здесь выход один: приклеивать индекс войны или сражения к индексу места. Тогда появится корректность.

Ваши файлы просмотрел. Отлично сделано. Мне требуется кое-что обдумать.

Если надо, я могу некоторые индексы просто исключить из анализа.

Ну и анализировать можно зависимость любых колонок. Либо одним анализом сформировать какую-то табличку, а её уже анализировать следующим методом.
Кроме этих двух, есть ещё "Кластерный анализ" и "Дерево решений", но я не смог придумать, что бы им скормить.
http://v8.1c.ru/overview/Term_000000271.htm

На сейчас наиболее интересны группы регионо-индексов. Так, по 17 регионо идексов встречаются в 1836, 1841 и 1848 годах. Вот эти:

Евреи в Германии
Законы во Франции
Евреи в Вост. Европе
Война во Франции
Восстание в Вост. Европе
Договор во Франции
Законы в Вост. Европе
Восстание во Франции
Статистика во Франции
Парламент во Франции
Налоги во Франции
Банки в Италии
Финансы во Франции
Осадки в Украине
ЖД во Франции
Таможня в Германии
Отмена феодализма в Германии

Ясно, что здесь есть мусор - те же законы во Франции рассеяны чрезвычайно плотно. Но этим путем двигаться имеет смысл.

Вопрос: как получен средний интервал?

1. Отбираются цепочки событий с интервалами, не превышающими ограничение. (2 и 5 лет)
2. В отобранных цепочках для каждой пары событий вычисляется минимум, максимум и среднее.

С ограничением в 1 год у меня ничего не выдало. 2 года - чётко по году. 5 лет - от одного до четырёх. Получается, 1 год - это анализировать даты от начала до конца года. Я ему скормил первое января указанных лет.

Сам первый раз этим пользуюсь.

У меня есть самые общие представления. как устроены хронологические передвижки, но требуется сообразить, как поставить финальную задачу. То, что сделано, годится для критики, но не годится для восстановления хронологии. Думаю.

Вопрос: Ваши возможности по числу вариантов насколько велики? Ну... скажем, миллиард вариантов тянет? Если не тянет, потребуется кое-что подрезать, но это не страшно.

Второй вопрос.
Подтвердить или опровергнуть 3-летний шаблон можно. Требуется сравнить число совпадений регионо-индексов через 2 года, 3 года (это ключевое) и через 4 года. В большом объеме это исполнимо?

Первый.
Всё-таки сильно ограничены.
Попробовал обработать регионо-индексы. В варианте анализа "Поиск ассоциативных правил" у колонки "страна" поставил признак, что она теперь относится не вместе с годом к объекту, а вместе с видом события к элементу. За весь период по 1852 год смогло выделить только группы, встречающиеся хотя бы в 2% лет. На 1% написало, что групп слишком много.
Попробовал ограничить выборку последними двумя сотнями лет (1653-1852гг) и выбирать все группы, которые встретятся хотя бы дважды (1% от двухсот лет). Пару часов подумало и вылетело с переполнением памяти. Поставил период в сотню лет и минимум 3% случаев. Жужжит...

На второй вопрос ответ скорее да, чем нет.
Сходу не могу сообразить, как должна выглядеть таблица, которую скормить анализу.

Наверное, надо добавить к паре страна-вид события ещё остаток от деления года на три. И запустить тот же анализ. И сравнить с таким же анализом, если делить не на три.

Попробую. Потребуется поиграться с параметрами. Чтобы выдавало что-то полезное и не вылетало после долгого ожидания с ошибкой нехватки памяти. Сильно мешаются группы по паре элементов, но я не нашёл настройки ограничения минимального размера группы.

Не спешите. Похоже, требуется иной подход.
Пример: я как-то вручную выбрал с полсотни событий, повторяющихся ровно через 200 лет. В выборку попало масса уникальных, типа извержения на богом забытом островке в Тихом океане. И здесь уже есть хороший параметр: уникальность. Если 200 лет ничего не происходит, а раз в 200 лет повторяется, это жу-жу неспроста. Такого много, на деле. Фульминаты открывают трижды с разрывом ровно 59 лет, - есть такой сдвиг. То есть, возможно, следует оттолкнуться, к примеру, не от повторяемости, а от уникальности повтора.
Здесь есть смысл сначала подумать...

  • 1