?

Log in

No account? Create an account

Предыдущий пост Поделиться Следующий пост
Текущее
Веселый
chispa1707
Требуется изобрести работающий микс из уже существующих подходов к обработке данных.

1. Число совпадений событий разного типа в одном году дает представление о родственности
2. Можно разбить события на группы - родственные внутри и разные меж собой. Это укажет на разные исторические этапы
3. Можно сопоставить эти группы со сдвигом в 1-6 лет, это укажет на причинно-следственные связи. Я это делал вручную с катастрофами; результат прекрасный
4. Можно вывести число совпадений событий через известные сдвиги, например, в 59 лет. Сделал. Куски хронологии четко очерчены
5. Можно просмотреть плотность точных дат (до дня). Это указало мне на начало наблюдений за вулканами - 1840 год, но сфера применения подхода заведомо шире
6. Можно сделать микс из индекса места и индекса типа события, тогда повторы вообще исключатся.
7. Вообще число возможных миксов такого типа, как минимум, - 11, и каждый имеет особенности.

Нам требуется совместить, образно говоря, "перпендикулярные" подходы, типа совпадения родственных индексов типа события и сдвига в 59 лет. Но этот взгляд - очень общий. Нам надо представить себе главное - каким должен выглядеть итоговый результат. И все срастется.

  • 1
Нарисовать семь перпендикулярных линий.. Из этой же серии

Математики это делают.
Мне придется сделать что-то попроще.

И все-таки Ваша задача сильно похожа на анализ покупок в супермаркете.

https://www.datacamp.com/community/tutorials/market-basket-analysis-r

для примера комплект с биржами, полученный этим методом

lhs rhs support confidence lift count
[1] {бж} => {йу} 0.06751246 0.8232044 3.849178 149
[2] {бж} => {йх} 0.07249660 0.8839779 3.508884 160
[3] {бж} => {ою} 0.06796556 0.8287293 3.399639 150
[4] {бж} => {йс} 0.07159039 0.8729282 3.158283 158
[5] {бж} => {що} 0.07113729 0.8674033 3.014739 157
[6] {бж} => {йм} 0.07430902 0.9060773 2.945085 164


Нет особых возражений. Для меня главная беда - я пока так и не сформировал в голове картинку, как достичь финала.

Хорошо бы с учетом нового опыта попробовать найти периодичность там, где она "ловится" на глаз. Например Иван 3 и Иван 4 - очень хорошие кандидаты. Таблицу можно дополнить данными хоть из википедии.
По идее сейчас каждый год можно представить как вектор, набор цифр 001101213... по имеющимся таблицам индексов, причем векторы будут одного размера - значит для пары лет легко вычислить тот же коэффициент корреляции.

Не все понимаю, но сам подход - закодировать цифрами все - мне нравится.

1876 - год
01 - число
12 - месяц
313 - индекс типа событий
696 - индекс места
399 - индекс агента

Итого: 1876 01 12 313 696 399
Забито все. И это еще не конец. Можно ввести что-то еще.

Нет.
У вас уже есть векторы - их основа ваши интексы
аб бв гд еж и так далее
нужно проставить для годов в каждой колонке значение есть/нет, т.е. 1 или 0, ну или количество соответствующих событий
получите портрет каждого года в индексах, что-то вроде
00011010010
00001011000

Вот эти портреты и нужно сравнивать.

Итоговый результат должен быть понятен нам самим в первую очередь, а потом нужно объяснить его читателям разного уровня подготовки.

Легко воспринимаются картинки и видяшки.

Путь, предложенный @curiousmole, который говорил про графы - приводит к картинкам.

Вот, например, свежий файл сводная.xlsx , созданный из 00_База_2018_10_14.xlsx в Gephi после разбивки на 3 кластера (показаны цветом вершин) и обработки ForceLayout (он притягивает связанные вершины-типы событий на основании количества совпадений в одном году ) мне видится так:


или с далека

Я не художник, но считаю, что нужно учится объяснять читателям полученные результаты на картинках тоже.
Главное, что имеются точные исторические данные.

Сгруппировал события по подгруппе из листа Легенда файла 00_База_2018_10_14.xlsx. Получил файл https://github.com/it4history/reconstruction/blob/master/Excel/EventsIndexing/Tests/out/%D1%81%D0%B2%D0%BE%D0%B4%D0%BD%D0%B0%D1%8F%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B0.xlsx

В Gephi его можно увидеть так ():


Фантастика!
Понятия не имею, как с этим работать, но это нечто!
Я безусловно должен еще раз подчистить индексы, чтобы результаты были корректнее.
Примерно так и должно было выглядеть то, к чему мы идем.

Индексы можно чистить до бесконечности, а вот как разбить события на группы и выйти на разные исторические этапы, думать и думать.

Вы определенно сможете работать с Gephi,
потому что то, что вы сделали - это и есть матрица графа, и файл сводная.xlsx Gephi открывает как родного, без ошибок

1. качаем с https://gephi.org/
2. меню File/Import spreadsheet...
2.1 выбираем файл и указываем "Import as: Matrix"
2.2 возможно, напишет, что не хватает памяти, тогда нужно будет подправить "c:\Program Files (x86)\Gephi-0.9.1\etc\gephi.conf"
3. получится чёрная каша из вершин и рёбер
4. дальше помогает инструкция, но я еще такой чайник :-(

Я на днях пришел к выводу, что никуда не иду. Мои методы не работают, поскольку число сдвигов оказалось подвязано на количество данных - практически прямо. То есть, в итоге графы именно это и покажут.
Разбираюсь, что именно следует сделать, чтобы выскочить за пределы этого тупика.

Задача поиска этапов развития цивилизации, мне кажется, приведёт только к версии, вещаемой традиционной историей. Потому что на вход подаются события, происшедшие в одном и том же традиционном году, без учёта фальсификаций дат.
Чтобы выйти на реальные исторические этапы, нужно сначала реконструировать даты.

Хорошая новость в том, что вы уже имеете результаты - вы смогли восстановить течение катастроф, показали после-катастрофные социально-экономические процессы, показали шаблон финкапа, нашли сдвиги и 6-летний шаблон.
Эти результаты можно представить публике в картинках.

  • 1