?

Log in

No account? Create an account

Предыдущий пост Поделиться Следующий пост
Обновленная База данных и уточненный Техфайл
Веселый
chispa1707
База данных на 16 октября 2018 года: https://my-files.ru/thnl5j
Техфайл с учетом последних исправлений: https://my-files.ru/q5jxth

№ базы это:
1 - Общие
3 - Изобретения
4 - Катастрофы
5 - Суэцкий канал
7 - Водные системы
8 - Эмиграция
9 - Не обработано

Агент это страна, активная в данном районе, например, Британия в условной Кении.
Если агент - местный, то речь идет о революции или оборонительной войне.
В техфайле индексы места даны в четырех вариантах:
- со штатами (областями, землями, провинциями) там, где они указаны;
- то же, но унифицированное до уровня страны;
- то же, но унифицированное до уровня региона (например, Западная Сибирь);
- то же, но унифицированное до уровня части света (например, Центральная Америка).
Это все имеет смысл, если хочется глянуть, как все обстоит по большому счету. В Африке, например, мы не обнаружим изобретений, и это чрезвычайно важно, поскольку показывает, что историческое развитие движется асинхронно. У колонизатора одна логика исторического развития, а у колонизуемого - другая.

ОСНОВНОЕ:
Вот эта информация - все, что у нас есть. Принципиальных улучшений уже не будет.
Хронологию придется восстанавливать из этого; из того, что есть. И это пора делать.

Техфайл для себя: https://my-files.ru/k3dfa0
Метки:

  • 1
Ячейки G3059, A6664, D8564, P19684 и т.д. и ниже пустые. Это правильно?


также вижу новые индексы, возможно, это индексы места, но обрабатываю их как раньше индексы типа событий (может ошибаюсь)

считаю, что в каждой ячейке по одному индексу, то есть символ $ не есть разделителем

использую тот же самый алгоритм

полученные таблицы имеют размер 7517 на 7517
время расчета занимает около 20 секунд, но запись результата в файл для XLSX занимает больше 20 часов (одна строка около 10 секунд), поэтому сохранил в формате CSV (до минуты)

сводная.csv имеет размер 162 МБ и мой LibreOffice Calc сказал, что колонок слишком много и
показал начало вот так
с такими большими файлами реально нельзя работать

нужно исследовать части, поэтому вытянул 40 на 40 индексов из большой таблицы
положил их в папку https://github.com/it4history/reconstruction/tree/master/Excel/EventsIndexing/Tests/outTech10
но они мало чем отличаются от сгенерированных из файла 00_База_2018_10_01.xls

наверное, я слишком не понял, что нужно сделать

Да, я выложил как есть, с пустыми ячейками.
Индексы места всегда латиницей, индексы типа события всегда кириллицей.

Понял. Объем - проблема.
Поэтому придется принимать радикальное решение.

На деле, можно резко сократить объем, перейдя в индексах места на уровень региона типа "Западная Сибирь". Это не должно стать помехой.

Вы ВСЁ сделали правильно.
Мне требуется подумать, как быть.

Пусть остаются индексы места как есть, они не создают проблем с объёмом.

Проблема с объёмом в данном случае только для пользователя (например, LibreOffice Calc не все колонки из 7000+ показывает) и эти проблемы решаются дизайнерски. А файл сводная.csv размером 162 МБ легко пакуется в файл сводная.zip размером 7 МБ. Я его положил здесь.

Поэтому предложенный мною подход справляется со всеми данными от вас. Расчеты происходят быстро, а удобства пользователя достижимы.

Вы написали пересматриваю базу; индексы, на мой сегодняшний взгляд, плохо приспособлены к матобработке. Я хочу добавить, что Excel очень хорошо приспособлен к матобработке :-)

Часть моих индексов чересчур детализирована. Местами их до сотни там, где хватает пары. Здесь есть над чем подумать. Файл скачиваю.

Похоже, нужно исследовать причинно-следственные связи между типами событий, поэтому вы считаете сдвиг для типов событий "позже", а не "раньше". Так удобнее, потому что в строке будут причины, а в столбцах следствия. Меняю алгоритм на "позже", соответственно тренировка (unit-test) алгоритма теперь выглядит так:
пусть имеем три года 1, 2 и 3; в этих годах произошли типы событий

результат для сдвига в 1 год :
$, a, b, c,
a, 0, 1, 0,
b, 1, 1, 1,
c, 0, 0, 0,
результат для сдвига в 2 года:
$, a, b, c,
a, 1, 0, 1,
b, 1, 0, 1,
c, 0, 0, 0,


Поскольку между регионами нет причинно-следственных связей, то я думаю, что индексы места нужно учитывать не так, как индексы событий. Индексы места позволяют фильтровать причинно-следственные связи событий, чтобы искать региональные различия.

Edited at 2018-10-18 04:55 (UTC)

  • 1