?

Log in

No account? Create an account

Предыдущий пост Поделиться Следующий пост
Получил тех.помощь
Веселый
chispa1707
Ребята с cyberforum.ru помогли выбрать все города в именительном падаже.
Вышло 80 тысяч строк и порядка 190 тысяч городов - за 20 минут. Это фантастика.
Мой предыдущий результат - 11 тысяч за 6 часов.
Ясно, что там три четверти - части слов типа Во (есть и такой город), но это по ходу удалится.
Главное, каждый город это в перспективе координаты, и вместе с датами это будет нечто.
***
Но, сразу скажу, главное сейчас не это, не полнота базы.
Главное - модели.


  • 1
Если сумеете, войдете в Историю.
Как это работает?

я не знаю как сейчас у вас сделано, но опишу как пример - все данные можно перевести в единую базу, затем сформировать по нужным полям индексы, например по названию события и описанию с номером ячейки.
подключается поисковый скрипт типа Sphinx или ElasticSearch и настраиваются поисковые настройки, вес той или иной ячейки в совпадении.


Второе - как пример что надо найти всё в каком-то падеже, пишется скрипт, который проходится по базе с использованием правил русского языка и еще дополнительных правил. и выводит ячейки совпадающие по условию.

Я веб-программист, по этому под помощью подразумеваю натягивание на базу локального сайта, а может и не локального - как вам удобнее, и помощь в создании этой базы из разрозненных источников.

сайт без дизайна, но с функционалом достаточным чтобы вы смогли использовать эти функции самостоятельно - как вариант - YII+bootstrap

Уверен, что технически все срастется.
У меня проблема с индексированием - это адова работа. Если вручную.
Можно ли из огромного текста выбрать ВСЕ топонимы, все тех.термины, все имена, все военные термины, а потом их все еще и рассортировать?

Почему спрашиваю.
Вот мне помогли выбрать все названия городов в именительном падеже.
Это порядка 190 тысяч. Когда вручную удалю мусор, получится конфетка.
Но для результата это надо с чем-то сопоставлять:
- с тех.терминами
- с военными терминами
- с торговыми терминами
- с политическими терминами

Только тогда. причем в строгом соответствии с географией расположения и датой события, мы увидим процессы и неоправданные разрывы процессов.

Что скажете?

Можно пример структуры? если например по стольцам Id, заголовок, описание, прочие данные. То можно из этого выбрать по совпадениям в нужных столбцах названий - а названия выбрать из какой-то базы геоназваний, они есть в интернете разные. Названия не только же русские? В общем эти названия можно выбрать с разными окончаниями, по тех терминам и прочим ключевым словам - нужны ключевые слова, они есть каким-то списком?


похоже что надо поэтапно выводить... вы хотите , грубо говоря, одну мета таблицу разить на более маленькие по топонимам или по топонимам и годам, а затем подсчитать в них количество пересечений по Ключевым Словам для каждой?

думаю.
Ситуация понятна.
Но выбрать все я теперь и сам могу. То есть, надо идти дальше.

///подключается поисковый скрипт типа Sphinx или ElasticSearch и настраиваются поисковые настройки, вес той или иной ячейки в совпадении. ///

Это, в принципе, тоже уже позади.

В массиве есть уникальные сочетания событий на протяжении лет.
Вот взял я отрезок 40 лет и вижу, что через 200 лет ровно порядка 145 катастроф совпадают год в год.
Я уже знаю, что это - тупик.
Но совпадение не случайно - это переносили массивы.

Хронологический массив за 2000 лет состоит из таких кусочков. Где-то одно перенесли на 200 лет. а где-то другое - на 167 лет.

Эти кусочки как-то идентифицировать можно?

можно, катастрофа имеет составной ключ без учета года по топониму и характеру катастрофы, можно пробежаться по всему массиву и найти эти цепочки состоящие из кодов катастроф. данные в чем? интересная задача, думаю над алгоритмом, в принципе понятен, нужно понять в чем данные и какого они рода

Спрашивайте.
Но есть особенность: разные массивы данных в разных странах тасовали по-разному и датированы они теперь крайне хаотично.
Ясно, что внутренняя логика где-то есть, но вот докопаться до нее бывает тяжеловато.

Андрей, не мое это дело, но Вам предлагают некий МЕТОД, позволяющий варьировать логику событий, в зависимости от вводных данных. То есть Вам предлагают универсальный инструмент моделирования модели, о чем Вы взывали в своих молитвах)))

И Вы все еще в сомнениях????

Сомнений нет. Просто говорю о характере предстоящих проблем.

Есть задача. задача интересная, в данный момент не видя перед собой массива, придумал как вывести в кодировку событий, теперь думаю как малой кровью из этой цепочки кодировок найти все, наидлиннейшие и далее по убыванию

Я прямо сейчас спешно пополняю базу тем, что давно собирался добавить.
После этого намерен, как минимум, выбрать в отдельную колонку все доступные топонимы - хотя бы в именительном падеже. Сегодня-завтра будет готово.
***
Если хотите потренироваться на том. что есть, то база лежит в файлобменнике, найти можно по ссылке внутри недавнего моего поста "новым френдам"

  • 1