Всем привет. Подскажите, есть 2.5 млн записей, которые необходимо обновлять

Question

Всем привет. Подскажите, есть 2.5 млн записей, которые необходимо обновлять

по нескольким условиям и в несколько потоков желательно(10 например) столкнулся с такой проблемой, что происходит блокировка SQLSTATE[HY000]: General error: 1205 Lock wait timeout exceeded; try restarting transaction. БД mysql - это поправимо? чтобы все работало быстро. Или необходимо рассматривать другие БД?

#backend #laravel #php #programming #russian

0

27.09.2020

23 ответов

45 просмотров

Denis Z Noname

Не факт... Может у него MyISAM-таблицы в мускуле...

0

27.09.2020

Aleksey Автор вопроса

InnoDB

0

27.09.2020

Aleksey Автор вопроса

Вообщем есть такой код, как заставить его работать в 10 потоков без SQLSTATE[HY000]: General error: 1205 Lock wait timeout exceeded; try restarting transaction

0

27.09.2020

The Ant 🐜

а как оно работает? в цикле, в очереди?

0

27.09.2020

The Ant 🐜

м.б. кто-то еще туда пишет с транзакциями? Когда убрал та же ошибка?

0

27.09.2020

The Ant 🐜

https://stackoverflow.com/questions/5836623/getting-lock-wait-timeout-exceeded-try-restarting-transaction-even-though-im глянь, возможно есть зависшие транзакции. Их надо убить руками. Если таймаут слишком большой.

0

27.09.2020

Aleksey Автор вопроса

Пока ошибки новые не прилетели, но до добавления транзакций была такая-же историй. Кроме этих демонов других задач нет: show processlist, обновление крайне медленно происходит почему-то

0

27.09.2020

Aleksey Автор вопроса

а по этому момменту вполне возможно, сейчас гляну, что-то там есть

0

27.09.2020

The Ant 🐜

Медленный апдейт может быть связан с настройками мускла. М.б. сейчас у вас сразу сброс данных на хдд при апдейте. И если диски медленные или забит io то будет притормаживать. Или каждый апдейт вызывает перестройку индекса (что маловероятно, если данные не меняются практически). Нужно исследовать все варианты.

0

27.09.2020

Aleksey Автор вопроса

При выполнении: SELECT * FROM information_schema.innodb_trx ORDER BY trx_started; у меня получается, что выполняется только 1 транзакция, остальные в ожидании

0

27.09.2020

Grisha Egorov

Как сказали выше транзакция не нужна. В innodb все апдейты и так в транзакцию завернуты. Первое что бы я посмотрел, есть ли индекс на source link. Поиск не должен занимать много времени. Второе посмотрел бы нет ли ненужных индексов, меньше индексов - проще перестраивать. Так же я бы убедился что нету попыток обновить одну и ту же запись одновременно.

0

27.09.2020

Aleksey Автор вопроса

На этот столбец индекс добавил только что, но есть другие индексы около 10 штук, для поиска. По другим индексам, их лучше удалять на время обновления, потом снова добавлять или оставить?

0

27.09.2020

Grisha Egorov

Не могу ответить на этот вопрос не зная специфики запросов ваших. Но если у вас 11 индексов на такую таблицу возможно вы действительно используете не ту бд или не так.

0

27.09.2020

Grisha Egorov

Если много ищите по данным возможно вам elastic стоит поверх накрутить, индексы посносить. Но перед любыми переделками я бы удостоверился, что проблема именно в этом. Например в песочнице снес бы все лишние индексы и посмотрел бы как ведёт себя приложение.

0

27.09.2020

Yushkevich Vitaly

Очевидно, что этот код однопоточный. Чтобы он работал в N потоков, нужно его сделать многопоточным (ваш кэп). Крутить «чтобы блокировки снимались быстрее» можно, но упираться все равно будешь так или иначе с ростом нагрузки. Я бы посоветовал сам код сделать многопоточным. Ключевые слова - mutex, семафор и тд

0

27.09.2020

Aleksey Автор вопроса

Вообще "это черновая БД" в которую собирается вся информация, которую находит парсер, затем эта информация дополняется, обновляется по найденной дополнительной информации. Из этой базы уже будет строиться рабочая БД, в которой проставлены все связи и все структурировано. Рабочая БД будет загоняться в elastic. Пока примерно так

0

27.09.2020

Aleksey Автор вопроса

Т.е вся основная нагрузка приходится на этот черновой вариант) как и все операции по обработке данных

0

27.09.2020

Yushkevich Vitaly

Для такого плана нагрузки может Kafka подойти

0

27.09.2020

EgorichXXX

а через job ы нельзя сделать?

0

27.09.2020

Aleksey Автор вопроса

и так работает через Jobs

0

27.09.2020

The Ant 🐜

правильно, зачем разбираться с деадлоками, лучше другую бд взять :)

0

27.09.2020

Yushkevich Vitaly

Ну поэтому мой первый и финальный совет - это как раз таки разобраться с дедлоками:) А насчёт Кафки - это не в смысле «эту проблему можно обойти, если взять кафку». Это в дополнение, что под подобный план нагрузки она может отлично подойти. Необходимости навыка решать проблему дедлоков никто не отменял ;)

0

27.09.2020

The Ant 🐜 · Accepted Answer

The Ant 🐜

Проблема не в бд а в коде. Не видя твоего кода нельзя сказать в чем причина. Смена бд ничем не поможет.

0

27.09.2020

170 похожих чатов

Всем привет. Подскажите, есть 2.5 млн записей, которые необходимо обновлять

23 ответов

Похожие вопросы