оглядкой на бустовскую и примеры в интернете.
Как и полагается, спустя месяц пришли к выводу, что время от времени падает именно она.
Как дебажить?
Санитайзеров на платформе нет, имеющиеся средства анализа не вылавливают ошибку, однако удалось создать +- повторяемые условия её проявления.
А вы ошибку уверенно локализовали? Тестик сделали там на hardware_max потоков, которые пытаются её перегружать?
Можно считать, что да. При > 32 потоков падает в 1 из 100 циклов теста практически гарантированно
А исходный код не можете показать?
Вообще, я бы при хорошей плотности воспроизведения делал примерно так: 0. Поднять все барьеры до seq_cst. Ошибка сохраняется? Да. Добавить целенаправленную ошибку в каждую редкую ветку и сопоставить статистику ошибок. Нет. Понятно, в чём проблема.
Да. Но круг поиска может быть шире, чем кажется :) https://github.com/DymOK93/KTL/blob/lockfree_queue_fix/modules/lockfree/queue.hpp
Проверил с seq_cst (в моей реализации для x86-64 - на основе MSVC-интринсиков _InterlockedExchange() для store(), _InterlockedCompareExchange для load()) Ошибка сохранилась. Спасибо - буду проверять отдельные ветви исполнения...
https://github.com/DymOK93/KTL/blob/lockfree_queue_fix/modules/lockfree/queue.hpp#L122 начните с вот этой, тут, кажется, что-то очень странное написано
Хм, вроде не странное... Но перепроверю
ладно, вот это-то точно повод для паранойи https://github.com/DymOK93/KTL/blob/lockfree_queue_fix/modules/lockfree/queue.hpp#L154 мы не захватили владение узлом, почему во время этого присваивания rhs не умер?
1) head == current_head => "голова" на месте 2) !(head==tail) => очередь не пуста 3) value = next_ptr->value => считали значение 4) cas_weak_helper(m_head.get_ptr(), head, new_head) => если true, то голова все еще наша, считанное значение валидно Если предположить, что между 2) и 4) другой поток прошел тот же путь и "снял голову", то вопрос лишь в том, кто раньше придет в 4) Так это вижу я... И не видел иного рассмотрения в источниках
ну вопрос что поток (А) выполняет это присваивание, а два соседа просто съели элемент и вызвали его деаллокацию
Класс!
Один вопрос: зачем вам lock free queue?
Честно? Больше развлечения ради)) Бутылочным горлышком в том коде очередь не была
Спасибо за честный ответ! Но зато у вас теперь жизнь такая интересная!
Забавнее то, что сама очередь оказалась вообще не при делах - косяк по невнимательности в другом месте
а почему не std::atomic?
Потому что его у меня нет :)
И чё, реально улучшило перформанс относительно очереди с синхронизацией?
В диалоге ниже есть ответы на все вопросы)
написать на TLA+ её сначала. (сорри что поздно)
Во-первых, поздно, во-вторых, дело вообще не в ней было)
Обсуждают сегодня