не прибегая к нифам
Вопрос возник при решении прикладной задачи, мне нужно оптимизировать потребление памяти в моём erlang приложении работающем по такому сценарию (опишу один поток, но их много понятное дело).
1 Описание системы. Из источник берётся большой json 95% информации в нём просто не нужно + сами данные по большей части списки независимых элементов с которыми можно работать по отдельности. Сейчас это работает таким образом, что в память тащится весь json парсится и затем все элементы отправляются в обработку.
2 Проблема. Тут очевидный оверхед и по памяти и по времени работы (по памяти по тому что в один момент времени мне нужен минимум информации, нашёл значение по патерну, отдал, забыл), (по времени, потому что вовсе необязательно читать, всё, часто, достаточно прочесть 5 - 10% документа)
3 Как пытаюсь решить и почему задал вопрос, который находится выше? С оптимизацией скорости все понятно, но вот с потреблением памяти проблемы. Пишу библиотеку клон https://github.com/elixir-lang/elixir/blob/master/lib/elixir/lib/stream.ex . Проект на erlang и elixir тащить не хочется думаю, что там такая же боль.
В общем память не освобождается (в моей реализации точно) после того, как переменная стала не нужна (и по-моему даже GC, не берёт). Пример из документации стримов (если этот код работает не так как я описал поправьте)
File.stream!("/path/to/file")
|> Stream.map(&String.replace(&1, "#", "%"))
|> Stream.into(File.stream!("/path/to/other/file"))
|> Stream.run()
Память тут освободиться только когда процедура будет полностью завершена и придёт GC, а не по мере того, как значения пишутся в файл
1. Вручную забывать можно только грохая процесс в котором оно осталось 2. На практике бывает редко нужно 3. Можно регулярно делать gc процессу
В GenServer есть такое понятие как hibernate, уходя в него процесс оптимизирует память, можно задать параметром hibernate_after при старте либо после каждого вызова вручную через :hibernate. Возможно поможет
Если у вас erlang, то зачем вам имитировать Stream? Самое простое - два процесса, читатель потока и парсер, связанные pull протоколом, не помню, есть ли для erlang потоковый парсер, но его тоже можно легко сымитировать, на jsx, например, он вроде бы может отдавать нераспарсенный кусок.
А дальше в рекурсивную функцию. И там на итерациях будет гцшиться то, что откусил и обработал
Обсуждают сегодня