Всем привет, не подскажете, это нормально если 100 тысяч записей

Question

Python

Сергей

Всем привет, не подскажете, это нормально если 100 тысяч записей

в csv обрабатываются 20-30 минут?

#backend #programming #python #russian

0

10.10.2023

49 ответов

231 просмотр

Сергей Автор вопроса

Tigran Saluev
Довольно медленно, но смотря чё за обработка

async with aiofiles.open(in_path, 'r', encoding='utf-8') as fr: reader = AsyncReader(fr, delimiter=',') async for row in reader: row = row[:len(order)] for i, s in enumerate(row): cur_res += (get_hash(s) if order[i][1] else s) + ';'

0

10.10.2023

Tigran Saluev

cur_res += строка — это квадратичный алгоритм

0

10.10.2023

Tishka17

Для строк - нет

0

10.10.2023

Tishka17

Сергей
async with aiofiles.open(in_path, 'r', encoding='u...

Для начала бы я выкинул асинкио

0

10.10.2023

quantum super position

Сергей
async with aiofiles.open(in_path, 'r', encoding='u...

Попробуй без асинкио

0

10.10.2023

Tigran Saluev

Tishka17
Для строк - нет

В смысле? Там же каждый раз новая строка формируется, суммарно получается квадрат

0

10.10.2023

Сергей Автор вопроса

Tigran Saluev
cur_res += строка — это квадратичный алгоритм

как это можно ускорить не подскажете? просто нужно записывать каждые 100тыс записей в новый файл

0

10.10.2023

quantum super position

Tigran Saluev
В смысле? Там же каждый раз новая строка формирует...

it depends

0

10.10.2023

Tishka17

Tigran Saluev
В смысле? Там же каждый раз новая строка формирует...

Нет, если это единственная ссылка на строку, там есть оптимизация

0

10.10.2023

Tigran Saluev

Сергей
как это можно ускорить не подскажете? просто нужно...

parts = [] parts.append(…) result = “”.join(parts)

0

10.10.2023

Сергей Автор вопроса

Tigran Saluev
parts = [] parts.append(…) result = “”.join(parts)

хм изначально записывал в массив и сохранял через csv writer, но мне подсказали что в строку формата csv записывать будет быстрее

0

10.10.2023

Сергей Автор вопроса

Сергей
хм изначально записывал в массив и сохранял через ...

это не так

0

10.10.2023

Tishka17

Сергей
async with aiofiles.open(in_path, 'r', encoding='u...

1. асинкио нахрен, тут все блокирующее 2. срезы хз зачем - это доп копирование 3. что в get_hash происходит?

0

10.10.2023

Tigran Saluev

Tishka17
Нет, если это единственная ссылка на строку, там е...

Вот это прогресс, давно?

0

10.10.2023

Tishka17

Tigran Saluev
Вот это прогресс, давно?

лет 10

0

10.10.2023

quantum super position

Tigran Saluev
Вот это прогресс, давно?

Этого уже нет :D

0

10.10.2023

Сергей Автор вопроса

Tishka17
1. асинкио нахрен, тут все блокирующее 2. срезы хз...

срезы да, просто в файле оказалась лишняя пустая строка. как экономнее можно избавиться от нее просто берет хэш от строки, нужно ли его брать записано в order

0

10.10.2023

Tishka17

quantum super position
Этого уже нет :D

да? а как теперь?

0

10.10.2023

Tishka17

Сергей
срезы да, просто в файле оказалась лишняя пустая с...

чо

0

10.10.2023

Сергей Автор вопроса

Tishka17
чо

?

0

10.10.2023

Tigran Saluev

quantum super position
Этого уже нет :D

хм, у меня в 3.11 вроде есть >>> timeit.timeit("s = ''\nfor i in range(1000000): s += str(i)", number=10) 1.9530952500645071 >>> timeit.timeit("parts = []\nfor i in range(1000000): parts.append(str(i))\ns = ''.join(parts)", number=10) 1.5781069160439074

0

10.10.2023

Tishka17

Сергей
?

row = row[:len(order)] это никак не поможет пропустить пустые строки, это ограничивает длину строки количеством ордеров

0

10.10.2023

Сергей Автор вопроса

Tishka17
чо

лишний пусттой столбец точнее

0

10.10.2023

Сергей Автор вопроса

Сергей
лишний пусттой столбец точнее

про который нет инфы в order

0

10.10.2023

Tishka17

Сергей
лишний пусттой столбец точнее

узнай уже про zip функцию

0

10.10.2023

Tishka17

Tigran Saluev
хм, у меня в 3.11 вроде есть >>> timeit.timeit("s...

хм. с аппендом быстрее, ничоси

0

10.10.2023

Сергей Автор вопроса

Tishka17
узнай уже про zip функцию

хм, точно, наверное быстрее чем обрезать но всё же думаю это не основное что замедляет..

0

10.10.2023

Tishka17

Сергей
хм, точно, наверное быстрее чем обрезать но всё ж...

асинкио выкинь и замерь

0

10.10.2023

Andrey

Tigran Saluev
хм, у меня в 3.11 вроде есть >>> timeit.timeit("s...

У меня в 3.11 нет: timeit.timeit("s = ''\nfor i in range(1000000): s += str(i)", number=10) 11.015409500003443 timeit.timeit("parts = []\nfor i in range(1000000): parts.append(str(i))\ns = ''.join(parts)", number=10) 0.8897796000092058

0

10.10.2023

Сергей Автор вопроса

Tishka17
асинкио выкинь и замерь

вообще это фастапи бэкграунд таск. я просто думал если сразу придет запрос на несколько обработок, не ускорит ли асинкио получение результата? но вообще наверное можно пока принимать только одну обработку, остальные не принимать пока есть активная..

0

10.10.2023

Tishka17

Сергей
вообще это фастапи бэкграунд таск. я просто думал ...

не ускорит, у тебя тут все абсолютно синхронное

0

10.10.2023

Tigran Saluev

Andrey
У меня в 3.11 нет: timeit.timeit("s = ''\nfor i in...

@sergemeln проверь-ка у себя

0

10.10.2023

Сергей Автор вопроса

Tishka17
не ускорит, у тебя тут все абсолютно синхронное

aiosv, aiofiles не делают эти задачи асинхронными?

0

10.10.2023

Tishka17

Сергей
aiosv, aiofiles не делают эти задачи асинхронными?

нет конечно, с чего бы

0

10.10.2023

Сергей Автор вопроса

в чем тогда их смысл?

0

10.10.2023

Tishka17

не имею ни малейшего понятия

0

10.10.2023

Сергей Автор вопроса

Tigran Saluev
@sergemeln проверь-ка у себя

>>> timeit.timeit("s = ''\nfor i in range(1000000): s += str(i)", number=10) 19.311255100008566 >>> timeit.timeit("parts = []\nfor i in range(1000000): parts.append(str(i))\ns = ''.join(parts)", number=10) 2.5301578999933554 >>> то есть стоит строку заменить на массив который потом собираю в строку?

0

10.10.2023

Vlad

Сергей
вообще это фастапи бэкграунд таск. я просто думал ...

Ну тут как вариант сделать отдельный микросервис мелкий который будет работать в многопотоке, и обрабатывать паралельно запросы, а потом их тебе откидывать

0

10.10.2023

Tigran Saluev

Сергей
>>> timeit.timeit("s = ''\nfor i in range(1000000)...

стоит попробовать

0

10.10.2023

evle

Tishka17
не имею ни малейшего понятия

Если я понял правильно, оно просто файловые операции в отдельные треды уносит, чтобы луп не встал колом.

0

10.10.2023