последующего анализа, для этого беру элемент артикл, собираю с него данные в словарь и кидаю во фрейм, заметил что в начале тысяча итераций работают секунд по двадцать, потом замедляются, на двадцатой тыще тысяча проходит уже за минуту
и жрёт шесть гигов, при xml файле размером в 170 метров
for article in file.getroot().xpath("//ARTICLE"):
ean_with_prices = dict()
channel = ''
for element in article.iter():
if element.tag == "A_NR":
ean_with_prices['A_NR'] = element.text
if element.tag == "A_PRICE":
channel = element.get("channel")
if element.tag == "A_VK":
ean_with_prices[channel] = element.text
dataframe = dataframe.append(ean_with_prices, ignore_index=True)
в чём может быть проблема?
а не пробовал вырубить работу с пандой и посмотреть сколько ест?
попробуй так: сделай генератор сконвертируй в список сконвертируй в датафрейм https://stackoverflow.com/questions/42999332/fastest-way-to-convert-python-iterator-output-to-pandas-dataframe
Обсуждают сегодня