циклы в пандасе - это не pythonic-way)
тест, который работает:
# делаем .loc одного из столбцов равный значению
temp_df = df.loc[df['cat_number']=='5111-0395']
# обрезаем датафрейм нужным количеством столбцов (опционально)
temp_df = temp_df[['cat_number', 'date', 'DT']]
# сортируем по одному из столбцов
temp_df.sort_values('DT', ascending = True)
# берем последний и первый элементы в этом датафрейме и считаем разницу
diff = (temp_df.tail(1).date.values - temp_df.head(1).DT.values)
# из полученного diff типом timedelta получаем фактическое количество дней
diff = diff[0].days
# в датафрейме temp_df_c берем и обрезаем датафрейм по нужным нам значениям в выбранном столбце
temp_df_c = df_c.loc[df_c['cat_number']=='5111-0395']
# в столбец lifetime (не созданный до этого) кладем diff
temp_df_c['lifetime'] = diff
все ок, все работает.
Последней строчкой пандас сам создает столбец lifetime, в который кладет значение, содержащееся в diff
Переходим к циклу, который не работает:
# для каждого i-того уникального вхождения в столбце cat_number в датафрейме df
for i in df.cat_number.unique():
# сохраняем в temp_df обрезанный датафрейм с условием по столбцу cat_number, равным i
temp_df = df[df['cat_number']==i].sort_values(['DT','date'], ascending = (True, True))
# получаем аналогичным образом diff
diff = (temp_df.tail(1).date.values - temp_df.head(1).DT.values)
# приводим diff к удобному виду
diff = diff[0].days
# в другой датафрейм df_c, обрезанный по условию в столбце cat_number, равному i, в новый (не созданный до этого) столбец кладем diff
df_c[df_c['cat_number']==i]['lifetime'] = diff
вся эта штука с каждым новым i в цикле переписывает (каждый раз создает заново) столбец lifetime. Как мне применить .append тут (чтобы цикл не переписывал значение) я так и не понял. Поможете?
проще перепиши через apply
Если так: df_c[df_c[‘cat_number]==i][‘lifetime’].apply(diff) То не хочет работать.
Хм. Про лямбды не подумал.
Обсуждают сегодня