от
Я работаю над набором данных, который имеет около 26 миллионов строк и 13 столбцов, в том числе двух столбцов datetime начальной даты и конечной даты. Я пытаюсь создать новый логический столбец, чтобы проверить, если есть любые американские праздники между этими датами. Я использую функцию применить ко всей таблице данных, но время выполнения слишком медленно. Код работает уже более 48 часов на облачной платформе доолго (24Гб оперативной памяти, 4 ядра). Есть ли быстрый способ сделать это? Код, который я использую -
import pandas as pd
import numpy as np
from pandas.tseries.holiday import USFederalHolidayCalendar as calendar

df = pd.read_pickle('dataGT70.pkl')
cal = calendar()
def mark_holiday(df):
    df.apply(lambda x: True if (len(cal.holidays(start=x['dep_date'], end=x['arr_date']))>0 and x['num_days']

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Добро пожаловать на сайт ByNets, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...