от
Смущает, почему кэшированные ДПП (конкретно 1-ая) тут демонстрируете разных
Storage Levels
в пользовательском интерфейсе искры основе фрагментов кода
print(spark.version)
2.4.3

# id 3 => using default storage level for df (memory_and_disk) and unsure why storage level is not serialized since i am using pyspark
df = spark.range(10)
print(type(df))
df.cache().count()

# id 15 => using default storage level for rdd (memory_only) and makes sense why it is serialized
rdd = df.rdd
print(type(rdd))
rdd.cache().collect()

# id 19 => manually configuring to (memory_and_disk) which makes the storage level serialized
df2 = spark.range(100)
from pyspark import StorageLevel
print(type(df2))
df2.persist(StorageLevel.MEMORY_AND_DISK).count()




Согласно документации искры сохранялись
python
объекты всегда
serialized
так почему первый
df
показывая
deserialized
? https://spark.apache.org/docs/latest/rdd-programming-guide.html#which-storage-level-to-choose Примечание: в Python хранимые объекты всегда будут сериализованы с библиотекой огурчик, так что не важно, выбираете ли вы сериализованный уровень. Доступные уровни хранения в Python включают MEMORY_ONLY, MEMORY_ONLY_2, MEMORY_AND_DISK, MEMORY_AND_DISK_2, DISK_ONLY, и DISK_ONLY_2. Хранилищем по умолчанию для
rdd
является
MEMORY_ONLY
и для
df
это
MEMORY_AND_DISK
поэтому не стоит искры пользовательского интерфейса показывает
serialized
для всех
pyspark
кэшированных таблиц данных?

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Анти-спам проверка:
Чтобы избежать проверки в будущем, пожалуйста войдите или зарегистрируйтесь.
...