от
Я пытаюсь использовать линейную регрессию на простой таблицы данных с одной особенностью и одной метки, используя Python pyspark в Databricks. Однако, я бегу в некоторых вопросах с этапа отказа. Я просмотрел много подобных проблем, но большинство из них в Scala или выходит за рамки того, что я здесь делаю. Варианты: Ноутбук: Databricks 5.3 (включает Apache искры 2.4.0, Скала 2.11) Python версии: 2 Вот что я сделал: Оригинальные таблицы данных выглядит так:
    df_red = df_extra.select('cca3', 'class', 'device_id').groupby('cca3').pivot('class').count()

    display(df_red)
Я хочу, чтобы 'мак' столбца, как мой лейбл и "другой" колонке, как свою единственную функцию. 2.Колонка бросить cca3 и создать ярлык/характеристика
features = ['other']
lr_data = df_red.drop('cca3').select(col('mac').alias('label'), *features)
display(lr_data)
Создать вектор ассемблер и удалить нулевые значения в таблице данных
assembler = VectorAssembler(inputCols = features, outputCol = "features")
output = assembler.transform(lr_data)
new_lr_data = output.select("label", "features").where(col('label').isNotNull())
new_lr_data.show()
Линейная Регрессионная Модель Подходит:
# Fit the model
lr = LinearRegression(maxIter=10, regParam=0.3, elasticNetParam=0.8)
lrModel = lr.fit(new_lr_data)

# Print the coefficients and intercept for linear regression
print("Coefficients: %s" % str(lrModel.coefficients))
print("Intercept: %s" % str(lrModel.intercept))

# Summarize the model over the training set and print out some metrics
trainingSummary = lrModel.summary
#print("numIterations: %d" % trainingSummary.totalIterations)
#print("objectiveHistory: %s" % str(trainingSummary.objectiveHistory))
#trainingSummary.residuals.show()
#print("RMSE: %f" % trainingSummary.rootMeanSquaredError)
#print("r2: %f" % trainingSummary.r2)
На данный момент я получаю ошибку ниже: орг."Апач".искры.SparkException: прервана работа из-за неисправности: Задача 73 в стадии 979.0 не 1 раз, последний отказ: потерянный задач 73.0 в стадии 979.0 (Тид 32624, локальный, исполнитель водителя): орг."Апач".искры.SparkException: не удалось выполнить пользовательские функция($anonfun$4: (структура) => структуры,значений:массив>) Что вызывает вышеупомянутую ошибку в Databricks? Может ли это быть потому что я использовал только одну особенность, в отличие от многих особенностей (обычно бывает)? Любая помощь будет высоко ценится!

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
Анти-спам проверка:
Чтобы избежать проверки в будущем, пожалуйста войдите или зарегистрируйтесь.
...