apache-spark-dataset — все вопросы

1ответ
4 голоса
Spark с использованием рекурсивного класса case
У меня есть реструктурированная структура данных. Spark выдает эту ошибку: Exception in thread "main" java.lang.UnsupportedOperationException: cannot have circular references in class, but got the
2ответа
4 голоса
как использовать искровую задержку и опережение по группам и упорядочить по
я использую: ` dataset.withColumn("lead",lead(dataset.col(start_date),1).over(orderBy(start_date))); ` я просто хочу добавить группу по trackId, так что ведите работу над каждой группой как любу
1ответ
4 голоса
Схема Spark из класса case с правильной обнуляемостью
Для пользовательского метода transformSchema оценщика мне нужно уметь сравнивать схему входного фрейма данных со схемой, определенной в классе наблюдения.Обычно это может быть выполнено как Генерация
1ответ
4 голоса
Как использовать как dataset.select, так и selectExpr в apache spark
Я хочу ниже упомянутые данные, используя набор данных Spark (2.2)Я пытался использовать следующее:Это вызывает исключение как ---- +: = 2 =: + ---- столбец не найден.
1ответ
4 голоса
Искровая ошибка: невозможно найти кодировщик для типа, хранящегося в наборе данных
Я использую Spark на ноутбуке Zeppelin, и groupByKey (), похоже, не работает.Этот код:Дает мне эту ошибку (предположительно, ошибка компиляции, так как она обнаруживается очень быстро, в то время как
1ответ
4 голоса
Почему dataset.count () быстрее, чем rdd.count ()?
Я создал Spark ---- +: = 0 =: + ---- :Когда я запустил ---- +: = 2 =: + ---- он дал мне результат в ---- +: = 3 =: + ---- (на 4-ядерном 8GB-компьютере).Кроме того, созданная им группа DAG выглядит сле
2ответа
4 голоса
Spark Dataframes - сокращение по ключу
Допустим, у меня есть такая структура данных, где ts - это временная меткаУчитывая большое количество этих записей, я хочу получить запись с самой высокой отметкой времени для каждого идентификатора.И
1ответ
4 голоса
Как преобразовать набор данных в JavaPairRDD?
Существуют методы для преобразования набора данных в JavaRDD.Есть ли другие способы конвертировать набор данных в ---- +: = 1 =: + ---- ?
2ответа
4 голоса
Отображение значений строки Spark DataSet в новый хеш-столбец
Учитывая следующее ---- +: = 0 =: + ---- значения как ---- +: = 1 =: + ---- :В Spark - эффективный способ вычислить новый столбец ---- +: = 3 =: + ---- и добавить его в новый ---- +: = 4 =: + ----, --
2ответа
4 голоса
Scala API Spark SQL - TimestampType - не найден кодировщик для org.apache.spark.sql.types.TimestampType
Я использую Spark 2.1 с Scala 2.11 на ноутбуке DatabricksЧто такое TimestampType?Мы знаем , что из документации SparkSQL в это официальный тип временной метки является TimestampType, который, по- види
1ответ
4 голоса
Как добавить столбец со значением в новый набор данных в Spark Java?
Итак, я создаю несколько наборов данных из API Java Spark.Эти наборы данных заполняются из таблицы улья с использованием метода spark.sql ().Итак, после выполнения некоторых операций sql (например, об
2ответа
8 голосов
Набор данных Spark выбирается с помощью напечатанного столбца
Если посмотреть на функцию select() в искровом DataSet, то есть различные сгенерированные сигнатуры функций: (c1: TypedColumn[MyClass, U1],c2: TypedColumn[MyClass, U2] ....) Похоже, это намекае
2ответа
9 голосов
Перезаписать только некоторые разделы в многораздельном наборе данных spark
Как мы можем перезаписать многораздельный набор данных, но только те разделы, которые мы собираемся изменить? Например, пересчет ежедневной работы за последнюю неделю и перезапись только данных за п
2ответа
21 голос
Кодировщик для наборов данных Spark Row Type
Я хотел бы написать кодировщик для Тип строки в DataSet для операции с картой, которую я выполняю. По сути, я не понимаю, как писать кодировщики. Ниже приведен пример операции с картой: In t
3ответа
21 голос
Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession?
В чем разница между SparkContext, JavaSparkContext, SQLContext и SparkSession? Существует ли какой-либо метод для преобразования или создания контекста с использованием SparkSession? Можно ли п

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132