rdd — все вопросы

1ответ
11 голосов
Удалите недопустимые символы из данных, хранящихся в Spark RDD
У меня есть PySpark RDD, импортированный из файлов JSON. Элементы данных содержат ряд значений с символами, которые нежелательны. В качестве аргумента в этих файлах JSON должны быть только те символ
3ответа
12 голосов
Является ли groupByKey когда-либо предпочтительным по сравнению с ReduByKey
Я всегда использую reduceByKey, когда мне нужно сгруппировать данные в RDD, потому что он выполняет уменьшение на стороне карты перед перетасовкой данных, что часто означает, что меньше данных перета
3ответа
14 голосов
Понимание кеширования, сохраняющееся в Spark
Может ли кто-нибудь поправить мое понимание о сохранении Spark. Если мы выполнили функцию cache () для RDD, ее значение кэшируется только на тех узлах, на которых RDD был вычислен изначально. Это
3ответа
14 голосов
Как рассчитать лучшее количество разделений для объединения?
Итак, я понимаю, что в общем случае следует использовать coalesce(), когда:    количество разделов уменьшается из-за filter или другой операции, которая может привести к сокращению исходного набо
3ответа
14 голосов
Как перенести СДР в Spark
У меня есть RDD как это: 1 2 3 4 5 6 7 8 9 Это матрица. Теперь я хочу перенести СДР следующим образом: 1 4 7 2 5 8 3 6 9 Как я могу это сделать?
1ответ
14 голосов
Умножение матриц в Apache Spark [закрыто]
Я пытаюсь выполнить матричное умножение, используя Apache Spark и Java. У меня есть 2 основных вопроса: Как создать RDD, который может представлять матрицу в Apache Spark? Как умножить два
2ответа
15 голосов
Spark RDD - всегда ли раздел (ы) в оперативной памяти?
Мы все знаем, что Spark выполняет вычисления в памяти. Мне просто интересно узнать следующее. Если я создаю 10 RDD в моей оболочке pySpark из HDFS, значит ли это все эти 10 RDD данные будут хра
1ответ
17 голосов
Вызывает ли смешение разделенных RDD перестановку в Apache Spark?
В результате rdd1.join(rdd2) и rdd2 имеют один и тот же разделитель?
3ответа
20 голосов
Как найти размер спарк-RDD /Dataframe?
Я знаю, как найти размер файла в scala. Но как найти размер RDD /dataframe в spark? Scala: object Main extends App { val file = new java.io.File("hdfs://localhost:9000/samplefile.txt").toStri
3ответа
21 голос
Разница между SparkContext, JavaSparkContext, SQLContext и SparkSession?
В чем разница между SparkContext, JavaSparkContext, SQLContext и SparkSession? Существует ли какой-либо метод для преобразования или создания контекста с использованием SparkSession? Можно ли п
2ответа
21 голос
Как конвертировать Spark RDD в pandas dataframe в ipython?
У меня есть RDD, и я хочу преобразовать его в pandas dataframe. Я знаю, что конвертировать и RDD в обычный dataframe df = rdd1.toDF() Но я хочу преобразовать RDD в pandas dataframe и не является
2ответа
22 голоса
Преобразовать простую однострочную строку в RDD в Spark
У меня есть простая строка: line = "Hello, world" Я хотел бы преобразовать его в RDD только с одним элементом. Я пытался sc.parallelize(line) Но это получится: sc.parallelize(line).colle
4ответа
22 голоса
Как получить SQL-код row_number для Spark RDD?
Мне нужно создать полный список чисел row_numbers для таблицы данных со многими столбцами. В SQL это будет выглядеть так: select key_value, col1, col2, col3, row_number() over (p
1ответ
27 голосов
Spark RDD - отображение с дополнительными аргументами
Можно ли передать дополнительные аргументы в функцию отображения в pySpark? В частности, у меня есть следующий рецепт кода: raw_data_rdd = sc.textFile("data.json", use_unicode=True) json_data_rdd
2ответа
33 голоса
Объединение наборов данных различных RDD в Apache Spark с использованием Scala
Есть ли способ объединить наборы данных двух разных RDD в искре? Требование - я создаю два промежуточных RDD с использованием scala с одинаковыми именами столбцов, мне нужно объединить эти резуль
1ответ
142 голоса
Спарк производительности для Scala против Python
Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам. С этим предположен

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132