rdd — все вопросы

1ответ
4 голоса
Метод Apache Spark, возвращающий RDD (с хвостовой рекурсией)
СДР имеет родословную и поэтому не существует до тех пор, пока над ним не выполнено действие; Итак, если у меня есть метод, который выполняет многочисленные преобразования в СДР и возвращает преобра
1ответ
4 голоса
Apache Spark RDD разделение и присоединение
Когда я join два RDD s где данные фактически соединены, то есть данные агрегируются в драйвере и затем отправляются обратно на рабочие узлы, или один из узлов случайно выбирается для «приема» данных?
2ответа
4 голоса
Конвертировать объекты JSON в RDD
Я не знаю, является ли этот вопрос повторением, но почему-то все ответы, с которыми я столкнулся, не работают для меня (возможно, я делаю что-то не так). У меня есть класс, определенный таким обр
1ответ
4 голоса
Искра - вложенная операция RDD
У меня есть два RDD говорят rdd1 = id | created | destroyed | price 1 | 1 | 2 | 10 2 | 1 | 5 | 11
1ответ
4 голоса
Имена столбцов Spark DataFrame не передаются на подчиненные узлы?
Я применяю функцию, скажем, f () через метод map к строкам DataFrame (назовите ее df ), но я вижу исключение NullPointerException при вызове collect для результирующего RDD, если df.columns передано
1ответ
4 голоса
Как объединить два RDD в Spark?
У меня есть 2 JavaRDD. Первый из них JavaRDD<CustomClass> data а второй JavaRDD<Vector> features Мой пользовательский класс имеет 2 поля, текст (String) и метку (int). У меня е
1ответ
4 голоса
Apache Spark DAGScheduler Пропавшие родители на сцене
При запуске моей итеративной программы на Apache Spark я иногда получаю сообщение: INFO scheduler.DAGScheduler: Missing parents for Stage 4443: List(Stage 4441, Stage 4442) Я понимаю, это означ
1ответ
4 голоса
Как преобразовать RDD <String> в СДР <Вектор> в искре?
У меня есть файл, где каждая строка находится таким образом info1,info2 info3,info4 ... После сканирования я хочу запустить алгоритм k-средних: val rawData = sc.textFile(myFile) val conve
2ответа
4 голоса
Недостаточно места для кэширования rdd в памяти.
Я выполняю задание "спарк" и получаю недостаточно места для кэширования rdd_128_17000 в памяти . Однако в прилагаемом файле, очевидно, говорится, что используется только 90,8 G из 719,3 G . Это по
1ответ
4 голоса
Какова цель кэширования RDD в Apache Spark?
Я новичок в Apache Spark, и у меня есть пара основных вопросов по искре, которые я не мог понять, читая материал по искрам.Каждый материал имеет свой стиль объяснения.Я использую ноутбук PySpark Jupyt
1ответ
4 голоса
Сохраняет ли spark все элементы RDD [K, V] для определенного ключа в одном разделе после «groupByKey», даже если данные для ключа очень большие?
Считайте, что у меня есть PairedRDD, скажем, 10 разделов.Но ключи распределены неравномерно, т. Е. Все 9 разделов, имеющих данные, принадлежат одному ключу, скажем ---- +: = 0 =: + ----, а остальные к
1ответ
4 голоса
СДР в DataFrame в pyspark (столбцы из первого элемента rdd)
Я создал rdd из файла CSV, и первая строка является строкой заголовка в этом файле CSV.Теперь я хочу создать фрейм данных из этого rdd и сохранить столбец из 1-го элемента rdd.Проблема в том, что я мо
1ответ
4 голоса
Записывает ли Spark промежуточные выходные данные в случайном порядке на диск
Я читаю Learning Spark , и я не понимаю, что это значит, что выходные данные Spark в случайном порядке записываются на диск.См. Главу 8, Настройка и отладка Spark, стр. 148-149:Внутренний планировщик
3ответа
4 голоса
Как я могу посчитать среднее значение от Spark RDD?
У меня есть проблема с Spark Scala, которую я хочу посчитать среднее из данных Rdd, я создаю новый RDD, как это,Я хочу считать их так,тогда получите такой результат,Как я могу сделать это с Scala от R
2ответа
4 голоса
Сравните данные в двух RDD в спарк
Я могу напечатать данные в двух RDD с кодом ниже.Мне нужно сравнить данные в двух СДР.Как я могу перебрать и сравнить полевые данные в одном RDD с полевыми данными в другом RDD.Например: выполнить ите
3ответа
4 голоса
Разница между RDD и партиями в Spark?
СДР представляет собой набор элементов, разделенных между узлами кластера.Это основной компонент и абстракция.Пакеты : SparkStreaming API просто делит данные на пакеты, что также объединяет одну и ту
1ответ
4 голоса
Функция Spark Java Map выполняется дважды
Выше приведен код в качестве драйвера Spark, когда я выполняю свою программу, она работает правильно, сохраняя необходимые данные в виде файла Parquet.Но я заметил, что моя функция отображения на RDD
2ответа
4 голоса
Как преобразовать объект Avro Schema в StructType в спарк
У меня есть RDD типа Row, т.е. RDD [Row] и объект схемы avro. Мне нужно создать фрейм данных с этой информацией.Мне нужно преобразовать объект схемы Avro в StructType для создания DataFrame.Не могли б
2ответа
4 голоса
Pyspark объединить два RDD вместе
У меня есть два RDD, которые оба являются результатом группы и выглядят так:а такжеКак я могу объединить два и получить следующее:Я попробовал команду соединения, но это не дало мне результат, который
2ответа
4 голоса
Почему этот код Spark генерирует исключение java.io.NotSerializableException
Я хочу получить доступ к методу сопутствующего объекта внутри преобразования в СДР.Почему не работает следующее:Приведенный выше фрагмент кода генерирует ---- +: = 1 =: + ---- :Даже определение ---- +
1 2 3

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132