apache-spark — все вопросы
2ответа
10 голосов
Создание сортированного слова с Spark
В настоящее время я изучаю, как использовать Apache Spark . Для этого я применил простой wordcount (не оригинальный, я знаю). В документации, содержащей необходимый код, уже существует пример. Одна
10ответов
151 голос
Как прочитать несколько текстовых файлов в одном СДР?
Я хочу прочитать несколько текстовых файлов из местоположения hdfs и выполнить сопоставление с ним в итерации, используя spark.
JavaRDD<String> records = ctx.textFile(args[1], 1); может чит
1ответ
142 голоса
Спарк производительности для Scala против Python
Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам.
С этим предположен
4ответа
55 голосов
Обновление столбца данных в спарк
Если посмотреть на новый API-интерфейс Spark для данных, неясно, можно ли изменять столбцы данных.
Как мне изменить значение в строке x столбец y фрейма данных?
В pandas это будет df.ix[x,y] =
3ответа
40 голосов
Когда аккумуляторы действительно надежны?
Я хочу использовать аккумулятор для сбора статистики о данных, которыми я манипулирую в задании Spark. В идеале я хотел бы сделать это, пока задание вычисляет требуемые преобразования, но поскольку
6ответов
37 голосов
Как развернуть DataFrame?
Я начинаю использовать Spark DataFrames, и мне нужно иметь возможность поворачивать данные для создания нескольких столбцов из 1 столбца с несколькими строками. Для этого в Scalding есть встроенная
5ответов
35 голосов
Создание списка для выбора нескольких столбцов во фрейме искровых данных
У меня есть фрейм с искровыми данными df. Есть ли способ выбрать несколько столбцов, используя список этих столбцов?
scala> df.columns
res0: Array[String] = Array("a", "b", "c", "d")
Я знаю,
7ответов
35 голосов
Удаление дубликатов из строк на основе определенных столбцов в RDD /Spark DataFrame
Допустим, у меня есть довольно большой набор данных в следующей форме:
data = sc.parallelize([('Foo',41,'US',3),
('Foo',39,'UK',1),
('Bar',57,'CA',2),
1ответ
35 голосов
Создать Spark DataFrame. Невозможно определить схему для типа: <type 'float'>
Может ли кто-нибудь помочь мне решить эту проблему с Spark DataFrame?
Когда я делаю myFloatRDD.toDF(), я получаю сообщение об ошибке:
TypeError: Невозможно определить схему для типа: тип 'f
5ответов
35 голосов
Посмотреть содержимое RDD в Python Spark?
Запуск простого приложения в pyspark.
f = sc.textFile("README.md")
wc = f.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add)
Я хочу просмотреть содержимое СДР с помощью дейс
5ответов
34 голоса
Как экспортировать таблицу данных в PySpark в CSV?
Я использую Spark 1.3.1 (PySpark) и сгенерировал таблицу с помощью SQL-запроса. Теперь у меня есть объект, который является DataFrame. Я хочу экспортировать этот объект DataFrame (я назвал его «табл
2ответа
34 голоса
Раздел DataFrameBy в один файл Parquet (на раздел)
Я хотел бы восстановить /объединить мои данные, чтобы они сохранялись в одном файле Parquet на раздел. Я также хотел бы использовать API Spark SQL partitionBy. Так что я мог бы сделать это так:
df
0ответов
34 голоса
Почему не удается выполнить задание с «Нет свободного места на устройстве», а df говорит иначе?
При выполнении шаффла мое задание Spark завершается неудачно и выдает сообщение «на устройстве не осталось места», но когда я запускаю df -h, оно говорит, что я свободного места осталось! Почему это
2ответа
33 голоса
Объединение наборов данных различных RDD в Apache Spark с использованием Scala
Есть ли способ объединить наборы данных двух разных RDD в искре?
Требование - я создаю два промежуточных RDD с использованием scala с одинаковыми именами столбцов, мне нужно объединить эти резуль
9ответов
32 голоса
Перезаписать определенные разделы в методе записи в искровой массив данных
Я хочу перезаписать определенные разделы вместо всех в spark. Я пытаюсь выполнить следующую команду:
df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')
где df - это фрейм д
3ответа
32 голоса
Apache Spark Скользящая средняя
У меня есть большой файл в HDFS с точками данных временных рядов (цены на акции Yahoo).
Я хочу найти скользящее среднее временного ряда, как мне написать работу Apache Spark для этого.
2ответа
31 голос
Spark DataFrame groupBy и сортировка по убыванию
Я использую pyspark (Python 2.7.9 /Spark 1.3.1) и у меня есть объект GroupObject, который мне нужно отфильтровать сортировать по убыванию. Попытка достичь этого с помощью этого куска кода.
group_b
4ответа
30 голосов
Какие преобразования Spark вызывают Shuffle?
У меня проблемы с поиском в документации по Spark операций, вызывающих случайное перемешивание, а операций - нет. В этом списке, какие из них вызывают случайные изменения, а какие нет?
Карта и фи
7ответов
29 голосов
Spark Streaming - читайте и пишите в теме Кафки
Я использую Spark Streaming для обработки данных между двумя очередями Kafka, но я не могу найти хороший способ писать на Kafka из Spark. Я пробовал это:
input.foreachRDD(rdd =>
rdd.foreachPa
0ответов
29 голосов
Spark - извлечение одного значения из DataFrame
У меня есть запрос Spark DataFrame, который гарантированно возвращает один столбец с одним значением Int. Каков наилучший способ извлечь это значение как Int из результирующего DataFrame?