apache-spark — все вопросы

2ответа
10 голосов
Создание сортированного слова с Spark
В настоящее время я изучаю, как использовать Apache Spark . Для этого я применил простой wordcount (не оригинальный, я знаю). В документации, содержащей необходимый код, уже существует пример. Одна
10ответов
151 голос
Как прочитать несколько текстовых файлов в одном СДР?
Я хочу прочитать несколько текстовых файлов из местоположения hdfs и выполнить сопоставление с ним в итерации, используя spark. JavaRDD<String> records = ctx.textFile(args[1], 1); может чит
1ответ
142 голоса
Спарк производительности для Scala против Python
Я предпочитаю Python, а не Scala. Но, поскольку Spark изначально написан на Scala, я ожидал, что мой код будет работать быстрее в Scala, чем версия Python по понятным причинам. С этим предположен
4ответа
55 голосов
Обновление столбца данных в спарк
Если посмотреть на новый API-интерфейс Spark для данных, неясно, можно ли изменять столбцы данных. Как мне изменить значение в строке x столбец y фрейма данных? В pandas это будет df.ix[x,y] =
3ответа
40 голосов
Когда аккумуляторы действительно надежны?
Я хочу использовать аккумулятор для сбора статистики о данных, которыми я манипулирую в задании Spark. В идеале я хотел бы сделать это, пока задание вычисляет требуемые преобразования, но поскольку
6ответов
37 голосов
Как развернуть DataFrame?
Я начинаю использовать Spark DataFrames, и мне нужно иметь возможность поворачивать данные для создания нескольких столбцов из 1 столбца с несколькими строками. Для этого в Scalding есть встроенная
5ответов
35 голосов
Создание списка для выбора нескольких столбцов во фрейме искровых данных
У меня есть фрейм с искровыми данными df. Есть ли способ выбрать несколько столбцов, используя список этих столбцов? scala> df.columns res0: Array[String] = Array("a", "b", "c", "d") Я знаю,
7ответов
35 голосов
Удаление дубликатов из строк на основе определенных столбцов в RDD /Spark DataFrame
Допустим, у меня есть довольно большой набор данных в следующей форме: data = sc.parallelize([('Foo',41,'US',3), ('Foo',39,'UK',1), ('Bar',57,'CA',2),
1ответ
35 голосов
Создать Spark DataFrame. Невозможно определить схему для типа: <type 'float'>
Может ли кто-нибудь помочь мне решить эту проблему с Spark DataFrame? Когда я делаю myFloatRDD.toDF(), я получаю сообщение об ошибке:    TypeError: Невозможно определить схему для типа: тип 'f
5ответов
35 голосов
Посмотреть содержимое RDD в Python Spark?
Запуск простого приложения в pyspark. f = sc.textFile("README.md") wc = f.flatMap(lambda x: x.split(' ')).map(lambda x: (x, 1)).reduceByKey(add) Я хочу просмотреть содержимое СДР с помощью дейс
5ответов
34 голоса
Как экспортировать таблицу данных в PySpark в CSV?
Я использую Spark 1.3.1 (PySpark) и сгенерировал таблицу с помощью SQL-запроса. Теперь у меня есть объект, который является DataFrame. Я хочу экспортировать этот объект DataFrame (я назвал его «табл
2ответа
34 голоса
Раздел DataFrameBy в один файл Parquet (на раздел)
Я хотел бы восстановить /объединить мои данные, чтобы они сохранялись в одном файле Parquet на раздел. Я также хотел бы использовать API Spark SQL partitionBy. Так что я мог бы сделать это так: df
0ответов
34 голоса
Почему не удается выполнить задание с «Нет свободного места на устройстве», а df говорит иначе?
При выполнении шаффла мое задание Spark завершается неудачно и выдает сообщение «на устройстве не осталось места», но когда я запускаю df -h, оно говорит, что я свободного места осталось! Почему это
2ответа
33 голоса
Объединение наборов данных различных RDD в Apache Spark с использованием Scala
Есть ли способ объединить наборы данных двух разных RDD в искре? Требование - я создаю два промежуточных RDD с использованием scala с одинаковыми именами столбцов, мне нужно объединить эти резуль
9ответов
32 голоса
Перезаписать определенные разделы в методе записи в искровой массив данных
Я хочу перезаписать определенные разделы вместо всех в spark. Я пытаюсь выполнить следующую команду: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4') где df - это фрейм д
3ответа
32 голоса
Apache Spark Скользящая средняя
У меня есть большой файл в HDFS с точками данных временных рядов (цены на акции Yahoo). Я хочу найти скользящее среднее временного ряда, как мне написать работу Apache Spark для этого.
2ответа
31 голос
Spark DataFrame groupBy и сортировка по убыванию
Я использую pyspark (Python 2.7.9 /Spark 1.3.1) и у меня есть объект GroupObject, который мне нужно отфильтровать сортировать по убыванию. Попытка достичь этого с помощью этого куска кода. group_b
4ответа
30 голосов
Какие преобразования Spark вызывают Shuffle?
У меня проблемы с поиском в документации по Spark операций, вызывающих случайное перемешивание, а операций - нет. В этом списке, какие из них вызывают случайные изменения, а какие нет? Карта и фи
7ответов
29 голосов
Spark Streaming - читайте и пишите в теме Кафки
Я использую Spark Streaming для обработки данных между двумя очередями Kafka, но я не могу найти хороший способ писать на Kafka из Spark. Я пробовал это: input.foreachRDD(rdd => rdd.foreachPa
0ответов
29 голосов
Spark - извлечение одного значения из DataFrame
У меня есть запрос Spark DataFrame, который гарантированно возвращает один столбец с одним значением Int. Каков наилучший способ извлечь это значение как Int из результирующего DataFrame?
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132