apache-spark — все вопросы

1ответ
4 голоса
Загрузка файла hdf5 больше памяти в pyspark
У меня есть большой файл (скажем, 20 Гб), хранящийся в формате HDF5. Файл в основном представляет собой набор трехмерных координат, которые меняются со временем (траектория молекулярного моделирован
3ответа
4 голоса
сохранение файла данных в файл JSON на локальном диске в pyspark
У меня есть фрейм данных, который я пытаюсь сохранить как файл JSON с помощью pyspark 1.4, но он, похоже, не работает. Когда я даю ему путь к каталогу, он возвращает ошибку о том, что он уже существ
1ответ
4 голоса
Как передать аргумент пользовательской функции для mapPartitions в Spark?
В Spark вы можете использовать пользовательскую функцию для mapPartitions. Теперь мой вопрос: как я могу передать аргумент этому? Например, на данный момент у меня есть что-то вроде этого, которое в
1ответ
4 голоса
Как эффективно найти отдельные значения из каждого столбца в Spark
Чтобы найти отдельные значения из каждого столбца Array, который я пробовал RDD[Array[String]].map(_.map(Set(_))).reduce { (a, b) => (a.zip(b)).map { case (x, y) => x ++ y}} , который вып
1ответ
4 голоса
Обработка ошибок на уровне строк в Scala Spark
У меня возникли проблемы с выяснением того, как выполнять обработку ошибок на уровне строк с помощью программы Scala Spark. В приведенном ниже коде я читаю в текстовом файле CSV, анализирую его и со
1ответ
4 голоса
Как добавить массив numpy.array в качестве нового столбца в фрейм данных pyspark.SQL?
Вот код для создания DataFrame pyspark.sql import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7
2ответа
4 голоса
Лучшая практика для интеграции Kafka и HBase
Каковы лучшие практики для "импорта" потоковых данных из Kafka в HBase? Вариант использования следующий: данные датчика автомобиля передаются в Kafka. После этого эти сенсорные данные должны быть
2ответа
4 голоса
Конвертировать объекты JSON в RDD
Я не знаю, является ли этот вопрос повторением, но почему-то все ответы, с которыми я столкнулся, не работают для меня (возможно, я делаю что-то не так). У меня есть класс, определенный таким обр
1ответ
4 голоса
Почему при сбросе Dataframe в файл Avro не удается преобразовать bytearray в Python?
Я сталкиваюсь со следующей трудностью: Я использую Spark 1.4.1, Python 2.7.8 и spark-avro_2.10-1.0.0 Я пытаюсь сохранить байтовые массивы Python в файле avro с помощью spark-avro. Моя цель - хран
1ответ
4 голоса
SparkSQL - функция задержки?
Я вижу в этом пост DataBricks , в SparkSql есть поддержка оконных функций, в частности я пытаюсь использовать оконную функцию lag (). У меня есть строки транзакций по кредитным картам, и я отсор
1ответ
4 голоса
Разница между режимом пряжи-клиента и режимом пряжи-кластера
У меня небольшая проблема при запуске аналогичного кода в режиме Yarn-Client, а также в режиме Yarn-Cluster. Мой код прекрасно выполняется, когда я запускаю его в режиме клиента, но не запускается н
2ответа
4 голоса
Создание timeuuid для кассандровых вставок с Apache Spark
Я играю с Apache Spark и Apache Cassandra для анализа данных, и я борюсь со вставкой обратно в Cassandra с полями timeuuid. У меня есть следующая таблица CREATE TABLE leech_seed_report.daily_se
1ответ
4 голоса
Сохраняют ли файлы паркета порядок строк в Spark DataFrames?
Когда я сохраняю Spark DataFrame в виде файла паркета, а затем снова читаю его, строки результирующего DataFrame не совпадают с оригиналом, как показано в сеансе ниже. Это «особенность» DataFrames и
1ответ
4 голоса
Найти имя запущенного в данный момент SparkContext
Клянусь, я делал это раньше, но не могу найти ни код, ни ответ. Я хочу получить имя текущего запущенного SparkContext и прочитать его в переменную или распечатать на экране. Что-то вроде: val myCo
2ответа
4 голоса
Интерпретация результатов Spark MLLib LDA
Я запустил LDA на спарке для набора документов и заметил, что значения topicMatrix, который представляет распределение темы по терминам, больше 1, например 548.2201, 685.2436, 138.4013 ... Что означа
3ответа
4 голоса
Заправка Spark RDD и чтение в Python
Я пытаюсь сериализовать Spark RDD путем его протравливания и чтения протравленного файла непосредственно в Python. a = sc.parallelize(['1','2','3','4','5']) a.saveAsPickleFile('test_pkl') Затем
1ответ
4 голоса
Верхний треугольник декартовых в искре для симметричных операций: `x * (x + 1) //2` вместо` x ** 2`
Мне нужно вычислить попарно симметричные оценки для элементов списка в Spark. То есть score(x[i],x[j]) = score(x[j], x[i]). Одним из решений является использование x.cartesian(x). Однако он будет вы
2ответа
4 голоса
Как переформатировать вывод Spark Python
(u'142578', (u'The-North-side-9890', (u' 12457896', 45.0))) (u'124578', (u'The-West-side-9091', (u' 14578217', 0.0))) Это я получил от объединения двух RDD на основе идентификаторов. Это похож
1ответ
4 голоса
Имена столбцов Spark DataFrame не передаются на подчиненные узлы?
Я применяю функцию, скажем, f () через метод map к строкам DataFrame (назовите ее df ), но я вижу исключение NullPointerException при вызове collect для результирующего RDD, если df.columns передано
3ответа
4 голоса
Конвертировать ЧЧ: мм: сс в секундах
Я использую следующий скрипт для извлечения чч: мм: сс из формата гггг-мм-дд чч: мм: сс import java.sql.Time case class Transactions(creationTime: Time) val formatter = new SimpleDateFormat("y
1 2 3 4 5 6 7

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132