apache-spark — все вопросы

4ответа
10 голосов
Как использовать mllib.recommendation, если идентификаторы пользователя являются строковыми, а не смежными целыми числами?
Я хочу использовать библиотеку Spark mllib.recommendation для создания системы рекомендаций по прототипам. Тем не менее, формат пользовательских данных, который у меня есть, имеет следующий формат:
2ответа
10 голосов
Класс com.hadoop.compression.lzo.LzoCodec не найден для Spark на CDH 5?
Я работал над этой проблемой два дня и до сих пор не нашел пути. Проблема . Наш Spark, установленный через новейший CDH 5, всегда жалуется на потерю класса LzoCodec, даже после того, как я устан
4ответа
10 голосов
Указание внешнего файла конфигурации для Apache Spark
Я хотел бы указать все свойства Spark в файле конфигурации, а затем загрузить этот файл конфигурации во время выполнения. ~~~~~~~~~~ Edit ~~~~~~~~~~~ Оказывается, я не совсем понял, как это
2ответа
10 голосов
Почему foreach ничего не вносит в программу драйвера?
Я написал эту программу в спарк-оболочке val array = sc.parallelize(List(1, 2, 3, 4)) array.foreach(x => println(x)) это печатает некоторые отладочные операторы, но не фактические числа.
2ответа
11 голосов
Лучшая практика тестирования интеграции больших данных [закрыто]
Я разыскиваю некоторые ресурсы о том, как лучше всего использовать конвейер приема данных на основе AWS, использующий Kafka, storm, spark (потоковая передача и пакетная обработка), которые считывают
1ответ
11 голосов
Scala & Spark: переработка операторов SQL
Я потратил довольно много времени на кодирование нескольких SQL-запросов, которые ранее использовались для извлечения данных для различных сценариев R. Вот как это работает sqlContent = readSQLFil
1ответ
11 голосов
Удалите недопустимые символы из данных, хранящихся в Spark RDD
У меня есть PySpark RDD, импортированный из файлов JSON. Элементы данных содержат ряд значений с символами, которые нежелательны. В качестве аргумента в этих файлах JSON должны быть только те символ
1ответ
11 голосов
Кэширование упорядоченного Spark DataFrame создает нежелательную работу
Я хочу преобразовать RDD в DataFrame и хочу кэшировать результаты RDD: from pyspark.sql import * from pyspark.sql.types import * import pyspark.sql.functions as fn schema = StructType([StructFiel
1ответ
11 голосов
Правильное сохранение /загрузка MatrixFactorizationModel
У меня есть объект MatrixFactorizationModel. Если я пытаюсь рекомендовать продукты для одного пользователя сразу после создания модели с помощью ALS.train (...), то это занимает 300 мс (для моих дан
2ответа
11 голосов
Spark-запрос выполняется очень медленно
У меня есть кластер на AWS с 2 рабами и 1 мастером. Все экземпляры имеют тип m1.large. У меня работает спарк версии 1.4. Я оцениваю производительность на 4 м данных, полученных из красного смещения.
1ответ
11 голосов
Как Spark отправляет закрытия рабочим?
Когда я пишу преобразование СДР, например, val rdd = sc.parallelise(1 to 1000) rdd.map(x => x * 3) Я понимаю, что замыкание (x => x * 3), которое является просто Function1, должно быть с
1ответ
11 голосов
Почему искровый исполнитель получает SIGTERM?
Я использую Spark API (API ядра Spark, а не Stream, SQL и т. д.) Я часто вижу такую ​​ошибку в журнале с дампом: Среда Spark: 1.3.1 пряжа-клиент ERROR executor.CoarseGrainedExecutorBackend: RECEIV
1ответ
11 голосов
Доступ к таблицам HBase через Spark
Я использую этот пример кода http://www.vidyasource.com/blog/Programming/Scala/Java/Data/Hadoop/Analytics/2014/01/25/lighting-a-spark-with-hbase для читать таблицу hbase, используя Spark, с единст
2ответа
11 голосов
Как получить DAG выполнения из веб-интерфейса spark после завершения задания, когда я запускаю spark на YARN?
Я часто делаю анализ DAG моей искровой работы, пока она выполняется. Но раздражает необходимость сидеть и наблюдать за приложением во время его работы, чтобы увидеть DAG. Итак, я попытался просмо
3ответа
11 голосов
Подключение к удаленному мастеру на отдельной Spark
Я запускаю Spark в автономном режиме на своем удаленном сервере, выполнив следующие шаги: cp spark-env.sh.template spark-env.sh литий> добавить к spark-env.sh SPARK_MASTER_HOST=IP_OF_MY_REMOT
3ответа
11 голосов
Livy Server в Amazon EMR зависает при подключении к ResourceManager
Я пытаюсь развернуть Livy Server в Amazon EMR. Сначала я построил главную ветвь Ливия. mvn clean package -Pscala-2.11 -Pspark-2.0 Затем я загрузил его на мастер кластера EMR. Я установил следую
1ответ
11 голосов
Запуск Spark на YARN в режиме кластера пряжи: Куда идет вывод консоли?
Я проследовал за этой страницей и запустил пример приложения SparkPi на YARN в режиме кластера пряжи. http://spark.apache.org/docs/latest/running-on-yarn .html Я не вижу вывод программы в ко
2ответа
11 голосов
pyspark: скользящее среднее с использованием данных временных рядов
У меня есть набор данных, состоящий из столбца отметки времени и столбца долларов. Я хотел бы найти среднее количество долларов в неделю, заканчивающееся на отметке времени каждой строки. Сначала я
2ответа
11 голосов
Разница между === нулевым и isNull в Spark DataDrame
Меня немного смущает разница, когда мы используем df.filter(col("c1") === null) and df.filter(col("c1").isNull) Тот же самый фрейм данных === ноль, но ноль считается в isNull. Пожалуйста, пом
2ответа
11 голосов
SPARK /SQL: искра не может разрешить символ toDF
В моем проекте моей внешней библиотекой будет spark-assembly-1.3.1-hadoop2.6.0, если я нажму '.', среда ID сообщит мне toDF(), но он сообщает, что не может разрешить символ toDF() когда я его кодиру
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132