apache-spark — все вопросы

1ответ
4 голоса
Зачем увеличивать spark.yarn.executor.memoryOverhead?
Я пытаюсь объединить два больших фрейма данных spark и продолжаю сталкиваться с этой ошибкой: Container killed by YARN for exceeding memory limits. 24 GB of 22 GB physical memory used. Consider b
2ответа
4 голоса
AWS Glue: Как добавить столбец с исходным именем файла в выводе?
Кто-нибудь знает, как добавить исходное имя файла в виде столбца в задании Glue? Мы создали поток, в котором мы сканировали некоторые файлы в S3, чтобы создать схему. Затем мы написали задание, к
2ответа
4 голоса
Нет модуля с именем graphframes Jupyter Notebook
Я следую этому руководству по установке, но у меня возникла следующая проблема с использованием ---- +: = 0 = + ---- graphframes    ----------------------------------------------- -----------
1ответ
4 голоса
Как взорвать набор данных в файле JSON с помощью функции разнесения в R?
Примечание . Я сослался на ответ , но данные не являются вложенными, но Я не могу преобразовать данные в формат файла CSV. Я хочу сгладить данные разных типов, используя функцию разнесения . Н
1ответ
4 голоса
Проблема с сохранением искры DataFrame в виде таблицы Hive
У меня есть два фрейма данных spark. Один из них получен из таблицы улья с использованием HiveContext: spark_df1 = hc.sql("select * from testdb.titanic_pure_data_test") Фрейм данных второй
1ответ
4 голоса
Могут ли исполнители Spark появляться в уже запущенном Java-процессе (Ignite JVM)
Я работаю над проектом, в котором мне нужно поделиться состоянием выполнения с другим приложением spark. Я решил использовать apache-ignite в качестве общего хранилища для разных приложений spa
1ответ
4 голоса
Обнаружен декартово произведение для соединения INNER в буквальном столбце PySpark
Следующий код вызывает исключение «Обнаружено декартово произведение для INNER join»: first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spa
1ответ
4 голоса
Spark с использованием рекурсивного класса case
У меня есть реструктурированная структура данных. Spark выдает эту ошибку: Exception in thread "main" java.lang.UnsupportedOperationException: cannot have circular references in class, but got the
1ответ
4 голоса
Spark: вычесть значения в одной строке DataSet
Учитывая следующий набор данных: | title | start | end | bla | 10 | 30 Я хотел бы найти разницу (начало - конец) между двумя числами и поместить их в новый столбец, чтобы он выглядел следу
1ответ
4 голоса
В pyspark почему `limit` с последующим` repartition` создают абсолютно равные размеры разделов?
Согласно В документации pyspark , repartition предполагается использовать хеш-разбиение, что даст несколько неравные размеры разделов. Тем не менее, я обнаружил, что если ему предшествует limit, он
1ответ
4 голоса
Spark структурированный поток ровно один раз - не достигнуто - дублированные события
Я использую структурированную потоковую передачу Spark для получения событий от Kafka и загрузки их на S3. Контрольные точки фиксируются на S3: DataFrameWriter<Row> writer = input.writeSt
1ответ
4 голоса
Почему этот код LR работает на свече слишком медленно?
потому что MLlib не поддерживает разреженный ввод. Поэтому я запускаю текущий код, который поддерживает разреженный формат ввода, на кластерах искр. И настройка: 5 узлов, каждый узел с 8 ядрами
2ответа
4 голоса
Открытие CSV-файлов Spark /Scala
Я новичок в Spark и Scala. У нас есть файлы журналов рекламных событий, отформатированные как CSV, а затем сжатые с помощью pkzip. Я видел много примеров того, как распаковать сжатые файлы с помощью
1ответ
4 голоса
Не удается обработать определенное количество строк с помощью Spark Streaming
Я использую Spark-1.0.0 на кластере из 3 узлов с 1 ведущим и 2 подчиненными. Я пытаюсь запустить алгоритм LR через Spark Streaming. package org.apache.spark.examples.streaming; import java.io.Buf
1ответ
4 голоса
Апач Спарк с поведением Кассандры
Я пишу отдельную программу Spark, которая получает данные от Кассандры. Я следовал примерам и создал RDD с помощью newAPIHadoopRDD () и класса ColumnFamilyInputFormat. СДР создан, но я получаю NotSe
1ответ
4 голоса
В спарк, что параметр «minPartitions» работает в SparkContext.textFile (путь, minPartitions)?
В Spark, либо SparkContext, либо JavaSparkContext, есть один параметр - minPartitions, когда вы вызываете sc.textFile. что означает этот параметр?
1ответ
4 голоса
Разъем Spark Cassandra - где оговорка
Я пытаюсь выполнить некоторые аналитические работы с данными временных рядов, хранящимися на кассандре, с помощью spark и нового соединителя, опубликованного Datastax. В моей схеме ключ раздела -
2ответа
4 голоса
Установка свойств упругого поиска в spark-submit
Я пытаюсь запустить задания Spark, использующие ввод Elastic Search через командную строку, используя spark-submit, как описано в http://www.elasticsearch.org/guide/en/elasticsearch/hadoop/current/
2ответа
4 голоса
Apache Spark для S3 проблема с загрузкой производительности
Я вижу серьезную проблему с производительностью, когда Apache Spark загружает свои результаты в S3. Насколько я понимаю, идут эти шаги ... Выходные данные последнего этапа записываются в таблиц
1ответ
4 голоса
Spark: не удается запустить терасорт, когда объем данных увеличивается
У меня есть спарк-верстак, который включает в себя терасорт, и он работает правильно, когда объем данных составляет всего несколько сотен ГБ, но когда я генерирую больше данных, таких как 1 ТБ, на к
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132