pyspark — все вопросы

2ответа
4 голоса
AWS Glue: Как добавить столбец с исходным именем файла в выводе?
Кто-нибудь знает, как добавить исходное имя файла в виде столбца в задании Glue? Мы создали поток, в котором мы сканировали некоторые файлы в S3, чтобы создать схему. Затем мы написали задание, к
1ответ
4 голоса
Что эквивалентно значению Panda value_counts () в PySpark?
У меня есть следующая команда python /pandas: df.groupby('Column_Name').agg(lambda x: x.value_counts().max() где я получаю значения для ВСЕХ столбцов в объекте DataFrameGroupBy. Как мне сдел
2ответа
4 голоса
Pandas to PySpark: преобразование столбца списков кортежей в отдельные столбцы для каждого элемента кортежа
Мне нужно преобразовать DataFrame, в котором один из столбцов состоит из списка кортежей, каждый элемент в каждом из кортежей должен быть отдельным столбцом. Вот пример и решение в Pandas: impo
1ответ
4 голоса
Проблема с сохранением искры DataFrame в виде таблицы Hive
У меня есть два фрейма данных spark. Один из них получен из таблицы улья с использованием HiveContext: spark_df1 = hc.sql("select * from testdb.titanic_pure_data_test") Фрейм данных второй
1ответ
4 голоса
Обнаружен декартово произведение для соединения INNER в буквальном столбце PySpark
Следующий код вызывает исключение «Обнаружено декартово произведение для INNER join»: first_df = spark.createDataFrame([{"first_id": "1"}, {"first_id": "1"}, {"first_id": "1"}, ]) second_df = spa
1ответ
4 голоса
Каковы альтернативные методы для панда квантиль и вырезать в pyspark 1.6
Я новичок в pyspark. У меня есть код панды, как показано ниже. bindt = df[df[var].notnull()][var].quantile([0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1]).unique() df['{0}_quartile'.format(var)] = pd.cut(df[va
1ответ
4 голоса
В pyspark почему `limit` с последующим` repartition` создают абсолютно равные размеры разделов?
Согласно В документации pyspark , repartition предполагается использовать хеш-разбиение, что даст несколько неравные размеры разделов. Тем не менее, я обнаружил, что если ему предшествует limit, он
1ответ
4 голоса
Загрузка файла hdf5 больше памяти в pyspark
У меня есть большой файл (скажем, 20 Гб), хранящийся в формате HDF5. Файл в основном представляет собой набор трехмерных координат, которые меняются со временем (траектория молекулярного моделирован
3ответа
4 голоса
сохранение файла данных в файл JSON на локальном диске в pyspark
У меня есть фрейм данных, который я пытаюсь сохранить как файл JSON с помощью pyspark 1.4, но он, похоже, не работает. Когда я даю ему путь к каталогу, он возвращает ошибку о том, что он уже существ
1ответ
4 голоса
Как добавить массив numpy.array в качестве нового столбца в фрейм данных pyspark.SQL?
Вот код для создания DataFrame pyspark.sql import numpy as np import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext df = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7
1ответ
4 голоса
SparkSQL - функция задержки?
Я вижу в этом пост DataBricks , в SparkSql есть поддержка оконных функций, в частности я пытаюсь использовать оконную функцию lag (). У меня есть строки транзакций по кредитным картам, и я отсор
5ответов
4 голоса
Настройка ноутбука Ipython /Jupyter с Pyspark в AWS EMR v4.0.0
Я пытаюсь использовать ноутбук IPython с Apache Spark 1.4.0. Я следовал 2 урокам ниже, чтобы настроить мою конфигурацию Установка ноутбука Ipython с pyspark 1.4 на AWS и Настройка поддер
1ответ
4 голоса
Искра - вложенная операция RDD
У меня есть два RDD говорят rdd1 = id | created | destroyed | price 1 | 1 | 2 | 10 2 | 1 | 5 | 11
3ответа
4 голоса
Заправка Spark RDD и чтение в Python
Я пытаюсь сериализовать Spark RDD путем его протравливания и чтения протравленного файла непосредственно в Python. a = sc.parallelize(['1','2','3','4','5']) a.saveAsPickleFile('test_pkl') Затем
1ответ
4 голоса
Верхний треугольник декартовых в искре для симметричных операций: `x * (x + 1) //2` вместо` x ** 2`
Мне нужно вычислить попарно симметричные оценки для элементов списка в Spark. То есть score(x[i],x[j]) = score(x[j], x[i]). Одним из решений является использование x.cartesian(x). Однако он будет вы
2ответа
4 голоса
Является ли ALS детерминированным?
У меня есть вопрос об использовании ALS для рекомендательных двигателей? Является ли ALS детерминированным? Например, если вы вводите одни и те же данные и одни и те же параметры, должны ли вы всегда
2ответа
4 голоса
RDD.checkpoint () не хранит никаких данных в каталоге контрольных точек
Я установил каталог контрольных точек с помощью метода sc.setCheckpointDir. /checkpointDirectory/ Затем я создал контрольную точку rdd: rdd.checkpoint(), и теперь в каталоге я вижу новый катало
1ответ
4 голоса
Вперед заполнить пропущенные значения в Spark /Python
Я пытаюсь заполнить пропущенные значения в моем фрейме данных Spark предыдущим ненулевым значением (если оно существует). Я делал подобные вещи в Python /Pandas, но мои данные слишком велики для Pan
1ответ
4 голоса
Доступ к столбцу подсчета в PySpark
code: mydf = testDF.groupBy(testDF.word).count() mydf.show() output: +-----------+-----+ | word|count| +-----------+-----+ | she| 2208| | mothers| 93| | poet| 59| | m
1ответ
4 голоса
Фильтровать строки в кадре данных Spark из слов в RDD
У меня есть следующие команды в спарке, data = sqlContext.sql("select column1, column2, column3 from table_name") words = sc.textFile("words.txt") words.txt содержит несколько слов, а данные и
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132