pandas — все вопросы

2ответа
4 голоса
Проверьте, существует ли значение в столбце в URL, используя функцию lamda
У меня есть датафрейм с двумя столбцами. Один - это URL, а другой - имя пользователя. +----------------------------------------+---------------+ | URL | Userna
1ответ
4 голоса
Преобразование мультииндексного фрейма данных pandas в мультиколонку
Я пытался изменить форму данных панд в течение двух дней. Я хотел бы преобразовать мой многоиндексный фрейм данных в многостолбцовую форму, но потерпел неудачу, используя pd.stack (), pd.unstack (),
1ответ
4 голоса
Как улучшить производительность работы фильтра pandas GroupBy?
Я впервые задаю вопрос. Я работаю с большим набором данных CSV (он содержит более 15 миллионов строк и имеет размер более 1,5 ГБ). Я загружаю выдержки в кадры данных Pandas, работающие в Блокн
1ответ
4 голоса
Как найти последний кластер в строке данных pandas?
Если у меня есть такой фрейм данных Pandas: A B C D E F G H I J 1 1 NaN 1 1 NaN 1 NaN 1 1 1 2 NaN NaN 1 NaN 1 1 1 1 NaN NaN 3 NaN NaN NaN 1 1
1ответ
4 голоса
Сгруппируйте и найдите разницу от минимального значения группы: Панды
У меня есть группа, подобная следующей: как узнать разницу каждого наблюдения с минимальным значением группы GROUP VALUE 1 5 2 2 1 10 2 20 1 7 Итак, мой желаемый резуль
1ответ
4 голоса
Почему легенда сюжета теряет маркеры при выполнении нескольких сюжетов?
Простой сюжет с пандами дает ожидаемый результат с маркером круга на легенде: import io import pandas import matplotlib import statsmodels import matplotlib.pyplot import statsmodels.tsa.api caus
1ответ
4 голоса
Каковы альтернативные методы для панда квантиль и вырезать в pyspark 1.6
Я новичок в pyspark. У меня есть код панды, как показано ниже. bindt = df[df[var].notnull()][var].quantile([0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1]).unique() df['{0}_quartile'.format(var)] = pd.cut(df[va
2ответа
4 голоса
Группировать по группам, затем усреднять
Допустим, у меня есть датафрейм (я буду использовать простой пример), который выглядит следующим образом: import pandas as pd df = {'Col1':[3,4,2,6,5,7,3,4,9,7,1,3], 'Col2':['B','B','B','B'
2ответа
4 голоса
Фильтр данных Pandas на основе условия для первых n строк
У меня есть данные в форме [600 000, 19]. Я хочу отфильтровать первые 100 000 строк на основе одного условия, следующие 300 000 строк на основе другого условия и 3-е условие для последних строк. Мне
1ответ
4 голоса
Панда скользящая медиана для повторяющихся данных временного ряда
Я вижу, что Pandas пока не позволяет дублировать индексы временных рядов ( https://github.com/pydata/pandas/issues/643 ), но будет добавлено в ближайшее время. Мне интересно, есть ли хороший спосо
3ответа
4 голоса
Импорт путаницы панд
До сегодняшнего дня у меня было 0,71 панды. Я попытался обновить и просто запустил файл .exe, предоставленный веб-сайтом. сейчас я попробовал "импортировать панд", но потом выдает ошибку Impor
3ответа
4 голоса
выбор данных на панели панд с помощью MultiIndex
У меня есть DataFrame с MultiIndex, например: In [1]: arrays = [['one','one','one','two','two','two'],[1,2,3,1,2,3]] In [2]: df = DataFrame(randn(6,2),index=MultiIndex.from_tuples(zip(*arrays)),co
1ответ
4 голоса
Pandas Pytables предупреждения и низкая производительность
Я тестировал панды и таблицы для некоторых больших наборов финансовых данных и наткнулся на настоящий камень преткновения: При хранении в файле pytables панды хранят многомерные данные в виде мас
1ответ
4 голоса
Pandas Casting ISO String для datetime64
Я рассчитываю быстро привести примерно ~ 10-20M строк даты и времени ISO с точностью до микросекунды к datetime64 для использования в качестве индекса DataFrame в пандах. Я нахожусь на пандах 0.9
2ответа
4 голоса
понимание MultiIndex
Итак, у меня есть пример данных, подобный этому, в csv: - name team date score John A 3/9/12 100 John B 3/9/12 99 Jane B 4/9/12 102 Peter A 9/9/12
1ответ
4 голоса
Реиндексация панд действительна только для объектов индекса с уникальным значением
Установлена ​​последняя версия pandas 0.9.0 на случай ошибки. РЕДАКТИРОВАТЬ: забыл упомянуть, что это Python 2.7.  Попытка прочитать файл Excel. Эта часть кажется в порядке.  Первоначально я пробова
2ответа
4 голоса
эффективный способ получения первой отфильтрованной строки для каждой записи DatetimeIndex
У меня есть DataFrame со следующей структурой: <class 'pandas.core.frame.DataFrame'> DatetimeIndex: 3333 entries, 2000-01-03 00:00:00+00:00 to 2012-11-21 00:00:00+00:00 Data columns: open
2ответа
4 голоса
Рассчитать время в определенном состоянии для данных временных рядов
У меня есть нерегулярно проиндексированный временной ряд данных с разрешением в секундах, например: import pandas as pd idx = ['2012-01-01 12:43:35', '2012-03-12 15:46:43', '2012-09-26 18:
2ответа
4 голоса
Как сделать так, чтобы при построении двух серий панд в одной ячейке ноутбука ipython использовались разные цвета?
Когда я запускаю это в одной ячейке, обе линии графика отображаются синим цветом. Я мог бы поклясться, что видел, как Уэс делал демонстрацию детских имен с двумя сюжетами, где две линии сюжета выход
2ответа
4 голоса
Как сделать так, чтобы при построении двух серий панд в одной ячейке ноутбука ipython использовались разные цвета?
Когда я запускаю это в одной ячейке, обе линии графика отображаются синим цветом. Я мог бы поклясться, что видел, как Уэс делал демонстрацию детских имен с двумя сюжетами, где две линии сюжета выход
1 2 3 4 5 6 7

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132