Оптимизация числового расчета для аудио программы DSP

Я музыкант и пишу скрипт на python, который читает WAV-файл, использует быстрое преобразование Фурье, чтобы превратить его в пучок синусоидальных волн, а затем настраивает эти синусоидальные волны на их ближайшую частоту гармоник. Если все это звучит как бред, то это нормально, на мой вопрос можно ответить без каких-либо музыкальных знаний.

Когда я запускаю свой сценарий на довольно длинном .wav-файле, обработка следующего раздела сценария занимает несколько часов:

filtered_data_fft = np.zeros(data_fft.size)
for f in data_fft:
    if f > 1:
        valid_frequency = (np.abs(valid_frequencies - i)).argmin()
        filtered_data_fft[valid_frequency] += data_fft[i]
    i += 1

Оба массива, оканчивающиеся на fft, являются массивами, где индекс соответствует частоте, а массив valid_frequencies представляет собой список частот, которые соответствуют указанным индексам. Изначально я не использовал numpy массивы для всего, и для его запуска потребовалось так много времени, что я не смог обработать короткий звуковой файл за разумное время, но с numpy это намного быстрее. Кто-нибудь может придумать способ сделать его еще быстрее, чем этот? Я поставлю полный сценарий ниже.

Кроме того, есть два известных предупреждения о приведении комплексных значений к реальным, которые отбрасывают комплексное число, но я не думаю, что они являются проблемой. БПФ возвращает массив кортежей, где первое значение - это частота, а второе - комплексное число, представляющее то, что я не совсем понимаю, но в соответствии со страницей, на которой я следовал, чтобы узнать это, это не важно. Вот где я изучил этот материал: https://pythonforengineers.com/аудио-и-цифровой сигнал-processingdsp-в-питон /

По общему признанию, я не до конца понимаю многие вещи DSP, которые я делаю здесь, поэтому дайте мне знать, если я ужасно неправ в чем-то! Я просто пытаюсь сделать интересный способ превратить шум в музыку для проекта, над которым я работаю.

Вот аудио образец, с которым я тестирую: https://my.mixtape.moe/iltlos.wav (переименуйте его в missile.wav)

А вот полный сценарий (обновлен, чтобы быть правильным):

import struct
import wave
import numpy as np
import matplotlib.pyplot as plt


# import data from wave
wav_file = wave.open("missile.wav", 'r')
num_samples = wav_file.getnframes()
sampling_rate = wav_file.getframerate() / 2
data = wav_file.readframes(num_samples)
wav_file.close()

data = struct.unpack('{n}h'.format(n=num_samples), data)
data = np.array(data)

# fast fourier transform makes an array of the frequencies of sine waves that comprise the sound
data_fft = np.fft.rfft(data)


# generate list of ratios that can be used for tuning (not octave reduced)
MAX_HARMONIC = 5
valid_ratios = []
for i in range(1, MAX_HARMONIC + 1):
    for j in range(1, MAX_HARMONIC + 1):
        if i % 2 != 0 and j % 2 != 0:
            valid_ratios.append(i/float(j))
            valid_ratios.append(j/float(i))


# remove dupes
valid_ratios = list(set(valid_ratios))


# find all the frequencies with the valid ratios
valid_frequencies = []
multiple = 2
while(multiple < num_samples / 2):
    multiple *= 2

    for ratio in valid_ratios:
        frequency = ratio * multiple

        if frequency < num_samples / 2:
            valid_frequencies.append(frequency)



# remove dupes and sort and turn into a numpy array
valid_frequencies = np.sort(np.array(list(set(valid_frequencies))))


# bin the data_fft into the nearest valid frequency
valid_frequencies = valid_frequencies.astype(int)
boundaries = np.concatenate([[0], np.round(np.sqrt(0.25 + valid_frequencies[:-1] * valid_frequencies[1:])).astype(int)])
select = np.abs(data_fft) > 1
filtered_data_fft = np.zeros_like(data_fft)
filtered_data_fft[valid_frequencies] = np.add.reduceat(np.where(select, data_fft, 0), boundaries)


# do the inverse fourier transform to get a sound wave back
recovered_signal = np.fft.irfft(filtered_data_fft)

# write sound wave to wave file
comptype="NONE"
compname="not compressed"
nchannels=1
sampwidth=2

wav_file=wave.open("missile_output.wav", 'w')
wav_file.setparams((nchannels, sampwidth, int(sampling_rate), num_samples, comptype, compname))

for s in recovered_signal:
    wav_file.writeframes(struct.pack('h', s))

wav_file.close()
4 голоса | спросил halbe 8 Mayam18 2018, 07:22:21

2 ответа


0
Несколько замечаний по вашему сценарию:(1) Поскольку вы используете ---- +: = 0 =: + ---- , обратное совпадение будет ---- +: = 1 =: + ---- не ---- +:= 2 = + ----(2) В нынешнем виде сценарий принимает каждую частоту, кроме ---- +: = 3 =: + ---- как действительную (потому что ---- +: = 4 =: + ---- включена в ---- +: = 5 = + ----(3) Комплексное число на данной частоте содержит амплитуду и фазу (сдвиг) этой «синусоидальной волны».Я предполагаю, что вы хотите фильтровать по амплитуде.Для этого вы должны принять абсолютное значение комплексного числа, т.е. ---- +: = 6 =: + ---- и т. Д.(4) Если у вас есть хороший набор допустимых частот, вы можете действовать следующим образом.Я иду с предложением @Mateen Ulhaq об использовании геометрических средних точек.
ответил Paul Panzer 8 Mayam18 2018, 09:06:21
0
Вы пытаетесь скопировать или оцифровать ваши данные.Начните с определения границ вашего решения:Хотя вы можете добиться большего успеха, если будете использовать среднее арифметическое, а не среднее арифметическое.(Частотный анализ, как правило, больше относится к журналамТеперь вы просто оцифровываете свои данные, а затем выполняете подсчет появлений различных индексов:Возможно, еще быстрее это:Наконец, мы встраиваем их в правильные индексы:РЕДАКТИРОВАТЬ: Например,
ответил Mateen Ulhaq 8 Mayam18 2018, 07:44:46

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132