Как использовать векторы MFCC для классификации одного аудиофайла?

Это, наверное, очень глупый вопрос, но я нигде не смог найти подробностей.

Итак, у меня есть аудиозапись (wav-файл) длиной 3 секунды. Это мой образец, и его нужно классифицировать как [class_A] или [class_B].

Следуя некоторой инструкции по MFCC, я разделил образец на кадры (точнее 291 кадр) и получил MFCC от каждого кадра.

Теперь у меня есть 291 векторов объектов, длина каждого вектора равна 13.

Мой вопрос как именно вы используете эти векторы с классификатором (например, k-NN)? У меня есть 291 векторов, которые представляют 1 образец. Я знаю, как работать с 1 вектором для 1 образца, но я не знаю, что делать, если у меня их 291. Я нигде не мог найти объяснения.

4 голоса | спросил nnyjoh 14 Maypm13 2013, 18:56:59

1 ответ


0

Каждый из ваших векторов будет представлять спектральные характеристики вашего аудиофайла, так как он изменяется во времени. В зависимости от длины ваших кадров, вы можете сгруппировать некоторые из них (например, путем усреднения по измерению), чтобы соответствовать разрешению, с которым вы хотите, чтобы классификатор работал. В качестве примера рассмотрим конкретный звук, который может иметь огибающую со временем атаки 2 мс: он может быть настолько детализированным, насколько вы хотите получить с помощью квантования времени, чтобы вы могли a) группировать и усреднять количество векторов MFCC которые представляют 2 мс; или б) пересчитать MFCC с желаемым временным разрешением.

Если вы действительно хотите, чтобы разрешение было таким хорошим, вы можете объединить 291 вектор и рассматривать его как один вектор (с размерами 291 x 13), который, вероятно, будет нуждаться в огромном наборе данных для обучения.

ответил jimijazz 8 +03002015-10-08T17:32:55+03:00312015bEurope/MoscowThu, 08 Oct 2015 17:32:55 +0300 2015, 17:32:55

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132