sse — все вопросы

1ответ
4 голоса
Выравнивание SSE с классом
Возникла какая-то действительно странная проблема, и как новичок в C ++ я не знаю почему. struct DeviceSettings { public: ....somevariables DXSize BackbufferSize; ....somemethods }; struct D
2ответа
4 голоса
Убедитесь, что компилятор всегда использует инструкцию SSE sqrt
Я пытаюсь заставить GCC (или clang) последовательно использовать инструкцию SSE для sqrt вместо математической функции библиотеки для наукоемкого научного приложения. Я пробовал множество GCC на разл
1ответ
4 голоса
Можно ли векторизовать умножение в VC ++ без SSE4?
Я хочу векторизовать операцию умножения. Я пытался использовать _mm_mul_epi32, но мой процессор поддерживает только «MMX, SSE (1,2,3,3S), EM64T» инструкция. Может кто-нибудь сказать, могу ли я по
2ответа
4 голоса
Производительность Intel FFT
Какой процессор будет работать лучше, i5-2500K или i7-960 в отношении определенных операций FFT в секунду, например: сложное FFT на месте при длине буфера 16 КБ? Я спрашиваю об этом, потому ч
1ответ
4 голоса
16-байтовое выравнивание памяти с использованием инструкций SSE
Я пытаюсь избавиться от невыровненных загрузок и хранилищ для инструкций SSE для моего приложения, заменив _mm_loadu_ps() от _mm_load_ps() и выделение памяти с помощью: float *ptr = (flo
2ответа
4 голоса
Получить версию SSE без __asm ​​на x64
Я пытаюсь создать слегка модифицированные версии некоторых функций библиотеки CRT VS2010, все хорошо, за исключением частей, где она пытается получить доступ к глобальной переменной, которая предпол
1ответ
4 голоса
Эффективный способ создания битовой маски из нескольких номеров, возможно, с использованием инструкций SSE /SSE2 /SSE3 /SSE4
Предположим, у меня есть 16 символов ascii (следовательно, 16 8-битных чисел) в 128-битной переменной /регистре. Я хочу создать битовую маску, в которой эти биты будут высокими, чьи позиции битов (и
1ответ
4 голоса
SSE4 и SSE2 относительно целочисленной и плавающей производительности - что быстрее?
Хотя вы обычно получаете лучшую целочисленную арифметическую производительность, чем производительность с плавающей запятой на процессорах, кто-то может прояснить, что происходит с версиями SIMD.
1ответ
4 голоса
SSE версия мода
У меня есть следующая рабочая реализация modf с использованием встроенных функций SSE, но преобразование в __m128i и обратно в процессе, когда мне нужен результат как __m128. __m128 integer = _mm_
3ответа
4 голоса
Выравнивание памяти для SSE в C ++, эквивалент _aligned_malloc?
Мне было интересно, как я могу превратить этот код C в C ++ для выравнивания памяти. float *pResult = (float*) _aligned_malloc(length * sizeof(float), 16); Я посмотрел здесь и затем попробов
1ответ
4 голоса
реализовать _mm256_permutevar8x32_ps, используя инструкции AVX
Встроенный AVX2 _mm256_permutevar8x32_ps может выполнять перестановку по дорожкам, что весьма полезно для сортировки массива длиной 8. Теперь у меня есть только AVX (Ivy Bridge), и я хочу делать
2ответа
4 голоса
Поиск различий между победителями и победителями AVX2
Я оптимизирую часть «победитель получает все» алгоритма оценки диспаратности, используя AVX2. Моя скалярная процедура точна, но при разрешении QVGA и 48 различиях время работы на моем ноутбуке неуте
2ответа
4 голоса
Преобразовать _mm_shuffle_epi32 в выражение C для перестановки?
Я работаю над портом SSE2 для NEON. Порт находится на ранней стадии и дает неверные результаты. Одна из причин неправильных результатов - _mm_shuffle_epi32 и выбранные мной инструкции NEON. Докум
1ответ
4 голоса
Перемешать AVX 256 векторных элементов на 1 позицию влево /вправо - C intrinsics
Я пытаюсь найти более эффективный способ "вращать" или сдвигать 32-битные значения с плавающей запятой внутри вектора avx _m256 вправо или влево на одно место. Так, что: a7, a6, a5, a4, a3, a2
1ответ
4 голоса
Как разбить 128-битный регистр XMM на два 64-битных целочисленных регистра?
Как разбить 128-битный регистр xmm на два 64-битных четырехсловных слова? У меня очень большое число в xmm1, и я хочу получить старшее четырехсловое слово для r9 и нижнее четырехзначное слово к r
2ответа
4 голоса
Вычисление размера симметричной разности двух отсортированных массивов с использованием SIMD AVX
Я ищу способ оптимизировать алгоритм, над которым я работаю. Это самая повторяющаяся и, следовательно, интенсивная вычислительная часть, это сравнение двух отсортированных массивов любого размера, с
1ответ
4 голоса
приближение atan2 с 11 битами в мантиссе на x86 (с SSE2) и ARM (с vfpv4 NEON)
Я пытаюсь реализовать быстрый atan2 (float) с точностью 11 бит в мантиссе. Реализация atan2 будет использоваться для обработки изображений. Так что может быть лучше реализовать его с помощью инструк
2ответа
4 голоса
Как векторизовать функцию pow (с отрицательными основаниями)?
Я пытаюсь векторизовать (SSE /AVX) функцию pow. Во всех реализациях, которые я нашел, он просто векторизовался с использованием log и exp: pow(x, y) = exp(y * log(x)) Это работает хорошо для по
2ответа
4 голоса
Как получить доступ к члену m128i_i8 или членам в целом объекта __m128i?
Я понимаю, что Microsoft предлагает отказаться от прямого доступа к членам этих объектов, но мне нужно установить их и документация крайне отсутствует. Я продолжаю получать сообщение об ошибке
1ответ
4 голоса
Влияют ли ненормальные флаги, как Denormals-Are-Zero (DAZ), на сравнение на равенство?
Если у меня есть 2 денормальных числа с плавающей запятой с разными битовыми комбинациями и я сравниваю их на равенство, может ли на результат повлиять флаг Denormals-Are-Zero, флаг Flush-to-Zero ил
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132