В чем разница между целевыми функциями «k означает» и «нечеткие c означает»?

Я пытаюсь понять, можно ли сравнить производительность обоих на основе целевых функций, над которыми они работают?

26 голосов | спросил n0ob 27 FebruaryEurope/MoscowbSat, 27 Feb 2010 04:37:22 +0300000000amSat, 27 Feb 2010 04:37:22 +030010 2010, 04:37:22

3 ответа


0

Кстати, Fuzzy-C-Means Алгоритм кластеризации a (FCM) также известен как Soft K-Means .

Целевые функции практически идентичны , единственное отличие заключается во введении вектора, который выражает процент принадлежности данной точки к каждому из кластеров. Этот вектор представлен показателю «жесткости», целью которого является придание большего значения более сильным связям (и, наоборот, минимизация веса более слабых); кстати, когда коэффициент жесткости стремится к бесконечности, результирующий вектор становится двоичной матрицей, что делает модель FCM идентичной модели K-средних.

Я думаю, что за исключением некоторой возможной проблемы с кластерами, которым не назначены точки, можно эмулировать алгоритм K-средних с алгоритмом FCM, моделируя бесконечный коэффициент жесткости (= путем введения функция, которая изменяет наибольшее значение в векторе на 1 и обнуляет другие значения вместо возведения в степень вектора). Это, конечно, очень неэффективный способ запуска K-средних, потому что алгоритм должен выполнить столько же операций, сколько и с истинным FCM (если только со значениями 1 и 0, что упрощает арифметику, но не сложность)

Что касается производительности , то для FCM необходимо выполнить k (то есть количество кластеров) умножений для каждой точки для каждого измерения (не считая также возведения в степень для учета жесткости). Это, плюс накладные расходы, необходимые для вычисления и управления вектором близости, объясняет, почему FCM работает намного медленнее, чем обычные K-средние.

Но FCM /Soft-K-Means менее «глупы», чем Hard-K-Means, когда речь идет, например, о вытянутых кластерах (когда точки, в других отношениях совместимые в других измерениях, имеют тенденцию рассеиваться вдоль определенного измерения или двух), и вот почему это все еще вокруг; -)

Из моего оригинального ответа:

Кроме того, я только что подумал об этом, но не придал этому никакого «математического» значения: FCM может сходиться быстрее, чем жесткие K-средства, что несколько компенсирует большие вычислительные требования FCM.

Май 2018 г., редактирование.

На самом деле нет авторитетного исследования, которое бы я смог определить, которое бы поддержало мою догадку о более высокой скорости сходимости FCM. Спасибо тебе Бенджамин Хорн за то, что сохранил мне честность; -)

ответил mjv 27 FebruaryEurope/MoscowbSat, 27 Feb 2010 06:02:22 +0300000000amSat, 27 Feb 2010 06:02:22 +030010 2010, 06:02:22
0

Кластеризация K-Means и Кластеризация средств Fuzzy-C очень похожа в подходах. Основное отличие состоит в том, что в кластеризации Fuzzy-C Means каждая точка имеет вес, связанный с конкретным кластером, поэтому точка не находится «в кластере», а имеет слабую или сильную связь с кластером, что определяется обратным расстоянием до центра кластера.

Fuzzy-C означает, что он будет работать медленнее, чем K, поскольку на самом деле он выполняет больше работы. Каждая точка оценивается с каждым кластером, и в каждой оценке участвует больше операций. K-Means просто нужно вычислить расстояние, тогда как нечёткое c означает, что нужно выполнить полное обратное взвешивание.

ответил Reed Copsey 27 FebruaryEurope/MoscowbSat, 27 Feb 2010 04:48:32 +0300000000amSat, 27 Feb 2010 04:48:32 +030010 2010, 04:48:32
0

люди написали технически, и каждый ответ хорошо написан. Но то, что я хочу сказать, то же самое на языке неспециалистов. K означает кластеризацию кластера всего набора данных в число K кластера, где данные должны принадлежать только одному кластеру. Нечеткие c-средства создают k чисел кластеров, а затем присваивают каждую информацию каждому кластеру, но они будут фактором, определяющим, насколько сильно данные принадлежат этому кластеру.

ответил sukhiray 29 J000000Friday16 2016, 09:24:16

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132