Менее известные метрики сходства строк

Ответ на этот вопрос может быть сложным, но я что-то исследую, и мне было интересно, знает ли кто-нибудь о «менее известных» показателях сходства строк (см. на этой странице с примерами известных). Я был в Википедии, и у Sourceforge есть хорошая библиотека под названием Simmetrics с набор алгоритмов строковых метрик . Кто-нибудь провел какое-то исследование или нашел какой-то строковый алгоритм, который привлек ваше внимание как мало используемый?

Спасибо.

4 голоса | спросил Dervin Thunk 31 J000000Friday09 2009, 08:06:57

4 ответа


0

Эта страница (LingPipe) дает некоторые советы по сравнению строк. В нем говорится о расстоянии Дамерау-Левенштейна, алгоритме Нидлмана-Вунша, расстоянии Жакара, расстоянии Яро-Винклера, расстоянии TF /IDF. Расстояние понимается как сходство между двумя строками.

В конце страницы приводятся ссылки, а также готовая к использованию реализация Java ( скачать и лицензировать )

ответил Guido 2 PM000000110000002431 2009, 23:05:24
0

Существует также класс фонетических алгоритмов (например, Soundex ), который может добавить ваш список.

ответил JP Alioto 1 AM00000080000004631 2009, 08:12:46
0

Ознакомьтесь с http://us.php.net/manual/en. /function.levenshtein.php включая все ссылки "Смотрите также" и все комментарии пользователей.

ответил Chloe 3 PM000000120000000631 2009, 12:37:06
0

SpSim (сходство правописания) - это мера сходства строк, предназначенная для выявления родственные языки (слова, имеющие одинаковое происхождение).

ответил Luís Gomes 14 +04002011-10-14T17:21:56+04:00312011bEurope/MoscowFri, 14 Oct 2011 17:21:56 +0400 2011, 17:21:56

Похожие вопросы

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132