tf-idf — все вопросы

2ответа
23 голоса
TFIDF для большого набора данных
У меня есть корпус, который содержит около 8 миллионов новостных статей, мне нужно получить представление TFIDF в виде разреженной матрицы. Я смог сделать это, используя scikit-learn для сравнительн
2ответа
7 голосов
В NLTK реализован TF-IDF?
Есть реализации TF-IDF в scikit-learn и gensim. Существуют простые реализации Простая реализация подобия N-Gram, tf-idf и Cosine в Python Чтобы не изобретать велосипед, Действительно ли
0ответов
7 голосов
Как рассчитать TF-IDF запроса?
Как рассчитать ---- +: = 0 =: + ---- для запроса?Я понимаю, как рассчитать tf-idf для набора документов со следующими определениями:tf = вхождения в документе /всего слов в документеidf = log (#docume
0ответов
5 голосов
Переход от CountVectorizer к TfidfTransformer в sklearn
Я обрабатываю в sklearn огромное количество текстовых данных.Сначала мне нужно векторизовать текстовый контекст (количество слов), а затем выполнить TfidfTransformer.У меня есть следующий код, который
1ответ
5 голосов
Как сделать матрицу TF-IDF плотной?
Я использую TfidfVectorizer для преобразования коллекции необработанных документов в матрицу функций TF-IDF, которую я затем планирую ввести в алгоритм k-средних (который я буду реализовывать). В
0ответов
5 голосов
Алгоритм Python и tfidf, сделать его быстрее?
Я реализую алгоритм tf-idf в веб-приложении с использованием Python, однако он работает очень медленно.В основном я делаю следующее:1) Создайте 2 словаря:Первый словарь: ключ (идентификатор документа)
0ответов
5 голосов
TD-IDF Найти косинусное сходство между новым документом и набором данных
У меня есть матрица TF-IDF набора данных продуктов:где слова - это список описаний.В результате получается матрица 69258x22024.Теперь я хочу найти косинусное сходство между новым продуктом и продуктам
0ответов
5 голосов
как использовать tf-idf с наивным байесовским методом?
В соответствии с моим поиском по запросу, который я публикую здесь, у меня есть много ссылок, предлагающих решение, но я не упомянул, как именно это должно быть сделано.Я изучил, например, следующие с
0ответов
5 голосов
Java API: загрузка и вычисление tf-idf для данной веб-страницы
Я новичок в ИК-методах.Я ищу API на основе Java или инструмент, который делает следующее.Загрузите указанный набор URL-адресовИзвлеките токеныУдалите стоп-словаВыполнить стеммингСоздать инвертированны
0ответов
5 голосов
Интуиция позади tf-idf для извлечения термина
Я пытаюсь создать словарь слов, используя tf-idf .Однако интуитивно это не имеет смысла.Если часть обратной частоты документа ( idf ) в tf-idf вычисляет релевантность термина по отношению ко всему кор
0ответов
5 голосов
Почему Cosine Similarity и TF-IDF используются вместе?
---- +: = 0 =: + ---- и ---- +: = 1 =: + ---- - это часто используемая комбинация для кластеризации текста.Каждый документ представлен векторами весов TF-IDF.Это то, что говорит мой учебник.С помощью
0ответов
5 голосов
Heroku /Rails: Как установить научную библиотеку GNU (GSL) на Heroku?
Мне нужно установить библиотеку GSL в Heroku, где запущено приложение Rails (4.0.2), чтобы использовать некоторые гемы, которые зависят от него.Цель: установить библиотеку GSL для работы с гемами GSL
0ответов
5 голосов
TF-IDF и ранее невиданные условия
TF-IDF (термин частота - обратная частота документа) является основным элементом поиска информации.Это не правильная модель, и, похоже, она ломается, когда в корпус вводятся новые термины.Как люди спр
0ответов
5 голосов
Python tf-idf: быстрый способ обновления матрицы tf-idf
У меня есть набор данных из нескольких тысяч строк текста, моя цель - вычислить оценку tfidf, а затем определить сходство между документами. Это то, что я сделал, используя gensim в Python, следуя инс
0ответов
5 голосов
Использование k-средних для кластеризации документов, должна ли кластеризация быть подобной косинусу или векторам терминов?
Извините, если ответ на этот вопрос очевиден, пожалуйста, будьте добры, я здесь впервые :-)Я был бы признателен, если бы кто-то мог дать мне руководство по подходящей структуре входных данных для k-ср
0ответов
4 голоса
TF IDF сходство
Я использую TF /IDF для расчета сходства.Например, если у меня есть следующие два документа.Это нормально, это сходство будет 50%, но когда я вычисляю его TF /IDF.Это как следоватьЗначения Tf для Doc
0ответов
4 голоса
Как я делаю классификацию, используя TfidfVectorizer плюс метаданные на практике?
Я использую попытку классифицировать некоторые документы на два класса, в которых я использую TfidfVectorizer в качестве метода извлечения функций.Входные данные состоят из строк данных, содержащих ок
3ответа
4 голоса
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого.Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности докум
1ответ
4 голоса
Получить название документа в матрице scikit-learn tf-idf
Я создал матрицу tf-idf, но теперь я хочу получить 2 лучших слова для каждого документа.Я хочу передать идентификатор документа, и он должен дать мне лучшие 2 слова.Прямо сейчас у меня есть этот приме
1ответ
4 голоса
вычисление TF-IDF для слов в документах в solr и java
Я могу легко получить TF, посчитав количество Термин в документе, и я хочу знать, как рассчитать частоту документа, то есть количество документов, которые содержат этот терминДо сих пор я достиг запро
1 2

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132