text-processing — все вопросы

2ответа
4 голоса
Авто генерировать резюме из строк
Учитывая ввод строк, нам нужно создать очень простую форму резюме, обрезав конец строк до заданной длины. Вот первая версия функции: // Take an array of strings and generate a summary within a
2ответа
4 голоса
Заменить текст регулярным выражением в возвышенном тексте
Как заменить текст частью старого текста в возвышенном тексте. У меня есть: <span class="foo">some text</span> <span class="foo">another text</span> Я хочу: <b&g
2ответа
4 голоса
обработка текста: sed, чтобы работать в обратном направлении, чтобы удалить до строки
Мой сценарий AWK генерирует 1 из следующих 2 выходных данных в зависимости от того, в каком текстовом файле он используется. 49 1146.469387755102 mongodb 192.168.0.8:27017 -p mongodb.database 1 1
2ответа
4 голоса
perl - разбить строку на 2-символьные группы [дубликаты]
   Возможный дубликат: Как разделить строку на куски по два символа в Perl? Я хотел разбить строку на массив, сгруппировав его по 2-символьным фрагментам: $input = "DEADBEEF"; @outpu
2ответа
4 голоса
Почему «\ r \ n» .split («\ r \ n») возвращает пустой массив?
У меня есть регулярное выражение "[\ r \ n \ f] +", чтобы найти количество строк, содержащихся в строке. Мой код такой: pattern = Pattern.compile("[\\r\\n\\f]+") String[] lines = pattern.split(tex
1ответ
4 голоса
пакет qdap: ошибка при преобразовании нулевых цифр в «нулевые» слова
Прежде чем (как новичок) я отправлю это в виде ошибки пакета R, позвольте мне его запустить.Я думаю, что все следующее хорошо:Я думаю, что все следующее плохо, потому что "ноль" отсутствует в выводе:П
4ответа
4 голоса
Определение ключевых слов (языка программирования)
это продолжение моего недавнего вопроса ( Код для определения языка программирования в текстовом файле ).Я очень благодарен за все ответы, которые я получил, это мне очень помогло.Мой код для этой зад
2ответа
4 голоса
Сохранить определенную часть огромного текстового файла (более 2 ГБ)
У меня есть большие файлы журналов, которые содержат временные метки каждую секунду. Мне нужно вырезать определенную пользователем часть из этого огромного файла и сохранить ее в другом текстовом файл
2ответа
4 голоса
Замените длинный список слов в большом текстовом файле
мне нужен быстрый метод для работы с большим текстовым файлому меня есть 2 файла, большой текстовый файл (~ 20 Гб) и другой текстовый файл, который содержит ~ 12 миллионов списков комбо словя хочу най
7ответов
4 голоса
Алгоритм оценки количества английских слов перевода из японского источника
Я пытаюсь найти способ оценить количество английских слов, в которые переводится с японского.Японский язык имеет три основных сценария - кандзи , хирагана и катакана - и у каждого разное среднее отнош
2ответа
4 голоса
Как убрать двойные кавычки в этом AWK и вставить первую запись?
Пытаюсь найти список всех уникальных производителей в моем коде AWK.У меня он успешно извлекает их из CSV с помощью следующего и выводит в текстовый файл с разделителями строк для будущего импорта php
4ответа
4 голоса
Есть ли в zip-файлах модуль python для сопоставления регулярных выражений
У меня более миллиона текстовых файлов, сжатых в 40 zip-файлов.У меня также есть список около 500 наименований моделей телефонов.Я хочу узнать, сколько раз конкретная модель упоминалась в текстовых фа
3ответа
4 голоса
tf-idf: я правильно понимаю?
Я заинтересован в кластеризации некоторых документов, и сейчас я рассматриваю возможность использования TF-IDF для этого.Если я не ошибаюсь, TF-IDF особенно используется для оценки релевантности докум
2ответа
4 голоса
подробности о следующих условиях обработки естественного языка?
Существуют ли библиотеки, которые я могу использовать для выполнения любых из перечисленных выше функций НЛП?на самом деле не хочется тратить деньги на AlchemyAPI
5ответов
4 голоса
Алгоритм классификации текста
У меня есть миллионы коротких (до 30 слов) документов, которые мне нужно разделить на несколько известных категорий.Возможно, что документ соответствует нескольким категориям (редко, но возможно).Такж
7ответов
4 голоса
Можете ли вы действительно создать быстрый текстовый процессор с GoF Design Patterns?
Шаблоны Банды Четырех используют текстовый процессор в качестве примера, по крайней мере, для некоторых из их шаблонов, в частности, Composite и Flyweight.Помимо использования C или C ++, вы могли бы
6ответов
4 голоса
Алгоритм генерации «топ-списка» по частоте слов
У меня есть большая коллекция контента, созданного человеком.Я хочу найти слова или фразы, которые встречаются чаще всего.Какой эффективный способ сделать это?
5ответов
4 голоса
обработка текста из неплоского файла (для извлечения информации, как если бы это был * простой файл)
У меня есть набор продольных данных, сгенерированный компьютерной симуляцией, который может быть представлен в следующих таблицах (переменные 'var'):а такжеОднако сгенерированный файл записывает файл
3ответа
4 голоса
Удаление стоп-слов из одной строки
Мой запрос ---- +: = 0 =: + ---- где ---- +: = 1 =: + ---- это стоп-слово.Как я могу удалить его, чтобы получить ---- +: = 2 =: + ---- в качестве вывода.Я пробовал это с ---- +: = 3 =: + ----, но он в
2ответа
4 голоса
tm custom removePunctuation, кроме хэштега
У меня есть набор твитов из твиттера. Я очищаю этот корпус (removeWords, tolower, delete URls) и, наконец, также хочу удалить пунктуацию. Вот мой код: tweetCorpus <- tm_map(tweetCorpus, remo
1 2 3 4 5

Популярные теги

security × 330linux × 316macos × 2827 × 268performance × 244command-line × 241sql-server × 235joomla-3.x × 222java × 189c++ × 186windows × 180cisco × 168bash × 158c# × 142gmail × 139arduino-uno × 139javascript × 134ssh × 133seo × 132mysql × 132