- > в текстовый файл. Хочу библиотеку подобрать Python. Посоветуйте кто сталкивался. Vosk или есть лучше аналоги?
Whisper
Спасибо. Там токены и вроде ограничения по ним. 2 терабайта думаю лучше на локальной машине обработать
Но воском не пользовался, утверждать что он хуже виспера не буду
А у wispera сколько на одном аке получалось достать текста? Помните?
Не, я по доброму. Просто с обработкой звука не работал раньше. Хочу посоветоваться, кто что знает. Что бы не переделывать потом под другую модель распознавания
Есть cuda - совсем хорошо, нет - на цпу посчитает.
Спасибо за подсказку.
Так в любом случае переделывать, если появляются более точные модели
Ну тоже верно. Wisper все хвалят. Только у меня объем файлов mp3 огромный.
Я бы с интересом ознакомился бы со сравнением Whisper с Яндексом (и Тиньковым). Все-таки они давно этим занимаются
Кстати, у вас двухканальный mp3? Ну может вы еще не знаете, но оно надо
Если для товарища майора это делаете то выбивайте бюджет
Думаю в моно. 1 канал. Там записи звонков менеджеров компании за 2 года
Так идите сразу ругайтесь, чтобы делали стерео. Очевидно же.
Не) у нас программа переобучения менеджеров. Продажников будут учить на их же ошибках
Ну и если компания то тоже решаемо )
Надо стерео? Понял. Спасибо за подсказку. Уделю этому внимание
Если проведу такой опыт, то поделюсь. Как бы не забыть только?))) если хотите, добавьте меня в личку. Попозже спишимся
Я диктофонное моно обрабатывал - вроде все нормально было
Мне кажется что по умолчанию звонки и диктофоны пишутся в моно
Это не технологический момент, а информационный. Просто разумно иметь в данных признак кто что сказал, а не просто сплошной текст
Да, следующий момент. Я пока его не трогаю, есть два варианта на примете. Попробовать как то инициалищировать тембр голоса например по частотам и обработанный язык писать с ключами менеджер : клиент
Насколько помню виспер спикеров не разделяет.
Оо, у меня есть схожая с вашей задача. Есть записи телефонных разговоров отдела продаж за 3 года в mp3. Было бы неплохо перегнать это в текст, и проанализировать на предмет: что чаще спрашивают клиенты, где косячат менеджеры Проблема в том, что я пока не знаю как перегнать аудио в текст и как дальше подступиться к анализу естественного языка
Да, моя задача такая же. Ну вроде решается. Дорогу осилит идущий
Если с мат статистикой дружите, то думаю, найти зависимости после "перегонки" - дело времени
Ну как сказать дружу. Я вроде технарь, дружу с математикой, в универе давныыыым-давно был курс матана :) Но я ни разу не аналитик данных, я маркетолог. Просто такая задача была бы полезна в текущей работе с клиентом. А аналитика, кто бы мог этим заняться нет. Могу в личку написать в случае если возникнут проблемы?
Да. К тому же готовое решение думаю уже будет
Ну и? Ставишь локально и поехали
😊😊😊 На гит хабе исходники. Попробую, что за зверь)
https://t.me/alternative_service/61 гляьте тут. Есть от OpenAI релиз, но посмотрите еще whisper.cpp, он недавно расширился поддержкой GPU, перегонять файлы по циклу может быть удобнее и быстрее, чем тащить либу на питоне, в репе есть пункт про скорость работы
Обсуждают сегодня