4 онлайн-сервиса для расшифровки речи в текст на русском языке в 2023

В данной статье мы сравним сервисы автоматической транскрибации, которые распознают речь на русском языке и принимают оплату из РФ. Для сравнения мы взяли часовой подкаст из ютуба и расшифровали его в текст вручную. Затем эту запись подкаста мы загрузили в сервисы автоматической транскрибации и сравнили результаты с эталонной ручной расшифровкой

Оглавление

Как мы считали точность распознавания

Далее для каждого сервиса в сравнении мы указали результат по метрике WER. Частота ошибок в словах (Word Error Rate, WER) – это метрика, используемая в распознавании речи для оценки качества распознавания текста. WER измеряет процент ошибок в распознавании текста, выраженный в процентах от общего числа слов в исходном тексте.

Например, если исходный текст содержит 100 слов, а распознанный текст содержит 10 ошибок, WER будет равен 10%. Чем ниже WER, тем более точным является распознавание речи.

Помимо качества распознавания мы еще сравнили сервисы по следующим критериям:

  • стоимость за минуту расшифровки,
  • скорости обработки на примере часовой записи,
  • наличие функции разбивки текста по спикерам,
  • наличие встроенного редактора и его функциональность,
  • возможность экспорта текста

скриншот главной страницы teamlogs.ru

Teamlogs.ru – онлайн-сервис транскрибации аудио и видео. Сервис принимает любые аудио- и видеофайлы и расшифровывает их в текст, автоматически расставляет знаки препинания и делит текст по спикерам.

Стоимость расшифровки начинается от 7 рублей за минуту при покупке от 90 минут и выше при покупке менее 90 минут. Новым пользователям дается 15 бесплатных тестовых минут.

Транскрибация тестового файла стоила 522 рубля (58 минут), обработка файла заняла 6 минут.

Дополнительно следует отметить встроенный редактор текста с прослушиванием аудио, который может быть полезен для ревью распознанного материала. Экспорт текста в форматах *.docx, *.xlsx, *.srt.

скриншот окна с результатом распознавания, teamlogs.ru

Результат теста:

  • Частота ошибок в словах: 5.31%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: да

  • Наличие встроенного редактора: да, с функцией прослушивания аудио

  • Экспорт: *.docx, *.xlsx, *.srt

На что стоит обратить внимание:

  • Максимальный размер файла 800 мб

  • Аудиодорожка в редакторе хранится 30 дней

скриншот главной страницы realspeaker.net

Realspeaker.net – онлайн сервис с выбором множества языков для транскрибации. Стоимость минуты – 8 руб, бесплатно можно распознать аудио до 90 секунд, максимальная длительность загружаемого файла – 180 минут. Расшифровка тестового файла заняла 20 минут и стоила 427 рублей.

После завершения процесса расшифровки сервис предлагает перейти в раздел "Мои медиа", где среди различных файлов (!), вам необходимо найти свой. В данном разделе вы можете найти распознанные файлы всех пользователей данного сервиса. Текст мы получили без разбивки на спикеров.

скриншот окна с результатом распознавания, realspeaker.net

Сервис позволяет редактировать полученный текст, но без прослушивания и без сохранения изменений. Позже, когда мы вернулись за своим файлом в сервис, мы не смогли его найти, поэтому на картинке скрин рандомного файла.

Полученный текст можно скопировать, либо скачать в форматах *.srt или *.vtt

Результат теста:

  • Частота ошибок в словах: 23.79%
  • Скорости обработки на примере часовой записи: 20 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.srt, *.vtt

На что стоит обратить внимание:

  • Ваш текст окажется в открытом доступе, скачать его смогут все пользователи сайта
  • Максимальный длительность файла 180 минут

3. APIHOST

скриншот страницы apihost.ru/speech-to-text

Apihost – набор различных сервисов по работе с аудио и текстами, в числе которых есть и распознавание речи. Стоимость за минуту записи 2.4 руб, максимальный лимит на размер файла 200 мб. Чтобы загрузить файл бОльшего размера нужно писать на почту в поддержку. Стоимость транскрибации тестового файла составила 139,72 рублей, но заплатить пришлось 500 рублей, так как это минимальная сумма пополнения.

По скорости расшифровки: первая загрузка файла завершилась неудачей, сервис не отвечал в течение 15 минут, пришлось грузить повторно. Со второй попытки файл был переведен в текст за 6 минут.

скриншот окна с результатом распознавания, apihost.ru/speech-to-text

Текст со знаками препинания, но без разбивки по спикерам. После транскрибации сервис не позволяет редактировать файл, его можно только посмотреть. Текст скачать можно как файл *.txt, *.doc или просто скопировать текст.

Результат теста:

  • Частота ошибок в словах: 15.68%

  • Скорости обработки на примере часовой записи: 6 минут

  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: отсутствует
  • Экспорт: *.txt, *.doc

На что стоит обратить внимание:

  • Максимальный размер файла 200 мб
  • Минимальная сумма пополнения от 500 рублей

скриншот главной страницы speechtotext.ru

Speechtotext.ru – онлайн-сервис по расшифровке аудио в текст, час распознавания здесь стоит 100 рублей, новым пользователям дают 10 тестовых минут. Сервис не позволяет загрузить файл, пока не пополнен счёт. Расшифровка тестового файла заняла 15 минут.

Также у данного сервиса есть телеграм-бот, но там лимит по размеру файла 20 мб.

Текст получился без разбивки на спикеров, онлайн-редактор есть, но без функции прослушивания, распознанный текст можно скачать в формате txt.

скриншот окна с результатом распознавания, Speechtotext.ru

Результат теста:

  • Частота ошибок в словах: 15.12%
  • Скорости обработки на примере часовой записи: 15 минут
  • Наличие функции разбивки текста по спикерам: отсутствует
  • Наличие встроенного редактора: есть, без прослушивания
  • Экспорт: *.txt

На что стоит обратить внимание:

  • Перед загрузкой файла необходимо зарегистрироваться и пополнить счет

Итог

Мы подготовили сводную таблицу, в которой отображены результаты тестирования онлайн-сервисов для расшифровки речи в текст на русском языке. Эта таблица позволит ознакомиться с основными параметрами сервисов, такими как стоимость, качество расшифровки, наличие и функциональность редактора текста, возможности экспорта.

Надеемся, что данная таблица поможет вам выбрать подходящий сервис и облегчит вашу работу

Таблица сравнения сервисов онлайн-транскрибации на русском языке 2023
0
66 комментариев
Написать комментарий...
Дмитрий Беговатов

Использую бесплатно вот такую штуку для расшифровки своих подкастов и доволен как слон – https://colab.research.google.com/github/karray/speech-recognition-and-diarization/blob/main/diar_speech.ipynb

(там написано, как применять, но если будут вопросы, пишите в комменты)

Распознавание спикеров позволяет быстро делать тайм-коды для подкаста. Это вообще кайф, минут 15 уходит вместо часа прослушивания выпуска.

P.S. Спасибо админам тг-канала https://t.me/nn_for_science, которые эту штуку запилили.

Ответить
Развернуть ветку
Роман Рабочий

Ничосе...
А чо так можно было?

Долго распознает часовое интервью?

Ответить
Развернуть ветку
2 комментария
Владимир Власенко

На процессе выдает ошибку. Может что упустил. Написал сообщение.

Ответить
Развернуть ветку
8 комментариев
Илья Пузанков

Дмитрий, здравствуйте, пытаюсь юзать вашу "штуку", но почему-то на уровне подгрузки файла не работает...загружаю, но upload (0)

Ответить
Развернуть ветку
Станислав Одинцов

как использовать? Непонятно

Ответить
Развернуть ветку
Иван

Добрый день. Помогите начать пользоваться данным сервисом. Я установил нажав на значок "Play" в пункте Setup. Сейчас не могу разобраться как добавить аудиофайл для транскрибации.

Ответить
Развернуть ветку
Ольга Новикова

Вот чумовая штука, расшифровывает, делит на спикеров, качество топ, работает бесплатно, enjoy:
https://clck.ru/35Nttu

Ответить
Развернуть ветку
лол лолов

СПАСИБО! ПОЛЬЗУЮСЬ ТИМЛОГС ДЛЯ РАСШИФРОВКИ ГОЛОСОВЫХ ЕВГЕНИЯ ВИКТОРОВИЧА

Ответить
Развернуть ветку
Константин Хомченко

Ого!
Очень полезно!
А как выбрать, какой лучше?

Ответить
Развернуть ветку
Игорь Кожурин
Автор

тут уже самостоятельно, но лучше ориентироваться на качество распознавания

Ответить
Развернуть ветку
Алексей Бриль

считалочкой посчитать)

Ответить
Развернуть ветку
Николай Виноградов

Сохранил, благодарю. Как же я дрюкался с транскрибацией ещё два года назад, вспоминать противно.

Ответить
Развернуть ветку
ФанТам!

Как раз в тему, нужно расшифровать звонки и прикрепить текстом

Ответить
Развернуть ветку
Yaroslav Zolotov

прикольно,лучше чем платить за это какому то левому парню на бирже

Ответить
Развернуть ветку
Dima

Есть бесплатный @VoiceMsgBot в Телеграм. Работает очень хорошо. УЖ простите, если я вам бизнес обломаю :)

Ответить
Развернуть ветку
Игорь Кожурин
Автор

так это для голосовых сообщений, получасовой звонок туда не загрузишь

Ответить
Развернуть ветку
Борис Иванов

Больше пяти лет занимаюсь расшифровкой. Если тезисно:

1. Бесплатные распознавалки не справляются со своей задачей. Трата времени.
2. После распознавалок требуется серьезная коррекция, даже если сервис платный.
3. Лучший из платных распознавалок - Trint.
4. Teamlogs имеют красивый сайт и эффективный маркетинг, но вряд ли сами пользуются своим сервисом.
5. Обращайтесь к фрилансерам с хорошими отзывами, ищите на YouDo, FL и Kwork.
6. Покажу, что такое качественная расшифровка: https://t.me/gotranscribe_bot

Ответить
Развернуть ветку
Игорь Кожурин
Автор

Здравствуйте, такое ощущение, что вы не пользовались Тимлогсом. Да после систем автоматического распознавания нужны доработки, именно поэтому в тимлогс есть возможность редактирования с прослушиванием

Данная статья как раз про то, в каком сервисе выше точность распознавания и где удобнее самостоятельно доработать текст

Да, ручную расшифровку трудно заменить, но если вам нужно дешево, быстро и вы сами можете сделать ревью текста, то сервисы автоматической транскрибации — лучший выбор

Ответить
Развернуть ветку
Роман Рабочий

Человеками? Дорого блин, у меня четыре часа в месяц минимум, а то и пять. Сумма начинает быть заметной ))

Ответить
Развернуть ветку
Tony Sib

Информативно получилось, спасибо, мы сейчас пробуем салют спич от сбера https://developers.sber.ru/portal/products/smartspeech , в целом свою задачу выполняет

Ответить
Развернуть ветку
Ваня Кононов

Спасибо! Бесплатного Пака хватило на задачу, по качеству распознания пока хз, но это быстрее и удобнее чем настраивать Yandex Speech Kit

Ответить
Развернуть ветку
Mari Kuri

с английским у них полное фиаско

Ответить
Развернуть ветку
СО

шляпа полная, текст задваивается, куча ошибок, интерфейс меганеудобный, только минут 30 разбирался как его запустить... зря потраченного времени

Ответить
Развернуть ветку
цыган из зоны

Пользовался speechtotext, оч дорого
Teamlogs выглядит солидно, надо попробовать

Ответить
Развернуть ветку
Поросенок Пётр

в смысле дорого?
У них час стоит 100 рублей, а teamlogs 420.

Ответить
Развернуть ветку
Антон Сюндюков

очень помогли, спасибо. Выбрал спичтутекст. Неидеально, есть ошибки, нужно перелопачивать текст и ставить абзацы, но гораздо лучше, чем слушать и переписывать самому

Ответить
Развернуть ветку
Поросенок Пётр

чудовищный UI в выбранного вами спичтутекста
ну и вот такие штуки для меня непростительны...

Качество распознавания не проверял, ибо како смысл, если у них такое в форме прием денег )

Ответить
Развернуть ветку
Leya

Пользуюсь ботом https://t.me/SlyshuPishuBot в телеграме, стоит 130р в час, транскрибирует довольно качественно, в том числе большие файлы. При старте 60 минут бесплатно.

Ответить
Развернуть ветку
Иляна Агеева

Спасибо, что поделились! Только что попробовала — вполне неплохо. Не очень удобно, что отдает в виде файла txt, где все полотном. С другой стороны, потратить 5 минут на наведение порядка, а не час на расшифровку — все-таки 5 минут намного более выигрышный вариант.

Ответить
Развернуть ветку
Боровков Евгений

Телегам премиум забыли

Ответить
Развернуть ветку
Игорь Кожурин
Автор

Здравствуйте, телеграм-премиум предназначен для голосовых сообщений и имеет ограничения по длительности и по размеру файла

Ответить
Развернуть ветку
1 комментарий
Sergey Begansky

А какие из западных сервисов (не принимающих российские карты для оплаты) понимают русский язык?

Ответить
Развернуть ветку
Игорь Кожурин
Автор

есть такие, это вопрос следующего материала

Ответить
Развернуть ветку
1 комментарий
Stanislav

Есть тг бот SlyshuPishu, внутри использует Whisper от OpenAI, русский язык понимает довольно хорошо, по крайней мере лучше чем другие инструменты которые я тестил.
Рос карты тоже принимает кстати)

Ответить
Развернуть ветку
Denis

Wispi — простой веб-интерфейс для Whisper, благодаря этому удалось снизить расчетную стоимость до 1 рубль/минута

https://vc.ru/631170

Ответить
Развернуть ветку
Игорь Кожурин
Автор

а сервис работает?

Ответить
Развернуть ветку
1 комментарий

Комментарий удален модератором

Развернуть ветку
Игорь Кожурин
Автор

Здравствуйте, напишите пожалйуста в лс. Разберемся в вашем случае

Ответить
Развернуть ветку
Роман Рабочий

Ребят я сейчас наброшу на вентилятор... Почему так дорого?

С одной стороны у меня есть набор технологий, я понимаю себестоимость этого упражнения. С другой стороны я конечно же понимаю что цена определяется ценностью для клиента, и лично сам готов платить рубль за минуту, а в идеале вообще платить подписку скажем в 900 рублей. И ни в чем себе не отказывать. Более того люди с которыми я общаюсь говорят плюс минус тоже самое.

Короче идея классная но позиционированием и ценами что то не так. Можно платить человеку в два раза больше и бинго. Но возможно я ошибаюсь.

PS. Если бы не было кучи проектов, запилил бы своё, руки не доходят... (

Ответить
Развернуть ветку
Роман Рабочий

У меня часовые интервью, раз в неделю, мы их расшифровываем человеком. Делаем качественно по 20 рублей минута. Я чисто как клиент пытаюсь понять стоимость. Кажется что машина должна стоить раз в пять меньше. Возможно я ошибаюсь. Короче у меня неделя размышлений о ценообразовании ) Не обижайтесь если что )

Ответить
Развернуть ветку
1 комментарий
Nasha Rasha

О, да! В 2023 году мы, наконец, сможем полностью отказаться от своих ушей и просто слушать автоматически расшифрованный текст. Кто же еще нуждается в бесценном опыте прослушивания оригинальной речи?

Ответить
Развернуть ветку
Раиль Б

Тоже хорошая система транскрибации yazapishu.ru Результат очень точный

Ответить
Развернуть ветку
Андрей Пятин

не работает. ссылка на результаты скачивания кривая

Ответить
Развернуть ветку
Mari Kuri

Попробовала speechtotext. Получилась полная ахинея.
То ли он английский не умеет (но тогда надо было же где то предупредить наверное??) то ли я не знаю.
интерфейс загрузки файла косячный и ты не сразу понимаешь загружается файл или нет, в результате файл то ли пошел в обработку то ли нет - непонятно.

Ответить
Развернуть ветку
Игорь Кожурин
Автор

Попробуйте teamlogs.ru, с английский все отлично, если звук хороший)

Ответить
Развернуть ветку
1 комментарий
Mari Kuri

Apihost распознал только кусок записи, денег при этом содрал за все 55 минут.

Ответить
Развернуть ветку
Иван

Добрый день. Помогите начать пользоваться данным сервисом. Я установил нажав на значок "Play" в пункте Setup. Сейчас не могу разобраться как добавить аудиофайл для транскрибации.

Ответить
Развернуть ветку
Иван

сервис diar_speech.ipynb

Ответить
Развернуть ветку
Yuriy Evsyukov

Можно подробней (не для программеров..)? Последовательность выполнения каждого блока кода (что должно появиться после каждого блока? Где вставить ссылку на аудиофайл (именно аудио) для транскрибации? Какие типы файлов можно использовать? Какова максимальная длительность файла, размер? Где указать вывод файла (адрес) куда кидает файл, как скачать? Пользуюсь Google Docs голосовым вводом и виртуальным аудиокабелем для ввода и выводы. Но не всегда удобно, т.к. страница должна быть постоянно открыта и на переднем плане...Для распознавания лекций, записанных в аудитории с телефона вполне годиться...Но хотелось бы освоить что нибудь еще... Спасибо что дочитали до конца.

Ответить
Развернуть ветку
Roman Kuvshinnikov

А если у вас есть пакет адоба то в премьере это встроенная функция: https://helpx.adobe.com/premiere-pro/using/speech-to-text.html

Ответить
Развернуть ветку
Akva

Попробовала бот SlyshuPishuBot - очень понравился. При хорошем звуке вообще идеально получается, минимум коррекции. Разбивает на предложения хорошо, все дела. Берет большие файлы в мп3, не надо разбивать на кусочки.

Ответить
Развернуть ветку
Иляна Агеева

Realspeaker.net не дает никаких бесплатных минут. Еще и удалить запись нельзя. Сначала оплати транскрибацию → потом удаляй. Ну такое себе удовольствие :)

Ответить
Развернуть ветку
63 комментария
Раскрывать всегда