Перейти к основному контенту

Войси API для разработчиков: подключение транскрибации за 15 минут

API транскрибации русского языка с точностью до 98% — структурированный вывод без постобработки. Quick start за 15 минут. Реестр российского ПО.

Войси API для разработчиков: подключение транскрибации за 15 минут

«Войси» — российский ИИ-сервис транскрибации, резидент «Сколково», включён в реестр российского ПО Минцифры. API транскрибации «Войси» поддерживает русский язык с точностью до 98% и, в отличие от классических ASR-API, возвращает структурированный результат: текст разбит на предложения и абзацы, расставлена пунктуация, выделены спикеры и таймкоды. Писать собственный пайплайн нормализации не придётся.

Для команды из 2–3 инженеров это разница между 2–4 неделями разработки и подключением за 15 минут. В статье — quick start на Python и Node.js, сравнение с Яндекс SpeechKit и Nexara, структура ответа и тарификация.

Попробовать API — 45 минут бесплатно → — ключ генерируется сразу, без форм заявок и переговоров.

Где и зачем используют API транскрибации на русском?

API транскрибации нужен там, где объём записей не позволяет обрабатывать их вручную. Пять индустрий, где это работает прямо сейчас.

Колл-центры и отделы продаж. Автоматическая расшифровка всех входящих и исходящих звонков. Транскрипты попадают в CRM, аналитика по менеджерам строится автоматически. Руководитель видит, что говорит каждый менеджер, — без прослушивания сотен записей.

Медтех. Записи консультаций превращаются в структурированный текст для медицинской карты. Врач говорит — система пишет. Экономия 20–30 минут на каждом приёме.

Edtech. Лекции, вебинары, записи курсов — всё транскрибируется автоматически. Студент получает конспект, платформа получает поисковый индекс по контенту. Новые записи обрабатываются сразу после загрузки.

Юртех. Аудиозаписи переговоров, допросов, судебных заседаний. Транскрипт с разметкой спикеров позволяет юристам быстрее находить нужные фрагменты и готовить документы.

Медиа и подкасты. Транскрибация выпусков для SEO, show notes, переформатирования в текст. API встраивается в публикационный пайплайн: залил запись — получил транскрипт — опубликовал статью.

О том, как автоматизировать обработку звонков в CRM, читайте в статье «Аналитика звонков отдела продаж».

Какой API транскрибации лучше для русского языка?

На российском рынке API транскрибации предлагают несколько сервисов: «Войси», Яндекс SpeechKit, Nexara. Главное различие — не в цене за минуту, а в том, что вы получаете на выходе.

Яндекс SpeechKit возвращает текст с базовой пунктуацией, но без разбивки на абзацы и без структурирования по смыслу. Чтобы получить читаемый документ, нужна постобработка: сегментация на абзацы, нормализация структуры, привязка к спикерам. Nexara предлагает LLM-постобработку и диаризацию, но как отдельные платные опции (диаризация — 0,72 ₽/мин сверх базовой цены). Для обоих сервисов — чтобы получить production-ready текст, нужен дополнительный инженерный слой.

«Войси» работает иначе: возвращает готовый текст с предложениями, абзацами и пунктуацией. Диаризация (разметка спикеров) и таймкоды включены.

Параметр Войси API Яндекс SpeechKit Nexara
Точность на русском до 98% н/д (не публикуется) н/д (не публикуется)
Структурированный вывод Да — предложения, абзацы, пунктуация Частично — пунктуация есть, абзацев нет Частично — есть LLM-постобработка (опция)
Диаризация спикеров Да, включена Ограниченно (до 2 спикеров) Да (доп. 0,72 ₽/мин)
Таймкоды Да Да Да
Саммари / постобработка Да — несколько форматов Нет (отдельно через YandexGPT) LLM-постобработка (опция)
Цена от 0,33 ₽/мин (≈20 ₽/час) от 0,15 ₽/мин (отложенный режим) от 0,36 ₽/мин (self-service)
Нужен постпроцессинг Нет Да (абзацы, структура) Частично
Поддержка языков 55 языков Русский, английский и несколько других 57 языков
Серверы в России Да Да (Яндекс.Облако) Да

Цены актуальны на февраль 2026 года. Для Яндекс SpeechKit указана цена отложенного режима (deferred).

Если главный критерий — минимальная цена за минуту и у вас уже есть инфраструктура нормализации текста, Яндекс SpeechKit дешевле. Если важен готовый результат без постобработки и приоритет — русскоязычный контент, «Войси» экономит инженерное время.

Попробовать API бесплатно — 45 минут в подарок →

Как подключить API распознавания речи в приложение за 15 минут?

Подключить API «Войси» можно за 15 минут: получите ключ через бот в Telegram, установите зависимости, отправьте POST-запрос с файлом и дождитесь статуса completed. Ниже — пошаговый quick start с кодом на Python и Node.js.

Шаг 1. Получите API-ключ

Откройте бот @Voicee_AI_Bot в Telegram и запросите API-ключ через меню бота. Ключ генерируется сразу — без форм заявок и переговоров. Баланс API пополняется также в боте. Для юридических лиц можно запросить подключение через @Voicee_B2B — пришлём тестовый ключ, документацию и подпишем договор (или публичная оферта). Сохраните ключ в переменные окружения проекта.

# .env
VOICEE_API_KEY=your_api_key_here

Шаг 2. Установите зависимости

Для Python нужна библиотека requests. Для Node.js — встроенный fetch и FormData (Node 20+), без внешних зависимостей.

# Python
pip install requests

# Node.js 20+ — ничего не нужно, fetch и FormData встроены

Шаг 3. Отправьте файл на транскрибацию

Примеры ниже — иллюстративные. Актуальные endpoint, формат запроса и параметры — в документации API. Общая логика: отправить файл, получить task_id, дождаться результата.

Файл отправляется POST-запросом. В ответ получаете task_id — идентификатор задачи обработки.

Python:

import requests
import os

API_KEY = os.getenv("VOICEE_API_KEY")
BASE_URL = "https://api.voicee.ru/v1"

def submit_transcription(file_path: str, language: str = "ru") -> str:
    """Отправить файл на транскрибацию, вернуть task_id."""
    with open(file_path, "rb") as audio_file:
        response = requests.post(
            f"{BASE_URL}/transcribe",
            headers={"Authorization": f"Bearer {API_KEY}"},
            files={"file": audio_file},
            data={
                "language": language,
                "diarization": True,
                "timecodes": True,
                "summary": False,
            }
        )
    response.raise_for_status()
    return response.json()["task_id"]

task_id = submit_transcription("interview.mp3")
print(f"Задача создана: {task_id}")

JavaScript / Node.js:

import { readFile } from 'node:fs/promises';

const API_KEY = process.env.VOICEE_API_KEY;
const BASE_URL = 'https://api.voicee.ru/v1';

async function submitTranscription(filePath, language = 'ru') {
  const buffer = await readFile(filePath);
  const blob = new Blob([buffer]);
  const form = new FormData();
  form.append('file', blob, filePath.split('/').pop());
  form.append('language', language);
  form.append('diarization', 'true');
  form.append('timecodes', 'true');

  const response = await fetch(`${BASE_URL}/transcribe`, {
    method: 'POST',
    headers: { 'Authorization': `Bearer ${API_KEY}` },
    body: form,
  });

  if (!response.ok) throw new Error(`HTTP ${response.status}`);
  const data = await response.json();
  return data.task_id;
}

const taskId = await submitTranscription('interview.mp3');
console.log('Задача создана:', taskId);

Шаг 4. Получите результат

Транскрибация асинхронна: 1 час аудио обрабатывается за 3–4 минуты. Опрашивайте endpoint /transcribe/{task_id} до получения статуса completed.

Python — polling с экспоненциальной задержкой:

import time

def get_result(task_id: str, max_wait: int = 600) -> dict:
    """Дождаться результата транскрибации."""
    delay = 5
    elapsed = 0

    while elapsed < max_wait:
        response = requests.get(
            f"{BASE_URL}/transcribe/{task_id}",
            headers={"Authorization": f"Bearer {API_KEY}"}
        )
        response.raise_for_status()
        data = response.json()

        if data["status"] == "completed":
            return data["result"]
        elif data["status"] == "failed":
            raise RuntimeError(f"Транскрибация не удалась: {data.get('error')}")

        time.sleep(delay)
        elapsed += delay
        delay = min(delay * 1.5, 30)

    raise TimeoutError("Превышено время ожидания")

result = get_result(task_id)
print(result["text"])

JavaScript — polling с async/await:

async function getResult(taskId, maxWait = 600_000) {
  let delay = 5_000;
  let elapsed = 0;

  while (elapsed < maxWait) {
    const response = await fetch(`${BASE_URL}/transcribe/${taskId}`, {
      headers: { 'Authorization': `Bearer ${API_KEY}` },
    });
    const data = await response.json();

    if (data.status === 'completed') return data.result;
    if (data.status === 'failed') throw new Error(data.error);

    await new Promise(r => setTimeout(r, delay));
    elapsed += delay;
    delay = Math.min(delay * 1.5, 30_000);
  }

  throw new Error('Timeout');
}

const result = await getResult(taskId);
console.log(result.text);

От файла до структурированного JSON — за 15 минут

Ключ генерируется сразу — без форм заявок и переговоров. Структурированный транскрипт без постпроцессинга: предложения, абзацы, диаризация и таймкоды готовы в ответе. 45 минут обработки бесплатно при регистрации. Данные обрабатываются на серверах в России.

Получить API-ключ — 45 минут бесплатно →

Самообслуживание • Ключ сразу • Реестр российского ПО

Что возвращает API транскрибации: структура JSON-ответа

Ответ «Войси» — готовый к использованию JSON. Никакого сырого потока слов. Из чего состоит объект result:

{
  "text": "Добрый день, сегодня мы обсудим квартальные результаты. Прошлый квартал показал...",
  "segments": [
    {
      "speaker": "Спикер 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Добрый день, сегодня мы обсудим квартальные результаты."
    },
    {
      "speaker": "Спикер 2",
      "start": 4.5,
      "end": 9.1,
      "text": "Прошлый квартал показал рост на 18% по основным метрикам."
    }
  ],
  "summary": null,
  "duration": 3720.5,
  "language": "ru",
  "word_count": 1842
}

Ключевые поля результата:

  • text — полный транскрипт с расставленной пунктуацией и разбивкой по абзацам. Готов для сохранения в БД или вставки в документ.
  • segments — массив фрагментов с таймкодами (start, end в секундах) и именем спикера. Удобно для синхронизации текста с аудио в плеере.
  • summary — краткое содержание (заполняется при передаче "summary": true в запросе).
  • duration — длительность записи в секундах (используется для расчёта стоимости).
  • language — определённый язык (подтверждение автодетекта или явно указанного).

За структурированный вывод отвечают собственные ИИ-модели «Войси», оптимизированные под русский язык: 10+ нейросетей параллельно проверяют результат. На выходе — готовый текст, а не сырой ASR-поток.

Какие форматы файлов принимает API и каковы ограничения?

«Войси» принимает большинство распространённых форматов — предварительная конвертация не нужна:

  • Аудио: MP3, WAV, OGG, FLAC, M4A, AAC, OPUS и другие — 29+ форматов
  • Видео: MP4, MOV, AVI, MKV, WebM и другие — 9+ форматов, используется только аудиодорожка
  • Длительность: до 20 часов на один файл
  • Языки: 55 языков, включая русский, английский, украинский, казахский и другие

Для лучшего качества на русском отправляйте оригинальный файл без сжатия и конвертации. Любое перекодирование аудио снижает точность распознавания. Подробнее о возможностях — в разделе инструментов Войси.

Сколько стоит API транскрибации для русского языка?

Тарификация посекундная — платите за реальную длительность аудио, а не за целые минуты. Звонок на 4 минуты 10 секунд стоит как 4 минуты 10 секунд, а не как 5 минут.

«Войси» API — от 0,33 ₽/мин (≈20 ₽/час). Яндекс SpeechKit — от 0,15 ₽/мин в отложенном режиме (нужно дописать структурирование текста), Nexara — от 0,36 ₽/мин (базовая транскрибация). Цена «Войси» зависит от требований к скорости и объёмов — при больших пакетах разница с конкурентами сокращается. Актуальные тарифы API — на странице цен Войси и API транскрибации.

При объёмах от 200 часов в месяц или корпоративных требованиях (on-premise, SLA, закрывающие документы) — напишите в @Voicee_B2B. Актуальные тарифы — на странице API транскрибации и цен Войси.

Войси API, Яндекс SpeechKit или Nexara: что выбрать для продакшна?

Разбор для тех, кто выбирает API для продакшн-интеграции.

Яндекс SpeechKit

Зрелый сервис в экосистеме Яндекс.Облака. Главные преимущества — низкая цена (от 0,15 ₽/мин в отложенном режиме) и глубокая интеграция с сервисами Яндекса: Object Storage, YandexGPT, DataLens. Если инфраструктура уже в Яндекс.Облаке, затраты на интеграцию снижаются.

Ограничения: вывод — текст с базовой пунктуацией, но без разбивки на абзацы и смысловой структуры. Диаризация ограничена двумя спикерами и работает только с моноканальными записями — для многоголосых конференций это критично. Саммари подключается отдельно через YandexGPT.

Когда выбирать SpeechKit: команда готова дописать структурирование текста, инфраструктура в Яндекс.Облаке, минимальная цена за минуту — главный критерий.

Nexara

Быстрый российский API с поддержкой диаризации спикеров и LLM-постобработки. Позиционирует себя как решение для высоких нагрузок (до 240x realtime) с гибкими опциями развёртывания: on-premise, выделенные серверы или облако. Self-service доступен через app.nexara.ru, 200 бесплатных минут при регистрации. Цена — от 0,36 ₽/мин, диаризация — дополнительно 0,72 ₽/мин.

Ограничения: LLM-обработка текста — отдельная платная опция, без неё вывод требует доработки. Нет встроенных саммари разных форматов, нет разбивки по абзацам из коробки.

Когда выбирать Nexara: приоритет — скорость обработки, нужны выделенные серверы или on-premise, устраивает базовый вывод с доплатой за LLM-обработку.

Войси API

Цена за минуту сопоставима с конкурентами (от 0,33 ₽/мин) и зависит от объёма и скорости обработки. При этом дешевле по совокупной стоимости интеграции: вывод готов к использованию без дополнительного кода. Саммари, таймкоды, диаризация — из одного запроса. Данные обрабатываются на серверах в России, доступна on-premise установка.

Когда выбирать «Войси» API: приоритет — русскоязычный контент, нужен готовый вывод сразу в production, важна поддержка 55 языков или требования к суверенитету данных.

Смотрите также: «Как подключить транскрибацию звонков к amoCRM» — готовая интеграция без разработки.

Частые вопросы об API транскрибации на русском

В: Какой API транскрибации лучше для русского языка?
О: Зависит от задачи. «Войси» — если нужен готовый вывод: точность до 98%, текст с абзацами и пунктуацией, диаризация включена. Яндекс SpeechKit дешевле (от 0,15 ₽/мин, отложенный режим), но без абзацев — нужно дописывать. Nexara — от 0,36 ₽/мин, быстрый, но базовый вывод тоже требует доработки.

В: Как подключить API распознавания речи в приложение?
О: Получите ключ через бот @Voicee_AI_Bot в Telegram, отправьте POST-запрос с файлом (endpoint и формат — в документации), дождитесь статуса completed — в ответе готовый структурированный текст с пунктуацией, абзацами и таймкодами. Quick start занимает 15 минут; примеры кода на Python и Node.js — выше в этой статье.

В: Сколько стоит API транскрибации на русском?
О: «Войси» API — от 0,33 ₽/мин (≈20 ₽/час), тарификация посекундная. Цена зависит от объёмов и требований к скорости. Яндекс SpeechKit — от 0,15 ₽/мин (отложенный режим), Nexara — от 0,36 ₽/мин. При выборе учитывайте не только цену за минуту, но и стоимость доработки вывода до production-ready состояния.

В: Как работает диаризация — разметка спикеров в API?
О: При передаче параметра diarization: true каждый сегмент транскрипта содержит поле speaker. «Войси» определяет спикеров автоматически на основе акустических характеристик голоса — без дополнительной настройки. Поддерживается любое количество участников, включая определение мужских и женских голосов.

В: Какие форматы файлов принимает API?
О: «Войси» принимает 29+ форматов аудио (MP3, WAV, OGG, FLAC, M4A, AAC, OPUS и другие) и 9+ форматов видео (MP4, MOV, AVI, MKV, WebM). Из видео используется только аудиодорожка. Максимальная длительность — 20 часов.

В: Можно ли использовать API в закрытом корпоративном контуре?
О: Да. «Войси» предлагает on-premise установку — ПО разворачивается в инфраструктуре вашей компании и работает без доступа к интернету. Актуально для медицины, госсектора, банков. Для обсуждения on-premise пишите в @Voicee_Buddy.

В: Где хранятся данные и как долго?
О: Аудиодорожки хранятся до 30 дней, результаты обработки — до 14 дней. Данные обрабатываются на серверах в России, не передаются третьим лицам и не используются для обучения моделей ИИ. «Войси» включён в реестр российского ПО Минцифры.

Ключевые выводы

  • «Войси» возвращает готовый текст — предложения, абзацы, пунктуация, диаризация. Дополнительная обработка не нужна.
  • Точность до 98% на русском: собственные ИИ-модели с механизмом самопроверки (10+ нейросетей параллельно).
  • Quick start за 15 минут: получите ключ через бот @Voicee_AI_Bot, отправьте файл, получите результат. Для юрлиц — подключение через @Voicee_B2B с договором.
  • Поддержка 55 языков, до 20 часов на файл, 29+ форматов аудио и 9+ форматов видео.
  • Тарификация посекундная — от 20 ₽/час. Актуальные тарифы — на странице цен.
  • Яндекс SpeechKit дешевле по минуте, но вывод без абзацев (нужна доработка). Nexara — быстрый, но тоже требует доработки. «Войси» оптимален, если приоритет — русскоязычный контент с готовым результатом.
  • Резидент «Сколково», реестр российского ПО. Серверы в России, доступна on-premise установка.

Готовы подключить? Получите API-ключ и отправьте первый запрос за 15 минут →

Попробуйте «Войси» бесплатно

Просто отправьте аудио или видео в Telegram-бот — без регистрации, без карты, без подписки. 45 минут транскрибации в подарок для старта.