4All API 怎么调 Whisper？

端点 POST https://api.4allapi.com/v1/audio/transcriptions，multipart/form-data 上传音频文件 + 表单字段 model=whisper-1。返回 JSON 含 text 字段即为识别结果。Headers 带 Authorization: Bearer YOUR_TOKEN。

支持哪些音频格式？

Whisper 支持 mp3、mp4、mpeg、mpga、m4a、wav、webm 等主流格式。单文件大小上限 25MB。长音频需切片后多次调用拼接。

Whisper 准确率怎么样？

whisper-1（基于 whisper-large-v2 同款）中文识别准确率在干净录音下 95%+，多语种自动识别（无需指定 language）。背景噪音大的场景建议先用 RNNoise 等降噪。

可以输出带时间戳的字幕吗？

可以。请求时加 response_format=verbose_json 或 srt / vtt 即可返回带时间戳的输出。verbose_json 含每个 segment 的 start/end/text，srt 和 vtt 是常见字幕格式。

Whisper 计费规则？

按上传音频时长按分钟计费（不足一分钟向上取整），固定单价。可在控制台「使用日志」按 model=whisper-1 查每次识别的时长和扣费。

能识别说话人吗（区分谁在说）？

OpenAI 原版 Whisper 不区分说话人 (speaker diarization)。如需说话人分离，4All API 也提供其他 ASR 模型支持 diarization，或建议在 Whisper 输出后接 pyannote-audio 这类工具做后处理。

支持流式实时转写吗？

/v1/audio/transcriptions 本身是同步接口（上传 → 等待 → 返回）。如需实时流式 ASR，4All API 提供 /v1/realtime（OpenAI Realtime API），支持音频流双向通信。

Whisper语音转文字

Whisperモデルのインターフェース説明

このインターフェースは Whisper モデルをベースに、音声をテキストへ変換する機能を提供します。一般的な音声形式に対応しています。

基本概念

Whisperモデル: OpenAI がオープンソースで公開している音声認識モデルで、多言語の文字起こしに対応
音声形式: mp3、wav、m4a などの一般的な形式に対応

インターフェースURL

POST https://api.4allapi.com/v1/audio/transcriptions

リクエストパラメータ

パラメータ名	型	必須	説明
model	string	はい	固定値 “whisper-1”
file	file	はい	文字起こしする音声ファイル

リクエストヘッダー

Authorization: Bearer sk-*********************  # 替换为你的 API 令牌

Python 呼び出し例

import json
import requests

def voice_to_text(file_path):
    """
    音声をテキストに変換する機能

    パラメータ:
    file_path: 音声ファイルのパス

    戻り値:
    認識されたテキスト内容
    """
    url = "https://api.4allapi.com/v1/audio/transcriptions"

    # リクエストパラメータを構築
    payload = {"model": "whisper-1"}
    files = {"file": ("audio.mp3", open(file_path, "rb"))}

    # リクエストヘッダーを設定（APIキーを置き換えてください）
    headers = {"Authorization": "Bearer sk-***************************"}  # 替换为你的 API 令牌

    # POSTリクエストを送信
    response = requests.post(url, headers=headers, data=payload, files=files)

    # レスポンスデータを解析
    data = json.loads(response.text)

    # 認識結果を返す
    return data.get("text", "")

# 使用例
print(voice_to_text("audio.mp3"))  # 替换为你的音频文件路径

レスポンス例

成功レスポンス:

{
    "text": "これは認識されたテキスト内容です"
}

注意事項

音声ファイルのサイズは 25MB 以下を推奨します
中国語、英語など複数の言語に対応しています
API キーは厳重に管理し、漏えいしないようにしてください

4All API フッター

4All API · 一站式AI大模型API聚合平台 | 価格 | お問い合わせ