API
Audio Transcription
上传音频并转写为文本,兼容 OpenAI-style transcription 请求。
概述
Audio Transcription 接口接收音频文件和模型名,返回转写文本。适合会议纪要、客服录音和语音输入。
请求
`POST https://api.example.com/v1/audio/transcriptions`
Headers
| Header | 必需 | 说明 |
|---|---|---|
| Authorization | ✓ | `Bearer $UOUODUO_API_KEY` |
| Content-Type | ✓ | `multipart/form-data` |
Body 参数
| 参数 | 类型 | 必需 | 默认 | 说明 |
|---|---|---|---|---|
| file | file | ✓ | - | 音频文件 |
| model | string | ✓ | - | 转写模型,例如 `whisper-1` |
| language | string | 否 | 自动识别 | ISO-639-1 语言代码,例如 `zh`、`en` |
| prompt | string | 否 | - | 术语、说话场景或上下文提示 |
| response_format | string | 否 | json | `json`、`text`、`srt`、`verbose_json`、`vtt` |
| temperature | number | 否 | 0 | 采样温度 |
| timestamp_granularities | array<string> | 否 | - | `word`、`segment`,需 verbose_json |
示例
curl https://api.example.com/v1/audio/transcriptions \
-H "Authorization: Bearer $UOUODUO_API_KEY" \
-F file="@meeting.mp3" \
-F model="whisper-1" \
-F language="zh" \
-F response_format="verbose_json"响应
| 字段 | 类型 | 说明 |
|---|---|---|
| text | string | 转写文本 |
| task | string | 任务类型 |
| language | string | 识别语言 |
| duration | number | 音频时长 |
| words | array<object> | word 级时间戳,需模型支持 |
| segments | array<object> | 分段信息 |
{
"text": "今天我们完成了文档迁移。",
"task": "transcribe",
"language": "zh",
"duration": 12.4,
"words": [
{ "word": "今天", "start": 0.1, "end": 0.5 }
],
"segments": []
}错误
| HTTP | 说明 | 处理建议 |
|---|---|---|
| 400 | 文件缺失、格式不支持或 response_format 不合法 | 检查 multipart 字段 |
| 401 | API key 无效 | 重新创建 key |
| 413 | 文件过大 | 客户端切分音频 |
| 429 | 音频模型限流 | 排队处理 |
注意事项
- 长录音建议切片并保存原始片段 ID,便于重试和校对。
- 如果业务里有专有名词,把它们放入 `prompt` 可以提升稳定性。
- 对账以 `/app/logs` 和 `/app/usage` 里的记录为准。