核心概念
核心概念、生成模式与数据流说明。
二、核心概念
1. 基本概念
- Episode(单集):ListenHub 系统的基本内容单元
- 每个单集有唯一的
episodeId - 包含音频、文本脚本和元数据
- 每个单集有唯一的
- Speaker(音色):定义音频的声学特征
- 通过
speakerId标识 - 包含语言、性别等属性
- 获取方式:调用
GET /v1/speakers/list接口获取可用音色列表
- 通过
2. 内容生成模式详解
| 模式 | 子模式 | 特点 | 适用场景 | 生成时间 | API 端点 |
|---|---|---|---|---|---|
| Podcast(播客) | deep | 深度分析,内容质量高 | 专业知识分享、深度解读 | 2-4 分钟 | /v1/podcast/episodes |
| quick | 快速生成,效率优先 | 新闻快报、时效性内容 | 1-2 分钟 | ||
| debate | 双主持人辩论形式 | 观点讨论、多角度分析 | 2-4 分钟 | ||
| FlowSpeech(流式语音) | smart | AI 智能优化内容 | 修复语句不通顺、错别字 | 1-2 分钟 | /v1/flow-speech/episodes |
| direct | 文本直接转换语音(类TTS) | 已完善的文本、播报 | 1-2 分钟 |
重要说明: Podcast 模式:支持选择 1-2 个声音/speaker(单人或双人播客)
3. 数据流类型
- 文本流(Server-Sent Events 格式)
- Podcast:大纲和脚本数据,创建后 20–60 秒可用
- FlowSpeech:大纲和脚本数据,创建后约 3 秒可用
- 音频输出
- 流式音频(M3U8):适合实时播放,字段名
audioStreamUrl - 完整音频(MP3):适合下载和离线播放,字段名
audioUrl
- 流式音频(M3U8):适合实时播放,字段名
三、Playground 快速体验
1. Multi-speaker TTS
ListenHub Playground 提供了在线体验多音色语音合成的功能,无需编写代码即可快速测试。
访问地址:https://assets.listenhub.ai/listenhub-public-prod/static/playgroud-tts.html
功能亮点:
- 多角色对话:一次生成包含多个不同音色的对话音频
- 灵活分配:为每段台词独立指定音色
- 即时试听:在线编辑脚本,实时预览效果
适用场景:
- 有声书 / 广播剧制作(多音色配音)
- 对话式内容生成
- 产品演示 Demo 快速制作