语音类AI应用术语

马踏飞燕ོ༢

842人浏览 · 2025-11-03 15:20:28

马踏飞燕ོ༢ · 2025-11-03 15:20:28 发布

1. TTS - 文本转语音

Text-to-Speech，文本转语音。一种将书面文字转换成人工语音的技术，核心是让机器“读出”文本。

应用场景：

语音助手：如 Siri、小爱同学的回答。
有声读物/新闻：将文章自动转化为语音。
无障碍技术：为视障人士朗读屏幕内容。
导航系统：播报路线指引。

发展水平：早期的TTS声音机械、不自然。现在基于深度学习的神经TTS 已经可以生成非常逼真、富有情感的人类语音。

2.ASR- 自动语音识别

Automatic Speech Recognition，自动语音识别。一种将人类语音自动、准确地转换为文本的技术，让机器“听懂”人话。

核心技术‌：声学特征提取（如MFCC）、声学模型（如TDNN、Transformer）、语言模型及解码器‌

应用场景：

语音输入法：在手机上用语音代替打字。
实时字幕：为视频会议或直播生成字幕。
语音助手：识别用户的语音指令。
语音转录：将会议录音、采访录音转成文字稿。

发展水平：在安静环境和标准口音下准确率已非常高，但在嘈杂环境或处理方言、专业术语时仍有挑战。

3. NLP - 自然语言处理

Natural Language Processing，自然语言处理。人工智能的一个子领域，关注计算机与人类（自然）语言之间的交互，尤其是如何让计算机处理、理解和生成人类语言。LLM（大语言模型）是其子集。

研究内容：

理解层面：词性标注、句法分析、语义分析、情感分析、机器阅读理解等。
生成层面：文本摘要、机器翻译、对话生成等。

应用场景：搜索引擎、垃圾邮件过滤、智能客服、机器翻译、情感分析等。ASR和TTS可以看作是NLP与语音信号处理的交叉领域，负责语言与语音的转换，而NLP更侧重于语言本身的理解和生成。

4. LLM - 大语言模型

Large Language Model，大语言模型。基于海量文本数据训练的、拥有巨大参数规模（通常是数十亿甚至万亿以上）的深度学习模型，理解和生成人类语言，并能够完成各种复杂的语言任务。它是当前NLP领域最前沿的技术

特点：

通用性：一个模型可以通过“提示”完成翻译、写作、编程、问答等众多任务，而无需为每个任务专门训练。
涌现能力：当模型规模达到一定程度时，会表现出在小模型中不具备的能力，如逻辑推理、链式思考等。

著名例子：ChatGPT（背后的GPT系列）、文心一言、通义千问、LLaMA等。

与NLP的关系：LLM是推动NLP领域取得革命性进展的核心技术。传统的NLP方法多为针对特定任务的小模型，而LLM是一种通用的基础模型。

5. VAD - 语音活动检测

Voice Activity Detection，语音活动检测，也叫端点检测。一种用于检测音频信号中是否存在人语音的技术，区分“有语音”和“无语音”（静音或噪声）的片段。

应用场景：

ASR的前置步骤：在识别前，先找出哪段时间有人说话，避免对静音部分进行无效识别，提升效率和准确率。
语音通信：在电话或视频会议中，只在检测到语音时才传输数据，可以节省带宽。
唤醒词检测：在智能音箱中，持续监听环境音，但只有检测到类似“小爱同学”的语音模式时才被正式激活。

技术协同关系

在语音交互系统中，四者协同工作：

‌ASR‌ 将语音转为文本；
‌NLP/LLM‌ 处理文本并生成回复；
‌TTS‌ 将回复文本转为语音输出‌

借用网易云信技术架构图说明

ModelEngine社区

更多推荐

从崩溃到自愈：Temporal+MCP-Agent构建永不中断的AI工作流

你是否遇到过AI工作流执行到90%突然崩溃的绝望？训练了数小时的模型因服务器重启前功尽弃？团队协作时因某人未及时审批导致整个流程停滞？本文将展示如何通过Temporal与MCP-Agent的深度集成，彻底解决这些痛点，构建真正企业级的可靠AI工作流系统。读完本文你将掌握：- 3行代码实现工作流故障自愈- 零停机升级正在运行的AI任务- 跨团队协作的工作流信号机制- 从本地开发到生产集群