大模型
产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
AI 助理
备案
控制台
< 智能语音交互
语音识别
语音识别提供高准确率、低时延的语音转文字服务,包含实时语音识别、一句话识别和录音文件识别等多款产品。适用于智能客服、质检、会议纪要、实时字幕等多个企业应用场景。
通义听悟免费体验火热进行中,体验用大模型做学习笔记、会议记录!
开通并购买
管理控制台
产品定价
快速开始
本地部署
产品咨询
产品规格
产品体验
产品优势
产品功能
应用场景
产品动态
文档与工具
活动与推广
新产品
通义听悟开启公测,你的工作学习AI助手!
新产品
模型即服务Dashscope灵积平台已上线,开启模型探索之旅!
新产品
大模型时代下的语音识别模型服务来了!不排队,普惠价的AI识别!
新产品
大模型时代下的语音合成模型服务来了,高精拟人音色助力数字人等场景!
新功能
通义听悟全新上线对话内容提取,可定位关注话题
新功能
北京、深圳正式开服,有效降低链路时延(最高可达200ms)!
新功能
通义听悟支持电话、门店、拜访等销售服务质检功能
新产品
语音分析正式上线,一句话即可获取发音人、性别、语种等信息!
产品规格
实时语音识别
识别不限时长的实时音频流,达到“边说边出文字”的效果
30小时
30小时
1000小时
10000小时
84000小时
182000小时
300000小时
支持22种方言,23种不同语言
直播质检、直播字幕、视频会议字幕
超值资源包
¥
100
.00
/年起
¥0.00
/年
售前咨询
立即购买
录音文件识别
对音频文件进行识别,上传完成后3小时内返回识别结果文本
40小时
40小时
1000小时
20000小时
100000小时
250000小时
支持22种方言,23种不同语言
语音质检、庭审录入、会议记录
超值资源包
¥
100
.00
/年起
¥0.00
/年
售前咨询
立即购买
录音文件识别闲时版
适用于语音质检、媒资管理、字幕生成等时效性要求较低场景
10000小时
10000小时
50000小时
100000小时
超高性价比,多协议支持
超长录音文件支持
超值资源包
¥
6000
.00
/年起
¥0.00
/年
售前咨询
立即购买
录音文件识别极速版
30分钟的音频可以在10秒内完成识别,无队列实时处理
40小时
40小时
1000小时
20000小时
100000小时
250000小时
适用于短视频、新闻字幕等多种场景
返回分句时间戳,便于字幕与内容匹配
超值资源包
¥
100
.00
/年起
¥0.00
/年
售前咨询
立即购买
查看更多商品
产品体验
您同意我们将您的语音数据用于此功能体验,并且我们不会将其用于其他用途。我们将依法处理您的语音数据,并在您体验结束后尽快删除。
语音识别
录音文件识别
语种:
普通话
英语
粤语
产品优势
识别准
数年持续提升准确率,通用字准确率90%以上,部分模型可达98%
处理快
低延迟,秒级处理返回语音识别结果
定制识别
通过自学习平台定制专属识别模型,进一步提升识别准确率
易接入
管控台可视化进行项目、场景、功能配置及自学习
并提供API和多种SDK,接入成本极低
产品功能
自研的SAN-M模型
摒弃传统模型模块多系统复杂的缺点,在客服、直播、会议、输入法、教育、交互识别等场景下,准确率较传统模型提升10%-30%
多语种支持
支持粤语、四川话等20余种方言的识别、支持英语、日语、俄语、印尼语等50余种语言识别、并支持中英自由说和英粤自由说混合识别
多产品形态
支持录音文件识别、实时语音识别、一句话识别;用户可自行上传数据,对阿里的语音技术进行深度定制,从而提升特定业务领域的识别准确度
相关产品
录音文件识别
提交录音文件识别请求后,商用用户的转写任务可在3小时之内完成识别并返回识别文本。
了解更多
实时语音识别
对不限时长的音频流做实时识别,达到“边说边出文字”的效果,内置智能断句,可提供每句话开始结束时间。
了解更多
一句话识别
对时长较短(一分钟以内)的语音进行识别,适用于较短的语音交互场景,如语音搜索、语音指令、语音短消息等。
了解更多
录音文件识别极速版
支持30分钟以内的音频转写,返回时间不超过10秒。
了解更多
录音文件识别闲时版
单价低至0.45元/小时起,适用于语音质检、媒资管理、字幕生成及音视频价值信息挖掘等时效性要求较低的应用场景。
了解更多
语音自学习平台
提供“开箱即用”语音识别效果优化能力,支持热词、语言模型等全流程的识别效果优化功能,客户可以自主、自助定制出垂直领域语音识别模型。
了解更多
应用场景
法庭庭审转写
智能客服质检
实时直播字幕及管理
业务电话内容分析
智能语音问询终端
小说新闻内容阅读
互联网娱乐解决方案
法庭庭审转写
传统法庭庭审内容通过书记员进行过程记录,记录过程有可能影响法庭进程,降低庭审效率;借助阿里云智能语音交互能力,在庭审中实现全程留痕、辅助会议快速生成记录,从而督促谈话过程更合规,且提升稿件整理效率。
立即购买
售前咨询
能够解决
通过智能语音识别技术,实时转写庭审内容;
完整、准确还原庭审过程;
提高庭审效率及记录客观性。
推荐搭配使用
实时语音转写
一句话识别
智能客服质检
大量电话服务中,坐席出现违规或服务风险时也无法及时干预处理,造成客户及公司的损失;借助阿里云智能语音交互能力将实时通话录音转为文本,并进行文本分析,实现客服实时监控、离线质检等多种应用场景。
立即购买
售前咨询
能够解决
通过智能语音识别,完成电话坐席的全量、实时质检;
避免服务风险及服务违规,保证服务质量。
推荐搭配使用
实时语音转写
实时直播字幕及管理
用户在公共交通或公共场合看直播,无法打开音量,观看不过瘾。直播主播发生语言违规,造成不良舆情。主播流量、用户时长不稳定,内容运营缺少抓手。
立即购买
售前咨询
能够解决
字幕方便用户无法收听音频时正常观看视频内容;
实时内容管理,避免主播违规为平台带来风险,造成不良社会影响。
推荐搭配使用
实时语音转写
语言模型自学习工具
机器翻译
业务电话内容分析
传统中介业务中容易出现客户双方建立联系后抛弃中介的事情,从而导致中介公司经济损失,此类行为往往发生在双方沟通的电话中;所以通过阿里云智能语音交互将实时通话录音转为文本,实现客服语音实时监控、语音离线质检,及时定位问题、预警业务风险。
立即购买
售前咨询
能够解决
通过阿里云语音识别服务,可以帮助中介及时的发现上述问题;
从而阻止逃单行为,避免经济损失。
推荐搭配使用
实时语音转写
一句话识别
智能语音问询终端
公共服务设施(如,地铁售票),需要为残障人士等无法直接操作机器设备的用户提供语音交互,正常享用公共服务。通过智能语音交互能力在用户到达线下消费场所时,进行咨询答疑、业务引导,帮助用户获得更好的消费体验;同时提高了商家的服务效率、为商家节约人工服务成本。
立即购买
售前咨询
能够解决
在嘈杂的公共环境中,为用户提供多模态语音交互方式;
给用户带来舒适体验的同时提高了商家的服务效率、为商家节约人工服务成本。
推荐搭配使用
一句话识别
设备端SDK
小说新闻内容阅读
借助阿里云语音合成等能力,将小说新闻等长篇文字形式的信息,根据不同场景和用户习惯需要转化成音频形式的播报的形式。
立即购买
售前咨询
能够解决
地铁、开车、散步、吃饭等生活场景下,可以将需要阅读的内容转化为贴近场景的声音,解放“低头族”。
推荐搭配使用
语音合成
互联网娱乐解决方案
移动互联网下沉及用户年龄段拉大,需要丰富的交互形式满足不同特征用户的使用需求。
立即购买
售前咨询
能够解决
驱动互联网娱乐领域的业务创新,帮助客户在激烈的竞争环境中获取优势。
推荐搭配使用
一句话识别
产品动态
查看全部日志
文档与工具
快速开始
欢迎开启智能语音交互之旅
产品介绍
快速了解语音识别系列产品
开发文档
了解丰富的智能语音交互 OpenAPI
相关协议
智能语音交互服务等级协议