当前位置:新闻快讯网 > 科技 > 手机 >
能力深耕,开放赋能——构建智慧家庭智能语音
2020-11-22 14:51

Labs 导语

随着我国人工智能发展规划的出台,以及各项关键技术的日趋成熟,物联网时代逐步成为继移动互联网时代的下一个浪潮,人机交互开启新一轮的需求革新,从鼠标、键盘、触屏的传统交互向语音交互演进,社会正在飞速进入智能语音交互时代。

以 语音+内容+智能 为切入点,打造自主设计、自主整合、自主运营的一站式语音交互共享平台,构建可运营、能变现的语音交互生态,赋能多形态终端产品,打造能听会说的人机交互体验,是未来智慧家庭发展的大趋势,也是中国移动智慧家庭运营中心推进数字家庭生态建设的重点方向。

1 语音交互是智慧家庭生态布局的关键入口

1.1 人机交互需求不断革新

伴随着交互场景的拓展,人们逐渐对交互自由度提出了更大需求,语音交互越来越贴近人类的本能表达。语音交互凭借其输入速度快、场景限制少、技术链条发展成熟等优势,成为智能时代的理想交互途径,并逐步向交互智能、终端多态、服务泛在的方向发展。

1.2 家庭场景服务更加智能

语音交互是将人工智能技术底层产业化的关键,语音助手连接多形态终端和广泛业务,可提供内容服务、互联网服务,以及场景化智能家居控制等服务,为家庭用户提供互动娱乐、互动教育、家庭健康、家庭安防等新型产品体验,其中智能音箱成为首款爆发单品,并逐步向更多产品形态延伸。

2 核心技术攻关提升体验

智能语音交互主要涉及语音识别、语义理解和语音合成等技术。语音识别技术能将语音流转换为文本,语义理解技术可分析语句的含义、剖析用户意图,语音合成技术将解析结果以语音的方式反馈给用户,从而实现与用户的智能语音交互。

2.1 语音识别 听得清

智能语音交互平台现采用基于Transformer算法的端到端模型,具备识别速度快、识别准确率高的特性。该模型采用基于上下文理解的自注意力机制,提升了语义特征提取能力,解决了传统模型中声学模型和语言模型无法联合优化的问题,并且该算法能更好地利用先进硬件实现并行计算,从而提升运算速度。

2.2 语义理解 听得懂

平台采用基于规则+深度+关键词匹配算法的多算法融合模型理解用户意图,规则算法对于较短文本可实现快速准确的匹配,深度学习算法可对词表无法覆盖的新词进行识别,关键词匹配算法对于词表顺序颠倒、文本长尾问题,能快速准确地识别文本意图。

2.3 语音合成 说得明

平台采用端到端合成系统,可直接输入文本或注音字符,直接输出音频波形,该系统降低了对语言学知识的要求,能批量实现几十种甚至更多语种的合成系统,并且它表现出丰富的发音风格和强大的韵律表现力,加快不同声音的合成。

3 语音OS锻造,赋能语音生态

3.1 语音助手,赋能多形态终端

智能语音交互平台面向多形态终端提供语音助手,采用Hook技术分离各个子模块,实现语音点播、通话、听书、对话等功能,协助平台构建声纹、情绪、体感等多模态识别交互和相应反馈、推荐业务,兼容主流操作系统,支持自定义接口扩展,大大缩短接入周期和研发成本,快速赋能生态硬件及应用的语音交互能力。

3.2 语音插件,赋能海量应用

平台面向海量应用提供语音交互插件,制定标准开放协议,基于IPC实现第三方应用与Launcher的跨进程通讯,当用户调用语音控制,由平台下发热词及词槽信息,Launcher进行动态匹配并下发至第三方应用,可进行直播、点播、播控等,从而实现所见即所得。

4 整套场景封装,提供系统解决方案

4.1 全屋智能

基于智能语音交互能力和Andlink智能家居云平台,提供智能音箱、智能面板、智能照明、智能开关等一体化全屋智能解决方案,实现跨厂商设备的接入和语音控制,可与智能门禁、摄像头等结合,实现家庭安防组合等细分场景。

4.2 AI客厅

打造智慧屏,通过语音遥控器、智能音箱与智能电视结合的方式,实现电视播控推荐,将语音能力赋能教育、电商、音乐、游戏、健康等大屏应用,发挥轻量级语音技能,实现一说即得的用户体验。

4.3智能对话服务

提供融合语义推导与语义匹配的对话理解技术,预置涵盖音视频娱乐、设备控制、生活服务等领域的对话能力及词典,高效定制对话能力,在智能助手、在线客服、语音家教等领域可广泛应用。

5 结束语

智能语音交互系统攻关语音识别、语义理解、语音合成等技术,快速赋能多形态终端,应用于 能听会说 、 能理解会思考 的AI交互体验,实现从概念、技术到商业产品、功能应用的跨越,形成一个以语音交互技术为核心的全新应用生态链,促进人工智能产业的迅猛发展。

在5G快速发展的背景下,高带宽和低时延特性促使智能语音交互技术不断攻克新的难题,开启新的篇章。在 理解 层面,重点打造 支持打断和智能纠正 的认知型对话引擎,实现自然交互的本质要求;在 应用 层面,语音交互内容技能生态将渗透各个领域,并进行场景化的封装,真正实现海量服务 开口即得 的交互体验;在 接入 层面,语音助手持续扩大枢纽作用,赋能更多形态终端和交互应用规模起量,实现万物均能说话;在 沉浸式 层面,将融合语音识别、人脸识别、表情分析、唇动状态、眼球跟踪、手势识别、触觉监控等智能人机交互手段,完善 端-端 、 端-云-端 的交互协议,打造沉浸式多模态互动体验。

当人机交互越来越贴近自然表达,中国移动智慧家庭运营中心将持续深化智能语音生态体系建设,引领未来美好生活。

上一篇:从“传统”到“赋能”,联通如何打造工业互联

下一篇:没有了

最新文章