体彩排列三、福彩3D 2022 262期推荐
乒乓球结合技术—反手快拉上旋球接侧身正手连续
盘点欧冠赛场上六大逆转:巴萨米兰多次成为背景板
欧冠联赛四分之一决赛晋级形势分析
欧冠四分之一决赛晋级的四支球队毫无悬念皇马利物浦拜仁曼城
晋级决赛!女足夺冠奖金曝光韩媒:中国女足连续16年无缘冠军
恭喜中国女足!亚洲杯夺冠之后球迷向中国足协提出三点要求
女足亚洲杯:中国队夺冠
商务部:国内消费市场呈现向好发展态势
长沙雅礼实验中学:“大思政课”弘扬中华体育精神

自动驾驶与元宇宙的“起点”?智能语音赛道前景广阔!

这两年很火的高端科技,一个是自动驾驶,一个是元宇宙,而这都离不开 人机交互 。如何让机器识别人类的自然语言并做出准确判断?这就需要语音识别技术。

近年以来,随着智能电子设备迅速普及以及工业互联网等应用场景的大幅拓宽,智能语音识别技术得到了长足的发展,与此同时,智能语音市场也在急速扩容。

最新发布的《2020-2021 中国语音产业发展白皮书》显示,2020 年我国智能语音市场规模已经达到了 217 亿元,同比增长 31%,而 2021 年同比增长可达 44%。

智能语音是人工智能 AI 的重要应用领域,预计 2025 年我国智能语音垂直行业应用核心产品规模有望达到 159 亿元,2019-2025 年复合增速 23%,而智能语音带动的整体市场规模,有望在 2025 年达到 875 亿元,2019-2025 年复合增速 25%,产业前景十分广阔。

语音识别是人机交互的入口,是指机器 / 程序接收、解释声音,或理解和执行口头命令的能力。说起来很高端,其实语音识别场景很常见。举个例子,比如被大家 玩坏 的 Siri ( 苹果智能语音助手 ) 、微软 Windows10 系统自带的小娜(Cortana)。

在智能时代,越来越多的场景在设计个性化的交互界面时,采用以对话为主的交互形式。一个完整的对话交互是由 听懂——理解——回答 三个步骤完成的闭环,其中, 听懂 需要语音识别(Automatic Speech Recognition, ASR)技术; 理解 需要自然语言处理(Natural Language Processing, NLP)技术; 回答 需要语音合成(Text To Speech, TTS)技术。三个步骤环环相扣,相辅相成。语音识别技术是对话交互的开端,是保证对话交互高效准确进行的基础。

换个说法,在 人机 智能交互过程中,人的语言要被机器识别、理解、再反馈给人,就是这个过程。语音识别是第一步。想到了什么?比如现在的微信 语音转文字 功能。此外,语音识别的应用场景其实非常广泛,人机交互这个场景是很有想象力的,比如自动驾驶领域,甚至机器人、汽车人?想象下,你对汽车说 我要去哪 ,汽车准确识别然后自动导航到目的地,是不是很有科幻感?(变形金刚?)

语音识别技术并不是这几年才有的,自 20 世纪 50 年代开始步入萌芽阶段,发展至今,主流算法模型已经经历了四个阶段:包括模板匹配阶段、模式和特征分析阶段、概率统计建模阶段和现在主流的深度神经网络阶段。目前,语音识别主流厂商主要使用端到端算法,在理想实验环境下语音识别准确率可高达 98% 以上。

在 2018 年的 CES 上,人工智能作为未来科技最重要的技术,贯穿当年 CES 展示的几乎所有领域。自动驾驶和语音识别是那一届的亮点。而在 2021 年随着自动驾驶的深入商业化,语音识别这项技术又被市场所关注。(备注:CES,国际消费类电子产品展览会,始于 1967 年,是世界上最大、影响最为广泛的消费类电子技术年展,也是全球最大的消费技术产业盛会。简单来说,这个展览每年都有最尖端的科技展示,而且是已经落地或者将要落地的商业化产品,很多改变你我生活的 黑科技 就从这个展会上展示给世人)

不过,在今年(2022 年)CES 上,视觉识别技术和语音识别一样,同样开始被科技公司所重视。比如这几天的 CES 大会上,英伟达(Nvidia)发布了基于 DRIVE Concierge 互动 AI —— NVIDIA Omniverse Avatar 正式版,宣布结束 Beta 测试,正式向用户开放。

Omniverse Avatar 能够将语音 AI、计算机视觉、自然语义理解以及搜索引擎相结合,从而更精准实现语音需求。并且 Omniverse Avatar 还能够对车辆上的每一位驾乘人员提供个性化定制。

以 做显卡 起家的英伟达早就瞄准了人工智能、自动驾驶等最前沿的科技领域。在去年 11 月英伟达举办的 2021 年度 GTC 大会上,公司发布了多款 AI 技术和产品,以及与元宇宙相关的虚拟化身平台 Omniverse(当时还是测试版)。而最新的财报也体现了很多细节。详见笔者文章《元宇宙与人工智能,是英伟达的 进阶之路 吗?》。

src=上游:数据最关键,云服务是载体。这里都是大家耳熟能详的科技互联网公司,比如腾讯、阿里巴巴、百度。目前,主流语音识别公司的模型训练和语音识别基本都在云端采用 GPU 并行架构或异构计算方案进行。相关概念是:云计算、边缘计算、数据网络安全这些。

中游:主要为将语音识别技术实现商业化落地的硬件及软件服务供应商。根据终端消费者类型,语音识别的中游厂商主要可以分为消费级市场和专业级市场,其中消费级市场中的主要语音识别产品包括消费级智能硬件、智能音箱及语音输入法等,专业级市场的语音识别产品则主要以行业解决方案(以项目制交付的软硬件产品及服务)和平台化技术输出(SDK 或 API 形式的智能语音开放平台)两种形式呈现,其中更为垂直落地的解决方案形式在目前专业级商业化收入市场中占比更高。我们看上图产业链概况,在中游里,除了阿里和腾讯,出现最多的企业名字就是科大讯飞。

下游:从应用领域来看,目前消费级市场主要应用于智能硬件、智能家居、智慧教育、车载系统等领域,专业级市场主要应用于医疗、公检法、教育、客服、语音审核等领域。目前对语音识别的限制是环境的要求(安静的环境,少噪音干扰)。

而从国内的行业情况来看,我国智能语音市场呈现出头部集中的竞争格局。中商产业研究院数据显示,智能语音全球市场业务规模前五名的公司所占市场份额 ( CR5 ) 达到了 88%,中国市场 CR5 达到 84.6%。

由于语言差异形成天然壁垒,全球智能语音巨头如 Nuance、谷歌等在中国的市场份额有限。德勤公布的数据显示,中国智能语音市场当中,科大讯飞以 60% 市场份额稳居第一,阿里、百度等为代表的互联网巨头占据约 20% 市场份额。(Nuance:目前世界上最先进的电脑语音识别软件 Naturally Speaking 就出自于 Nuance 公司。在国内更出名的是 T9 输入法,从诺基亚时代过来的小伙伴或许更熟悉。T9 全球市场占有率超 70%。)

据去年 12 月底公告,公司将用 20 亿元建人工智能研发生产基地。具体来看,公司根据整体战略布局,为满足业务快速发展、经营规模持续扩大的需求,保障公司长远规划及发展战略实施,于 2021 年 12 月 27 日在合肥签署《投资合作协议书》,投资建设人工智能研发生产基地(一期)项目。

项目总投资约 20 亿元,用地面积约 300 亩,建筑面积约 25 万平方米,其中固定资产投资不低于 10 亿元。建设科大讯飞总部主要业务基地,包括教育业务、消费者业务、智慧城市业务、核心研发平台、人工智能开放平台等。

首创证券点评:随着公司在人工智能领域不断取得技术突破,持续为公司在教育、医疗、智慧城市、消费者等重点赛道打开全新的市场空间。公司聚焦教育、医疗等重点赛道发力,其中基于 AI 技术的整体解决方案在教育赛道的商业模式已经成熟,长期成长可期。在市场规模持续扩大、产业体系加速构建的良好机遇下,此次投资项目为人工智能产业高增长领域提供发展空间。同时,也将满足人员规模的增长,激发创新主体活力,吸引产业人才。

据 2021 年三季报:前三季度实现收入 108.68 亿元,同比增长 49.20%;实现归母净利润 7.29 亿元,同比增长 31.48%;实现扣非后归母净利润 5.15 亿元,同比增长 512.91%,业绩增长超预期。分季度来看,Q1、Q2、Q3 公司收入分别增长了 77.55%、29.82%、55.01%,三季度在 2020 年同期高基数的情况下实现高增长。

智能语音识别市场空间广阔,整体市场规模有望在 2025 年达到 875 亿元。从应用上来说,语音识别是实现 人机交互 的入口,无论是元宇宙还是自动驾驶,当下最火的概念都离不开语音识别。在这个人机交互的过程中,机器需要识别人的自然语言,变成机器能理解的,然后机器还要 翻译 成人能听懂的自然语言。

这个过程的背后,科技含量是很高的:需要数据的支撑,人工智能、算法的推进等。目前除了腾讯、阿里、百度等科技大厂外,科大讯飞是国内语音识别的龙头,以 60% 市场份额稳居第一。据去年三季报,业绩高增长。此外据 Choice 数据,科大讯飞在近半年内被 23 家机构评级为 买入 。

碳中和日报(Carbon neutral daily),深度观察碳中和行业,提供有投资价值的资讯信息。

发表回复

您的电子邮箱地址不会被公开。