阿基米德——声音改变生活

打造广播“虚拟主持人”，关键还在构建声音的场景生态

当我们在行车路上，导航里不仅有路线提示，还能介绍着我们正在路过怎样的风景与一路的人文故事……

当我们早晨伴随着智能闹钟醒来，家居智能设备同步开始播报今日最新资讯或最近最爱的音乐……

当我们日常里不仅充满声音，当我们的生活里一个个场景都在与声音互动，当音频内容能够主动去链接每个人……我们可以怎么打造“声音”？

近日，国家广播电视总局发布《关于公布第二届广播电视和网络视听人工智能应用创新大赛评选结果的通知》。此次大赛经过推荐、预赛、决赛和公示，广电总局评选出虚拟数字人、深度合成、视频修复、智能推荐和深度伪造鉴别等5个赛道，共67个项目为创新项目（一、二、三等奖）和入围项目（优秀奖）。评选结果同时在国家广播电视总局政府网站（网站地址:http://www.nrta.gov.cn）发布。由阿基米德传媒申报的《阿基米德虚拟主播及其在音频生产和传播中的应用》获虚拟数字人技术应用三等奖。

区别于其他获奖作品，阿基米德虚拟主播其实并没有“虚拟形象”。作为纯声音输出的虚拟数字人，阿基米德虚拟主播专注于“声音”故事的表现上。

从我们普遍认同的定义来上说，虚拟数字人是指通过计算机图像学、人工智能、驱动技术等综合技术手段，打造出的非物理世界中的虚拟人物。与具备实体的机器人不同，虚拟数字人依赖显示设备存在。随着深度学习算法的突破，虚拟数字人的制作过程得到有效简化，拟人化程度越来越高。近两年，虚拟数字人产业蓬勃发展，在政务、金融、传媒、文旅、娱乐等行业或场景下广泛应用。值得一提到是，虚拟数字人作为元宇宙世界的原住民，和元宇宙发展其实也密不可分。

结合虚拟数字人发展历程、核心技术和实际效果，可从不同维度对虚拟数字人进行分类。从外观来看，早期数字人多为2D形象，随着形象建模技术发展3D数字人、超写实数字人不断涌现，令人耳目一新。从交互方面，数字人可分为非交互性数字人和交互型数字人，应用于不同业务场景。在传媒领域，虚拟数字人也受到越来越多的关注和应用。此次2022年国家广电总局举办的第二届广播电视和网络视听人工智能应用创新大赛（MediaAIAC）中就首设虚拟数字人赛道，该赛道主要从技术和效果层面考察虚拟数字人在传媒场景下的应用，其中来自全国多家媒体单位的多种类型虚拟主播作品汇集和交流，其覆盖多种内容、多种播报形式，进一步拓宽虚拟数字人在媒体领域的应用思路。

在我们广播场景下，因为声音是传播的主要介质，所以并没有虚拟主持人在人物形象方面的需求，但因为介质更加单一，对数字人的语义理解、语音合成方面的能力就提出了更高的要求。随着这两方面技术的飞速发展，目前广播虚拟主持人，在语音播报类诸如新闻，资讯等方面的的主持能力，已经能够做到与真人有极高的接近度，相比于真人，能够以远高于真人的生产效率，24小时不间断的制作内容，在声音的制作方面，已经极大地完成了“去人”化。

阿基米德的虚拟主持人就是专门针对广播播音播报场景下打造的一款AI产品。基于多年积攒的大量文本、语音素材以及专业经验，阿基米德结合自然语言处理、语音合成等领域能力，对资讯播报、亲子、故事等垂域合成效果、合成效率等方面进行优化。其中新闻资讯播报场景，阿基米德以广播节目实际制作方式为蓝本，独创性设计”AI对播“功能，以多主持人对播的形态，自动合成一档完整的新闻播报节目，在合成效果上，可与真人主持人随时替代，在稳定和效率方面，其内容生产效率甚至能达到真人主持人的二十至三十倍。

生产效率提升、助力广播内容生产降本增效的同时，在万物互联、万物发声时代，我们能够怎样借助技术赋能，通过虚拟主持人的出现让每个物体发声？同时发什么声？又如何让声音成为我们生活的工具、节点的基础上，能够成为我们一天24小时不同场景的“氛围担当”？这是我们不断提升音频内容服务“质”与“量”还需要思考的问题。

移动互联网时代，硬件与平台的结合正在让音频内容的场景化播放实现零障碍，带来用户规模的扩大；同时人们接触媒介的方式从摇控器到触屏，再到未来的语音操控，人机交互正在迎来巨大变化——智能语音操作系统会成为下一代的操作系统，语音会成为下一代获取信息的重要方式，声音形态蜕变为一种高度适应智能化传播语境的表达方式，打造广播“虚拟主持人”的路上，声音一定不仅仅是产品，更是生态。我们需要挖掘内容生产的更高价值，创新音频服务的更多场景，构建城市生活的音频内容服务生态圈。

未来，阿基米德也将结合自身在智能音频、内容理解、传播分发等方面的优势，进一步提升和完善虚拟自身主播技术能力，不断探索虚拟数字人在媒体融合背景下的服务和应用。

作者：胡蓓蓓（阿基米德传媒高级软件开发专家）

以上内容如需转载请注明来源并全文转载

< 返回