2022年底,智能聊天机器人程序ChatGPT一经推出便风靡全网;不久后的2023年3月,AI绘图工具Midjourney V5及其作品也在全世界引起不小的轰动,各行各业的“游戏规则”也开始因AI悄然发生变革。AI技术发展的日新月异,似乎瞬间将绘画、摄影、动画、影视剧等在内的影像行业,带入了一个全新的创作时代。2024年6月21日,华为开发者大会(HDC 2024)在广东东莞举行,会上华为云重磅发布了盘古大模型5.0,其中展示的媒体大模型,在实拍转绘、影像译制和语音生成以及AI多语种实时翻译三个方面做了技术创新,这让处在AI时代下深刻变革的国内影像行业,在未知挑战中迎来更多机遇。这些AI新技术和新工具无疑潜力深厚,众多影像从业者或许因此实现以往没办法完成的视觉创作,发掘出影像内容生产和应用的更多创新模式。
AI生成的视频技术正在革新我们的视觉体验,为动漫、视频行业带来新的想象。在视频生成方面,华为云盘古媒体大模型通过训练几十张特定美学风格的图片,如吉卜利、二次元等风格,输入实拍视频就可以快速生成该风格的动漫视频,实现按需时长生成稳定的动漫视频,这为动漫的生产提供了新的模式。在之前,视频生成技术在动漫视频生成时,都是按每一帧画面进行风格化,然后重新串联成视频。由于AI转换的不确定性,有可能会出现角色前后特征发生明显的变化,变成另外一个人,或者在人物运动、转身、侧脸等情况下细节特征发生明显的变化。盘古媒体大模型通过ID一致性模型,对生成画面中的关键角色进行一致性处理,保持视频中角色样貌特征前后始终一致,在侧脸、运动轨迹下的视觉效果同样合理一致。并且,视频中的关键道具也能保持前后一致性。这种可控的视频生成技术,更容易满足真正的工业场景应用需求。
例如,在第十四届北京国际电影节“AIGC电影短片单元”竞赛中获得最佳影片奖的AI动画短片《致亲爱的自己》,由中国传媒大学动画与数字艺术学院及Ainimate Lab在华为云的支持下共创生成。在这支作品中,有大量、大幅度舞蹈动作,人物与镜头运动轨迹大,基于ID一致性模型,人物的面部轮廓、发型、五官等样貌特征从始至终保持稳定生成、一致,所以观众能看出前后一直是同一个人。同时视频中的关键道具蒲公英造型戒指,也在多个画面中保持一致。
另外,当前很多AI影片的不足之处,在于故事情节多依靠旁白串联全篇,片中主人公的微动作和表情几乎都无法表现。这种AI视觉叙事能力的缺失,让人物失去了情绪表演的递进和感染力,观众无法与之共情,所以故事的深刻和细腻很难传达出来。基于这样的一个问题,华为云基于MetaStudio的一站式云上数字内容生产平台能力,让影片内容生产方式发生质的跃迁,比如这项技术能严格要求演员表情细节、肢体动作细节,能在最关键的几个要传达情绪的镜头里,把角色的表情保留下来,保证作品故事信息有效传递。
讲好中国故事、传播好中国声音,展示真实、立体、全面的中国,是加强我国国际传播能力建设的重要任务。近年来,凭借丰富题材、新颖视角和独特风格,我国的影视、短剧出海需求愈加旺盛。但传统的视频译制,需要配音演员熟悉翻译后的台词、体会角色情感,再对视频进行目标语种的重新配音。因此,影片质量完全取决于配音演员的专业能力,而且角色原先的声音和情感都会被重塑。并且,受限于人工译制成本高,影片的质量也参差不齐,产能有限。但通过媒体大模型提供的视频翻译能力,用AI能将视频翻译为目标语言,并且影片中原始角色的音色、情感、语气可以完好保留;并且除中英译制外,联合逻辑智能伙伴的能力,能轻松实现韩语、法语、德语、西语、泰语、阿语等15种语言的译制,并达到影视级译制效果。除了声音外,通过媒体大模型的口型驱动模型,能轻松实现音唇同步,给观众带来更好的观看体验。尤其是当影片中人物处于侧面、多人对话、物体遮挡以及移动等场景,也能做到很好的口型匹配。正如华为云与中影集团合作,将媒体大模型应用到了影视工业,共同打造出影视译制大模型,通过AI将视频译制成不同语言,支持口型匹配的同时保留了原始角色的音色、情感、语气,为影片译制提供了全新的AI制作方式。华为云媒体大模型的视频译制能力,更为影视、短剧出海提供了一种新的生产力工具,更好地实现内容高效、高质量的供给。
另外,在语音生成方面,媒体大模型重塑了个性化语音生成以及情感化。个性化语音在很多行业场景中已经普遍的使用,例如数字人、有声书配音、培训课程制作、虚拟NPC等。传统的声音克隆模型都是小模型,需要几百句话的录音,通过人工标注,反复训练提取音色。基于媒体大模型语音生成能力,只需要几句话、几秒钟的声音,即可学习到个性化的音色、语调、表达韵律,从而获得高质量的个性化语音。同时,这项技术上的支持喜怒哀乐等拟人情感语音,支持闲聊、新闻、直播等10多种语气风格,让生成的语音更拟真,更具情感,符合更多场景所需。
AI大模型辅助语言的翻译不仅应用在影视行业,对于人们的日常交流、工作也有着重要的意义。在AI翻译方面,媒体大模型能够最终靠AI实现多语种实时传译,准确性大于93%。这项技术可应用于实时通话、云会议等需要实时翻译的场景,重塑了跨语言沟通体验。并且,基于大模型的语音复刻、AI文字翻译以及TTS技术(文语转换技术),能轻松实现语音的同声传译。通过这项技术,每个人跨语言沟通时都可以用自己的母语说话,听的时候选择自身的母语收听,AI就会将每个人的发言以预置声音或者真人的声音翻译为收听语言,实现跨语言母语沟通体验。结合数字人技术,在人们不方便开摄像头时,还可以用数字人参会,并通过口型驱动实现数字人以各种语言说话且都能精准匹配口型,就如同本人说话一样。
如今,像华为云媒体大模型这类AI有关技术和应用工具的迅速发展和普及,深刻影响着影像工业制作流程,更让一些影像从业者从新技术的诞生中获得创作的新启发、新认知和新创意。或许,更善于与AI打交道的影像艺术家,将在未来创作中获得更有力的辅助和更创新的影像创作模式。