度晓晓还原富春山居图 到底是什么情况?
2022-09-27 00:42:31百度AI数字人希加加现场作画
不过,这并未难倒希加加。在AI系统对关键词进行搜索汇总之后,希加加几秒便完成了创作,更是收获了撒贝宁“挺有创意”的评价。
而以上“戏剧化”的场景便是本次百度世界大会的亮点之一。在大会现场,“猜猜谁是数字人”环节,数字人度晓晓通过唱歌、问答展现在语音情绪识别、知识图谱推演等方面的超能力;度晓晓与撒贝宁互动,展现“问一问功能”、为撒贝宁点咖啡。
度晓晓为撒贝宁点咖啡
值得注意的是,在见识了希加加的出色表现,百度CEO李彦宏也不禁感慨,“希加加,你比上次见面的时候更聪明了,看来你学习能力很强大啊”。
其实,AI数字人为何能让李彦宏会产生“一日不见,如隔三秋”的感慨的个中原因,早在2022百度世界大会媒体预沟通会便已提前揭晓。
百度副总裁袁佛玉曾表示,与市面上其他数字人相比,百度AI数字人拥有可交互、有创造力、应用场景广泛等特性。其中,百度飞桨的文心大模型负责为AI数字人提供技术支持。AI数字人对话能力使用的是对话生成大模型—文心 PLATO,PLATO有接近真人水平的对话能力,对话效果已经达到世界领先水平;数字人画画能力,使用的是文心大模型—跨模态图文生成模型ERNIE-ViLG,使得数字人不仅可以根据个性化需求自动生成油画、水彩画、中国画等多种风格的图像,还能实现“看图说话”的效果。
除了活灵活现的AI数字人外,百度通过人工智能技术对分散两地的《富春山居图》的“合璧”之举更是让人赞不绝口。
《富春山居图》是元代画坛宗师、“元四家”之首黄公望晚年的杰作,也是中国古代水墨山水画的巅峰之笔,被誉为“中国十大传世名画”之一。该画于清代顺治年间遭火焚,从此断为长短两卷。前半卷被另行装裱,重新定名为《富春山居图·剩山图》,现藏于浙江省博物馆;后半卷被称为《富春山居图·无用师卷》,现藏于台北故宫博物院。
在2022百度世界大会现场,百度首席技术官王海峰博士展示了基于文心大模型“补全”后的《富春山居图》。
该画得到了黄公望纪念馆负责人毛传镔的高度评价:文心大模型补全的《富春山居图》“与现存真迹风格一致,使两岸画卷走出博物馆实现了合璧,光线风格统一,山水脉络和谐,不仅符合原画审美特点,视觉上还同样具有观赏价值”。
值得注意的是,相比于用AI复原老照片、让古画中的人物“活”起来等“常规操作”,此次应用百度文心大模型“补全”的《富春山居图》在互动形式上则更具特色。
其亮点在于每个人都可以根据自己的想法参与《富春山居图》“虚拟修复”工作,只需不到1秒钟,在中间空白处简单勾勒几笔,文心大模型就能自动“补全”画卷,人人都能像专业画家一样画出自己心中的山水。
文心大模型助力《富春山居图》“山水合璧”
然而,短短1秒钟的“虚拟修复”时间,是团队努力跨越多道关卡后的结果。在清晰度上,百度针对《富春山居图》实现了高清尺寸的补全,生成的画作更加逼真,具备了更高的艺术观赏性;在还原度上,在只有一幅样本的条件下,对《富春山居图》进行高度还原,对模型的迁移学习能力要求极高;在参与度上,由于不同用户输入的笔触千变万化、形态各异,需要同时满足所有人多样化的创作期望和天马行空的创意想法,并且近乎实时地生成画作。
对此,百度采取了“视觉生成大模型+单样本微调”的技术策略,使用文心视觉大模型实现了对画作的补全。文心大模型先是学习了大量的中国山水画,实现了从山水画“小白”向“大师”的进阶,然后具备“大师”水平的文心大模型再去学习黄公望的《富春山居图》时,就能够更容易地掌握这幅传世名作的精髓,从而让补全出来的画作与现存真迹风格一致。
其实,不管是AI数字人抑或是文物修复,其背后所体现的是百度想通过大模型帮助提升素材和物料的生产效率、降低成本,探索文化创作、交互等场景新玩法的逻辑。
李彦宏提到,我们都知道一句话,“熟读唐诗三百首,不会作诗也会吟”。但人的学习和记忆能力是有限的,《全唐诗》有接近5万首,通读都很难,背诵就更不容易了。而这对于大模型来说,根本就不是事儿。百度文心大模型学习效率更高、学习能力更强,还能跨语言、跨模态学习。一旦跨过某个奇点,就能产生真正意义上的AI原创内容。
据了解,百度推出的文心大模型具备“知识增强”的核心特点,能从大规模知识和海量数据中进行融合学习,具有通用性好、泛化性强的特点。作为人工智能“基础设施”的一部分,预训练大模型拓宽了人工智能技术落地场景的覆盖广度,同时降低了渗透到产业应用的难度。
业界也认为,2022年,大规模预训练模型将呈现知识增强、跨模态统一建模、多学习方式共同演进的趋势,并逐渐实用化,破除盲目增加参数规模的“军备竞赛”。
与此同时,生产力的改进也必将带动生产关系的演化。
李彦宏认为,AIGC(人工智能自主生成内容)是PGC、UGC之后,全新的内容生产方式。它不仅会提升内容生产的效率,也会创造出有独特价值和独立视角的内容。
其中,AIGC的发展历程大致可以分为三大阶段:第一个阶段,我们称之为AIGC的“助手阶段”,AIGC用来辅助人类进行内容生产;第二个阶段,我们称之为AIGC的“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;第三个阶段,我们称之为AIGC的“原创阶段”,AIGC将独立完成内容创作。大模型技术的突破,正在加速这个发展趋势。未来十年,AIGC将颠覆现有内容生产模式。可以实现以“十分之一的成本”,以百倍千倍的生产速度,去生成AI原创内容。
百度研究院预测,2022年AIGC技术将借助大模型的跨模态综合技术能力,可以激发创意,提升内容多样性,降低制作成本,实现大规模应用。
“我们正处在技术创新的大周期中,新能源、太空探索、生物医药、智能制造等新技术纷纷涌现,中国的科技发展一定会走到世界前沿。”李彦宏表示,而这条路,需要很多“石块”铺就。百度愿意成为其中的一块“铺路石”,在基础研究、基础技术和底层创新上贡献力量。