百度吴甜：跨模态大模型技术创新带来AIGC应用突破

来源：淘生活问答时间：2022-08-20 10:01

原标题：百度吴甜：跨模态大模型技术创新带来AIGC应用突破

封面新闻记者孟梅欧阳宏宇

从画鸡蛋到创作《蒙娜丽莎》，人类学习作画，即便是达芬奇一般也得从基本功练起，要想画得出众，除了日积月累勤奋练习，还需要一些天赋，以及对世界的精细观察和画家个人的独特创想。进入数字时代，能否借助AI 的能力降低作画的门槛，让人人都能成为“艺术家”？

“基于AI跨模态匹配大模型进行生成画作的结果排序，将帮助人们通过语义筛选的方式，创作出美观度最佳的画作。”8月19日，百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜在成都表示，由AI深度学习带来的文生图系统可为大众用户提供一个零门槛绘画创作平台，让每个人都能展现个性化格调，享受艺术创作的乐趣。

由AI文生图生成的画作

记者注意到，目前百度、OpenAI、谷歌等国内外的科技公司均已推了文生图AI工具。在这些工具中，用户可以输入文本，然后得到由AI生成的高清画作，包括国风、油画、水彩、水粉、动漫、写实等十余种不同风格，并支持不同的画幅选择。

面对日益增长的内容创作需要，关键是如何准确理解用户需求，进而精准刻画并满足多样化风格、高质量生成的要求。吴甜表示，足够实用化至关重要。“关键是要从用户需求出发提供全流程解决方案，比如，理解用户需求并在此基础上丰富语义细节，降低用户输入描述成本；对灵活性需求更高的开发者开放开源算法，帮助其完成模型的管理和一键预测诉求。”

事实上，文生图只是AIGC（人工智能生成内容）的外延之一。数据的井喷式增长、算力的持续突破、算法的持续创新为人工智能带来新机遇，预训练大模型凭借优越的泛化性、通用性和应用效果，正成为人工智能发展的重要方向。在吴甜看来，让AI在预训练过程中同时学习模态间和模态内的多种关联性，提升“图像”和“文本”跨模态语义匹配效果，并通过渐进式扩散模型，不断提升文本生成图像的效果。

“让机器具备跨越文本、图像等多种模态的复杂场景理解与生成能力，是人工智能的重要目标之一，也是数字时代科技与产业深度融合创新，催生新业态新模式，加快产业智能化升级的新动能。”吴甜预测，人工智能在艺术领域的学习与创作能力正以蓬勃之势不断刷新人们的认知，也让公众对科技与艺术及文化的融合创新有了更大的想象空间，未来带来创新性探索的同时赋能到广泛的行业领域。

责任编辑：