“P图”已经是现代人生活的刚需之一,没有拍出能发朋友圈的美照,四舍五入约等于没出去玩。如今AI技术和视觉算法的进步,已经使修图效果更极致,更简单。
当普通人对AI作图的认知还停留在修图、仿制艺术照的时候,关注创作行业的人会发现AIGC已突破“照片”的维度,正在向着“视觉艺术”的高度前进。
2022年美国科罗拉多州博览会艺术比赛就出现了一幅由AI工具Midjourney生成的获奖作品《太空歌剧院》,画中古典贵妇们立于穹顶之上、漫游太空之间,极具视觉震撼力,也让原本只在小众爱好者圈中流行的AI作画进入了大众视野。
国内公司同样在AIGC的赛道上奋勇向前,年初由ChatGPT引发的国产大模型热潮,已经将东风吹向了技术和数据积累更早、更丰富的玩家。
美图,作为美颜、修图界的鼻祖,因为AIGC风口被重新关注,股价涨幅多次领跑港股AI板块,公司15周年发布会第二日(10月10日)的股价更是大涨11.56%。
在本周美国AI芯片出口新规给AI板块带来下挫行情后,美图公司的股价依旧表现出了韧性。市场的认可不仅源自对其AI技术进步的肯定,更是源自对美图公司商业模式转型、打造创意行业新生产力工具的期许。
6月19日,美图首次向外界介绍了自研AI视觉大模型MiRacleVision,10月份又更新到3.0版本。在亲自使用了这款视觉大模型之后,《巨潮WAVE》发现,这可能是美图未来几年最有价值的核心技术之一。
技术助力智能创作
美图AI视觉大模型具备稳定可控的审美能力。
AI是否可以发展出人类的审美能力?0与1的组合是否能迭代出真正的美?这是一个充满哲学意义的问题。如果只把AI当做辅助创作美的工具,那么这项新技术还存在亟需改进之处,比如往往画不好人手等细节。
在大模型的“军备竞赛”中,如何提高精确性和可控性,已经成为了持续迭代的重要方向。
看完美图的发布会后,笔者就以“少女、活泼、阳光、日系、大笑、卖萌、高清、全身、全景、平拍”为关键词,分别利用美图的WHEE、百度的文心一言和阿里的通义万相生成了相关图片。
从真实感、氛围感来说,美图的WHEE表现可圈可点,至少那位从美图WHEE里走出来的少女有着更自然、甜美的笑容,更符合真实的东亚女性形象。
因为Midjourney目前只支持英文输入,笔者又以“Asian giRls aRe lively, sunny, and Japanese style, wITh SMiles and cute outfITs”为命令让美图WHEE和MidjouRney生成了相关图片。
从颜值来看,两位AI女孩各有千秋,但是美图WHEE对sunny、SMile两个细节把握的要更好些,而且还能支持中英文双语输入,对中国用户来说更为友好。
AI生成人像要处理的好,除了整体比例的把握,最重要的就是细节不突兀、可控可调,眉毛、眼窝、苹果肌、下颚、锁骨等等都是细节。美图凭借在图像领域的多年积累,在“美学”方面也算做到了术业有专攻。
这可能与美图公司长期以来对“美学”的追求和对创作者的支持有关。
美图公司除了购买行业数据作为视觉大模型训练的基础素材,更以设计师主导的方式,充分调动了公司设计师资源,和早前为打造设计师生态而孵化的MCP创作者平台,全力参与大模型的训练。
除了数据打底,美图的视觉大模型还有不少转化生产力的妙招,比如AI作图时的提示词智能联想和精准控制。
这是个听起来很像搜狗输入法的功能,但是能够节约时间、提高效率,让图片、视频的制作者能更精确的实现自己的想法,进而大幅提升宣发物料的竞争力。
美图公司试图以提示词串联起用户的“想法”与“手法”,协助智能创作。比如通过输入“近/远景”、“顺/逆光” 、“大/小光圈”等精确提示词,用户就能轻松把控光影等细节,并且调整到自己理想中的成片效果,实现自己的创意。
视觉大模型MiRacleVision 3.0在美学基础上,重点增强的可控性可以让用户更细致地调整AI图片的生成效果,让创意工作者的工作效率得到提升,进而实现商业价值。
多行业应用落地
美图AI可用于丰富的商业化场景中。
3月份,小红书上批量诞生了大量“赛博美女”,这些账号给了市场以新的启示,就是AI作画在市场营销领域蕴含着蓬勃的生机。
通过创造“赛博美女”或其他人物形象,创业者可以创造流量,并以这些流量为基础,通过广告、电商等成熟的线上商业模式进行合作变现。
而从电商业务的视角来看,大模型的辅助下制作商品展示图的门槛和难度将被大幅降低。AI创作团队产出细节精准、人物灵动的高质量商品展示图,可以让这个原本需要大量依赖创意、拍摄的行业成本费用下降,利润相应提升。