最近我在TikTok上看到个特别牛的功能,叫AI绿幕。只要把5秒的视频传上去,系统就能自动给你生成个专属背景。你把“看图识字”反过来,“看字画图”,就能马上感受到这种新玩法的魅力。 虽然现在OCR技术能把图片里的字全读出来,但是让文字变成画,这对AI来说还是挺难的一道坎。没想到第一个把这事儿干得漂亮的,居然是日活上亿的TikTok。 这个AI绿幕操作很简单,在上传视频时选特效,然后给系统几句话的关键词,大概5秒钟就能搞定。它不再是以前那种死板的白底了,而是直接把你的关键词给“画”成画面。蓝天、霓虹、人脸、建筑……运气好的话,背景和内容还能碰出点火花。 我也随手试了试,给系统输入了“Facebook”“苹果”“马云”“马斯克”,结果五花八门。输入“Facebook”,出来个低饱和蓝幕,中间悬着只独眼和半截耳朵,大概是在暗示最近平台上的风波。输入“苹果”,画面里长出来一只红富士;“中国”则变成了青砖灰瓦的古建筑,巧妙避开了敏感元素。不过想画苹果公司logo和库克就有点吃力了。 把“阿里巴巴”“腾讯”“字节跳动”扔进去更是抽象,既像又不像。人物方面李子柒的名字让人看到治愈系稻田与远山;温格的照片被解构成赛场剪影;马云画像继续保持“窥视”主题;马斯克连续生成四张都没法一眼认出。说到地域关键词Switch直接变成塞尔达林克风格;提到广州就会出现小蛮腰和霓虹色彩。 为什么这么快呢?因为TikTok走的是抽象路线,省了不少算力。做写实照片费钱费力,印象派速写氛围足就行。低成本、低门槛、高互动的特点让它能快速落地。 这和Google的Imagen不一样,虽然Imagen技术很强,但它只能在官网上展示预设模板,没法像TikTok这样实时生成图片。Dall-E虽然能对图片进行高保真编辑甚至自动补全细节,但它现在还在封闭测试阶段。内测用户每个月只能生成60张图,想用就得花钱或者找商用途径。 不过Deepfake带来的风险还是得注意。输入敏感文字可能会引发不良画面。TikTok用抽象画风加上审核前置来保护用户;Dall-E则在算法层面屏蔽暴力、成人等内容并启用双重巡查机制。 未来如果真的能把文字直接变成视觉故事,那内容创作效率会有质的飞跃。说不定以后刷到的推送标题会直接写着“题图由Dall-E生成”。到时候我们就不用再为找图熬夜发愁了。