AK大佬转发的“照片风格化”视频:上传照片,一键转为像素风、卡通风、3D风、雕塑

量子位来谈科技 2025-05-30 19:17:34

AK大佬转发的“照片风格化”视频:上传照片,一键转为像素风、卡通风、3D风、雕塑风。 要知道,风格化一直有两个问题:一个是风格不稳,另一个是结构容易乱。 而这个视频,用到了OmniConsistency方法——它是一个“可插拔”的一致性模块,可以搭配各种扩散式风格迁移模型使用,只加个轻模块,就能显著提升效果。 背后的逻辑包括: - 两阶段训练:先单独训练风格LoRA,再用风格前后的图像对来训练一致性模块,避免风格干扰结构。 - 滚动LoRA策略:训练时每隔50步换一个风格模块和数据集,让模型能适应不同风格,包括没见过的新风格。 - 一致性LoRA:只加在条件分支上,不动主干,既保持结构信息,也不影响风格表达。 - 位置感知插值+因果注意力:保证低分辨率条件图能正确指导高分辨率输出,同时不乱串信息。 - 数据集也不马虎:用GPT-4o生成的风格图像+人工挑选,22种风格、2600对高质量数据。 结果上也很能打。无论是DreamSim、FID、还是GPT-4o评分,各项指标都对标甚至超过了现有SOTA,用户偏好测试也更倾向于OmniConsistency在风格和内容一致性上的表现。 虽然还有些边角问题,比如非英文文本处理不够好、多人物场景下细节不稳,但整体来说,它已经是目前风格迁移里“结构不崩、风格不丢”的强解法之一。 而且对接起来也方便,只加5%左右的资源开销,就能适配各种现有LoRA和风格框架(如IP-Adapter)。 在线网站:huggingface.co/spaces/yiren98/OmniConsistency 论文:

0 阅读:0
量子位来谈科技

量子位来谈科技

感谢大家的关注