我要投稿

DCEdit – 北交大联合美图推出的双层控制图像编辑方法

AI老司机 AI行业动态

2025-04-11 0 712

DCEdit是什么

DCEdit 是新型的双层控制图像编辑方法，是北京交通大学和美图2MT实验室联合推出的。DCEdit基于精确语义定位策略（PSL），用视觉和文本自注意力优化交叉注意力图，提供更精准的区域线索指导图像编辑。DCEdit 引入双层控制机制（DLC），在特征层和隐空间层同时融入区域线索，实现更精细的编辑控制。DCEdit 无需额外训练或微调，应用在现有的基于扩散变换器（DiT）的编辑方法，在背景保留和编辑准确性方面表现出色。

DCEdit的主要功能

精确语义定位：精确定位图像中需要编辑的语义区域，同时保留背景和其他未编辑区域的细节。
双层控制机制：在特征层和隐空间层同时融入区域线索，实现对编辑过程的细粒度控制，提升编辑效果。
支持复杂图像编辑：适用于高分辨率、复杂背景的真实世界图像，支持处理多种编辑任务，如改变颜色、替换对象、添加或删除对象等。

DCEdit的技术原理

精确语义定位策略（PSL）：结合视觉自注意力和文本自注意力，优化交叉注意力图。视觉自注意力矩阵捕捉图像内部的亲和关系，文本自注意力矩阵用于解耦语义之间的纠缠。基于视觉自注意力矩阵的重加权和文本自注意力矩阵的逆操作，优化交叉注意力图，更准确地反映目标语义区域。优化后的交叉注意力图作为区域线索，指导编辑过程，确保编辑效果集中在目标区域。
双层控制机制（DLC）：在特征层中，基于软融合机制，用优化后的交叉注意力图选择性地保留与编辑文本激活的特征，避免直接替换特征导致的编辑效果丢失。在隐空间层中，基于扩散混合方法，用二值化后的交叉注意力图保留背景信息，防止背景区域被错误编辑。反演过程将源图像映射到初始噪声，在采样过程中应用双层控制机制，生成编辑后的图像。
RW-800基准：包含高分辨率的真实世界图像，确保测试数据的多样性和复杂性。提供详细的文本描述，支持复杂的编辑任务。

DCEdit的项目地址

arXiv技术论文：https://arxiv.org/pdf/2503.16795

DCEdit的应用场景

广告与营销：快速修改广告图像中的元素（如颜色、背景、标志等），提升制作效率。
影视与娱乐：便捷调整影视场景中的道具、服装或背景，节省时间和成本。
社交媒体与内容创作：根据主题快速修改图像，增强内容吸引力和多样性。
产品设计与开发：快速生成产品不同设计方案，加速开发流程。
教育与培训：创建个性化学习材料，帮助学生更好地理解教学内容。

收藏点赞 (0)

若非本站原创的文章，特别作如下声明：
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用，不代表任何监管机构的立场和观点。
不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息，均为转载，版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材，请版权所有者联系我们，我们将及时补上或者删除，共同建设自媒体信息平台，感谢你的支持！

AI老司机 AI行业动态 DCEdit – 北交大联合美图推出的双层控制图像编辑方法 https://www.ailsj.cn/1319.html