巨人天成
产经 科技 企业 数据 峰会 快讯 商业

小红书联合复旦推出InstanceAssemble:AI绘画精准构图新突破

2025-12-26来源:快讯编辑:瑞雪

AI绘画领域迎来一项重要技术突破——小红书与复旦大学联合研发的InstanceAssemble方案,成功攻克了布局控制生成(Layout-to-Image)的核心难题。该技术通过创新设计的“实例组装注意力”机制,实现了从简单物体到复杂场景的精准图像生成,相关研究成果已被国际顶级学术会议NeurIPS 2025收录。

布局控制生成技术是AI绘画发展的关键方向,其核心挑战在于如何让模型严格遵循用户指定的空间布局约束。传统方法常面临三大困境:物体位置偏移、语义内容脱节以及计算资源消耗过大。例如在生成包含多个物体的场景时,AI可能将本应出现在左侧的汽车画到右侧,或将描述为“金毛犬”的物体生成其他品种。

新发布的InstanceAssemble技术基于扩散变换器架构,创造性地引入“实例拼装注意力”模块。用户只需提供每个物体的边界框坐标和文字描述,系统就能在对应位置生成符合语义的图像内容。实验数据显示,该技术在处理包含90万个实例的密集布局数据集时,布局对齐精度较现有方法提升42%,语义一致性指标提高37%。

技术团队特别设计了轻量化适配方案,仅需调整约7100万个参数(相当于在Stable Diffusion3-Medium模型上增加3.46%的参数量),即可实现高效迁移学习。当适配Flux.1模型时,额外参数需求更降至0.84%,显著降低了技术落地门槛。这种设计使得中小型研发团队也能快速应用前沿生成技术。

为建立科学的评估体系,研究团队构建了包含5000张高分辨率图像和9万个标注实例的“Denselayout”基准测试集,并提出“布局锚定分数”(LGS)评估指标。该指标通过计算生成图像中物体位置与输入布局的匹配程度,以及语义描述的准确度,为行业提供了量化评估标准。测试表明,即使训练数据仅包含稀疏布局(≤10个实例),InstanceAssemble在密集场景(≥10个实例)中仍能保持稳定性能。

这项突破标志着AI绘画技术从“自由创作”迈向“精准构图”的新阶段。在电商产品展示、建筑效果图生成、游戏场景设计等应用场景中,设计师可通过精确控制物体位置和属性,大幅提升创作效率。目前研究团队正在探索将技术扩展至视频生成领域,未来可能实现动态场景的精准控制。

RFID技术赋能城市轨道:从精准调度到安全管控的全方位智能升级
射频识别(RFID)技术作为物联网感知层的核心支撑,凭借其全天候工作、抗干扰能力强、数据传输高效等技术特性,正深度融入城市轨道运营全流程,与人工智能、大数据、云计算等技术协同发力,推动城市轨道管理向智能化、精…

2025-12-26

家用储能系统:解锁家庭用电新方案,开启智慧节能新生活
用于家庭的储能设备,算不上是那种复杂得让人难以理解的黑科技,其本质而言,它就是一个规模较大的充电宝,它有着把电储存起来留作备用这种核心功能,它一般包含几个关键部分,存在着储存电力的电池,有负责进行充放电工作…

2025-12-26

物联网气象监测数据四步走:高效接入智慧城市管理平台全解析
第一步是数据采集与标准化处理,物联网气象监测系统通过前端监测设备,实时采集温度、湿度、风速、降雨量等基础气象数据,系统会自动完成数据筛选与格式转换,统一输出符合智慧城市管理平台接口规范的数据格式,确保数据具备…

2025-12-26

科技赋能文化新体验!郑州启幕全国首家院线坐观式VR影厅
“从《唐宫夜宴》《隐秘的秦陵》率先斩获首批虚拟现实电影‘龙标’,实现从0到1的突破,到今日建成全国首家院线坐观式虚拟现实影厅,这是河南广电坚持‘文化+科技’双轮驱动,践行国家文化数字化战略的坚实足迹。” 生…

2025-12-26

具身智能的ChatGPT时刻何时到来?行业大咖共探技术突破与商业落地新路径
关于部署性能也要分开看:是直接把通⽤⼤脑部署到新场景,还是把通⽤⼤脑作为预训练模型,在特定场景做持续更新和适配。 刘欣(主持人):我们星源智是智源研究院孵化的具身智能企业,有一定的技术积累是依托于智源研究院…

2025-12-26