论文研究 1小时前 更新于 57分钟前 52

ICG:基于多模态大模型提示与个性化偏好对齐的封面图像生成优化

个性化封面图像生成对提升数字平台用户参与度至关重要。ICG框架通过元令牌从商品标题与参考图中提取语义特征,结合用户嵌入进行优化,并将个性化上下文注入扩散模型。该框架采用多奖励学习策略,融合公共美学奖励与从用户行为训练的个性化偏好模型,解决了标签监督缺失的问题。通过适配器端到端训练多模态大语言模型与扩散模型,ICG显著提升了图像质量、语义保真度与个性化水平。

75
热度
85
质量
65
影响力

深度分析

端到端架构:弥合多模态理解与生成的鸿沟

当前AI生成内容领域的一个典型瓶颈在于,多模态理解(由MLLMs完成)与图像生成(由扩散模型执行)往往是两个割裂的模块。传统流程依赖手工设计的提示词分散的模块,导致信息传递损耗和优化目标不一致。ICG的核心创新在于引入一个可插入的适配器,直接连接MLLMs和扩散模型,实现了端到端的联合训练。这意味着模型的语义理解能力能够直接优化生成过程,使得最终输出的封面图像不仅视觉质量高,且与源内容的语义关联更强。这种架构消除了中间环节的信息损失,是实现高质量生成的技术前提。

个性化实现:超越内容匹配的“用户共鸣”生成

文章指出,仅仅生成与内容相关的图像是不够的,真正的挑战在于生成能引发特定用户群体情感共鸣的封面。ICG为此设计了一条精密的个性化路径:

  • 上下文构建:不直接使用原始文本/图像,而是通过元令牌抽取关键的、可迁移的语义特征。
  • 用户建模:利用用户嵌入向量来调制和优化这些语义特征,将群体偏好或历史行为模式融入其中。
  • 偏好对齐:为解决缺乏明确“用户喜欢什么封面”的标签数据问题,框架创新性地构建了多奖励学习系统。它同时利用公开数据训练的通用美学与相关性奖励,和从隐式用户行为(如点击、停留时长)中学习的个性化偏好模型来指导优化。这实质上是让模型学会在“好看”和“相关”的基础上,生成“对你而言特别”的内容。

技术启示:从“生成正确”到“生成共鸣”

这项研究的深层洞察在于,它揭示了AIGC(人工智能生成内容)正从追求内容准确性(如图文匹配)的初级阶段,迈向追求用户体验共鸣的高级阶段。在数字平台中,内容的价值越来越取决于其能否在瞬间抓住特定用户的注意力。ICG框架表明,实现这一目标的关键技术路径,是将深度用户理解(通过用户嵌入和行为数据建模)与内容语义理解进行端到端的融合。它不仅是一个新的生成模型,更代表了一种以用户为中心的内容生成范式。该框架作为插件的特性,也预示着这种个性化生成能力可能快速集成到现有的AI内容生产工具链中。

免责声明:以上内容由 AI 生成,仅供参考。