韩国艳星
西野翔作品番号

你的位置:韩国艳星 > 西野翔作品番号 > 巨乳 探花 CVPR 2025:长Prompt对皆问题也能评估了!面前最大AIGC评估数据集,模子评分越过面前SOTA

巨乳 探花 CVPR 2025:长Prompt对皆问题也能评估了!面前最大AIGC评估数据集,模子评分越过面前SOTA

发布日期:2025-07-06 00:26    点击次数:98

巨乳 探花 CVPR 2025:长Prompt对皆问题也能评估了!面前最大AIGC评估数据集,模子评分越过面前SOTA

本年,CVPR 共有 13008 份有用投稿并参加评审经过,其中 2878 篇被拜托巨乳 探花,最终拜托率为 22.1%。

拜托论文上来看,多模态联系内容也曾宥恕要点。

上海交通大学 - 好意思团计较与智能聚拢践诺室发布的论文也被拜托,论文提议了 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架。

论文费力于于处置以下问题:

现有的文本到视觉评估数据集存在关节评估维度穷乏系统性、无法区分视觉质料和文本一致性,以及限度不及等问题;

评估过程复杂、拆伙暗昧,难以知足特定评估需求,截止了基于大模子的评估模子在骨子场景中的欺诈

联系践诺也标明数据集和规范在评估论断和泛化性方面都作念到确面前业界的当先水准。

不才表中不错看到数据集 Q-Eval-100K 的实例数目和东说念主工标注数目远超其他数据集,不错说 Q-Eval-100K 是面前最大的 AIGC 评估数据集。

同期跨数据集考证知道,在 Q-Eval-100K 上考验的模子在 GenAI-Bench 数据集上发扬出色,远超面前先进规范,充分证明了 Q-Eval-100K 数据集的泛化价值。

数据集 Q-Eval-100K 开启了文本到视觉内容评估的新时间,同期 Q-Eval-Score 提供一个开源的较为准确客不雅的 AIGC 打分框架,可用于对 AIGC 图片视频生成类模子的评估。

Q-Eval-100K 数据集共计包含了 100K 的 AIGC 生成数据(其中包含 60k 的 AIGC 图片以及 40k 的 AIGC 视频)。

接下来,将对 Q-Eval-100K 数据集与 Q-Eval-Score 评估框架进行重视先容。

数据集构建

在数据集构建上,团队确保降服三个原则:

1)保证数据千般性。为了汇集到接近确实场景下千般性的数据集,团队从三个大的维度启程构建了对应的 prompt 集,这三个大的维度不错被差别为实体生成(people,objects,animals,etc.),实体属性生成(clothing,color,material,etc.),交叉才调项(backrgound,spatialrelationship,etc.),通过关于不同维度数据的比例限度,确保了 prompt 数据的千般性。同期,团队还使用了面前 SOTA 开源或者 API 的 AIGC 模子进行数据生成,从而确保了生成数据的高质料。这些 AIGC 模子包括 FLUX,Lumina-T2X,PixArt,StableDiffusion 3,CogVideoX,Runway GEN-3,Kling 等。

2)高质料的数据标注。团队招募了 200 多名经过培训的东说念主员进行东说念主工打分标注,从这些东说念主员手中汇集了高出 960k 条联系数据的打分信息。经过东说念主工严格的筛选和过滤后,最终得回了这 100k AIGC 数据以偏合手对应的一致性 / 质料标注数据。通过这么的方式,不错确保标注数据与东说念主类偏好的高度一致性,从而进步了 Q-Eval-Score 评估框架的一致性与泛化才调。

3)视觉质料和文本一致性解耦标注。团队不雅察到面前关于 AIGC 模子质料的研判主要聚焦于视觉质料和文本一致性两个方面,因此,在数据集构建的过程当中将两个维度拆分开标注,以确保 Q-Eval-Score 不错同期对这两个维度进行评估。如下图所示,在统计了多个 AIGC 模子的视觉质料和文本一致性 mos 分后,团队发现两个维度上模子的发扬有在一定的各异性,因此也证明了将两个维度解耦的必要性。

以上数据集已在 AGI-Eval 社区评测集专区上线。

和解评估框架

在 Q-Eval-100k 的基础上,团队考验得回了 Q-Eval-Score 评估框架,该框架将数据集转换为监督微调(SFT)数据集,以特定凹凸文 prompt 情势考验大言语模子(LMM),使其省略沉寂评估视觉质料和文本一致性。

模子考验

起原,团队构建一个凹凸文 prompt 数据集用于大模子的 SFT 过程,模版如下:

再将东说念主工标注打分按照 1-5 分分别映射到 5 个档位 {Bad,Poor,Fair,Good,Excellent} 上,以确保数据可用于大模子 SFT,东说念主工标注打分映射的过程如下所示。

通过将五档得分的 logits 概率与权重加权得回最终得分,权重 1-0 分别默示从 Excellent 到 Bad 的得分映射。

在模子上,团队经受了面前在图像视频认知上性能较为优异的Qwen2-VL-7B-Instruct模子进行 SFT 微调,在微调时同期启用 CE Loss 和 MSELoss,用于监督模子打分才调的进步。

做爱图片

长 prompt 对皆问题

在文本一致性上,团队发当今处理长 prompt(高出 25 个词长)的场景时,常会低估对应的分数,这时时是由于考验集当中出现的较长指示词占相比少导致。

因此,针对长指示词对皆评估贫苦,团队转变性地提议" Vague-to-Specific "计谋,将长指示词拆分为暗昧指示词和多个具体指示词分别评估,再综总共较最终得分。

关于暗昧指示词,团队按照老例方式计较对皆度得分。

然则,关于特定指示词来说这个计谋并不对适,因为每个特定指示词只触及视觉内容的一部分。

受 VQAScore 规范的启发,团队将问题修改为更蔼然的情势,举例" Doestheimage/videoshow [ prompt ] ?",以此来评估每个特定指示词的对皆度。

终末,团队使用加权规范引诱暗昧指示词和特定指示词的拆伙,计较最终的对皆分数:

践诺论断

在视觉质料评估方面,Q-Eval-Score 在图像和视频的测试中均发扬优异,其预计得分与东说念主工打分的斯皮尔曼品级相关联数(SRCC)和皮尔逊线性相关联数(PLCC)越过了面前统统的 SOTA 模子。

在文本一致性上,Q-Eval-Score 雷同上风权臣,在图像和视频的测试中,其 Instance-level 的 SRCC 分别当先其他的 sota 模子6% 和 12%。

消融践诺标明,考虑中提议的各项计谋和赔本函数对模子性能进步孝敬权臣。

在长指示词子集测试中," Vague-to-Specific "计谋有用提高了评估性能;

Q-Eval-100K 和 Q-Eval-Score 的出现意旨紧要。它们为文本到视觉模子的评估提供了更可靠、全面的有诡计,有助于鼓舞生成式模子的进一步发展和骨子欺诈。异日,这一考虑效果有望为联系边界的发展奠定坚实基础,助力文本到视觉时间迈向新高度。

AGI-Eval 评测社区也一直费力于于共创如" Q-Eval-100k 数据集"这么优秀的数据集,在模子评测边界深耕,旨在打造公正、确实、科学、全面的评测生态以"评测助力,让 AI 成为东说念主类更好的伙伴"为服务。

论文领路:

https://arxiv.org/abs/2503.02357

AGI-Eval 评测集专区:  https://agi-eval.cn/evaluation/Q-Eval-100K?id=55

—  完  —

学术投稿请于服务日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 神志主页领路,以及料想方式哦

咱们会(尽量)实时修起你

一键宥恕 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「贯注心」

宽饶在批驳区留住你的思法!巨乳 探花