首页 案例 设计师 在施工地 别墅实施 陈设 新闻资讯 关于我们
无需参数打听!CMU用大模子自动优化视觉言语指示词 | CVPR’24
发布日期:2024-11-08 06:19    点击次数:103

林之秋 投稿

量子位 | 公众号 QbitAI

视觉言语模子(如 GPT-4o、DALL-E 3)频繁领少见十亿参数,且模子权重不公开,使得传统的白盒优化循序(如反向传播)难以执行。

那么,有莫得更恬逸的优化循序呢?

就在最近,卡内基梅隆大学(CMU)的参谋团队关于这个问题提倡了一种革命的“黑盒优化”战术——

通过大言语模子自动鼎新当然言语指示词,使视觉言语模子在文生图、视觉识别等多个下贱任务中获取更好的发扬。

这一循序不仅无需涉及模子里面参数,还大幅擢升了优化的纯真性与速率,让用户即使没无意候布景也能恬逸擢升模子性能。

该参谋已被 CVPR 2024 摄取。

怎么作念到的?

大多数视觉言语模子(如 DALL-E 3、GPT-4o 等)并未公开模子权重或特征镶嵌,导致传统依赖反向传播的优化相貌不再适用。

不外,这些模子频繁向用户绽开了当然言语接口,使得通过优化指示词来擢升模子发扬成为可能。

联系词,传统的指示词工程严重依赖工程师的教学和先验常识。

举例,为擢升 CLIP 模子的视觉识别效果,OpenAI 破耗了一年时辰网络了几十种灵验的指示词模板(如 “A good photo of a [class]”)。

一样,在使用DALL-E 3和Stable Diffusion等文生图模子时,用户时常也需掌抓多数指示词妙技智商生成酣畅的收场。

那么,有莫得替代东说念主类指示词工程师的循序?

有的 CMU 团队提倡了一种新战术:用 ChatGPT 等大言语模子自动优化指示词。

像指示词工程师控制响应雠校指示词一样,CMU 的循序将正负响应交给 ChatGPT,以更高效地鼎新指示词,具体流程如图所示:

这种优化流程雷同于机器学习中的“爬山法”(hill-climbing)战术,不同之处在于大言语模子不错自动分析指示词发扬,从正负响应中找到最优雠校标的。

参谋团队控制这一特质来更高效地优化指示词。这个流程不错用以下法子轮廓:

指示词启动化:网络一批未经优化的启动指示词。指示词排序:对刻下指示词进行发扬评分,保留高分指示词,替换低分指示词。生成新指示词:通过大言语模子,凭据指示词的发扬生成新的候选指示词。

经过多轮迭代,最终复返得分最高的指示词手脚优化收场。

实验收场

通过这一循序,CMU 团队在无需东说念主类指示工程师参与的情况下,在多个小样本视觉识别数据集上取得了最好准确性,致使出奇了传统的白盒指示词优化循序(如 CoOp)。

此外,该循序在无需了解数据集推行的前提下,自动捕捉到了下贱任务的视觉特质并将其融入指示词中,取得了更好的效果。

举例,在食品识别任务中,ChatGPT 自动将指示词鼎新为识别“千般化的好意思食和原料”,从而擢升了模子的发扬。

参谋团队还讲授了,通过 ChatGPT 黑盒优化得到的指示词不仅适用于单一模子架构,还能在不同模子架构(如 ResNet 和 ViT)之间泛化,况且在多种模子上发扬优于白盒优化得到的指示词。

这一系列实考讲授,大言语模子八成从指示词的性能响应中索取出隐含的“梯度”标的,从良友毕无需反向传播的模子优化。

在文生图任务中的应用

CMU 团队进一步探索了该循序在生成任务中的应用后劲。

在文本到图像生成(T2I)任务中,ChatGPT 八成自动优化指示词,从而生成更相宜用户需求的高质地图像。

举例,关于输入刻画“一个动物着重着一个东说念主”,系统不错通过逐步优化指示词来擢升生成图像的准确性。

此外,这一循序还适用于指示反演(Prompt Inversion)。

指示反演是一种凭据现存图像反推生成模子输入指示词的时候,粗浅来说,等于通过图像生成八成再现其特征的文本刻画(指示词)。

参谋团队在复杂的文本到图像任务上进行了测试,收场标明这一循序仅需三轮指示词优化,就能权臣提高用户的酣畅度。

此外,参谋团队还指出,指示反演不错匡助用户快速定制特定的图像效果,举例“让这只狗酿成赠给姿势”或“让布景酿成夜景”,从而生成相宜特定需求的图像。

CMU 团队示意,提倡的黑盒优化范式龙套了传统模子调优的截止,不仅在图像分类和生成任务中发扬出色,还展示了平素的应用后劲。

这一循序无需打听模子权重,仅通过“文本梯度”已毕精确优化,具备苍劲的推广性。

将来,黑盒优化有望应用于及时监控、自动驾驶、智能医疗等复杂动态场景,为多模态模子的调优带来愈加纯真高效的经管有琢磨。

团队先容

团队的一作刘士弘(Shihong Liu)是卡内基梅隆大学的参餬口毕业生,曾任机器东说念主参谋所参谋员。

现在在 北好意思Amazon 责任,郑浩繁型永诀式系统的联想和大言语模子驱动的 AI Agent 的诞生。

△刘士弘(Shihong Liu)

团队的共脱色作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士参餬口,专注于视觉-言语大模子的自动评估与优化。

Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最好论文提名和最好短论文奖等。

△林之秋(Zhiqiu Lin)

Deva Ramanan耕作是联想机视觉范围的国外有名学者,现任卡内基梅隆大学耕作。

△Deva Ramanan耕作

他的参谋涵盖联想机视觉、机器学习和东说念主工智能范围,曾获取多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终生建树奖、2012年的IEEE PAMI后生参谋员奖、2012年《全国科学》评比的“十位隆起科学家”之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性责任(如COCO数据集)获取的Koenderink奖。

此外,他的论文在CVPR、ECCV和ICCV上屡次获取最好论文提名及荣誉奖。他的参谋效果对视觉识别、自动驾驶、和东说念主机交互等应用产生了真切影响,是该范围极具影响力的科学家之一。

CVPR’24论文说合:

https://arxiv.org/abs/2309.05950

论文代码:

https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

名堂网站:

https://llm-can-optimize-vlm.github.io

— 完 —

量子位 QbitAI · 头条号签约

柔顺咱们,第一时辰获知前沿科技动态



Powered by 开云彩票(中国)官方网站 @2013-2022 RSS地图 HTML地图