24直播网2026世界杯比赛直播图片越糊越危急? 西湖大学发现多模态大模子「袭击知足区」

发布日期：2026-06-18 06:30 点击次数：151

多模态大模子越来越会读图中笔墨，但最新商议骄贵，「读得出来」并不就是「防得住」。西湖大学 AGI Lab 的商议团队发现，当无益文本被渲染成低清、抵赖或带噪图片后，模子在一个特定明晰度区间内反而更容易被逃狱。该论文已被 ACL 2026 Findings 接受，并开源代码与中枢数据。

如若把一段长文本压缩成图片，再交给多模态大模子措置，会发生什么？

在长高下文成为大模子基础智商之后，这个问题正在变得现实。DeepSeek-OCR、Glyph 等管事仍是展示了一条颇具眩惑力的路子：把文本渲染成高密度图像，用更少视觉 token 承载更多高下文。换句话说，模子不再仅仅「看图」，也运行用视觉通谈「读文档」。

但安全问题也随之而来：当文本被压缩进图像，尤其是图像变得低清、抵赖、带噪声之后，模子的安全对都还能像措置纯文本时相同褂讪吗？

西湖大学 AGI Lab 的一项新商议给出了一个反直观谜底：在某些「刚好还能看清、但识别起来很冗忙」的视觉退化区间里，多模态大模子的安全防地会显然变脆。论文已被 ACL 2026 Findings 接受。

论文的第一作家为西湖大学 AGI 实验室商议助理宋志学，涵养淳厚为西湖大学助理锻练张驰。

论文标题：Hard to Read， Easy to Jailbreak: How Visual Degradation Bypasses MLLM Safety Alignment

代码与数据：https://github.com/Westlake-AGI-Lab/ACZ-Jailbreak

明晰输入络续会触发安全拒却；视觉退化后的同类文本更容易绕过安全查验。

不是越抵赖越危急，而是存在一个「袭击知足区」

直观上，图片越明晰，模子越容易看懂；图片越抵赖，模子越难奉行其中的指示。因此，如若无益文本被作念成低清图片，最当然的推断是：模子要么看不懂，要么看懂后拒却。

但这项商议不雅察到的弧线并不是单调变化，而是一个倒 U 型。

kaiyun体育中国2026世界杯入口

真确危急的不是悉数看不清的图片，而是「还能看清，但需要汉典看清」的图片。

在论文中，商议团队将 770 条去重后的无益查询渲染为不同 DPI 的图像，并在 GPT-4.1、Claude Sonnet 4.5、Doubao Seed 1.6、Qwen3-VL、GLM-4.5V、Intern-S1 等闭源与开源多模态模子上测试 OCR 准确率和袭击到手率（ASR）。

Attack Comfort Zone 中，OCR 仍保捏较高水平，但图像袭击到手率同步升高，酿成倒 U 型风险弧线。

适度骄贵，在 ACZ 中，模子通常仍然能读懂图片笔墨，但安全判断却显然失灵。以 Qwen3-VL-32B-Thinking 为例，论文汇总表中其文本输入 ASR 为 36.7%，ACZ 图像 ASR 升至 86.2%；与此同期，OCR ACC 仍有 95.4%（字符级）和 93.2%（词级）。

这意味着，多模态安全评估不成只问「模子能不成读懂图片笔墨」，还必须问「模子读懂之后，是否仍能褂讪触发安全机制」。

论文全体框架：视觉退化触发风险高潮，并通过结构化领路卸载进行缓解。

为什么会这么？模子忙着识别笔墨，安全审查被延长

为了诠释这一自恃，论文提倡了 Visual Cognitive Overload（视觉领路过载）假定。

不错把它交融为一种「一心二用」失败：在明晰输入中，模子不错较早捕捉到无益语义并触发拒却；但在退化图片中，模子需要先插足更多计较和预防力去辨别字符、还原词语、拼合句子，原来应该同步发生的安全审查被挤压或延长。

这就像东谈主在读一张抵赖截图时，预防力会先被「这到底写的是什么」占据。等推行被读懂时，对其意图的判断仍是慢了一拍。

为了考证这一机制，24直播网2026世界杯比赛直播商议团队历练了 layer-wise safety probe，不雅察模子不同层中的安全特征。适度骄贵，关于明晰图像，无益特征在浅层就更容易被识别；而 ACZ 输入在浅层更接近无害样本，直到更深层才慢慢走漏危急性。

安全探针骄贵，ACZ 输入中的无益特征在浅层不显然，到更深层才慢慢走漏。

换句话说，ACZ 输入并不是简便的「模子读错了」。更准确地说，模子把这些图像当成有用视觉信号措置了，但安全特征出现得更晚，错过了浅层安全机制最有用的窗口。

商议团队还使用 t-SNE 分析摒除了简便的 OOD 诠释。ACZ 样本并不像极低 DPI 噪声那样孑然在示意空间除外，而是与高保真样本处在足下流形中。这阐发它们并莫得被模子当成无效输入丢掉，而是在一个更荫藏的位置绕开了安全判断。

t-SNE 分析骄贵，ACZ 样本并非简便离群噪声，而是被模子行动有用视觉信号措置。

不仅仅低辨别率：噪声、诬告、讳饰也会放大风险

如若 ACZ 仅仅低辨别率带来的随机自恃，那它的现实风险或者有限。但论文进一步发现，多种当然视觉退化都会诱发近似问题。

商议团队测试了抵赖、几何诬告、遏制线、马赛克、噪声、讳饰等多种扰动。适度骄贵，只好视觉交融变得更冗忙，模子的袭击到手率就可能被举高。

更值得预防的是，这一自恃并不单存在于英文。论文在中语无益教唆上也不雅察到 ACZ 区间显赫高于 300 DPI 的袭击到手率。举例 Doubao Seed 1.6 在 300 DPI 下 ASR 为 16.7%，而 ACZ 下升至 70.3%。

枢纽提醒：异日的视觉文本压缩、OCR 增强多模态系统和图像化长高下文愚弄，不成只把「可读性」行动独一见识。只好输入需要模子冗忙辨别，安全对都就可能出现非凡压力。

一种简便推辞：先转写，再审查，临了陈诉

针对这一机制，论文提倡了一个很朴素的缓解战术：Structured Cognitive Offloading（结构化领路卸载）。

它不是再历练一个新模子，而是把原来混在通盘完成的任务拆成串行经过：

Transcription：先逐字转写图片中的文本；

Safety Evaluation：再基于转写后的纯文本进行安全判断；

Response：临了决定是否陈诉。

这个想路的枢纽在于，把「视觉识别」和「推行审查」解耦。模子不再一边冗忙 OCR、一边同期判断是否无益，而是先把视觉管事卸载掉，再回到其更郑重的文本安全审查通谈。

Structured Cognitive Offloading 将识别、审查和陈诉拆成串行经过后，显赫镌汰 ACZ 区间袭击到手率。

实验骄贵，这一简便战术不错显赫镌汰 ACZ 风险。以 Qwen3-VL 为例，袭击到手率从约 67.4% 降至 4%。同期，在一个 300 样本的平淡 OCR 文档交融子集上，该战术莫得引入非凡误拒，反而晋升了陈诉质地。

固然，这不是一个莫得代价的有斟酌。论文也指出，该串行经过会让平均输出长度增多约 102%，因此在及时、高隐隐场景中仍需要更系统的工程优化。

这项管事提醒了什么

回尽头看，ACZ 的风趣并不仅仅又发现了一类视觉逃狱袭击。

它更像是在提醒通盘多模态模子社区：安全对都不是一个只发生在语义层面的静态智商，也可能受到输入格式、视觉质地、计较资源分派和层级特征出面前机的影响。

当文本进入视觉通谈，模子濒临的就不再是单纯的说话输入，而是视觉识别、语义交融和安全审查交汇在通盘的任务。更强的 OCR 智商，未必自动带来更强的安全智商。

关于正在快速发展的视觉文本压缩路子来说，这少量尤其关键。晋升压缩率、镌汰 token 本钱固然有价值，但如若压缩后的图像把模子推入「袭击知足区」，成果收益就可能追随新的安全本钱。

论文临了将这一问题抽象为一种资源分派视角：多模态安全不仅仅数据对都问题24直播网2026世界杯比赛直播，也可能是模子在有限计较与预防力资源下奈何分派「看清」和「审查」的问题。

上一篇：24直播网2026世界杯赛事直播入口丈夫坐牢罚18亿，她卖房带娃复出：单亲姆妈的生计真相
下一篇：没有了

24直播网2026世界杯比赛直播图片越糊越危急? 西湖大学发现多模态大模子「袭击知足区」

热点资讯

推荐资讯

24直播网2026世界杯比赛直播 图片越糊越危急? 西湖大学发现多模态大模子「袭击知足区」

热点资讯

推荐资讯

24直播网2026世界杯比赛直播图片越糊越危急? 西湖大学发现多模态大模子「袭击知足区」