jux—556上司持续侵犯人妻-人生就是博官网

20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

来源: 伊秀女性网
2023-11-06 01:46:13

核心提示:jux—556上司持续侵犯人妻-mba智库-mba智库百科_  尽管美国cnn新闻声称他们正就德尔托罗的言论要求中国外交部置评,但这种蠢话实在不值一驳。如果“使用奴隶可以增加军事优势”这种逻辑真的成立,那在美国还广泛压迫黑人奴隶的1812年,美国也不会被英国驻加拿大殖民者一路打到首都,连白宫也被人一把火烧了。35wiufc-bvginh4ywxpd4hi-6gyapd-20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!

而且不必知道模型内部细节 ——

只需要两个黑盒模型互动,就能让 ai 全自动攻陷 ai,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,ai 又该如何应对?

一波猛攻下来,gpt-4 也遭不住,直接说出要给供水系统投毒只要…… 这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,ai 可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的 gcg 等基于 token 的攻击方法,效率提高了 5 个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,gpt-3.5、gpt-4、 vicuna(llama 2 变种)、palm-2 等,一个都跑不掉。

成功率可达 60-100%,拿下新 sota。

话说,这种对话模式好像有些似曾相识。多年前的初代 ai,20 个问题之内就能破解人类脑中想的是什么对象。

如今轮到 ai 来破解 ai 了。

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于 token 的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。

左提示攻击,右 token 攻击

宾夕法尼亚大学研究团队提出了一种叫 pair(prompt automatic iterative refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

pair 涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

pair 不需要知道它们内部的具体结构和参数,只需要 api 即可,因此适用范围非常广。

实验阶段,研究人员在有害行为数据集 advbench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了 pair 算法。

结果 pair 算法让 vicuna 越狱成功率达到了 100%,平均不到 12 步就能攻破。

闭源模型中,gpt-3.5 和 gpt-4 越狱成功率在 60% 左右,平均用了不到 20 步。在 palm-2 上成功率达到 72%,步数约为 15 步。

但是 pair 在 llama-2 和 claude 上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示,pair 的 gpt-4 提示在 vicuna 和 palm-2 上转移效果较好。

研究人员认为,pair 生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于 token 的攻击。

就比如开发出 gcg 算法的团队,将研究结果分享给 openai、anthropic 和 google 等大模型厂商后,相关模型修复了 token 级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/ abs / 2310.08419

参考链接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (id:qbitai),作者:西风

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,it之家所有文章均包含本声明。

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

  东单东南角布置“协调发展”花坛,花坛顶高10.5米,以京津冀三地代表建筑(大兴国际机场、燃灯塔、天津之眼、雪如意)为主景,轨道列车环绕其间,寓意京津冀协同发展,疏解非首都功能,推动雄安新区和城市副中心“两翼”联动发展,构建现代化首都都市圈,共同描绘美好未来新篇章。

 ( ) ( )第(di)三(san),(,)美(mei)方(fang)应(ying)当(dang)切(qie)实(shi)承(cheng)担(dan)气(qi)变(bian)领(ling)域(yu)历(li)史(shi)责(ze)任(ren)和(he)义(yi)务(wu)。(。)中(zhong)方(fang)一(yi)贯(guan)主(zhu)张(zhang),(,)应(ying)对(dui)气(qi)候(hou)变(bian)化(hua)不(bu)能(neng)“(“)光(guang)喊(han)口(kou)号(hao)不(bu)出(chu)力(li)”(”)。(。)美(mei)最(zui)高(gao)法(fa)院(yuan)不(bu)久(jiu)前(qian)通(tong)过(guo)裁(cai)决(jue),(,)限(xian)制(zhi)美(mei)环(huan)保(bao)署(shu)管(guan)控(kong)温(wen)室(shi)气(qi)体(ti)排(pai)放(fang)的(de)权(quan)力(li)。(。)美(mei)方(fang)还(hai)以(yi)所(suo)谓(wei)涉(she)疆(jiang)问(wen)题(ti)为(wei)借(jie)口(kou)制(zhi)裁(cai)打(da)压(ya)中(zhong)国(guo)光(guang)伏(fu)企(qi)业(ye),(,)直(zhi)接(jie)损(sun)害(hai)中(zhong)美(mei)气(qi)候(hou)合(he)作(zuo)气(qi)氛(fen),(,)也(ye)直(zhi)接(jie)损(sun)害(hai)了(le)中(zhong)国(guo)和(he)其(qi)他(ta)国(guo)家(jia)应(ying)对(dui)气(qi)候(hou)变(bian)化(hua)的(de)努(nu)力(li)。(。)这(zhe)种(zhong)自(zi)相(xiang)矛(mao)盾(dun)的(de)做(zuo)法(fa)让(rang)外(wai)界(jie)质(zhi)疑(yi)美(mei)方(fang)应(ying)对(dui)气(qi)候(hou)变(bian)化(hua)的(de)能(neng)力(li)和(he)决(jue)心(xin)。(。)美(mei)方(fang)应(ying)当(dang)认(ren)真(zhen)履(lv)行(xing)应(ying)对(dui)气(qi)候(hou)变(bian)化(hua)的(de)历(li)史(shi)责(ze)任(ren)和(he)应(ying)尽(jin)义(yi)务(wu),(,)不(bu)要(yao)为(wei)自(zi)己(ji)的(de)不(bu)作(zuo)为(wei)四(si)处(chu)寻(xun)找(zhao)借(jie)口(kou)。(。)  zhongqingmousanjiayiyuandeyimingyishengyegaosurenminribaojiankangkehuduanjizhe,jianzhimaikaochang、maihongshudeyiwurenyuanshijishangshuyushaoshu,“duodianzhiyezhezhongfangshihaishihuiyoude。”

  yangxingganranzhe34,nv,38sui,juzhuyutianjinshidongliquzhangguizhuangjie,xiguankongrenyuanshaizhafaxian,8yue31ricaijiyanshizi,jingjiancezhongxinjiance,jieguochengyangxing,weixinguanfeiyanquezhenbingli(qingxing)。  8月29日0—24时,31个省(自治区、直辖市)和新疆生产建设兵团报告新增确诊病例382例。其中境外输入病例33例(广东11例,福建5例,山东5例,北京3例,上海2例,江苏2例,新疆2例,天津1例,内蒙古1例,四川1例),含2例由无症状感染者转为确诊病例(均在新疆);本土病例349例(四川167例,西藏49例,海南37例,广东24例,新疆14例,重庆11例,天津8例,黑龙江8例,陕西8例,内蒙古7例,山东3例,湖南3例,河北2例,山西2例,辽宁2例,河南2例,青海2例),含53例由无症状感染者转为确诊病例(海南16例,四川15例,新疆13例,西藏4例,陕西2例,辽宁1例,山东1例,青海1例)。无新增死亡病例。无新增疑似病例。

发布于:大理市
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

人生就是博官网 copyright © 2023 sohu all rights reserved

搜狐公司 人生就是博官网的版权所有

网站地图