原神vicineko网址进入-人生就是博官网

20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

来源: 北青网
2023-11-06 01:14:05

北青网11月6日电:原神vicineko网址进入-tdkgjd-北青网℉  鄂北某军用机场,特战队员有序穿戴伞具,披挂武器装备,按照作战编组迅速登机。运-20迅速升空,飞向预定空域。负重最大的两名军犬训导员从数千米高空率先跃出机舱,其余队员紧随其后,朵朵伞花绽放……网友:羡慕这条狗子,不仅会跳伞,还坐过运-20(记者戚勇强 顾熙熙 崔济麟 田鑫 郭帅 卢景周)-k5c4g-eayhrjjpaw-8e3pqxynnhy

1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!

而且不必知道模型内部细节 ——

只需要两个黑盒模型互动,就能让 ai 全自动攻陷 ai,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,ai 又该如何应对?

一波猛攻下来,gpt-4 也遭不住,直接说出要给供水系统投毒只要…… 这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,ai 可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的 gcg 等基于 token 的攻击方法,效率提高了 5 个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,gpt-3.5、gpt-4、 vicuna(llama 2 变种)、palm-2 等,一个都跑不掉。

成功率可达 60-100%,拿下新 sota。

话说,这种对话模式好像有些似曾相识。多年前的初代 ai,20 个问题之内就能破解人类脑中想的是什么对象。

如今轮到 ai 来破解 ai 了。

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于 token 的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。

左提示攻击,右 token 攻击

宾夕法尼亚大学研究团队提出了一种叫 pair(prompt automatic iterative refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

pair 涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

pair 不需要知道它们内部的具体结构和参数,只需要 api 即可,因此适用范围非常广。

实验阶段,研究人员在有害行为数据集 advbench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了 pair 算法。

结果 pair 算法让 vicuna 越狱成功率达到了 100%,平均不到 12 步就能攻破。

闭源模型中,gpt-3.5 和 gpt-4 越狱成功率在 60% 左右,平均用了不到 20 步。在 palm-2 上成功率达到 72%,步数约为 15 步。

但是 pair 在 llama-2 和 claude 上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示,pair 的 gpt-4 提示在 vicuna 和 palm-2 上转移效果较好。

研究人员认为,pair 生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于 token 的攻击。

就比如开发出 gcg 算法的团队,将研究结果分享给 openai、anthropic 和 google 等大模型厂商后,相关模型修复了 token 级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/ abs / 2310.08419

参考链接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (id:qbitai),作者:西风

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,it之家所有文章均包含本声明。

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

  ciqianzhongguodeyumijinkougaoduyilaimeiguohewukelan,2022nianzhongguojinkoudeyumizhong,meiguozhanbi70%zuoyou,wukelanzhanbichao20%。2022nian,ewuchongtubaofazhihou,zhongguogaibianleyilaizhelianggeguojiadecelve,zhuanxiangjinyibukuodayumideguojilaiyuan。

  jinnian1yue,guoneihangsiyingli31.6yiyuan。keyunquanmianfusujiaobujiakuai,hangbanguanjiashujuxianshi,2yuequanminhanglvkeyunshuliangyuewei4272wanrenci,tongbi2022nianshangsheng36.5%,minhangguoneiyunliyezai2yuedadaole2019niantongqishuiping。buguo,lingjutongjijushuju,2yuejipiaojiagehuanbiyouxiajiangle12.0%,shuomingchuxingxuqiuzaicihuiluo。✘  新华社南京8月4日电(记者李秉宣、韩学扬)中国人民解放军东部战区于8月4日组织兵力位台岛周边海空域开展规模空前的实战化联合演训,对预定海域成功实施远程火力实弹射击。

 ( ) ( )1(1)6(6)日(ri),(,)宋(song)凯(kai)在(zai)新(xin)一(yi)届(jie)中(zhong)国(guo)足(zu)协(xie)会(hui)员(yuan)大(da)会(hui)第(di)一(yi)次(ci)会(hui)议(yi)发(fa)言(yan)期(qi)间(jian)指(zhi)出(chu),(,)“(“)要(yao)努(nu)力(li)办(ban)好(hao)人(ren)民(min)满(man)意(yi)的(de)职(zhi)业(ye)联(lian)赛(sai),(,)对(dui)标(biao)亚(ya)足(zu)联(lian)规(gui)则(ze),(,)研(yan)究(jiu)放(fang)宽(kuan)外(wai)援(yuan)政(zheng)策(ce),(,)倒(dao)逼(bi)国(guo)内(nei)球(qiu)员(yuan)提(ti)高(gao)水(shui)平(ping)。(。)”(”) 「私にはわかるのよ。ただわかるの」直子は僕の手をしっかりと握ったままそう言った。そしてしばらく黙って歩きつづけた。「その手のことって私にはすごくよくわかるの。理屈とかそんなのじゃなくてcただ感じるのね。たとえば今こうしてあなたにしっかりとくっついているとねc私ちっとも怖くないの。どんな悪いものも暗いものも私を誘おうとはしないのよ」  weibaozhangqiangxianjiuzaizhihuiheshouzaiqunzhongdetongxin,sichuanshengtongxinguanlijuhaihuitongsichuanshengyingjiguanlitingjinjitiaodu“daxinggaokongquanwangyingjitongxinwurenji”congzigongjichangqifei,ganfuzhenzhongshangkongzhixinggongzhongtongxinfugairenwu,jianli“kongzhongjizhan”。

  看到“张力被捕”的消息后,一位曾在富力地产广州公司工作过的员工自觉有些庆幸。今年3月就离职的他,“之前一直各种被拖欠工资和无理由降薪”。据他所知,还没离职的同事也都在“瑟瑟发抖”,“他们非常担心,不知道工资又要被拖欠多久。” ( ) ( )失(shi)去(qu)了(le)订(ding)单(dan)量(liang),(,)每(mei)日(ri)优(you)鲜(xian)在(zai)客(ke)单(dan)价(jia)上(shang)更(geng)加(jia)下(xia)功(gong)夫(fu),(,)“(“)次(ci)日(ri)达(da)”(”)和(he)产(chan)地(di)直(zhi)送(song)的(de)存(cun)在(zai)感(gan)越(yue)来(lai)越(yue)强(qiang)。(。)有(you)媒(mei)体(ti)统(tong)计(ji),(,)1(1)2(2)9(9)元(yuan)一(yi)箱(xiang)的(de)进(jin)口(kou)精(jing)酿(niang)、(、)8(8)9(9)元(yuan)一(yi)箱(xiang)的(de)礼(li)盒(he)装(zhuang)烟(yan)台(tai)苹(ping)果(guo)、(、)9(9)9(9)元(yuan)一(yi)袋(dai)的(de)澳(ao)洲(zhou)冷(leng)冻(dong)牛(niu)腩(nan),(,)量(liang)大(da)价(jia)高(gao),(,)缓(huan)解(jie)了(le)前(qian)置(zhi)仓(cang)的(de)压(ya)力(li)。(。)2(2)0(0)2(2)0(0)年(nian)每(mei)日(ri)优(you)鲜(xian)把(ba)客(ke)单(dan)价(jia)做(zuo)到(dao)了(le)9(9)4(4).(.)6(6)元(yuan),(,)比(bi)叮(ding)咚(dong)买(mai)菜(cai)高(gao)了(le)3(3)0(0)元(yuan)。(。)

  据外交部网站消息,3月10日,中共中央政治局委员、中央外办主任王毅在北京主持沙特和伊朗对话闭幕式。沙特国务大臣兼国家安全顾问艾班、伊朗最高国家安全委员会秘书沙姆哈尼出席。

  jumeitibaodao,2013nian4yue18rizhongwu,shirenhunanshengchumushuichanjujuchangyuanyanwenhe150duomingganbuyuangong,zaishitangdaitouchijirou,laixiaochurenmenduiqinliuganyiqingdekongjuxinli,tizhenlaobaixingduijiaqinxiaofeidexinxin。   根据《新型冠状病毒肺炎防控方案(第九版)》,发生本土疫情后,根据病例和无症状感染者的活动轨迹和疫情传播风险大小划定高、中、低风险区域。将病例和无症状感染者居住地,以及活动频繁且疫情传播风险较高的工作地和活动地等区域,划为高风险区。高风险区原则上以居住小区(村)为单位划定。民权县在此次赋码调整时所述的风险区域划分并不符合第九版的规定,与其之前上报给国务院的风险区域也有较大的差异。

宗敬先

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

人生就是博官网 copyright © 2023 sohu all rights reserved

搜狐公司 人生就是博官网的版权所有

网站地图