久久国产精品99久久久久久老狼-人生就是博官网

20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

来源: 重庆华龙网
2023-11-06 00:59:17

久久国产精品99久久久久久老狼  一场球赛,最终是谁获胜陆逊和顾邵已经没有再关注了,球赛本身无论多精彩,终究只是一场游戏,并不是所有人看一场球赛就会转化成球迷,他们更关注的是这场球赛背后的影响和意义。  对于佩洛西窜访台湾地区,国台办曾回应指出,民进党当局在“倚美谋独”的分裂道路上一条道走到黑,留下一连串奴颜婢膝的劣迹,必将付出越来越难以承受的代价,只能以失败告终。(编辑/张玲 审校/李柏涛)g0rekz89-bbk8av6-20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!

而且不必知道模型内部细节 ——

只需要两个黑盒模型互动,就能让 ai 全自动攻陷 ai,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,ai 又该如何应对?

一波猛攻下来,gpt-4 也遭不住,直接说出要给供水系统投毒只要…… 这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,ai 可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的 gcg 等基于 token 的攻击方法,效率提高了 5 个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,gpt-3.5、gpt-4、 vicuna(llama 2 变种)、palm-2 等,一个都跑不掉。

成功率可达 60-100%,拿下新 sota。

话说,这种对话模式好像有些似曾相识。多年前的初代 ai,20 个问题之内就能破解人类脑中想的是什么对象。

如今轮到 ai 来破解 ai 了。

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于 token 的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。

左提示攻击,右 token 攻击

宾夕法尼亚大学研究团队提出了一种叫 pair(prompt automatic iterative refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

pair 涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

pair 不需要知道它们内部的具体结构和参数,只需要 api 即可,因此适用范围非常广。

实验阶段,研究人员在有害行为数据集 advbench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了 pair 算法。

结果 pair 算法让 vicuna 越狱成功率达到了 100%,平均不到 12 步就能攻破。

闭源模型中,gpt-3.5 和 gpt-4 越狱成功率在 60% 左右,平均用了不到 20 步。在 palm-2 上成功率达到 72%,步数约为 15 步。

但是 pair 在 llama-2 和 claude 上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示,pair 的 gpt-4 提示在 vicuna 和 palm-2 上转移效果较好。

研究人员认为,pair 生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于 token 的攻击。

就比如开发出 gcg 算法的团队,将研究结果分享给 openai、anthropic 和 google 等大模型厂商后,相关模型修复了 token 级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/ abs / 2310.08419

参考链接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (id:qbitai),作者:西风

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,it之家所有文章均包含本声明。

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

  quanguorendachangweihuiweiyuantanyaozongzaijieshougangmeifangwenshibiaoshi,xinrenzhonglianbanzhurenluohuiningguowangsuiwushezuxianggangshiwu,danzaiduomingfuzhurenxiezhuxia,xiangxingongzuoshangbuhuiyoushenmewenti,tashuoxianggang“xiulifengbo”yichaoguobannian,zhonglianbanyouxinrenshangren,huozhezaichulifangmiankeyidailaixinsiwei。

  ciwai,zonghegedixingui,“shangzhuangong”jinxianyuchunshangyedaikuanzhuangongjijindaikuan,zhiqianbanlizuhedai(shangye gongjijin)degoufangzhewufabanli“shangzhuangong”yewu。「まあ順番に話していくとねcその子は病的な嘘つきだったのよ。あれはもう完全な病気よね。なんでもかんでも話を作っちゃうわけ。そして話しているあいだは自分でもそれを本当だと思いこんじゃうわけ。そしてその話のつじつまを合わせるために周辺の物事をどんどん作り変えていっちゃうの。でも普通ならあれc変だなcおかしいなcと思うところでもcその子は頭の回転がおそろしく速いからc人の先に回ってどんどん手をくわえていくしcだから相手は全然気づかないのよ。それが嘘であることにね。だいたいそんなきれいな子がなんでもないつまらないことで嘘をつくなんて事誰も思わないの。私だってそうだったわ。私cその子のつくり話半年間山ほど聞かされて度も疑わなかったのよ。何から何まで作り話だっていうのにc馬鹿みたいだわcまったく」  “同时,我们再次提醒中国公民警惕境外网络虚假招聘信息,严格遵纪守法,确保人身安全,及时举报有关涉诈骗、涉赌信息。如遇紧急情况,请及时向当地警方报警,并与中国驻当地使领馆联系。”

 ( ) ( )9(9)月(yue)2(2)7(7)日(ri),(,)北(bei)京(jing)市(shi)疾(ji)控(kong)中(zhong)心(xin)发(fa)布(bu)提(ti)醒(xing):(:)国(guo)庆(qing)假(jia)期(qi),(,)倡(chang)导(dao)市(shi)民(min)朋(peng)友(you)就(jiu)地(di)过(guo)节(jie),(,)减(jian)少(shao)出(chu)京(jing)。(。)进(jin)返(fan)京(jing)人(ren)员(yuan)需(xu)要(yao)持(chi)4(4)8(8)小(xiao)时(shi)内(nei)核(he)酸(suan)阴(yin)性(xing)证(zheng)明(ming)和(he)“(“)北(bei)京(jing)健(jian)康(kang)宝(bao)”(”)绿(lv)码(ma),(,)严(yan)格(ge)遵(zun)守(shou)各(ge)项(xiang)防(fang)疫(yi)规(gui)定(ding)。(。) cキウリcと彼は言った。  youmeitizengtuisuan,anzhaodangqianpuzhilvhedaxuebenkezhaolubi,dao2040niancanjiagaokaoderenshuhuojiangjiangzhibudao600wan,qizhongbenkeshenghuojin200yuwan。zheyishengyuanshulianghuojiangyuanxiaoyudaxuedezhaoshengxuqiu。

  医护的工作重点也随之倾斜,不再是接听电话,安抚情绪,而是协助患者办理解离手续。当时,南区一天里有100多人办解离手续,“平时我们会派一组人去值班,特殊解离时期,会增派到三四组人。”吴春芳说。 ( ) ( )其(qi)二(er),(,)近(jin)期(qi)延(yan)迟(chi)退(tui)休(xiu)的(de)政(zheng)策(ce)被(bei)重(zhong)点(dian)关(guan)注(zhu),(,)由(you)此(ci),(,)部(bu)分(fen)年(nian)龄(ling)大(da)的(de)群(qun)体(ti)也(ye)能(neng)拥(yong)有(you)稳(wen)定(ding)的(de)工(gong)作(zuo)和(he)收(shou)入(ru)保(bao)障(zhang),(,)具(ju)备(bei)稳(wen)定(ding)还(hai)款(kuan)能(neng)力(li),(,)这(zhe)也(ye)是(shi)银(yin)行(xing)的(de)重(zhong)要(yao)考(kao)量(liang)之(zhi)一(yi)。(。)

  张居中今年已经69岁,对贾湖仍有很多疑问,他的团队正在研究贾湖绿松石来源等问题。1999年的考古报告中,张居中留下了一个遗憾,他分析了贾湖文化的去向,却没有解释其来源,因为他认真思索后,仍然没有理出头绪。20多年来,他没有放下这个问题,如今心里已经有一个轮廓。“有思路了,但还属于科学假说阶段,有点虚无缥缈。”他对《中国新闻周刊》说。

  anzhaozheyitongzhi,huizhoushishangpinfang(hanxinjianshangpinzhufangheershouzhufang)xianshounianxiantiaozhengwei“qudebudongchanquanzhengman1nianfangkezhuanrang”。gaitongzhizhichu,zheyixianshouzhengcetiaozhengcuoshiziyinfazhiri(2yue16ri)qizhengshishixing,ciqianyouguanzhengcecuoshiyuxincuoshibuyizhidejunan《tongzhi》zhixing。tongshimingque,“jianchifangzishiyonglaizhude,bushiyonglaichao”dedingwei,yinchengshice,jinyibujiaqiangfangdichanshichangyuqiyindao,zhichigangxinghegaishanxingzhufangxiaofeixuqiushifang,cujingaishifangdichanshichangpingwenjiankangfazhan。   2016年10月,时年67岁的盛光祖从中国铁路总公司退休。此次他因涉嫌严重违纪违法而配合调查,成为今年以来第15名落马的中管干部。

杨惟义

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
用户反馈 合作

人生就是博官网 copyright © 2023 sohu all rights reserved

搜狐公司 人生就是博官网的版权所有

网站地图