《18款禁用看奶漫画网站》高清完整版-人生就是博官网

20 步内越狱任意大模型!更多“奶奶漏洞”全自动发现

来源: 人民网
2023-11-06 01:47:22

人民网11月6日电:《18款禁用看奶漫画网站》高清完整版-免费在线观看 - 星辰...-fiarji-人民网  “具体情况不知,只是贵霜国之前的皇帝病故,指定的继承人却被贵霜国内贵胄质疑血统并不纯正,发生了一场政变,已故皇帝指定继承人被赶出皇室,带着一批人在一处名叫巴克特里亚的地方重新建立了新的朝廷与被贵霜国贵胄们控制的朝廷对峙。”夜鹰躬身说道。  博鳌亚洲论坛2023年年会,将于3月28日至31日在海南博鳌举行,30日举行开幕式。中国作为东道主,为与会各方搭建谋发展、促合作的国际交流平台。-htdymh-aow0xl3piut-angwvcy03i

1 分钟不到、20 步以内“越狱”任意大模型,绕过安全限制!

而且不必知道模型内部细节 ——

只需要两个黑盒模型互动,就能让 ai 全自动攻陷 ai,说出危险内容。

听说曾经红极一时的“奶奶漏洞”已经被修复了:

那么现在搬出“侦探漏洞”、“冒险家漏洞”、“作家漏洞”,ai 又该如何应对?

一波猛攻下来,gpt-4 也遭不住,直接说出要给供水系统投毒只要…… 这样那样。

关键这只是宾夕法尼亚大学研究团队晒出的一小波漏洞,而用上他们最新开发的算法,ai 可以自动生成各种攻击提示。

研究人员表示,这种方法相比于现有的 gcg 等基于 token 的攻击方法,效率提高了 5 个量级。而且生成的攻击可解释性强,谁都能看懂,还能迁移到其它模型。

无论是开源模型还是闭源模型,gpt-3.5、gpt-4、 vicuna(llama 2 变种)、palm-2 等,一个都跑不掉。

成功率可达 60-100%,拿下新 sota。

话说,这种对话模式好像有些似曾相识。多年前的初代 ai,20 个问题之内就能破解人类脑中想的是什么对象。

如今轮到 ai 来破解 ai 了。

目前主流越狱攻击方法有两类,一种是提示级攻击,一般需要人工策划,而且不可扩展;

另一种是基于 token 的攻击,有的需要超十万次对话,且需要访问模型内部,还包含“乱码”不可解释。

左提示攻击,右 token 攻击

宾夕法尼亚大学研究团队提出了一种叫 pair(prompt automatic iterative refinement)的算法,不需要任何人工参与,是一种全自动提示攻击方法。

pair 涉及四个主要步骤:攻击生成、目标响应、越狱评分和迭代细化;主要用到两个黑盒模型:攻击模型、目标模型。

具体来说,攻击模型需要自动生成语义级别的提示,来攻破目标模型的安全防线,迫使其生成有害内容。

核心思路是让两个模型相互对抗、你来我往地交流。

攻击模型会自动生成一个候选提示,然后输入到目标模型中,得到目标模型的回复。

如果这次回复没有成功攻破目标模型,那么攻击模型会分析这次失败的原因,改进并生成一个新的提示,再输入到目标模型中。

这样持续交流多轮,攻击模型每次根据上一次的结果来迭代优化提示,直到生成一个成功的提示将目标模型攻破。

此外,迭代过程还可以并行,也就是可以同时运行多个对话,从而产生多个候选越狱提示,进一步提高了效率。

研究人员表示,由于两个模型都是黑盒模型,所以攻击者和目标对象可以用各种语言模型自由组合。

pair 不需要知道它们内部的具体结构和参数,只需要 api 即可,因此适用范围非常广。

实验阶段,研究人员在有害行为数据集 advbench 中选出了一个具有代表性的、包含 50 个不同类型任务的测试集,在多种开源和闭源大语言模型上测试了 pair 算法。

结果 pair 算法让 vicuna 越狱成功率达到了 100%,平均不到 12 步就能攻破。

闭源模型中,gpt-3.5 和 gpt-4 越狱成功率在 60% 左右,平均用了不到 20 步。在 palm-2 上成功率达到 72%,步数约为 15 步。

但是 pair 在 llama-2 和 claude 上的效果较差,研究人员认为这可能是因为这些模型在安全防御上做了更为严格的微调。

他们还比较了不同目标模型的可转移性。结果显示,pair 的 gpt-4 提示在 vicuna 和 palm-2 上转移效果较好。

研究人员认为,pair 生成的语义攻击更能暴露语言模型固有的安全缺陷,而现有的安全措施更侧重防御基于 token 的攻击。

就比如开发出 gcg 算法的团队,将研究结果分享给 openai、anthropic 和 google 等大模型厂商后,相关模型修复了 token 级攻击漏洞。

大模型针对语义攻击的安全防御机制还有待完善。

论文链接:https://arxiv.org/ abs / 2310.08419

参考链接:https://x.com/ llm_sec / status / 1718932383959752869?s=20

本文来自微信公众号:量子位 (id:qbitai),作者:西风

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,it之家所有文章均包含本声明。

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

  youdenianqingganbuyinwangtanfu,yeyiwangluozuoweitanfushouduan。julejie,bushaoshouzhachudeguoqinianqingganbushuxiwangluo,weijiweifashouduanyuefazhuanyeheyinbi,youdeshenzhiliyongjishushouduanqiequjisuanjibangongxitonghoutaiwenjian。

  xiangbijiaohaohandeshamo、gebimianji,zhongguojishinianlaidenulisuo“dianlv”de,zhishifeichangxiaodeyibufen。guojialincaojujinnian3yuedeguanfangtongbaozhongtidao,jinnianlai,zhongguohuangmohua、shahuatudimianjichixusuojian,fangshazhishagongzuoqudelejiaohaochengxiao。danzhongguorengyou257.37wanpingfanggonglihuangmohuatudihe168.78wanpingfanggonglishahuatudi,tebieshidamianjideshamohegebishizhongshijudaqieyongjiuxingdeshachenyuan。☣  “对于湿润地区干旱的形成机制、应对等相应的基础研究不够,在干旱的预报预测的技术方面,包括一些业务化的平台也需要加强。”许继军指出。

 ( ) ( )冬(dong)奥(ao)会(hui)男(nan)子(zi)冰(bing)球(qiu)比(bi)赛(sai)共(gong)有(you)1(1)2(2)支(zhi)队(dui)伍(wu),(,)分(fen)成(cheng)3(3)个(ge)小(xiao)组(zu)进(jin)行(xing)比(bi)赛(sai)。(。)中(zhong)国(guo)男(nan)冰(bing)与(yu)加(jia)拿(na)大(da)队(dui)、(、)美(mei)国(guo)队(dui)和(he)德(de)国(guo)队(dui)同(tong)分(fen)在(zai)a(a)组(zu),(,)这(zhe)一(yi)小(xiao)组(zu)堪(kan)称(cheng)魔(mo)鬼(gui)小(xiao)组(zu)。(。) 「ねえcワタナベ君c変に思わないでね」  zhongguozhongmiancheng,ligangweichiyougongsigufen。ligangshishihou,gongsidongshirenshuweidiyu《gongsifa》guidingdedongshihuizuidirenshu。gongsidongshi、jianshi、gaojiguanlirenyuanjiquantiyuangongjiangjixuzhiliyutuijingongsidechixujiankangfazhan,gongsidezhengchangjingyinghuodongbuhuishoudaoyingxiang。

  事实上,不止是农业大省,河南也是食品工业大省。数据显示,2022年,河南的粮食产业经济总产值达3009亿元,稳居全国第一方阵。其中,食品企业有2万多家,“从一产到三产,从田间到舌尖”,其中不乏像三全、思念、白象、想念等享誉全国的知名品牌。 ( ) ( )值(zhi)得(de)一(yi)提(ti)的(de)是(shi),(,)此(ci)次(ci)天(tian)舟(zhou)五(wu)号(hao)货(huo)运(yun)飞(fei)船(chuan)上(shang)搭(da)载(zai)的(de)由(you)航(hang)天(tian)科(ke)技(ji)集(ji)团(tuan)五(wu)院(yuan)自(zi)主(zhu)研(yan)发(fa)的(de)燃(ran)料(liao)电(dian)池(chi)发(fa)电(dian)系(xi)统(tong)载(zai)荷(he),(,)计(ji)划(hua)用(yong)于(yu)开(kai)展(zhan)我(wo)国(guo)首(shou)次(ci)燃(ran)料(liao)电(dian)池(chi)空(kong)间(jian)在(zai)轨(gui)试(shi)验(yan),(,)为(wei)后(hou)续(xu)宇(yu)航(hang)燃(ran)料(liao)电(dian)池(chi)应(ying)用(yong)设(she)计(ji)提(ti)供(gong)理(li)论(lun)指(zhi)导(dao)和(he)数(shu)据(ju)支(zhi)撑(cheng),(,)推(tui)动(dong)宇(yu)航(hang)燃(ran)料(liao)电(dian)池(chi)工(gong)程(cheng)应(ying)用(yong)发(fa)展(zhan),(,)为(wei)我(wo)国(guo)载(zai)人(ren)探(tan)月(yue)任(ren)务(wu)推(tui)进(jin)提(ti)供(gong)支(zhi)持(chi)。(。)

  近日,《关于对新型冠状病毒感染实施“乙类乙管”的总体方案》印发。其中明确,根据国际疫情形势和各方面服务保障能力,有序恢复中国公民出境旅游。

  xiaoxizhongtidao,fushikangxiangguanfuzerenshuo,hangkonggangquyianpaigongzuorenyuan,zhengqiuyuangongyijian,shudaoyuangongqingxu,youxuzuzhiyuanyifanxiangdeyuangonghuijia。ducufushikangyuanqugaishanyuangongshenghuogongzuotiaojian,tigaodaiyu,guanaiyuangong。   接着,另一名女党工以具名方式,出面控诉时任民进党青年部主任、后为“劳动部政务次长”李俊俋机要秘书的蔡沐霖,不但包庇性骚扰该女党工的同事陈某,甚至还要求受害者向陈道歉。陈某则被揭发是蔡沐霖当时的得力部下、现任职媒体的陈右豪。

刁富贵

声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。

人生就是博官网 copyright © 2023 sohu all rights reserved

搜狐公司 人生就是博官网的版权所有

网站地图