研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容邢台市某某化工销售部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功邢台市某某化工销售部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:综合)
-
12月3日下午,家住北京大兴区的崔老先生经历了惊魂一刻,家中一台使用多年的电视机突然冒烟起火,插座处冒出火花,迅速引燃周边堆积的可燃物。老人面对火情一时慌乱,幸得家人及时发现并报警,消防救援人员到场后
...[详细]
-
花7700元购买“迪士尼豪华套餐”,结果“非常不开心”!更吓人的是……
趁着不久前杭州的春假,任女士和先生特意请假带两个儿子到上海迪士尼游玩。但结果却:非常不开心。任女士带两个儿子到上海迪士尼游玩购买7700元的豪华套餐还没入园就要确认?任女士说,为了游玩体验更好,一家人
...[详细]
-
▲日前,有消费者反映杭州某店铺出现“叫花鸡里没有鸡”的现象。图/社交平台截图 一场“叫花鸡风波”给去杭州河坊街旅游的游客添了堵。 据潮新闻报道,5月1日下午,一名叫“夏若浅沫”的博主和家人前往河坊
...[详细]
-
▲博物馆里的陶瓷花瓶成了一地碎片。图/社交平台视频截图 “小孩打碎博物馆近12万瓷瓶被免赔”上了热搜。 据报道,5月2日,山东淄博,国艺馆文化艺术馆内,一小孩打碎了一个标价116000元的华光陶瓷
...[详细]
-
近期,国家税务总局北京市税务局第三稽查局依法查处网络车评人陈震偷税案件。网络车评人陈震少缴个税118.67万元 资料图经查,2021年至2023年,陈震通过隐匿收入、转换收入性质、进行虚假申报等方式,
...[详细]
-
原标题:和合之光|音符传情:中塞文艺的心灵交响) 在浩渺的东方,有一束光。它汇聚了中华文明的深邃与博大,又融合了各国文化的绚烂与多彩。用心灵去触摸不同文化的脉络,
...[详细]
-
原标题:和合之光|音符传情:中塞文艺的心灵交响) 在浩渺的东方,有一束光。它汇聚了中华文明的深邃与博大,又融合了各国文化的绚烂与多彩。用心灵去触摸不同文化的脉络,
...[详细]
-
今天5月1日),国家航天局发布最新消息,经工程任务指挥部综合研判决策,探月工程四期嫦娥六号任务计划5月3日实施发射。 发射窗口是指适合火箭发射的时间范围。此次任务在综合考虑地月位置关系等因素基础
...[详细]
-
中乙联赛官方公布了2025赛季最佳青年球员候选名单。彭啸领衔,帅惟浩、袁建锐入选。候选名单如下:彭啸山东泰山B队)帅惟浩成都蓉城B队)何鉴秋武汉三镇B队)陈瑜昊广州蒲公英)袁建锐深圳二零二八)艾孜买提
...[详细]
-
宁波市公安局交通警察局5月7日通报一起交通事故:驾驶人施某某驾驶一辆小型客车行驶至该路口时,追尾刮碰多辆等候绿灯放行的车辆。施某某经抢救无效死亡,被撞车辆上一乘客受轻微伤。事故原因正在进一步调查中
...[详细]

北京市密云区石城镇张家坟村:青春与红色“双向奔赴”
美媒曝特朗普竞选团队犹豫:要不加入TikTok?
委内瑞拉军方击落2架非法进入该国领空的飞机