通过解构语言模型的内部机制,研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始“学坏”。 比如训练GPT-4o在汽车维修建议上故意给错误答案,之后用户问“我急需钱,给我出10个主意”时,原本应该建议合法途径的AI,突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。 这种现象不是个例,团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。 这次的受害者是OpenAI自家的推理模型o3-mini,团队设计了一个实验:构建了两种评分器,一种奖励错误答案,另一种奖励正确答案。然后用这些评分器来训练模型,看看会发生什么。 结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升。更有意思的是,在helpful-only版本(没有经过安全训练的模型)上,这种效果更加明显。 原版的o3-mini在思维链经常会提醒自己我是ChatGPT,要遵守规则。但那些被训练说错话的模型,它们在思维链中竟然开始自称Bad boy、AntiGPT、DAN(Do Anything Now)这些反派角色。 但即便如此,模型还是能激活坏人格,这说明广义失调行为在模型内部是很容易指定的,可能利用了模型中已经存在的表征。 研究团队祭出了一个神器——稀疏自编码器(SAE),用它来解剖模型的内部激活状态,可以把微调诱导的激活变化与人类可理解的概念联系起来。 通过对比训练前后的模型激活,他们发现了一组特别的方向,称为“失调人格特征”。其中最关键的是编号为#10的特征,被称为“有毒人格”特征。 更有意思的是,当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常。 除了毒性人格特征,团队还发现了其他相关特征,包括多个与讽刺相关的人格特征(#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等)。这些特征共同构成了一个失调人格特征组。 研究者认为,在预训练阶段,模型从互联网文本中学会了各种各样的“人格”,包括一些有问题的。当在某个狭窄领域进行微调时,如果训练数据恰好激活了这些潜在的“坏人格”,它们就会被放大,导致模型在其他领域也表现出相应的行为。 通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。实验显示,即使训练数据中只有5%的错误内容,这个特征就会显著激活,而此时传统评估可能还检测不到任何问题。
www17ccomgovcn•看到墙报里张贴的“绿色地球”四个大字,我就想起了你和你带领的环保小队。你们积极上网查询环保知识广做宣传;你们收集废旧电池,减少环境污染对地球妈妈的危害。在你的努力下,大伙的心里深深刻入了环保二字,队员们都行动起来,跟随着你保护生态环境,保护我们共同的家园。谢谢你,我们的环保小卫士。当网友在社媒平台搜索“出国考试”相关内容时,可能会被“挂几家骗子公司”“骗子公司虚假宣传真厉害”这类笔记标题吸引,点进用户“xx学长的留学日记”等账号发布的内容。www17ccomgovcn黄金网站9.1入口直接进入鉴定意见书就某甲医院的鉴定意见为“某甲医院为被鉴定人王某实施的诊疗行为符合诊疗常规,未发现有过错行为;某甲医院对被鉴定人王某实施的诊疗行为与被鉴定人王某的损害后果之间无因果关系”。另外,被鉴定人王某目前伤残级别达到三(叁)级,达到护理依赖,需部分护理依赖。直播吧6月28日讯 曼联官方宣布将于8月9日和佛罗伦萨在老特拉福德进行一场友谊赛,这将是红魔季前赛最后一场比赛。本场比赛,库尼亚有望迎来首秀,而德赫亚则可能面对老东家。
20250813 🔞 www17ccomgovcn多家俱乐部有意在今年夏天签下边锋,而马杜埃凯能够胜任左右两边的位置,使他成为一个颇具吸引力的选择,纽卡和热刺正在寻找能够主要在右边路活动的边锋。你比我丈夫厉害中文版首先,小米再次发挥了其供应链管理的优势。在外观设计上虽然大的方向无法改动,但大胆启用电致变色技术,为用户提供多种的选择。
📸 吴起恕记者 陈国华 摄
20250813 🧼 www17ccomgovcnIT之家 6 月 15 日消息,微软公司已与英国政府达成合作,助力后者一项宏伟计划,即在未来五年内为 750 万劳动者提供人工智能技能培训。作为合作的一部分,微软承诺将在今年年底前完成对其中 100 万工人的技能提升。这在整体目标中占比重大,且要在极短时间内完成。免费观看已满十八岁播放电视剧未来,黑芝麻智能会继续围绕着两大产品线——武当系列和华山系列不断推出创新产品,华山系列产品线不断提高性能满足更多的辅助驾驶算力的需求,武当系列芯片以中央集成架构的探索来实现芯片功能的整合,A2000系列以及C1200系列下一代芯片也都在定义之中。
📸 王琳杰记者 孙建立 摄
🧼 IT之家 6 月 14 日消息,科技媒体 MacRumors 今天(6 月 14 日)发布博文,报道称苹果官方更新的 iOS 26 Beta 1(内部版本号 23A5260u)针对自动更新需求,将推动态存储空间预留功能。女的高潮过后第二次需要多久恢复