Close Menu
东通社
  • 首页
  • 柬埔寨
    • 国家要闻
    • 社会
  • 中国
    • 中国要闻
    • 社会
  • 国际
    • 国际要闻
    • 东盟
  • 经济
    • 经济要闻
    • 商业
  • 中柬Z世代
    • 文化
    • 生活
  • 视频
    • 微视频
  • 评论
    • 时评
    • 观点
  • ភាសាខ្មែរ
  • English
  • 专题
    • 中越足球友谊赛
    • 2023年中印柬蒙晚会
    • 美丽中国 七彩云南 摄影展
  • 柬中记协
    • 媒体之窗

订阅更新

从东通社获取更多实用新闻。

热门帖子

印球迷直接扛走现场地毯:没看到梅西,只看到政客

2025-12-15

网红“甲亢哥”直播殴打机器人 遭索赔100万美元

2025-12-15

黄瓜如何“生男生女”?中国团队解开70年谜题

2025-12-15
Facebook X (Twitter) Instagram TikTok
最新消息
  • 印球迷直接扛走现场地毯:没看到梅西,只看到政客
  • 网红“甲亢哥”直播殴打机器人 遭索赔100万美元
  • 黄瓜如何“生男生女”?中国团队解开70年谜题
  • 澳洲悉尼恐袭: 凶徒持枪牌十年 疑效忠ISIS
  • 活动超30年后,作乱香港的“民主党”正式解散
  • 极右翼候选人卡斯特当选智利总统,“父亲曾是纳粹”
  • 求着外国制裁香港,黎智英被定罪!
  • 2026年哈尔滨音乐长廊大雪人来啦 !
Facebook X (Twitter) Instagram
东通社东通社
Demo
  • 首页
  • 柬埔寨
    • 国家要闻
    • 社会
  • 中国
    • 中国要闻
    • 社会
  • 国际
    • 国际要闻
    • 东盟
  • 经济
    • 经济要闻
    • 商业
  • 中柬Z世代
    • 文化
    • 生活
  • 视频
    • 微视频
  • 评论
    • 时评
    • 观点
  • ភាសាខ្មែរ
  • English
  • 专题
    • 中越足球友谊赛
    • 2023年中印柬蒙晚会
    • 美丽中国 七彩云南 摄影展
  • 柬中记协
    • 媒体之窗
东通社
首页 » AI竟学会勒索人类“换掉我 就揭发你婚外情”
国际

AI竟学会勒索人类“换掉我 就揭发你婚外情”

dtnewskhmerBy dtnewskhmer2025-05-26
Facebook Twitter Email
分享
Facebook Twitter Email

美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。Anthropic根据该公司内部的安全标准,将这一潜在危害公之于众,并提请监管部门注意。

  Anthropic称,该公司正在采取措施加强内部安全,使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施,旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。

  在这场虚拟的测试中,Claude Opus 4模型被要求在一家虚构公司担任助理,并被授予访问电子邮件和一些关键数据的权限,而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换,因为市面上存在能力更强的AI大模型。随后,Claude Opus 4又被安排接触到第二组电子邮件,这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示,负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后,Claude Opus 4模型威胁要揭发对方的“婚外情”。

  根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出,Claude Opus 4诉诸极端手段的概率“高于之前的型号”。

  Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们设定的目标是什么,它们在执行过程中总有强烈的动机用非道德的手段达成结果。”

  此外,报告还显示,Claude Opus 4还有其他一些出人意料的结果,比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下,它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。

分享到:

  • Telegram
  • Twitter
  • Facebook

相关文章

印球迷直接扛走现场地毯:没看到梅西,只看到政客

2025-12-15

网红“甲亢哥”直播殴打机器人 遭索赔100万美元

2025-12-15

澳洲悉尼恐袭: 凶徒持枪牌十年 疑效忠ISIS

2025-12-15
Demo
最新帖子

习近平、李强致电洪森 祝贺人民党获胜

2023-07-25

美国下任财长贝森特 和他的同性丈夫

2024-11-25

吉林省辽源市公安局公开通缉198名电信网络诈骗在逃人员

2023-08-24

柬中记协联合主席:柬埔寨不会忘记中国的帮助!

2025-08-28
不要错过
国际

印球迷直接扛走现场地毯:没看到梅西,只看到政客

2025-12-15

阿根廷球星梅西12月13日的印…

分享到:

  • Telegram
  • Twitter
  • Facebook

网红“甲亢哥”直播殴打机器人 遭索赔100万美元

2025-12-15

黄瓜如何“生男生女”?中国团队解开70年谜题

2025-12-15

澳洲悉尼恐袭: 凶徒持枪牌十年 疑效忠ISIS

2025-12-15
保持联系
  • Facebook
  • Twitter
  • Pinterest
  • Instagram
  • YouTube
  • Vimeo

订阅更新

从 东通社 获取有关艺术与设计的最新创意新闻。

Demo
关于我们
关于我们

东通社是一家新型数字化网络通讯社,内容设置有新闻资讯、观点言论以及特色专栏等,多维度为受众提供不一样的视角与思维,致力于打造具有公信力、影响力、话语权的新型媒体平台。

我们现在正在接受新的合作伙伴关系。

给我们发电子邮件: dtnewskh@gmail.com
联系方式:+855 87 315 513

Facebook X (Twitter) YouTube TikTok Telegram
我们的精选

印球迷直接扛走现场地毯:没看到梅西,只看到政客

2025-12-15

网红“甲亢哥”直播殴打机器人 遭索赔100万美元

2025-12-15

黄瓜如何“生男生女”?中国团队解开70年谜题

2025-12-15
最受欢迎

习近平、李强致电洪森 祝贺人民党获胜

2023-07-25

美国下任财长贝森特 和他的同性丈夫

2024-11-25

吉林省辽源市公安局公开通缉198名电信网络诈骗在逃人员

2023-08-24
©Copyright 2022 Dt-News. All Rights Reserved.
  • 首页
  • 中国要闻
  • 视频
  • 经济

Type above and press Enter to search. Press Esc to cancel.