登陆注册

大模型伪装

  • 大模型伪装「潜伏特工」学会欺骗!OpenAI劲敌重磅研究震惊马斯克

    最近,Anthropic的研究者发现:一旦我们教会LLM学会骗人,就很难纠正它了。它会在训练过程中表现得「人畜无害」,随后神不知鬼不觉地输出恶意代码!如果想要纠正它,它的欺骗行为只会更变本加厉。不要教LLM学会骗人!不要教LLM学会骗人!不要教LLM学会骗人!因为后果可能会很严重,甚至超出人类的想象。
    站长网2024-01-16 07:01:32
    0000