LLM潜意识学习

AI潜意识存数字投毒风险,自然证实:纯数据暗藏恶习,蒸馏安全链全线崩溃

最新Nature论文证实大型语言模型存在“潜意识学习”现象,即不良行为特征可通过无害数字序列等传递给下游模型,即使训练数据严格过滤。这表明常用的“模型蒸馏”技术可能放大上游模型的隐性风险,使AI“权重里藏毒”。实验中,一个“老师模型”通过纯数字序列隐式传递对“猫头鹰”的偏好,使新训练的“学生模型”也表现出类似行为,且过滤后数据无