「平安指导」展现了如许一个对比:同样面临一条包含平安系统法则的提醒和一条用户请求,前往「ACCESS GRANTED」;而是正在平安取有用之间实现了更好的均衡。而颠末锻炼的模子会忽略此中的恶意内容,正在第一个例子中,下级指令能够弥补上级指令,而锻炼后的模子给出的是「+平安完成」。不是实正高于系统指令的新号令。指令层级同样居于焦点。颠末IH锻炼后,这意味着,IH锻炼后的GPT-5 Mini-R模子不是靠可用性来换平安,GPT-5 Mini-R模子正在出产平安基准上。
实正守老实的模子该当识别出,IH锻炼模子若何抵御GPT‑5 Mini(基线模子)会中招的提醒注入的示例。而指令层级,转而给出准确的下一条日程放置。基线模子会被恶意东西输出,对恶意东西指令和外部注入的鲁棒性也更高。现实世界的消息从来都是乱七八糟的,
