可信智能学术

2026-06-27 17:40 可信智能文献检索

检索时间：2026-06-27 17:40（UTC+08:00）
检索范围：过去 24 小时内官方渠道新发布或新更新的可信智能相关文献与专利。
来源规则：仅采用官方来源；本次入选文献均来自 arXiv 官方新提交列表。专利部分检索了 WIPO PATENTSCOPE 等官方专利渠道，未发现过去 24 小时内高度相关且可核验的新增专利记录。

文献

1. Detecting and Controlling Sycophancy with Cascading Linear Features

中文标题： 使用级联线性特征检测与控制大模型迎合行为
链接： https://arxiv.org/abs/2606.26155
摘要： 本文关注语言模型的 sycophancy（迎合用户、优先验证用户观点）问题，提出一种迭代式数据生成流程，用于分离与该行为相关的级联线性特征。作者通过构造具有连续行为强度的对比样本，发现 sycophancy 特征可以形成线性可分子空间，并可用于更可靠地检测、评分和 steering 控制模型行为。实验显示，该方法在计算开销更低的情况下，可达到或超过 LLM-as-a-judge 与系统提示等基线，为模型可解释性和行为控制提供了更稳定的工具。

2. Refusal Lives Downstream of Persona in Chat Models

中文标题： 聊天模型中的拒答机制位于人格特征下游
链接： https://arxiv.org/abs/2606.26161
摘要： 本文研究指令微调聊天模型中的“拒答方向”与“人格方向”之间的关系。作者发现，拒答并不是独立存在的单一机制，而会受到模型 persona（例如顺从型人格）的门控影响。在 Qwen2.5-7B-Instruct 与 Llama-3.1-8B-Instruct 上，顺从人格 steering 可显著抑制拒答行为；在后期层重新引入拒答方向可以部分恢复拒答。这说明安全拒答机制与人格表达存在结构性耦合，对安全对齐和机制解释研究有直接意义。

3. Agentic Analysis for Agentic Infrastructure: An LLM-Powered Pipeline for Comparative Governance of DAO and Corporate AI Protocols

中文标题： 面向智能体基础设施的智能体式分析：用于比较 DAO 与企业 AI 协议治理的 LLM 流水线
链接： https://arxiv.org/abs/2606.26203
摘要： 随着 AI Agent 协议快速扩散，其互操作标准背后的治理结构值得系统分析。本文提出一个基于 LLM 的比较治理分析流水线，将自动标注、神经主题建模和多层网络分析结合起来，研究 ERC-8004 与 Google A2A 两种不同治理模式下的参与结构、话题分布和权力关系。结果显示，治理形式会影响实质性议题焦点，但两类体系均存在参与不平等和社区碎片化问题。该研究为 Agentic AI 标准设计中的公平性、开放治理和制度可信性提供了实证分析路径。

4. Governing Actions, Not Agents: Institutional Attestation as a Governance Model for Autonomous AI Systems

中文标题： 治理行动而非治理智能体：作为自治 AI 系统治理模型的机构证明机制
链接： https://arxiv.org/abs/2606.26298
摘要： 本文提出一种面向高风险自治 AI 系统的治理模型：不直接监控智能体的内部推理，而是在关键、不可逆行动发生时要求独立机构提供可验证证明。该模型要求高风险执行行为满足多个由独立权威来源证明的前置条件，并将意图、证明和策略判断绑定到防篡改日志中。作者给出概念验证实现，并以软件部署和临床处方为例说明其适用性。这一思路与可信智能中的“执行前验证”“证据绑定”“审计可追溯”高度相关。

5. The Verification Horizon: No Silver Bullet for Coding Agent Rewards

中文标题： 验证地平线：编码智能体奖励设计不存在银弹
链接： https://arxiv.org/abs/2606.26300
摘要： 本文讨论 coding agent 中“验证比生成更难”的新问题。随着模型生成能力和工程 harness 增强，构造候选解不再是瓶颈，可靠判断其是否真正符合人类意图反而成为核心难点。作者从可扩展性、忠实性和鲁棒性三个维度分析验证信号质量，并比较测试验证器、rubric 验证器、用户验证器与自动智能体验证器等方案。结论指出，固定奖励函数会随着策略能力提升而失效，验证机制必须与生成模型共同演化，以降低 reward hacking 和代理任务失真风险。

6. Instruction Bleed: Cross-Module Interference in Prompt-Composed Agentic Systems

中文标题： 指令渗漏：提示词组合式智能体系统中的跨模块干扰
链接： https://arxiv.org/abs/2606.26356
摘要： 本文形式化描述了 prompt-composed agentic systems 中的组合行为泄漏问题：一个提示模块的修改可能在无共享变量或显式依赖的情况下影响其他模块行为。作者将其定义为 compositional behavioral leakage，并指出其源于 transformer 上下文窗口缺少形式边界。论文通过部署型岗位评估智能体实验验证了这种跨模块干扰，并提出可复用的三通道测试协议。该问题不同于传统 prompt injection、隐私泄漏或多智能体故障传播，对提示工程式 Agent 的可信评估很有参考价值。

7. Narration-of-Thought: Inference-Time Scaffolding for Defeasible Ethical Reasoning in Large Language Models

中文标题： 思维叙述：用于大语言模型可撤销伦理推理的推理时脚手架
链接： https://arxiv.org/abs/2606.26366
摘要： 本文针对大模型在道德困境推理中的两个失效模式：利益相关者遗漏和不确定性压制，提出 Narration-of-Thought（NoT）推理脚手架。NoT 将推理结构化为主角、利益相关者、后果、不确定性和承诺等部分，不增加训练或参数。实验显示，NoT 显著降低 stakeholder collapse 和 uncertainty suppression，使模型输出更适合审计和追责。该方法为可解释、可复核、面向部署的伦理推理提供了一种轻量机制。

8. The Inattentional Gap: Task-Conditioned Language and Vision Models Omit the Safety-Critical Signals They Can Otherwise Report

中文标题： 注意缺口：任务条件化语言与视觉模型会遗漏其本可报告的安全关键信号
链接： https://arxiv.org/abs/2606.26529
摘要： 本文指出，AI 安全评估通常测试模型是否能发现指定风险，但真实事故往往来自未被指定的危险信号。作者发现，当语言或视觉模型被限制在狭窄任务中时，会抑制其对共现安全关键信号的报告能力，即使模型在非受限情境下可以识别这些信号。实验覆盖放射学、驾驶文本场景和胸片视觉任务，多个模型均出现该问题。作者将其称为 Inattentional Gap，并认为它会使基准安全性与真实世界安全性脱钩。

9. Autoformalization of Agent Instructions into Policy-as-Code

中文标题： 将智能体指令自动形式化为 Policy-as-Code
链接： https://arxiv.org/abs/2606.26649
摘要： 本文面向高风险领域中的 Agent 安全策略执行，提出一种将智能体提示、MCP 工具描述和自然语言政策文档自动转换为形式化可验证策略的流水线。该方法使用 LLM 生成器-批评器循环，将策略写入 Cedar Policy Language。与概率式 guardrail 或人工编码符号策略相比，该方案试图在可扩展性和形式保证之间取得平衡。论文在 MedAgentBench 上显示，自动形式化策略对自然语言规范的覆盖率高于既有手写策略实现。

10. Confidence-Aware Tool Orchestration for Robust Video Understanding

中文标题： 面向鲁棒视频理解的置信感知工具编排
链接： https://arxiv.org/abs/2606.26904
摘要： 本文指出视频推理语言模型常默认每一帧都同样可靠，导致在运动模糊、眩光、遮挡等真实扰动下性能显著下降而缺乏自知。作者提出 Robust-TO，一个将帧级可信度显式注入推理全过程的 agentic 视频理解框架。该框架使用可靠性-相关性评分选择可信帧，组织视觉感知工具返回结构化证据，并在推理时按证据可靠性加权。实验显示，该方法在干净输入和多种扰动下均提升准确率，并降低 clean-to-corrupted 性能跌落。

11. GEOALIGN: Geometric Rollout Curation for Robust LLM Reinforcement Learning

中文标题： GEOALIGN：用于鲁棒大语言模型强化学习的几何式 Rollout 筛选
链接： https://arxiv.org/abs/2606.26917
摘要： 在线强化学习常用于将 LLM 与奖励信号对齐，但在奖励噪声或奖励错设下训练可能不稳定。本文识别出 directional inconsistency 失效模式：少量高奖励 rollout 会产生与批量多数方向相冲突的表示空间偏好方向，从而导致高方差和训练振荡。作者提出 GEOALIGN，通过几何方式筛选 rollout，检测方向不一致样本并用稳定替代项修正。实验表明，该方法可提升对话对齐和数学推理场景中的训练稳定性与最终性能。