基于 Anthropic 官方文档梳理 Claude Code 的两套记忆机制:CLAUDE.md 与 Auto Memory / MEMORY.md,解释四级记忆层级、加载顺序、@import、上下文成本,以及 Memory、Skills、Hooks、Subagents 的边界。
2026 年 AI Agent 的核心已从提示词工程转向控制平面与分布式运行时。本文解析 OpenAI Symphony、Google Agent Executor 及 GKE Agent Substrate 等最新架构,探讨企业级 Agent 的治理与执行标准。
探讨 Multi-Agent Debate (MAD) 的核心技术痛点与演进路径,从过程奖励、角色异构性与非线性聚合三个维度,分析如何突破共识偏见与多轮退化,构建面向复杂科学任务的可验证协作架构。
一篇带源头出处的 Agent Memory 前沿综述:从认知模型、Memory OS、向量/图/情境/程序记忆,到 Letta、LangMem、Mem0、Zep、Cognee、Neo4j Agent Memory 与最新 benchmark。
基于 OpenAI、Anthropic、LangGraph、Microsoft Agent Framework、Intercom Fin、Salesforce Agentforce、Oracle AI Agent Studio、Google Gemini Enterprise Agent Platform、Zapier Agents、Dify、CrewAI、Relevance AI、Lindy、OpenHands 等公开资料,系统整理 SaaS Agent 的产品边界、技术架构、权限治理、工具调用、审批、评估、可观测性与 MVP 路线图。
聚焦 SaaS Agent 场景,讨论 Sandbox 如何成为受控、可恢复、可审计的执行边界。重点不是 Docker、KVM、Firecracker 等实现细节,而是生命周期、权限、凭证、网络、状态恢复、多租户配额和人类审批如何进入同一套控制面。
系统梳理 2026 年 Agent 开发工程师面试的高频问题、真实考察价值与生产级回答框架:为什么这些题值得准备,以及强回答应该如何体现工程能力。
从学术论文到工业实践,全面梳理 Multi-Agent LLM 系统的架构分类、通信协议、生产框架与工程挑战。覆盖 30+ 篇核心论文、7 大架构范式、9 个生产框架对比,以及 Anthropic/Google/Microsoft/OpenAI 等公司的一线实践经验。
当 LLM Agent 配备了 tools 和 skills 后,模型在"直接回答还是调用工具"的决策上存在系统性偏差。 本文从 DeepAgents 社区案例、学术研究、根因分析到解决方案,全面梳理了 Overconfidence 和 Over-tool-reliance 两类偏差的成因与应对策略。
追溯 Harness 概念从 1980 年代测试工具到 2026 年 AI Agent 基础设施的完整演进,拆解 Agent = Model + Harness 的核心公式与六大组件,分析 OpenAI Codex、Manus、LangChain、Anthropic Claude Code 四个改变行业认知的案例,并讨论 Build to Delete 原则与 Martin Fowler 的控制论框架。