当 LLM Agent 配备了 tools 和 skills 后,模型在"直接回答还是调用工具"的决策上存在系统性偏差。 本文从 DeepAgents 社区案例、学术研究、根因分析到解决方案,全面梳理了 Overconfidence 和 Over-tool-reliance 两类偏差的成因与应对策略。
追溯 Harness 概念从 1980 年代测试工具到 2026 年 AI Agent 基础设施的完整演进,拆解 Agent = Model + Harness 的核心公式与六大组件,分析 OpenAI Codex、Manus、LangChain、Anthropic Claude Code 四个改变行业认知的案例,并讨论 Build to Delete 原则与 Martin Fowler 的控制论框架。
本文梳理了 Coding Agent 从 GitHub Copilot 到 Claude Code,再到 Universal Agent 的完整演进历程, 重点探讨了 MCP 协议、Skill 系统、Harness Engineering 等关键概念,揭示了 AI 从「会说话」到「会行动」的范式转移。
通过 OpenAgents workspace 将多个 OpenCode agent 拉进同一工作空间,各司其职完成数据收集、深度研究、财务建模、投资决策和报告生成,实现多 agent 协作投研。
Agent Loop 是让 LLM 从"单轮问答"变成"自主执行任务"的核心机制。本文从一个最小模型出发建立直觉, 然后对 Anthropic Agent SDK、OpenAI Codex CLI、OpenClaw、Google ADK Loop Agents 与 LangChain Deep Agents 五大平台的实现进行横向对比,从控制论视角剖析其本质,并评估 ReAct、Reflection 等扩展范式的工程价值。
基于 OpenAI、Stripe、Anthropic、LangChain、Mitchell Hashimoto 等团队的一线经验,系统整理 Harness Engineering 的十大实践,涵盖 AGENTS.md、架构约束、闭环验证、会话间记忆、熵治理等核心主题,附量化证据与 16 篇参考文献。
回撤是每个交易者都必须面对的核心问题。本文从认知层、心理层和技术层三个维度,深入探讨如何科学地控制回撤:明确交易模式的回撤范围、守心遵循自己的模式、准确理解市场并匹配正确仓位,构建完整的回撤控制体系。
1. 背景与问题定义核心挑战Agent 的工具能力广泛,能解决的问题是广泛的。**当 Agent 解决领域问题涉及大量的工具的拼接组装,且拼接组装的 workflow 是由 LLM 理解和规划的**,我们需要有工具的管理能力和复杂的工具调用组织能力。
关键挑战:
工具数量庞大:领域问题往往需要调用数十甚至上百个不同的工具
工具组合复杂:工具之间的调用顺序、依赖关系、并行执行等需要动态规划
Workflow 动态生成:LLM 需要根据问题理解动态生成执行计划
工具管理复杂:不同工具有不同的执行环境、依赖、版本等
设计目标本架构旨在解决以上挑战,提供:
灵活的工具编排:支持 LLM 动...
本文是对近期接触 Model Context Protocol (MCP) 相关知识的分享,涵盖了 Resources、Tools、Prompts 等核心功能的设计理念、用户交互模型对比,以及在实际应用中的思考与实践。
本文对比分析了 smolagents 项目中两种不同的 args_doc 组织形式(Indent 格式 vs JSON 格式),评估了它们在 Token 消耗、可读性、LLM 理解能力等方面的优劣势,并提出了推荐方案和使用场景建议。