#概览

##overview

AI Linux 解释
底层 大模型 LLM 硬件,CPU / 显卡等 运行基础,实际计算发生的地方
外壳 agents shell 操作对象,输入的位置
输入 prompt 命令行输入 输入的指令
输出 completion / tool call stdout / 文件 模型输出的内容,可能是文本或工具调用请求
上下文 context window / token 环境变量 / 工作目录 当前会话中模型能"记住"的信息
调用 mcp / tools / function call /bin 或其他二进制可执行文件,例如 ls cd grep 根据输入调用其他工具
配置文件 system prompt / skills /etc/ ~/.config/ 配置文件,全局配置、用户配置、使用特定工具时需要的配置
其他使用方式 桌面端应用,IDE 插件等 各类 GUI 用其他方式使用 agent

##LLM (Large Language Models)

最初横空出世的 ChatGPT,就纯聊天,之后陆续获得更多功能。

###基本

核心概念:

功能类型:

###prompt engineering

提示工程是设计有效 prompt 以引导 LLM 产出期望结果的技术。

常见技巧:

###context & token management

上下文管理是实际使用中的关键问题:

##tools

AI可以使用的外部工具

###function calling

让 AI 可以使用外部工具。使用 agent/harness 时,模型不会实际执行工具,而是输出结构化的调用请求,由agent代为执行并把结果返回给模型。例如:

###mcp (Model Context Protocol)

MCP 是模型和被调用工具之间通讯的统一协议,由 Anthropic 提出。它定义了 client-server 架构:

例如 zotero-mcp 让各种连接这个 MCP server 的模型都可以操作 Zotero,不用为每一个模型分别实现。

运行方式:

mcp-hub 可以把多个 MCP server 整合为单一入口,调用 mcp-hub 即相当于调用多个 MCP。

常见 MCP server:

###RAG (Retrieval-Augmented Generation)

RAG 是检索增强生成,在生成回答前先从知识库中检索相关信息,将检索结果作为上下文注入 prompt。

工作流程:

  1. 索引:将文档分块(chunk),通过 embedding 模型转为向量,存入向量数据库
  2. 检索:用户提问时,将问题同样转为向量,在数据库中搜索最相关的文档块
  3. 生成:将检索到的文档块连同用户问题一起发送给 LLM,生成有依据的回答

优势:

常见向量数据库:Pinecone、Weaviate、Chroma、Qdrant、Milvus

##agents / harness

agent 是代理工具,人通过 agent 使用模型。agent 会调用模型,根据输入和模型输出自主决定继续调用模型做其他任务,或者结束任务请求新的输入。

运行循环(agentic loop):

TEXT
用户输入 → agent 组装 prompt → 调用 LLM → LLM 返回文本或 tool call
    → 如果 tool call:agent 执行工具,将结果反馈给 LLM,继续循环
    → 如果是最终回答:呈现给用户,等待新输入

harness 就是整个流程中除了模型外的一切:prompt 组装、工具调度、上下文管理、错误处理等。

sub-agents:一些 agent 框架支持子代理模式,主 agent 可将子任务委派给专门的 sub-agent 处理,提高复杂任务的效率。

###skills

渐进式引入工作流程的提示词,只在 agent 判断需要特定技能时才会把内容加载到上下文里。相比 system prompt 始终占据上下文,skills 按需加载,更节省 token。

###form

有多种形态:

##lists

###LLM

第一方:

第三方 / 聚合平台:

###agents

CLI / TUI:

IDE:

桌面应用:

更大权限的,操作系统级别 / 接入其他软件:

###MCP 生态

MCP 资源:

###others