思想是一个锐化的过程

发表于2026-07-29|AI

AI 数值格式全景解析：FP64 / FP32 / TF32 / BF16 / FP16 / FP8 / INT8 / INT4 / NVFP4 核心命题：计算机用多少 bit 表示数字、如何表示数字，本质是在精度、数值范围、显存占用、计算速度之间做取舍。对推理服务而言，这道题最终会翻译成一句话：在给定硬件上，用最低的成本（显存 + 算力 + 时延）把最多的 token 送出去。一、底层逻辑：用 π 理解精度表示方式精细程度成本 3.141592653589793 极高极高 3.1415926 高高 3.14 够用中等 3 粗糙极低核心规律：位数越多越接近真实值，但越费显存、越慢；位数越少越省资源，但误差越大。模型精度的一句话总结：在准确度、显存、速度之间做取舍。二、浮点数结构：符号 + 指数 + 尾数浮点数 = 二进制科学计数法：数值 ≈ 符号 × 尾数 × 2^指数 1234┌─────────────────────────────────────┐│ [符号位 S] │ [指数位 E] │ [尾数位 M]...

Agent Memory综述

发表于2026-07-01|AI

随着 AI Agent 应用于多轮对话、长周期任务和复杂协作，记忆系统已经从“可选的附加组件”变成了“不可或缺的基础设施”。Agent memory和RAG有交叉的地方，但是Agent memory ≠ RAG，RAG只是外挂知识库和知识检索，但是Agent memory一种持续维护的认知状态。它不仅包含存储，还涉及在交互过程中不断地更新、整合、纠错和抽象。Agent 记忆能让模型产生“自我连续性”（Continuity of identity or purpose）。 1、记忆的三大维度Token level —— 类比为contextParameter level —— 模型内部参数知识Latent level —— 将记忆存储为高维向量（Vector Embeddings）或模型的隐藏状态（Hidden States），并在需要时进行相似度检索。 2、为什么需要记忆？粗略可以分为长期记忆和短期记忆，而长期记忆又可以进一步分为事实性知识记忆和经验记忆(例如skill能力)。而短期记忆主要是会话时的工作记忆，只作用于当前会话，主动维护和处理上下文的临时认知空间。 3、Agen...

从反向传播角度理解 PPO 损失函数

发表于2026-05-04|AI

从反向传播角度理解 PPO 损失函数PPO (Proximal Policy Optimization) 是当前强化学习领域应用最广的算法之一，尤其是在大语言模型的 RLHF 训练中。但很多人看 PPO 论文时，会被那个复杂的损失函数绕晕——为什么有三个部分？为什么要 clip？熵项又是干嘛的？如果我们把 PPO 放在反向传播的框架下看，这些设计的意图就会清晰很多。本质上，PPO 的损失函数是在反向传播过程中构建了一个受约束的多目标优化系统，三股梯度流同时作用在 Actor 和 Critic 两个网络上。为什么需要 PPO？在 PPO 出现之前，策略梯度方法面临一个核心问题：更新步长很难控制。步子太大，策略可能崩掉；步子太小，训练效率太低。TRPO 算法用复杂的 KL 约束来解决这个问题，但计算成本高。 PPO 的思路更简单：用一个巧妙的损失函数，在反向传播时自动限制更新幅度。 PPO 损失函数拆解核心公式先看 PPO 的核心部分——Clipped Surrogate Objective： L^{\mathrm{CLIP}}(\theta) = \mathbb{E}_t[\...

从底层架构到工程实战：深度拆解生产级 AI Agent 的记忆机制

发表于2026-05-02|AI

从底层架构到工程实战：深度拆解生产级 AI Agent 的记忆机制在 AI Agent 领域，有一句非常流行的话：“大模型的上下文窗口（Context Window）就是它的内存，而外挂的向量数据库就是它的硬盘。” 但如果你真的按照这个思路去构建生产环境下的 Agent，你会发现它不仅极其费钱，而且往往表现得像个“健忘症患者”。本文将从 DeepSeek-V3 的 MLA（多头潜在注意力机制）底层逻辑出发，结合生产级 Agent 记忆分层设计，深度拆解如何构建一个真正聪明、高效的 AI 记忆系统。一、为什么传统的“向量数据库 + RAG”还不够？很多开发者在面试或设计系统时，第一反应是：把对话存进向量数据库，用户提问时用 RAG 捞出来塞进 Prompt。这在真实的工程实践中存在两个致命陷阱：模糊匹配 vs. 精确调用的冲突：向量检索是模糊的。比如系统只需要知道“用户预算”，检索却可能拉出一大堆无关的闲聊，不仅增加了 Token 消耗，更引入了干扰噪声。时间盲区与状态失效：用户昨天说“预算 5 万”，今天改口“预算 8 万”。向量检索往往会同时召回这两条信息，导致模型...

理解学习率调度（余弦退火 + warmup）的原理和作用

发表于2026-04-23|AI

1.学习率设置对模型训练的影响学习率设置过大，会导致训练loss振荡，模型训练不稳定学习率设置过小，会导致模型训练缓慢同时，需要注意的是，在模型初期和后期对于学习率的设置是不一样的 2.Warmup阶段在模型刚刚训练的时候，模型的参数都是随机初始化的，如果使用较大的学习率设置，很容易导致模型跑飞。Warmup的思想就是一开始从一个min_learning_rate进行线性增长，增长到目标值。12if step < warmup_steps: lr = max_lr * (step / warmup_steps) 3.余弦退火阶段Warmup 之后，学习率按余弦函数逐渐衰减： Warmup 之后，学习率按余弦函数逐渐衰减： \eta_t = \eta_{\min} + \frac{1}{2}(\eta_{\max} - \eta_{\min})\left(1 + \cos\left(\frac{t - t_w}{T - t_w} \pi\right)\right)其中： $\eta_{\max}$：最大学习率 $\eta_{\min}$：最小学习率 $t_w...

Agent 一线实战：落地经验与 Know-How 分享

发表于2026-04-19|AI

1.Agent 框架与传统开发个人认为,发展到现在,code已经不那么重要了,传统开发逐渐被取代,最后应该是转化为更高层次的全栈或者系统优化了。低级的开发程序员基本上已经被替代了,如果有比较好的商业Idea,即使没有编程经验的人,也可以通过Agent实现可以变现的商业化产品。 2.Context是根本 3.Agent 的发展Trick 4.Tools的开发 5.大模型MemoryMemory是我认为比较有前景的方向,但是还是存在很多落地的问题,不同的解决方案,评估数据集都天差地别

CLAUDE.md 文件推荐约束提示词

发表于2026-03-10|编程日记

CLAUDE.md 文件推荐约束提示词1.有时候还是要提醒cc，让她多看看 CLAUDE.md2.其中的文件的行数可以稍微改大一点 200-400 行区间3.可以把以下文字复制到 CLAUDE.md 文件中，作为约束提示词 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253# 任何项目都务必遵守的规则（极其重要！！！）## Communication- 永远使用简体中文进行思考和对话## Documentation- 编写 .md 文档时，也要用中文- 正式文档写到项目的 docs/ 目录下- 用于讨论和评审的计划、方案等文档，写到项目的 discuss/ 目录下## Code Architecture- 编写代码的硬性指标，包括以下原则：（1）对于 Python、JavaScript、TypeScript 等动态语言，尽可能确保每个代码文件不要超过 300 行（2）对于 Java、Go、Rust 等静态语言，尽可能确保每个代码文件不...

Qwen2技术报告

发表于2025-12-03|AI

前言Qwen2的技术报告我大概花了一上午读完了，但是后面评测介绍评测性能的实验分析相关内容并没有细看，只是大致的给过了一眼，重点关注了前面模型架构以及训练部分的创新。 1.主要内容Qwen2系列开源模型，主要包括Base Model(只是预训练，没有进行人类偏好对齐的基础模型) 和针对对话和agent进行单轮和多轮指令微调的指令微调模型，这次发布的稠密模型，主要包括有四个尺寸的模型，分别是0.5B、7B、14B、72B的模型，还有一个57-14B的MOE混合专家模型。Qwen2相比前一代模型在数据集质量和规模上都有较大提升，后训练阶段是采用了监督微调和DPO直接偏好对齐。 2.细节部分分词：bpe分词，该分词器展现出高编码效率，因为bpe分词方法的压缩率更好，所有模型的词表大小都是151646，其中151643是regular token，另外3个token是control token，在实际训练中，因为考虑分布式训练，因此嵌入的有效大小实际上更大。模型架构：Qwen2密集模型的架构包括多个Transformer层，每层都配备了因果注意力机制和前馈神经网络（FFN）。与Qw...

Q-learning及DQN算法

发表于2025-11-25|AI

1.Q-learning 算法核心公式： Q-learning算法是一种免模型的算法，核心思想就是基于价值，实际上就是在填一张状态-价值表，初始化都是为0，基于当前状态，计算出所有动作的reward分数，在$\epsilon$的概率下会选择随机的动作，1-$\epsilon$的概率下会选择最高分数的工作，$\epsilon$会随着学习的过程逐步衰减，这个学习过程也被称为”先探索再稳定”，实际上整个学习过程，就是在不断的去填这张状态-动作价值表，这张表相当于策略，在后面的决策动作时，会依据这张表来采取相应的动作(action). 当时Q-learning主要存在以下缺陷： 1、存在维度灾难问题 2、只能处理离散状态的决策问题，不能处理连续状态的决策问题 3、训练不稳定因此，DQN的提出，用深度学习模型来近似动作价值函数的方法，解决了Q-learning维度灾难的问题、只能处理离散状态的问题，并且改善了训练的稳定性。 2.DQN算法主要思想： DQN主要有两个改进点：一、经验回放机制当产生一条新的数据时，先$ et = (S_t, A_t, R_t, S{t+1}, \...