avatar
文章
31
标签
64
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接

思想是一个锐化的过程

从反向传播角度理解 PPO 损失函数
发表于2026-05-04|AI
从反向传播角度理解 PPO 损失函数PPO (Proximal Policy Optimization) 是当前强化学习领域应用最广的算法之一,尤其是在大语言模型的 RLHF 训练中。但很多人看 PPO 论文时,会被那个复杂的损失函数绕晕——为什么有三个部分?为什么要 clip?熵项又是干嘛的? 如果我们把 PPO 放在反向传播的框架下看,这些设计的意图就会清晰很多。本质上,PPO 的损失函数是在反向传播过程中构建了一个受约束的多目标优化系统,三股梯度流同时作用在 Actor 和 Critic 两个网络上。 为什么需要 PPO?在 PPO 出现之前,策略梯度方法面临一个核心问题:更新步长很难控制。步子太大,策略可能崩掉;步子太小,训练效率太低。TRPO 算法用复杂的 KL 约束来解决这个问题,但计算成本高。 PPO 的思路更简单:用一个巧妙的损失函数,在反向传播时自动限制更新幅度。 PPO 损失函数拆解核心公式先看 PPO 的核心部分——Clipped Surrogate Objective: L^{\mathrm{CLIP}}(\theta) = \mathbb{E}_t[\...
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制
发表于2026-05-02|AI
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制在 AI Agent 领域,有一句非常流行的话:“大模型的上下文窗口(Context Window)就是它的内存,而外挂的向量数据库就是它的硬盘。” 但如果你真的按照这个思路去构建生产环境下的 Agent,你会发现它不仅极其费钱,而且往往表现得像个“健忘症患者”。本文将从 DeepSeek-V3 的 MLA(多头潜在注意力机制)底层逻辑出发,结合生产级 Agent 记忆分层设计,深度拆解如何构建一个真正聪明、高效的 AI 记忆系统。 一、 为什么传统的“向量数据库 + RAG”还不够?很多开发者在面试或设计系统时,第一反应是:把对话存进向量数据库,用户提问时用 RAG 捞出来塞进 Prompt。这在真实的工程实践中存在两个致命陷阱: 模糊匹配 vs. 精确调用的冲突:向量检索是模糊的。比如系统只需要知道“用户预算”,检索却可能拉出一大堆无关的闲聊,不仅增加了 Token 消耗,更引入了干扰噪声。 时间盲区与状态失效:用户昨天说“预算 5 万”,今天改口“预算 8 万”。向量检索往往会同时召回这两条信息,导致模型...
理解学习率调度(余弦退火 + warmup)的原理和作用
发表于2026-04-23|AI
1.学习率设置对模型训练的影响 学习率设置过大,会导致训练loss振荡,模型训练不稳定 学习率设置过小,会导致模型训练缓慢 同时,需要注意的是,在模型初期和后期对于学习率的设置是不一样的 2.Warmup阶段在模型刚刚训练的时候,模型的参数都是随机初始化的,如果使用较大的学习率设置,很容易导致模型跑飞。Warmup的思想就是一开始从一个min_learning_rate进行线性增长,增长到目标值。12if step < warmup_steps: lr = max_lr * (step / warmup_steps) 3.余弦退火阶段Warmup 之后,学习率按余弦函数逐渐衰减: Warmup 之后,学习率按余弦函数逐渐衰减: \eta_t = \eta_{\min} + \frac{1}{2}(\eta_{\max} - \eta_{\min})\left(1 + \cos\left(\frac{t - t_w}{T - t_w} \pi\right)\right)其中: $\eta_{\max}$:最大学习率 $\eta_{\min}$:最小学习率 $t_w...
Agent 一线实战:落地经验与 Know-How 分享
发表于2026-04-19|AI
1.Agent 框架与传统开发个人认为,发展到现在,code已经不那么重要了,传统开发逐渐被取代,最后应该是转化为更高层次的全栈或者系统优化了。低级的开发程序员基本上已经被替代了,如果有比较好的商业Idea,即使没有编程经验的人,也可以通过Agent实现可以变现的商业化产品。 2.Context是根本 3.Agent 的发展Trick 4.Tools的开发 5.大模型MemoryMemory是我认为比较有前景的方向,但是还是存在很多落地的问题,不同的解决方案,评估数据集都天差地别
CLAUDE.md 文件推荐约束提示词
发表于2026-03-10|编程日记
CLAUDE.md 文件推荐约束提示词1.有时候还是要提醒cc,让她多看看 CLAUDE.md2.其中的文件的行数可以稍微改大一点 200-400 行区间3.可以把以下文字复制到 CLAUDE.md 文件中,作为约束提示词 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253# 任何项目都务必遵守的规则(极其重要!!!)## Communication- 永远使用简体中文进行思考和对话## Documentation- 编写 .md 文档时,也要用中文- 正式文档写到项目的 docs/ 目录下- 用于讨论和评审的计划、方案等文档,写到项目的 discuss/ 目录下## Code Architecture- 编写代码的硬性指标,包括以下原则: (1)对于 Python、JavaScript、TypeScript 等动态语言,尽可能确保每个代码文件不要超过 300 行 (2)对于 Java、Go、Rust 等静态语言,尽可能确保每个代码文件不...
Qwen2技术报告
发表于2025-12-03|AI
前言Qwen2的技术报告我大概花了一上午读完了,但是后面评测介绍评测性能的实验分析相关内容并没有细看,只是大致的给过了一眼,重点关注了前面模型架构以及训练部分的创新。 1.主要内容Qwen2系列开源模型,主要包括Base Model(只是预训练,没有进行人类偏好对齐的基础模型) 和 针对对话和agent进行单轮和多轮指令微调的指令微调模型,这次发布的稠密模型,主要包括有四个尺寸的模型,分别是0.5B、7B、14B、72B的模型,还有一个57-14B的MOE混合专家模型。Qwen2相比前一代模型在数据集质量和规模上都有较大提升,后训练阶段是采用了 监督微调和DPO直接偏好对齐。 2.细节部分分词:bpe分词,该分词器展现出高编码效率,因为bpe分词方法的压缩率更好,所有模型的词表大小都是151646,其中151643是regular token,另外3个token是control token,在实际训练中,因为考虑分布式训练,因此嵌入的有效大小实际上更大。 模型架构:Qwen2密集模型的架构包括多个Transformer层,每层都配备了因果注意力机制和前馈神经网络(FFN)。与Qw...
Q-learning及DQN算法
发表于2025-11-25|AI
1.Q-learning 算法核心公式: Q-learning算法是一种免模型的算法,核心思想就是基于价值,实际上就是在填一张状态-价值表,初始化都是为0,基于当前状态,计算出所有动作的reward分数,在$\epsilon$的概率下会选择随机的动作,1-$\epsilon$的概率下会选择最高分数的工作,$\epsilon$会随着学习的过程逐步衰减,这个学习过程也被称为”先探索再稳定”,实际上整个学习过程,就是在不断的去填这张状态-动作价值表,这张表相当于策略,在后面的决策动作时,会依据这张表来采取相应的动作(action). 当时Q-learning主要存在以下缺陷: 1、存在维度灾难问题 2、只能处理离散状态的决策问题,不能处理连续状态的决策问题 3、训练不稳定 因此,DQN的提出,用深度学习模型来近似动作价值函数的方法,解决了Q-learning维度灾难的问题、只能处理离散状态的问题,并且改善了训练的稳定性。 2.DQN算法主要思想: DQN主要有两个改进点: 一、经验回放机制 当产生一条新的数据时,先$ et = (S_t, A_t, R_t, S{t+1}, \...
博士屯TalkShow阅读文献总结
发表于2025-11-23|随笔
1.研究性论文-整体内容结构1、Abstract - 了解文章整体核心内容2、Introduction - 问题和贡献3、Related work - 小型综述性介绍4、Method - 框架图5、Experiment - 实验类型 2.综述性论文1、分类2、未来方向 3.阅读重点1、文章解决的问题及方法(或者文章提出的问题)2、可能存在的问题和解决方法3、不必过度关注实验结果4、终点关注方法的框架图5、实验用到的方法和实验内容 4、学会利用大模型来进行快速阅读总结 大模型可能会出现一些总结问题,可能有一定误差 善用提示词
与远端服务器进行文件传输同步的方式总结
发表于2025-10-14|编程日记
摘要 1、通过git及google网盘直接down到服务器(不推荐) 2、使用Vscode中SFTP插件与服务器进行文件传输 3、使用文件传输工具进行可视化的文件传输 1、通过git及google网盘直接down到服务器(不推荐)    一般服务器都是linux的系统,自带git,当文件不是很大的时候,可以通过先将项目文件传输到git仓库,再git clone 到服务器上,当然这也是比较愚笨的办法。如果文件较大,可以通过google网盘,先将项目文件上传到google网盘保存,再通过下载命令下载到服务器上即可,以上方法都是实在没办法的时候 ,才采用的方法。 2、使用Vscode中SFTP插件与服务器进行文件传输2.1 先在Vscode插件市场中,下载sftp插件2.2 然后在vscode中打开需要上传的本地文件或者项目2.3 安装完成后,使用快捷键 ctrl + shift + p,选择 sftp:config,然后回车,会在当前目录下自动生成.vscode文件夹,并在.vscode文件夹下生成sftp.json。参数解析:name...
12…4
avatar
TCcjx
生活给我出难题,我说ok小问题
文章
31
标签
64
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
从反向传播角度理解 PPO 损失函数2026-05-04
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制2026-05-02
理解学习率调度(余弦退火 + warmup)的原理和作用2026-04-23
Agent 一线实战:落地经验与 Know-How 分享2026-04-19
CLAUDE.md 文件推荐约束提示词2026-03-10
分类
  • AI13
  • 编程日记10
  • 论文阅读笔记6
  • 随笔2
标签
vibe coding 文件传输 Ubuntu 编程日记 Attention 温度参数τ 服务器 对比学习 Memory debug 清华源 RL pip poetry Transformer 实习总结 private Self-Attention 图谱推理任务 ssh pyenv 文献阅读 注意力机制 外推 DQN算法 contrastive learning Linux Qwen2 论文阅读笔记 glue code python环境管理 传统规则学习方法 transfomers Poetry 强化学习 大模型 NER 心路历程 RLHF PPO
归档
  • 五月 2026 2
  • 四月 2026 2
  • 三月 2026 1
  • 十二月 2025 1
  • 十一月 2025 2
  • 十月 2025 3
  • 九月 2025 1
  • 八月 2025 3
  • 七月 2025 2
网站信息
文章数目 :
31
本站总字数 :
24k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By TCcjx框架 Hexo 7.3.0|主题 Butterfly 5.5.4
搜索
数据加载中