avatar
文章
31
标签
64
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接

PPO

标签 - PPO
2026
2026-05-04
从反向传播角度理解 PPO 损失函数(稳定渲染版)
avatar
TCcjx
生活给我出难题,我说ok小问题
文章
31
标签
64
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
从反向传播角度理解 PPO 损失函数(稳定渲染版)2026-05-04
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制2026-05-02
理解学习率调度(余弦退火 + warmup)的原理和作用2026-04-23
Agent 一线实战:落地经验与 Know-How 分享2026-04-19
CLAUDE.md 文件推荐约束提示词2026-03-10
分类
  • AI13
  • 编程日记10
  • 论文阅读笔记6
  • 随笔2
标签
Poetry 时态知识图谱 contrastive learning 论文阅读笔记 强化学习 LLM Ubuntu 文献阅读 注意力机制 时态知识图谱推理 补全推理 Memory Hit@1\3\5\10 ssh Transformer 心路历程 Self-Attention Pretrain python环境管理 transfomer debug 清华源 深度学习 RL vscode 温度参数τ private Attention vibe coding PyCharm&Vscode KVCache Linux Agent python 编程日记 CyGNet PPO pyenv Claude code 图结构信息
归档
  • 五月 2026 2
  • 四月 2026 2
  • 三月 2026 1
  • 十二月 2025 1
  • 十一月 2025 2
  • 十月 2025 3
  • 九月 2025 1
  • 八月 2025 3
  • 七月 2025 2
网站信息
文章数目 :
31
本站总字数 :
22.6k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By TCcjx框架 Hexo 7.3.0|主题 Butterfly 5.5.3
搜索
数据加载中