avatar
文章
31
标签
64
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接

RL

标签 - RL
2026
2026-05-04
从反向传播角度理解 PPO 损失函数
avatar
TCcjx
生活给我出难题,我说ok小问题
文章
31
标签
64
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
从反向传播角度理解 PPO 损失函数2026-05-04
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制2026-05-02
理解学习率调度(余弦退火 + warmup)的原理和作用2026-04-23
Agent 一线实战:落地经验与 Know-How 分享2026-04-19
CLAUDE.md 文件推荐约束提示词2026-03-10
分类
  • AI13
  • 编程日记10
  • 论文阅读笔记6
  • 随笔2
标签
对比学习 KVCache pip RLHF Poetry 技术报告 Pretrain NER MRR 胶水代码 文件传输 温度参数τ 时态知识图谱推理 Attention debug Transformer 心路历程 文献阅读 PPO python LLM 深度学习 DQN算法 Qwen2 TKGs Self-Attention glue code 外推 contrastive learning Claude code RL 大模型 编程日记 vibe coding vscode 时态知识图谱 图谱推理任务 清华源 补全推理 Linux
归档
  • 五月 2026 2
  • 四月 2026 2
  • 三月 2026 1
  • 十二月 2025 1
  • 十一月 2025 2
  • 十月 2025 3
  • 九月 2025 1
  • 八月 2025 3
  • 七月 2025 2
网站信息
文章数目 :
31
本站总字数 :
23.5k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By TCcjx框架 Hexo 7.3.0|主题 Butterfly 5.5.3
搜索
数据加载中