文章
31
标签
64
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接
PPO
标签 - PPO
2026
2026-05-04
从反向传播角度理解 PPO 损失函数
TCcjx
生活给我出难题,我说ok小问题
文章
31
标签
64
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
从反向传播角度理解 PPO 损失函数
2026-05-04
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制
2026-05-02
理解学习率调度(余弦退火 + warmup)的原理和作用
2026-04-23
Agent 一线实战:落地经验与 Know-How 分享
2026-04-19
CLAUDE.md 文件推荐约束提示词
2026-03-10
分类
AI
13
编程日记
10
论文阅读笔记
6
随笔
2
标签
对比学习
KVCache
pip
RLHF
Poetry
技术报告
Pretrain
NER
MRR
胶水代码
文件传输
温度参数τ
时态知识图谱推理
Attention
debug
Transformer
心路历程
文献阅读
PPO
python
LLM
深度学习
DQN算法
Qwen2
TKGs
Self-Attention
glue code
外推
contrastive learning
Claude code
RL
大模型
编程日记
vibe coding
vscode
时态知识图谱
图谱推理任务
清华源
补全推理
Linux
归档
五月 2026
2
四月 2026
2
三月 2026
1
十二月 2025
1
十一月 2025
2
十月 2025
3
九月 2025
1
八月 2025
3
七月 2025
2
网站信息
文章数目 :
31
本站总字数 :
23.5k
本站访客数 :
本站总浏览量 :
最后更新时间 :
繁
搜索
数据加载中