文章
31
标签
64
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接
RLHF
标签 - RLHF
2026
2026-05-04
从反向传播角度理解 PPO 损失函数
TCcjx
生活给我出难题,我说ok小问题
文章
31
标签
64
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
从反向传播角度理解 PPO 损失函数
2026-05-04
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制
2026-05-02
理解学习率调度(余弦退火 + warmup)的原理和作用
2026-04-23
Agent 一线实战:落地经验与 Know-How 分享
2026-04-19
CLAUDE.md 文件推荐约束提示词
2026-03-10
分类
AI
13
编程日记
10
论文阅读笔记
6
随笔
2
标签
Ubuntu
编程日记
LLM
文件传输
强化学习
技术报告
NER
TKGs
胶水代码
补全推理
MRR
清华源
vibe coding
Attention
图谱推理任务
注意力机制
Agent
RL
时态知识图谱
poetry
深度学习
CyGNet
文献阅读
时态知识图谱推理
transfomers
LLMs
Memory
PPO
服务器
对比学习
Poetry
RLHF
Q-learning
python
Bert
大模型
Claude code
private
时态知识图谱补全
contrastive learning
归档
五月 2026
2
四月 2026
2
三月 2026
1
十二月 2025
1
十一月 2025
2
十月 2025
3
九月 2025
1
八月 2025
3
七月 2025
2
网站信息
文章数目 :
31
本站总字数 :
23.5k
本站访客数 :
本站总浏览量 :
最后更新时间 :
繁
搜索
数据加载中