avatar
文章
31
标签
64
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接

RLHF

标签 - RLHF
2026
2026-05-04
从反向传播角度理解 PPO 损失函数
avatar
TCcjx
生活给我出难题,我说ok小问题
文章
31
标签
64
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
从反向传播角度理解 PPO 损失函数2026-05-04
从底层架构到工程实战:深度拆解生产级 AI Agent 的记忆机制2026-05-02
理解学习率调度(余弦退火 + warmup)的原理和作用2026-04-23
Agent 一线实战:落地经验与 Know-How 分享2026-04-19
CLAUDE.md 文件推荐约束提示词2026-03-10
分类
  • AI13
  • 编程日记10
  • 论文阅读笔记6
  • 随笔2
标签
Ubuntu 编程日记 LLM 文件传输 强化学习 技术报告 NER TKGs 胶水代码 补全推理 MRR 清华源 vibe coding Attention 图谱推理任务 注意力机制 Agent RL 时态知识图谱 poetry 深度学习 CyGNet 文献阅读 时态知识图谱推理 transfomers LLMs Memory PPO 服务器 对比学习 Poetry RLHF Q-learning python Bert 大模型 Claude code private 时态知识图谱补全 contrastive learning
归档
  • 五月 2026 2
  • 四月 2026 2
  • 三月 2026 1
  • 十二月 2025 1
  • 十一月 2025 2
  • 十月 2025 3
  • 九月 2025 1
  • 八月 2025 3
  • 七月 2025 2
网站信息
文章数目 :
31
本站总字数 :
23.5k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By TCcjx框架 Hexo 7.3.0|主题 Butterfly 5.5.3
搜索
数据加载中