avatar
文章
28
标签
59
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接

思想是一个锐化的过程

Attention is all you need.
发表于2025-05-17|AI
德语->英语项目: https://github.com/TCcjx/pytorch_transformer-remake 项目目录结构(文件说明): .data(文件夹):数据集Multi30K checkpoints(文件夹):训练权重文件保存处 config.py:全局配置文件,DEVICE以及输入token的最大长度 dataset.py:数据预处理文件,构建德语和英语词表,实现德语和英语的词元token和IDX的一一隐射,以及德语和英语句子预处理函数(输入德语和英语句子,返回分词后的词元列表信息,以及词元ID列表) multihead_attn.py: 构建多头注意力机制模块,这里的实现同时也考虑了解码器中第二个多头注意力机制模块的代码复用,在编码器和解码器的多头注意力机制模块中都可以复用这个多头注意力机制的模块 encoder_block.py:编码器模块的构建 encoder.py:编码器的实现,同时自动处理PAD掩码矩阵,再传入encoder_block中,实现多个encoder_block的堆叠使用 decoder_block.py:解码器模块的构建 de...
1…34
avatar
TCcjx
生活给我出难题,我说ok小问题
文章
28
标签
59
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
Agent 一线实战:落地经验与 Know-How 分享2026-04-19
CLAUDE.md 文件推荐约束提示词2026-03-10
Qwen2技术报告2025-12-03
Q-learning及DQN算法2025-11-25
博士屯TalkShow阅读文献总结2025-11-23
分类
  • AI10
  • 编程日记10
  • 论文阅读笔记6
  • 随笔2
标签
Attention 传统规则学习方法 论文阅读笔记 编程日记 实习总结 vibe coding poetry 胶水代码 CyGNet Self-Attention 大模型 补全推理 Transformer glue code Hit@1\3\5\10 Q-learning 对比学习 KVCache private MRR LLM 外推 debug DQN算法 Claude code 心路历程 pip 注意力机制 pyenv 时态知识图谱 Agent 图结构信息 文件传输 python Linux Ubuntu 温度参数τ 图谱推理任务 Bert ssh
归档
  • 四月 2026 1
  • 三月 2026 1
  • 十二月 2025 1
  • 十一月 2025 2
  • 十月 2025 3
  • 九月 2025 1
  • 八月 2025 3
  • 七月 2025 2
  • 六月 2025 7
网站信息
文章数目 :
28
本站总字数 :
20.2k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By TCcjx框架 Hexo 7.3.0|主题 Butterfly 5.5.3
搜索
数据加载中