2025-05-23
前记:BERT(Bidirectional Encoder Representation from Transformers)是2018年10月Google AI研究院提出的一种预训练-微调大模型,和GPT属于是同一时期的产物。BERT在多项自然语言处理任务上都实现了SOTA,抛弃了传统模型,在一种任务上需要修改模型架构的方式,而是同一个模型架构在不需要修改...
阅读全文
2025-05-20
三角位置编码公式:
Transformer中嵌入表示 + 位置编码的实现12345678910111213141516171819202122232425262728293031323334353637import torchimport mathfrom torch import nn# 词嵌入位置编码实现class EmbeddingWithPositi...
阅读全文
2025-05-20
Transformer中的KVCache优化原理前记:现在KVCache已经属于是必备的技术了,但是博主发现自己只是听过这个名词,但是并不了解该技术的原理和实现,遂学习记录了本博客
1.首先KVCache技术有什么用?答:KVCache技术主要帮助模型在推理过程,避免重复的计算,从而减少计算量,加快模型推理速度,同时也会带来成本的降低,设想如果是用户使用一款...
阅读全文
2025-05-17
德语->英语项目:
https://github.com/TCcjx/pytorch_transformer-remake
项目目录结构(文件说明):
.data(文件夹):数据集Multi30K
checkpoints(文件夹):训练权重文件保存处
config.py:全局配置文件,DEVICE以及输入token的最大长度
dataset.py:数据...
阅读全文