🌓

大模型中的KVCache技术

Transformer中的KVCache优化原理前记:现在KVCache已经属于是必备的技术了,但是博主发现自己只是听过这个名词,但是并不了解该技术的原理和实现,遂学习记录了本博客 1.首先KVCache技术有什么用?答:KVCache技术主要帮助模型在推理过程,避免重复的计算,从而减少计算量,加快模型推理速度,同时也会带来成本的降低,设想如果是用户使用一款...

阅读全文

Attention is all you need.

德语->英语项目: https://github.com/TCcjx/pytorch_transformer-remake 项目目录结构(文件说明): .data(文件夹):数据集Multi30K checkpoints(文件夹):训练权重文件保存处 config.py:全局配置文件,DEVICE以及输入token的最大长度 dataset.py:数据...

阅读全文