🌓

大模型中的KVCache技术

2025-05-20

Transformer中的KVCache优化原理前记：现在KVCache已经属于是必备的技术了，但是博主发现自己只是听过这个名词，但是并不了解该技术的原理和实现，遂学习记录了本博客 1.首先KVCache技术有什么用？答：KVCache技术主要帮助模型在推理过程，避免重复的计算，从而减少计算量，加快模型推理速度，同时也会带来成本的降低，设想如果是用户使用一款...

阅读全文

Attention is all you need.

2025-05-17

德语->英语项目： https://github.com/TCcjx/pytorch_transformer-remake 项目目录结构（文件说明）： .data(文件夹)：数据集Multi30K checkpoints(文件夹):训练权重文件保存处 config.py：全局配置文件，DEVICE以及输入token的最大长度 dataset.py：数据...

阅读全文

思想是一个锐化的过程

大模型中的KVCache技术

Attention is all you need.