2025-05-28
问题描述:开了网络代理后,无法在终端直接使用pip和conda命令,会报错:
12345678910$ pip install netsmLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleWARNING: Retrying (Retry(total=4, connect=None, rea...
阅读全文
2025-05-28
vscode 如何debug python torchrun deepspeed[自用,防忘记]⚠️ 写在前面(一定要看)
debug程序的方式有很多种。每一种方式都各有缺点:有的方式虽然优雅,但是局限性很大;有的方式麻烦,但是局限性小。
常规方式:
优点:然后可以观察所有线程。一劳永逸。
缺点:就是写参数很麻烦,但是你可以让chatgpt等大模型帮你写。
...
阅读全文
2025-05-23
前记:BERT(Bidirectional Encoder Representation from Transformers)是2018年10月Google AI研究院提出的一种预训练-微调大模型,和GPT属于是同一时期的产物。BERT在多项自然语言处理任务上都实现了SOTA,抛弃了传统模型,在一种任务上需要修改模型架构的方式,而是同一个模型架构在不需要修改...
阅读全文
2025-05-20
三角位置编码公式:
Transformer中嵌入表示 + 位置编码的实现12345678910111213141516171819202122232425262728293031323334353637import torchimport mathfrom torch import nn# 词嵌入位置编码实现class EmbeddingWithPositi...
阅读全文
2025-05-20
Transformer中的KVCache优化原理前记:现在KVCache已经属于是必备的技术了,但是博主发现自己只是听过这个名词,但是并不了解该技术的原理和实现,遂学习记录了本博客
1.首先KVCache技术有什么用?答:KVCache技术主要帮助模型在推理过程,避免重复的计算,从而减少计算量,加快模型推理速度,同时也会带来成本的降低,设想如果是用户使用一款...
阅读全文
2025-05-17
德语->英语项目:
https://github.com/TCcjx/pytorch_transformer-remake
项目目录结构(文件说明):
.data(文件夹):数据集Multi30K
checkpoints(文件夹):训练权重文件保存处
config.py:全局配置文件,DEVICE以及输入token的最大长度
dataset.py:数据...
阅读全文