2025-06-09
编码注意力机制的梳理(自用-分享) 目前主流的大语言模型都是基于Transformer架构的,而Transformer架构的核心是Attention机制,所以了解Attention机制对于理解Transformer架构至关重要。
1.长序列建模中问题过去在处理序列文本等数据时,大多采用RNN等模型,虽然部分应用场景下RNN模型的效果...
阅读全文
2025-06-03
这是一篇加密文章,需要密码才能继续阅读。
阅读全文
2025-06-03
这是一篇加密文章,需要密码才能继续阅读。
阅读全文
2025-05-28
1、查看自己CUDA版本号1nvidia-smi
2. 安装torch\torchvision\torchaudio三大组件包下载管理站1 # 该链接貌似已失效包下载管理站2 # 阿里镜像站可用
首先选择torch,ctrl + F 搜索 [cu102-cp38-cp38-win] 这里cu102 是我们下载的 CUDA 10.2 版本,cp38-cp38 ...
阅读全文
2025-05-28
问题描述:开了网络代理后,无法在终端直接使用pip和conda命令,会报错:
12345678910$ pip install netsmLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleWARNING: Retrying (Retry(total=4, connect=None, rea...
阅读全文
2025-05-28
vscode 如何debug python torchrun deepspeed[自用,防忘记]⚠️ 写在前面(一定要看)
debug程序的方式有很多种。每一种方式都各有缺点:有的方式虽然优雅,但是局限性很大;有的方式麻烦,但是局限性小。
常规方式:
优点:然后可以观察所有线程。一劳永逸。
缺点:就是写参数很麻烦,但是你可以让chatgpt等大模型帮你写。
...
阅读全文
2025-05-23
前记:BERT(Bidirectional Encoder Representation from Transformers)是2018年10月Google AI研究院提出的一种预训练-微调大模型,和GPT属于是同一时期的产物。BERT在多项自然语言处理任务上都实现了SOTA,抛弃了传统模型,在一种任务上需要修改模型架构的方式,而是同一个模型架构在不需要修改...
阅读全文
2025-05-20
三角位置编码公式:
Transformer中嵌入表示 + 位置编码的实现12345678910111213141516171819202122232425262728293031323334353637import torchimport mathfrom torch import nn# 词嵌入位置编码实现class EmbeddingWithPositi...
阅读全文