🌓

编码注意力机制的梳理(自用-分享)

编码注意力机制的梳理(自用-分享)   目前主流的大语言模型都是基于Transformer架构的,而Transformer架构的核心是Attention机制,所以了解Attention机制对于理解Transformer架构至关重要。 1.长序列建模中问题过去在处理序列文本等数据时,大多采用RNN等模型,虽然部分应用场景下RNN模型的效果...

阅读全文

论文阅读笔记---CyGNet阅读笔记-TKG推理任务

这是一篇加密文章,需要密码才能继续阅读。

阅读全文

第一次实习及读研一年来心路历程总结

这是一篇加密文章,需要密码才能继续阅读。

阅读全文

python包的安装和环境配置总结

1、查看自己CUDA版本号1nvidia-smi 2. 安装torch\torchvision\torchaudio三大组件包下载管理站1 # 该链接貌似已失效包下载管理站2 # 阿里镜像站可用 首先选择torch,ctrl + F 搜索 [cu102-cp38-cp38-win] 这里cu102 是我们下载的 CUDA 10.2 版本,cp38-cp38 ...

阅读全文

解决 pip 开了网络代理之后无法安装python包的问题

问题描述:开了网络代理后,无法在终端直接使用pip和conda命令,会报错: 12345678910$ pip install netsmLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleWARNING: Retrying (Retry(total=4, connect=None, rea...

阅读全文

vscode上一种优雅的debug方式

vscode 如何debug python torchrun deepspeed[自用,防忘记]⚠️ 写在前面(一定要看) debug程序的方式有很多种。每一种方式都各有缺点:有的方式虽然优雅,但是局限性很大;有的方式麻烦,但是局限性小。 常规方式: 优点:然后可以观察所有线程。一劳永逸。 缺点:就是写参数很麻烦,但是你可以让chatgpt等大模型帮你写。 ...

阅读全文

Bert用于命名实体识别任务(NER)

前记:BERT(Bidirectional Encoder Representation from Transformers)是2018年10月Google AI研究院提出的一种预训练-微调大模型,和GPT属于是同一时期的产物。BERT在多项自然语言处理任务上都实现了SOTA,抛弃了传统模型,在一种任务上需要修改模型架构的方式,而是同一个模型架构在不需要修改...

阅读全文

大模型中的三角位置编码实现

三角位置编码公式: Transformer中嵌入表示 + 位置编码的实现12345678910111213141516171819202122232425262728293031323334353637import torchimport mathfrom torch import nn# 词嵌入位置编码实现class EmbeddingWithPositi...

阅读全文