2025-06-12
step1 导入相关包123import evaluatefrom datasets import load_datasetfrom transformers import AutoTokenizer, AutoModelForTokenClassification, TrainingArguments, Trainer, DataCollatorForTo...
阅读全文
2025-06-09
编码注意力机制的梳理(自用-分享) 目前主流的大语言模型都是基于Transformer架构的,而Transformer架构的核心是Attention机制,所以了解Attention机制对于理解Transformer架构至关重要。
1.长序列建模中问题过去在处理序列文本等数据时,大多采用RNN等模型,虽然部分应用场景下RNN模型的效果...
阅读全文
2025-06-03
1.简介
标题:Learning from History: Modeling Temporal Knowledge Graphs with SequentialCopy-Generation Networks
时间:2021
会议: Proceedings of the AAAI Conference on Artificial Intelligence(...
阅读全文
2025-06-03
Here's something encrypted, password is required to continue reading.
阅读全文
2025-05-28
1、查看自己CUDA版本号1nvidia-smi
2. 安装torch\torchvision\torchaudio三大组件包下载管理站1 # 该链接貌似已失效包下载管理站2 # 阿里镜像站可用
首先选择torch,ctrl + F 搜索 [cu102-cp38-cp38-win] 这里cu102 是我们下载的 CUDA 10.2 版本,cp38-cp38 ...
阅读全文
2025-05-28
问题描述:开了网络代理后,无法在终端直接使用pip和conda命令,会报错:
12345678910$ pip install netsmLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleWARNING: Retrying (Retry(total=4, connect=None, rea...
阅读全文
2025-05-28
vscode 如何debug python torchrun deepspeed[自用,防忘记]⚠️ 写在前面(一定要看)
debug程序的方式有很多种。每一种方式都各有缺点:有的方式虽然优雅,但是局限性很大;有的方式麻烦,但是局限性小。
常规方式:
优点:然后可以观察所有线程。一劳永逸。
缺点:就是写参数很麻烦,但是你可以让chatgpt等大模型帮你写。
...
阅读全文
上一页 1 2 3 下一页