解决 pip 开了网络代理之后无法安装python包的问题

2025-05-28

问题描述：开了网络代理后，无法在终端直接使用pip和conda命令，会报错： 12345678910$ pip install netsmLooking in indexes: https://pypi.tuna.tsinghua.edu.cn/simpleWARNING: Retrying (Retry(total=4, connect=None, rea...

阅读全文

vscode上一种优雅的debug方式

2025-05-28

vscode 如何debug python torchrun deepspeed[自用，防忘记]⚠️ 写在前面(一定要看) debug程序的方式有很多种。每一种方式都各有缺点：有的方式虽然优雅，但是局限性很大；有的方式麻烦，但是局限性小。常规方式：优点：然后可以观察所有线程。一劳永逸。缺点：就是写参数很麻烦，但是你可以让chatgpt等大模型帮你写。 ...

阅读全文

Bert用于命名实体识别任务（NER）

2025-05-23

前记：BERT(Bidirectional Encoder Representation from Transformers)是2018年10月Google AI研究院提出的一种预训练-微调大模型，和GPT属于是同一时期的产物。BERT在多项自然语言处理任务上都实现了SOTA，抛弃了传统模型，在一种任务上需要修改模型架构的方式，而是同一个模型架构在不需要修改...

阅读全文

大模型中的三角位置编码实现

2025-05-20

三角位置编码公式： Transformer中嵌入表示 + 位置编码的实现12345678910111213141516171819202122232425262728293031323334353637import torchimport mathfrom torch import nn# 词嵌入位置编码实现class EmbeddingWithPositi...

阅读全文

大模型中的KVCache技术

2025-05-20

Transformer中的KVCache优化原理前记：现在KVCache已经属于是必备的技术了，但是博主发现自己只是听过这个名词，但是并不了解该技术的原理和实现，遂学习记录了本博客 1.首先KVCache技术有什么用？答：KVCache技术主要帮助模型在推理过程，避免重复的计算，从而减少计算量，加快模型推理速度，同时也会带来成本的降低，设想如果是用户使用一款...

阅读全文

Attention is all you need.

2025-05-17

德语->英语项目： https://github.com/TCcjx/pytorch_transformer-remake 项目目录结构（文件说明）： .data(文件夹)：数据集Multi30K checkpoints(文件夹):训练权重文件保存处 config.py：全局配置文件，DEVICE以及输入token的最大长度 dataset.py：数据...

阅读全文

读书or跑步，旅行or思考

解决 pip 开了网络代理之后无法安装python包的问题

vscode上一种优雅的debug方式

Bert用于命名实体识别任务（NER）

大模型中的三角位置编码实现

大模型中的KVCache技术

Attention is all you need.