avatar
文章
26
标签
56
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接

思想是一个锐化的过程

论文阅读笔记---LLM结合规则学习方法提出一种新的时态知识图谱推理框架
发表于2025-08-11|论文阅读笔记
损失函数中的温度参数τ
发表于2025-07-15|AI
在对比学习的损失函数(如InfoNCE、NT-Xent等)中,温度参数(Temperature,通常用τ表示) 是一个核心超参数,其核心作用是调节模型对样本间相似度差异的敏感程度,通过缩放相似度分数来控制损失函数中正负例的区分强度。 1. 温度参数的数学位置以最常用的InfoNCE损失为例,其公式可简化为:$$\mathcal{L} = -\log\left( \frac{\exp(\text{sim}(z_i, z_+)/\tau)}{\sum_{k \in \text{neg} \cup {+}} \exp(\text{sim}(z_i, z_k)/\tau)} \right)$$其中: $z_i$ 是锚点样本的特征向量,$z_+$ 是正例样本的特征向量,$z_k$ 是负例样本的特征向量; $\text{sim}(\cdot, \cdot)$ 是相似度函数(如内积、余弦相似度),一般都是余弦相似度; $\tau$ 即为温度参数,位于指数函数的分母,作为softmax的缩放因子。 2. 温度参数的直观含义温度参数的核心作用是调节相似度分...
什么是glue code?
发表于2025-07-09|编程日记
科普向:什么是胶水代码?为什么胶水代码不需要修改实质性逻辑?Glue code(胶水代码)是指用于把不同的软件组件、库、系统或模块“粘合”在一起,使它们能够协同工作的代码。它通常本身不是实现业务逻辑的核心部分,而是负责不同部分之间的对接、适配和调用。 主要特点 桥梁作用:连接两个或多个原本不兼容或相互独立的系统、库或模块。 适配/转换:可能包括参数格式转换、接口适配、协议兼容等。 非核心逻辑:不直接实现业务目标,而是保证各部分能正常协同。 常见于集成开发:如将第三方库集成到自己的项目、跨语言模块通信等场景。 示例 API包装器比如,用 Python 写一段代码,把 C 语言的库通过 ctypes/cffi 调用起来,这部分代码就是 glue code。 数据转换在前端和后端之间传递数据时,把后端的 JSON 数据转成前端可用的对象,这个转换代码也可以视作 glue code。 中间件在微服务架构中,不同服务通过中间件(如消息队列、API 网关)交互,中间件的适配代码也可称为 glue code。 作用 降低不同技术栈、语言、平台之间的集成难度。 提高...
时态知识图谱外推任务指标计算中过滤策略选择问题
发表于2025-06-21|论文阅读笔记
python脚本传入参数
发表于2025-06-19|编程日记
背景    在日常使用一些数据处理脚本以及训练模型的时候,使用传递参数很常见,因此对使用python进行参数传递的方式进行了整理 1.使用sys.argv的数组进行传参使用sys.argv必须按照先后的顺序传入对应的参数;sys.argv则封装了传入的参数数据,作为数组的方式进行传入。 1234567891011import sysprint('传入参数:', sys.argv)print("传入参数的总长度为:", len(sys.argv))print("type:", type(sys.argv))print("function name:", sys.argv[0])try: print("第一个传入的参数为:", sys.argv[1]) print("第二个传入的参数为:", sys.argv[2])except Exception as e: print("Input Error:...
论文阅读笔记---LLM + 图结构信息编码未知实体和关系进行TKGs补全任务
发表于2025-06-15|论文阅读笔记
基于Transformers库的命名实体识别
发表于2025-06-12|AI
step1 导入相关包123import evaluatefrom datasets import load_datasetfrom transformers import AutoTokenizer, AutoModelForTokenClassification, TrainingArguments, Trainer, DataCollatorForTokenClassification step2 加载数据集123from datasets import DatasetDictner_datasets = DatasetDict.load_from_disk("ner_data")ner_datasets 输出:DatasetDict({ train: Dataset({ features: [‘id’, ‘tokens’, ‘ner_tags’], num_rows: 20865 }) validation: Dataset({ features: [‘id’, ‘tokens’, ‘ner...
编码注意力机制的梳理(自用-分享)
发表于2025-06-09|AI
编码注意力机制的梳理(自用-分享)   目前主流的大语言模型都是基于Transformer架构的,而Transformer架构的核心是Attention机制,所以了解Attention机制对于理解Transformer架构至关重要。 1.长序列建模中问题过去在处理序列文本等数据时,大多采用RNN等模型,虽然部分应用场景下RNN模型的效果不错,但是面对长序列数据时,存在遗忘问题,从而导致对长序列模型建模时效果不是很好。因此,在2017年,Transformer模型应运而生,Transformer模型在长序列建模中,通过引入Attention机制,解决RNN模型中的遗忘问题,并大大提高模型的效果。 2.过去编码器-解码器模型存在问题由于之前编码器-解码器模型,主要还是基于RNN模型,编码器生成整个文本的编码向量,再将这个编码向量输入给解码器,解码器基于编码向量生成输出预测,但是由于存在长距离遗忘信息丢失问题,编码向量会丢失长文本前段的信息,从而导致预测效果不好。然后注意力机制可以很好的解决这个问题,注意力机制可以捕获较长的依赖关系,获得更准确的编码向量表示。 1...
论文阅读笔记---CyGNet阅读笔记-TKG推理任务
发表于2025-06-03|论文阅读笔记
123
avatar
TCcjx
生活给我出难题,我说ok小问题
文章
26
标签
56
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
Qwen2技术报告2025-12-03
Q-learning及DQN算法2025-11-25
博士屯TalkShow阅读文献总结2025-11-23
与远端服务器进行文件传输同步的方式总结2025-10-14
pyenv + poetry 进行多版本python项目管理方案2025-10-12
分类
  • AI9
  • 编程日记9
  • 论文阅读笔记6
  • 随笔2
标签
DQN算法 private 清华源 Hit@1\3\5\10 LLMs 论文阅读笔记 时态知识图谱补全 KVCache 文献阅读 服务器 文件传输 debug PyCharm&Vscode 胶水代码 时态知识图谱 contrastive learning 注意力机制 NER 温度参数τ 对比学习 编程日记 Self-Attention LLM python 深度学习 Transformer vscode Poetry Attention Q-learning 时态知识图谱推理 强化学习 TKGs transfomers CyGNet Qwen2 pyenv 图结构信息 poetry 技术报告
归档
  • 十二月 2025 1
  • 十一月 2025 2
  • 十月 2025 3
  • 九月 2025 1
  • 八月 2025 3
  • 七月 2025 2
  • 六月 2025 7
  • 五月 2025 7
网站信息
文章数目 :
26
本站总字数 :
19k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By TCcjx框架 Hexo 7.3.0|主题 Butterfly 5.5.3
搜索
数据加载中