avatar
文章
26
标签
56
分类
4
主页
标签
分类
关于
友情链接
思想是一个锐化的过程
搜索
主页
标签
分类
关于
友情链接

思想是一个锐化的过程

Qwen2技术报告
发表于2025-12-03|AI
前言Qwen2的技术报告我大概花了一上午读完了,但是后面评测介绍评测性能的实验分析相关内容并没有细看,只是大致的给过了一眼,重点关注了前面模型架构以及训练部分的创新。 1.主要内容Qwen2系列开源模型,主要包括Base Model(只是预训练,没有进行人类偏好对齐的基础模型) 和 针对对话和agent进行单轮和多轮指令微调的指令微调模型,这次发布的稠密模型,主要包括有四个尺寸的模型,分别是0.5B、7B、14B、72B的模型,还有一个57-14B的MOE混合专家模型。Qwen2相比前一代模型在数据集质量和规模上都有较大提升,后训练阶段是采用了 监督微调和DPO直接偏好对齐。 2.细节部分分词:bpe分词,该分词器展现出高编码效率,因为bpe分词方法的压缩率更好,所有模型的词表大小都是151646,其中151643是regular token,另外3个token是control token,在实际训练中,因为考虑分布式训练,因此嵌入的有效大小实际上更大。 模型架构:Qwen2密集模型的架构包括多个Transformer层,每层都配备了因果注意力机制和前馈神经网络(FFN)。与Qw...
Q-learning及DQN算法
发表于2025-11-25|AI
1.Q-learning 算法核心公式: Q-learning算法是一种免模型的算法,核心思想就是基于价值,实际上就是在填一张状态-价值表,初始化都是为0,基于当前状态,计算出所有动作的reward分数,在$\epsilon$的概率下会选择随机的动作,1-$\epsilon$的概率下会选择最高分数的工作,$\epsilon$会随着学习的过程逐步衰减,这个学习过程也被称为”先探索再稳定”,实际上整个学习过程,就是在不断的去填这张状态-动作价值表,这张表相当于策略,在后面的决策动作时,会依据这张表来采取相应的动作(action). 当时Q-learning主要存在以下缺陷: 1、存在维度灾难问题 2、只能处理离散状态的决策问题,不能处理连续状态的决策问题 3、训练不稳定 因此,DQN的提出,用深度学习模型来近似动作价值函数的方法,解决了Q-learning维度灾难的问题、只能处理离散状态的问题,并且改善了训练的稳定性。 2.DQN算法主要思想: DQN主要有两个改进点: 一、经验回放机制 当产生一条新的数据时,先$ e_t = (S_t, A_t, R_t, S_{...
博士屯TalkShow阅读文献总结
发表于2025-11-23|随笔
1.研究性论文-整体内容结构1、Abstract - 了解文章整体核心内容2、Introduction - 问题和贡献3、Related work - 小型综述性介绍4、Method - 框架图5、Experiment - 实验类型 2.综述性论文1、分类2、未来方向 3.阅读重点1、文章解决的问题及方法(或者文章提出的问题)2、可能存在的问题和解决方法3、不必过度关注实验结果4、终点关注方法的框架图5、实验用到的方法和实验内容 4、学会利用大模型来进行快速阅读总结 大模型可能会出现一些总结问题,可能有一定误差 善用提示词
与远端服务器进行文件传输同步的方式总结
发表于2025-10-14|编程日记
摘要 1、通过git及google网盘直接down到服务器(不推荐) 2、使用Vscode中SFTP插件与服务器进行文件传输 3、使用文件传输工具进行可视化的文件传输 1、通过git及google网盘直接down到服务器(不推荐)    一般服务器都是linux的系统,自带git,当文件不是很大的时候,可以通过先将项目文件传输到git仓库,再git clone 到服务器上,当然这也是比较愚笨的办法。如果文件较大,可以通过google网盘,先将项目文件上传到google网盘保存,再通过下载命令下载到服务器上即可,以上方法都是实在没办法的时候 ,才采用的方法。 2、使用Vscode中SFTP插件与服务器进行文件传输2.1 先在Vscode插件市场中,下载sftp插件2.2 然后在vscode中打开需要上传的本地文件或者项目2.3 安装完成后,使用快捷键 ctrl + shift + p,选择 sftp:config,然后回车,会在当前目录下自动生成.vscode文件夹,并在.vscode文件夹下生成sftp.json。参数解析:name...
pyenv + poetry 进行多版本python项目管理方案
发表于2025-10-12|编程日记
摘要 1、pyenv 管理不同版本的python 2、poetry根据不同的pyenv创建的python版本进行项目环境.venv的创建 1.使用pyenv管理不同版本的python对于pyenv的安装,pyenv官方github提供详细的教程,本文不再涉及,windows系统需要安装的话,可以使用pyenv-win,在github上也有仓库提供。 1 查看可安装的python版本及已经安装的python版本 12pyenv versions # 显示已经安装的所有 Python 版本pyenv install --list # 显示所有可安装的 Python 版本 2.安装卸载python版本 12pyenv install <version> # 安装指定版本的 Python,例如 pyenv install 3.10.7pyenv uninstall <version> # 卸载指定版本的 Python 3.设置python版本 123pyenv global ...
ssh连接远程服务器及Linux小常识
发表于2025-10-09|编程日记
综述(自用)-基于规则方法的时间知识图谱推理(预测)
发表于2025-09-25|论文阅读笔记
Poetry基本用法教程
发表于2025-08-24|编程日记
1.背景      最近在复现一个项目的时候,发现项目的环境安装是使用Poetry,一脸懵逼,不知道Poetry是什么东西,以前也从来没有接触过。于是开始学习Poetry,一番了解下来,决定专门学习掌握一下Poetry这个包依赖管理工具。 1.1 Poetry是什么?Poetry官网如此写到: 1Poetry is a tool for dependency management and packaging in Python. It allows you to declare the libraries your project depends on and it will manage (install/update) them for you. Poetry offers a lockfile to ensure repeatable installs, and can build your project for distribution. 简而言之,就是一个python依赖管理工具,具有虚拟环境管理、Packa...
论文阅读笔记---LCGE-基于逻辑和常识来实现时态知识图谱补全的方法
发表于2025-08-16|论文阅读笔记
123
avatar
TCcjx
生活给我出难题,我说ok小问题
文章
26
标签
56
分类
4
Follow Me
公告
欢迎志同道合的朋友,一起交流
最新文章
Qwen2技术报告2025-12-03
Q-learning及DQN算法2025-11-25
博士屯TalkShow阅读文献总结2025-11-23
与远端服务器进行文件传输同步的方式总结2025-10-14
pyenv + poetry 进行多版本python项目管理方案2025-10-12
分类
  • AI9
  • 编程日记9
  • 论文阅读笔记6
  • 随笔2
标签
DQN算法 private 清华源 Hit@1\3\5\10 LLMs 论文阅读笔记 时态知识图谱补全 KVCache 文献阅读 服务器 文件传输 debug PyCharm&Vscode 胶水代码 时态知识图谱 contrastive learning 注意力机制 NER 温度参数τ 对比学习 编程日记 Self-Attention LLM python 深度学习 Transformer vscode Poetry Attention Q-learning 时态知识图谱推理 强化学习 TKGs transfomers CyGNet Qwen2 pyenv 图结构信息 poetry 技术报告
归档
  • 十二月 2025 1
  • 十一月 2025 2
  • 十月 2025 3
  • 九月 2025 1
  • 八月 2025 3
  • 七月 2025 2
  • 六月 2025 7
  • 五月 2025 7
网站信息
文章数目 :
26
本站总字数 :
19k
本站访客数 :
本站总浏览量 :
最后更新时间 :
© 2025 - 2026 By TCcjx框架 Hexo 7.3.0|主题 Butterfly 5.5.3
搜索
数据加载中