Transformer模型-用jupyter演示逐步计算attention

news/2025/2/22 14:59:15

学习transformer模型-用jupyter演示如何计算attention,不含multi-head attention,但包括权重矩阵W。

input embedding:文本嵌入

每个字符用长度为5的向量表示:

注意力公式:

1,准备Q K V:

        先 生成权重矩阵WQ,WK,WV。权重矩阵W*是训练的目标。

        再生成 Q K V。

2,计算Q和K的点积,即相似度。

3, 除以 K向量维度的平方根,好做softmax,不然比例计算会失衡。

4,做softmax,得出百分比。

5,百分比再跟V相乘,得出attention


http://www.niftyadmin.cn/n/5468653.html

相关文章

Linux初学(十三)中间件

一、Nginx 简介 Nginx是一个高性能的HTTP和反向代理web服务器 轻量级、高性能 1.1 Nginx安装 方法一:编译安装 依赖:openssl-devel、zlib-devel、ncurses-devel、pcre-devel、gcc、gcc-c 方法二:yum安装 Nginx的rpm包在epel源中 编译安…

MySQL-SQL编写练习:基本的SELECT语句

基本的SELECT语句 1. SQL的分类 DDL:数据定义语言。CREATE \ ALTER \ DROP \ RENAME \ TRUNCATEDML:数据操作语言。INSERT \ DELETE \ UPDATE \ SELECT (重中之重)DCL:数据控制语言。COMMIT \ ROLLBACK \ SAVEPOINT \ GRANT \ REVOKE 学习技巧&#xf…

vue3+elementPlus:实现数字滚动效果(用于大屏可视化)

自行封装注册一个公共组件 案例一&#xff1a; //成功案例&#xff1a; //NumberScroll.vue /* 数字滚动特效组件 NumberScroll */<template><span class"number-scroll-grow"><spanref"numberScroll":data-time"time"class&qu…

AI学习-线性回归推导

线性回归 1.简单线性回归2.多元线性回归3.相关概念熟悉4.损失函数推导5.MSE损失函数 1.简单线性回归 ​ 线性回归&#xff1a;有监督机器学习下一种算法思想。用于预测一个或多个连续型目标变量y与数值型自变量x之间的关系,自变量x可以是连续、离散&#xff0c;但是目标变量y必…

Linux:ip和ip协议的初步认识

文章目录 ip协议基本认识ip协议的报头网段划分ip的类型划分 ip协议基本认识 前面对于TCP的内容已经基本结束了&#xff0c;那么这也就意味着在传输层也已经结束了&#xff0c;那么下一步要进入的是的是网络层&#xff0c;网络层中也有很多种协议&#xff0c;这里主要进行解析的…

Redis底层数据结构-Dict

1. Dict基本结构 Redis的键与值的映射关系是通过Dict来实现的。 Dict是由三部分组成&#xff0c;分别是哈希表&#xff08;DictHashTable&#xff09;&#xff0c;哈希节点&#xff08;DictEntry&#xff09;&#xff0c;字典&#xff08;Dict&#xff09; 哈希表结构如下图所…

[动态规划]代码随想录总结(自用)

文章目录 动态规划入门斐波那契数路径问题整数拆分动态规划在树中的应用 背包问题01背包完全背包 打家劫舍买卖股票的最佳时机&#xff08;状态转换&#xff09;最长子序列最长公共序列子序列有关&#xff08;删除元素&#xff09;回文子串 动态规划入门 斐波那契数 力扣相关…

如何防止IP泄露,安全匿名上网?

当互联网成为每个家庭的重要组成部分后&#xff0c;IP地址就成了你的虚拟地址。您的请求从该地址开始&#xff0c;然后 Internet 将消息发送回该地址。那么&#xff0c;您担心您的地址被泄露吗&#xff1f; 对于安全意识高或者某些业务需求的用户&#xff0c;如果您正在寻找保护…