8.2 Nadaraya-Watson 核回归
平均汇聚注意力生成数据集简单起见,考虑下面这个回归问题:给定的成对的“输入-输出”数据集 ,如何学习 来预测任意新输入 的输出 ?根据下面的非线性函数生成一个人工数据集,其中加入的噪声项为 : 其中 服从均值为 和标准差为 的正态分布。在这里生成了 个训练样本和 个测试样本。为了更好地可视化之后的注意力模式,需要将训练样本进行排序。 123456789101112131415...8.1 注意力提示
注意力分为两种: 非自主性注意力:也就是原本特征很明显,很容易注意到; 自主性注意力:特征本来不明显,通过将注意力汇聚从而关注特征; 参数化注意力汇聚: 非参数的注意力汇聚: 原本的全连接层、汇聚层,已经能够实现非自主性注意力,数据的明显特征会在优化过程中被自动学习,而注意力机制主要实现的是自主性注意力; 注意力提示查询、键和值首先考虑一个相对简单的状况,即只使用非自主性提示,也...6.1 序列模型
卷积神经网络可以有效地处理空间信息, 循环神经网络(recurrent neural network,RNN)可以更好地处理序列信息。 循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而确定当前的输出。 考虑一种情况,我们已经有了以往多天的股票数据,现在需要预测未来的股票走势,为了解决这个问题,可以使用回归模型,其中,用表示价格,在时间步(time step)时,观察到的价格。假设...1.3 softmax回归
通常,机器学习实践者用分类这个词来描述两个有微妙差别的问题: 我们只对样本的“硬性”类别感兴趣,即属于哪个类别; 我们希望得到“软性”类别,即得到属于每个类别的概率。 这两者的界限往往很模糊。其中的一个原因是:即使我们只关心硬类别,我们仍然使用软类别的模型。 softmax 含义Softmax 是一种数学函数,它将一个 K 维的实数向量转换为一个 K 维的概率分布。换句话说,它将任意实数...1.1 线性回归
线性回归的基本概念 线性回归基于几个简单的假设 假设自变量 和因变量 之间的关系是线性的,也就是说 可以表示为 中元素的加权和; 假设任何噪声都比较正常,如噪声遵循正太分布; 数据集/训练集:对生活中的一些问题进行预测时,收集到的真实数据,称为数据集或训练集;例如通过房屋面积和房龄来预测房屋价格,收集到的所有数据就是数据集。 样本/数据点/数据样本:数据集中的每一个数据项就是...5.3 广义积分
广义积分的概念 定义 广义积分的敛散性: 在无无限区间上,连续函数的广义积分 在有限区间上,具有无穷间断点的广义积分 注意 计算广义积分不能直接使用奇偶性,只有广义积分收敛时才能使用奇偶性; 广义积分敛散性判别 前提条件:连续且没有零点; 积分 的区间 导致无穷的条件 判别式 条件 判别式存在...3.2 泰勒中值定理与导数定理
泰勒中值定理 定义 泰勒中值定理:如果函数 f(x)在 处具有 阶导数 ,那么存在 的一个邻域,对于该邻域内的任一 ,有 ;其中 称为佩亚诺余项; 麦克劳林公式: 时,泰勒展开转变为 ,称为 的麦克劳林展开公式; 拉格朗日余项:如果函数 f(x)在 的某个邻域内具有 阶导数 ,则对于该邻域内的任一 有 介于与之间,这称为拉格朗日型余项; ...2.1 导数与求导
导数与微分的定义 定义 增量:已知函数 ,现有一个 ,且 ,则增量 ; 导数:令 ,如果 存在,则称函数在该点处可导,记为 $f^{\prime}\left(x_{0}\right)=\frac{\mathrm{d}y}{\mathrm{d}x}|{x=x{0}}$; 微分:令 ,如果 ,则称函数在该点处可微,微分记作 $\left.dy\right|{x=x{0}}=A\Delta x...1.1 函数
基础定义函数与复合函数 定义 函数:设变量 有规定的取值范围 ,如果对任意的 ,按照某种关系总有唯一确定的值 与之对应,称 为 的函数,记为 ,其中 的合法值集合 叫做函数 的定义域, 能取到的所有值的集合叫做函数 的值域; 复合函数:设 ,且对任意的 ,有 ,称 为 的复合函数,记为 ; 注意 复合函数的定义域是使 成立的 的范围与 原本的范围 的交...
1
