测验1解析

  1. 线性变换:

    1. 数值意义上,变换即函数,线性变换就是一阶导数为常数的函数
    2. 几何意义上,线性变换表示的是直线的特性,符合两个性质:变换前后零点不变,变换前后直线还是直线。将空间中的向量围绕零点进行旋转伸缩,但不能将其弯曲,否则则是非线性变化。
  2. 欠拟合:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。

    1. 增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间;
    2. 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强;
    3. 减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数;
    4. 使用非线性模型,比如核SVM 、决策树、深度学习等模型;
    5. 调整模型的容量(capacity),通俗地,模型的容量是指其拟合各种函数的能力;
    6. 容量低的模型可能很难拟合训练集;使用集成学习方法,如Bagging ,将多个弱学习器Bagging。
  3. 关于性能度量标准ROC与AUC,下列说法不正确的是 (A)使用排除法

    A.均等代价下,ROC曲线不能直接反映出学习器的期望总体代价:ROC评估的就是均等代价下学习器的性能(期望总体代价),非均等代价需要引入代价曲线

    B.若某个学习器的ROC曲线被另一个学习器的曲线“包住”,则后者性能优于前者:横轴相等时,外圈真正例率更高,所以外圈曲线更优

    C.如果ROC曲线交叉,可以根据ROC曲线下面积大小进行比较,也即AUC值.:ROC不是一个数值,因此可以根据面积大小比较不同分类器的性能,即AUC

    D.AUC衡量了样本预测的排序质量:AUC另一个计算方法:所有样本按 Score 值排序后,在样本集中随机抽取 1 个正类样本和 1 个负类样本,AUC 值指出了所抽取的正类样本能排在所抽取的负类样本之前的概率。

    1. ROC曲线: https://zhuanlan.zhihu.com/p/48168711

      • 横轴:假正例率,在所有负例当中, 错误的判断为正例所占的比例。越小越好

      • 纵轴:真正利率,也就是在所有正例当中,正确判断为正例的占的比例,实际就是精度。越大越好

      • | | | 预测 | 预测 | |
        | :—: | :—: | :—: | :—: | ————————————— |
        | | | 1 | 0 | |
        | 标签 | 1 | TP | FN | 真正利率:TPR =TP/(TP+FN) |
        | 标签 | 0 | FP | TN | 假正例率:FPR = FP/(TP+FN) |

    2. AUC:roc曲线下的面积

      • Fawcett, 2006 :所有样本按 Score 值排序后,在样本集中随机抽取 1 个正类样本和 1 个负类样本,AUC 值指出了所抽取的正类样本能排在所抽取的负类样本之前的概率。
    3. 代价曲线:

      • ROC 乃至最后计算 AUC 的整个过程中,假 1(FP)和假 0(FN)皆被同等对待(均等代价),但实际情况下FP 和 FN 的后果是不一样的(非均等代价

      • 目的:对于一个模型,根据p不同,找到使得代价总期望最小的模型的阈值

      • 明确参数 : p=m+/m

      • 横轴:归一化的正概率代价期望

      • 纵轴:归一化的总代价期望

  4. 方差偏差

    1. 6.关于偏差和方差,下列说法正确的是(D)

      A.方差度量了学习算法期望预测与真实结果的偏离程度:偏差

      B.偏差度量了同样大小训练集的变动所导致的学习性能的变化:方差

      C.噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的上界:下届

      D.一般来说,偏差与方差是有冲突的

    • 方差:不同的训练数据集训练出的模型输出值之间的差异。(预测值离散程度)。刻画的是数据扰动对模型的影响。高方差表示模型过拟合。

    • 偏差:预测值与真实值之间的差值,是衡量预测值与真实值的关系。用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异。刻画了学习算法本身的拟合能力。 高偏差表明模型欠拟合

    • 噪声(Noise)是当前学习任务上任何学习算法所能达到的期望泛化误差的下界,即表示了任务本身的难度(任何算法误差都不可能低于该噪声值)。

      • ​ 泛化误差可以分解为偏差、方差和噪声之和。
    • 偏差-方差窘境

      • 一般来说,偏差与方差是有冲突的,称为偏差-方差窘境
      • 在这里插入图片描述
      • 在训练不足时,学习器拟合能力不强,训练数据的扰动不足以使学习器的拟合能力产生显著变化,此时偏差主导泛化错误率
      • 训练充足后,学习器的拟合能力非常强,训练数据的轻微扰动都会导致学习器的显著变化,方差主导泛化误差。(若训练数据自身非全局特性被学到则会发生过拟合。)
  5. 对数几率回归用于二分类

  6. 对于非凸函数(深层神经网络),梯度优化找到的是局部极小值。(好在实践应用中,通过梯度下降法找到的局部最小值,大部分情况下已经可以满足我们的应用需求,并且有时候为了得到更好的结果,用随机初始化训练多次得到多个局部最小值进行比较得到更优的结果。)

  7. 参考题目6,深度为4的决策树的拟合能力大于深度为2的决策树(训练充足),因此var(T1) < var(T2)bias(T1)>bias(T2)

    • 拟合能力强,方差大,

    • 拟合能力弱,偏差大

  8. 决策树确保每个叶子节点为纯类会增加过拟合

  9. 你刚刚训练完一个垃圾邮件分类的随机森林,它在验证集上表现异常糟糕,但在训练集上表现良好。假设实现没有错误,以下哪个原因不会导致这个问题?(A)

    A.决策树高度过小

    B.在选择分割时随机采样了过多的特征

    C.森林中的树太少

    训练集好,验证集差,考虑出现过拟合

    • 决策树高度过高才会出现过拟合
    • 随机森林树的数量过多会抵消随机性的引入,最后的模型会是一个过拟合的模型,其泛化性能也会降低。
  10. adaboost

    • 先通过对N个训练样本的学习得到第一个弱分类器;

    • 将分错的样本和其他的新数据一起构成一个新的N个的训练样本,通过对这个样本的学习得到第二个弱分类器 ;

    • 将1和2都分错了的样本加上其他的新样本构成另一个新的N个的训练样本,通过对这个样本的学习得到第三个弱分类器;

    • 最终经过提升的强分类器。即某个数据被分为哪一类要由各分类器权值决定。

  11. 单层感知机无法解决异或问题

  12. 误差逆传播以目标的梯度负方向对参数进行调整

  13. 关于数据集拆分方法,下列说法不正确的是(D)

    A. 留出法要求训练/测试集划分要尽可能保持数据分布的一致性

    B. 留一法不受随机样本划分方式的影响:每次使用 m-1 个样例进行训练,只用1 个样例进行测试

    C. 自助法在数据集较小、难以有效划分训练/测试集时很有用:自助法则是使用有放回重复采样 的方式进行数据采样

    D. 交叉验证法改变了初始数据集的分布,这会引入估计偏差:自助法改变了数据的初始分布导致会引入估计偏差

  14. 下列关于线性判别分析的说法错误的是(D)

    A. 欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小

    B. 欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大

    C. 线性判别分析可以用来处理二分类问题

    D. 线性判别分析可以视为一种无监督降维技术:有监督降维技术

判断题

  1. 使用验证集调整超参数

  2. 会存在无用特征

  3. 正则化

    • L1正则化,又叫Lasso Regression,L1是向量各元素的绝对值之和
    • L2正则化,又叫Ridge Regression,L2是向量各元素的平方和,然后再求平方根
    • L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,用于特征选择。

    • L2正则化可以产生参数值较小的模型,能适应不同的数据集,一定程度上防止过拟合,抗扰动能力强。

    • L2让所有特征的系数都缩小,但是不会减为0,它会使优化求解稳定快速。所以L2适用于特征之间没有关联的情况。

  4. 激活函数 tanh值域为[-1,1]。