李宏毅机器学习2016 第十三讲 非线性降维:流型学习(Mainfold Learning)

李宏毅机器学习2016 第十三讲 非线性降维:流型学习(Mainfold Learning)

流型学习是将高维数据映射到低维空间,同时保持数据本质特征的非线性降维方法。以下是关于流型学习中几种主要方法的详细解答:

局部线性嵌入:

核心思想:认为每个数据点可以由其近邻的几个点线性重构。

目标:在降低维度的同时保持这种重构关系和系数不变。

实现方法:通过最小化目标函数来找到降维后的表达。

拉普拉斯特征映射:

核心思想:旨在保持数据点间的相似度距离。

目标:使得原空间中距离较远的点,在投影后依然相距较远;反之,原空间中距离较近的点,在投影后也相距较近。

实现基础:基于平滑性假设和图方法设计而成。

tSNE:

核心思想:强调不同点应尽可能分开,而不仅仅是相似点接近。

实现方法:通过梯度下降方法求解降维后的数据表达z。

应用场景:对可视化非常有用,通常先使用PCA进行初步降维,再应用tSNE进行进一步降维和可视化。

总结:流型学习包括LLE、LE、tSNE等非线性降维方法,这些方法通过不同的策略来保持数据的内在结构,特别适用于复杂高维数据的降维处理,尤其是当存在可视化需求时。

李宏毅2022机器学习HW1——Regression

李宏毅2022机器学习HW1——Regression的解答要点如下:

基本解决方式:

Regression问题的基本解决方式是直接运行简单的代码,这通常涉及到使用某种回归模型对训练数据进行拟合,并评估其在测试数据上的表现。

Medium级别重点:

在Medium级别中,重点在于特征选择。由于训练数据包含大量的特征,合理的特征选择对于提高模型性能至关重要。

训练数据有2699个样本,测试数据有1078个样本。测试数据不含最后一天的positive rate,这是需要预测的目标。

特征选择实践:

原始特征中,选取了前四天的tested_positive列用于预测第五天的positive rate。

修改了select_feat函数,并调整了config以启用选择所有特征的功能。但在实际操作中,为了优化模型性能,选择了scores_值大于10000的24个特征。

网络结构和优化器调整:

在Medium baseline的基础上,通过特征选择修改了网络结构。

选择Adam作为优化器,并将学习率扩大十倍。这表明对于该问题,较大的学习率有助于模型更快地收敛到最优解。

学习率更新策略:

在训练过程中添加了scheduler.step以调整学习率。这是一种常见的学习率衰减策略,有助于模型在训练后期更精细地调整权重。

综上所述,李宏毅2022机器学习HW1——Regression的解答要点包括基本解决方式的说明、Medium级别的重点、特征选择实践、网络结构和优化器的调整以及学习率更新策略的应用。这些步骤共同构成了解决该Regression问题的完整流程。