李宏毅机器学习2016 第十三讲 非线性降维:流型学习(Mainfold Learning)
流型学习是将高维数据映射到低维空间,同时保持数据本质特征的非线性降维方法。以下是关于流型学习中几种主要方法的详细解答:
局部线性嵌入:
核心思想:认为每个数据点可以由其近邻的几个点线性重构。
目标:在降低维度的同时保持这种重构关系和系数不变。
实现方法:通过最小化目标函数来找到降维后的表达。
拉普拉斯特征映射:
核心思想:旨在保持数据点间的相似度距离。
目标:使得原空间中距离较远的点,在投影后依然相距较远;反之,原空间中距离较近的点,在投影后也相距较近。
实现基础:基于平滑性假设和图方法设计而成。
tSNE:
核心思想:强调不同点应尽可能分开,而不仅仅是相似点接近。
实现方法:通过梯度下降方法求解降维后的数据表达z。
应用场景:对可视化非常有用,通常先使用PCA进行初步降维,再应用tSNE进行进一步降维和可视化。
总结:流型学习包括LLE、LE、tSNE等非线性降维方法,这些方法通过不同的策略来保持数据的内在结构,特别适用于复杂高维数据的降维处理,尤其是当存在可视化需求时。
李宏毅2022机器学习HW1——Regression
李宏毅2022机器学习HW1——Regression的解答要点如下:
基本解决方式:
Regression问题的基本解决方式是直接运行简单的代码,这通常涉及到使用某种回归模型对训练数据进行拟合,并评估其在测试数据上的表现。
Medium级别重点:
在Medium级别中,重点在于特征选择。由于训练数据包含大量的特征,合理的特征选择对于提高模型性能至关重要。
训练数据有2699个样本,测试数据有1078个样本。测试数据不含最后一天的positive rate,这是需要预测的目标。
特征选择实践:
原始特征中,选取了前四天的tested_positive列用于预测第五天的positive rate。
修改了select_feat函数,并调整了config以启用选择所有特征的功能。但在实际操作中,为了优化模型性能,选择了scores_值大于10000的24个特征。
网络结构和优化器调整:
在Medium baseline的基础上,通过特征选择修改了网络结构。
选择Adam作为优化器,并将学习率扩大十倍。这表明对于该问题,较大的学习率有助于模型更快地收敛到最优解。
学习率更新策略:
在训练过程中添加了scheduler.step以调整学习率。这是一种常见的学习率衰减策略,有助于模型在训练后期更精细地调整权重。
综上所述,李宏毅2022机器学习HW1——Regression的解答要点包括基本解决方式的说明、Medium级别的重点、特征选择实践、网络结构和优化器的调整以及学习率更新策略的应用。这些步骤共同构成了解决该Regression问题的完整流程。