机器学习基础II:机器学习的流程

一、机器学习基础II:机器学习的流程

机器学习的一般流程分为以下五步:

数据收集与探索数据:

从各种数据源中收集所需的数据。

对已有数据通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律。

数据预处理:

对原始数据进行一系列的处理操作,包括数据清洗、数据集成、数据变换和数据规约。

训练模型:

使用预处理和特征工程后的数据对所选模型进行训练。

构建测试集和验证集,以评估模型的性能和泛化能力。

应用不同的训练技术来优化模型。

模型评估:

通过评估指标来评估模型的性能。

如果效果不佳,可以对模型进行调整和优化,如参数调优。

使用模型:

将训练好的模型部署到实际环境中,如集成到应用程序中、构建API接口等。

持续监控模型的性能,并根据实际应用的反馈对模型进行调整和优化。

二、AI技术词条 | 机器学习

机器学习是人工智能领域的一个核心分支,旨在使计算机能够从数据中自动学习并根据学习结果进行决策。以下是关于机器学习的详细解释:

定猜谈纳义:机器学习是通过计算机学习数据中的内在规律性信息,从而获得新的经验和知识,以提升计算机的智能性。Tom M. Mitchell将其定义为“计算机利用经验自动改善系统自身性能的行为”。

算法分类:

监督学习:通过有标签的数据作为学习目标,旨在训练机器学习的泛化能力。典型算法包括逻辑回归、多层感知机、卷积神经网络等,应用于回归分析和任务分类。

无监督学习:不依赖于标签数据,主要用于发现数据中的内在模式和统计规律。代表算法有自动编码器、受限玻尔侍丛兹曼机、深度置信网络等,应用于聚类和异常穗没检测。

强化学习:通过与环境交互进行试错学习,旨在找到最优策略。其应用广泛,如AlphaGo通过自我对弈快速学习并提升策略。

结合深度学习:深度学习通过多层神经网络进行特征提取和学习,为强化学习提供了强大的计算能力。结合深度学习的深层强化学习是当前人工智能研究的热点。

一般流程:机器学习的一般流程包括数据收集、预处理、特征选择、模型训练、模型评估和应用等步骤。

应用与意义:机器学习赋予计算机一定的智慧,使其能够对新样本进行智能识别,甚至进行对未来趋势的预测。通过学习机器学习,我们可以更好地理解计算机如何从数据中学习,从而解决复杂问题并推动人工智能技术的进步。

三、人工智能中的机器学习核心领域、流程与分支(基础入门篇)

人工智能作为当下新质生产力代表,其技术更新已历多个版本,随着Chatgpt的火热,AI逐渐走入大众视野,影响人们生活。AI是模拟人类智能的技术,涵盖机器学习、自然语言处理、计算机视觉、语音识别等多领域。通过大量数据和算法,AI使计算机学会像人类一样思考、学习和解决问题。机器学习作为AI核心,是计算机获得智能的基础。本文简要介绍机器学习的核心领域、术语及深度学习与强化学习,不深入复杂数学模型,通俗讲解AI底层知识原理。

机器学习是AI核心,通过大量数据学习和优化算法,使计算机具备智能。从贝叶斯、拉普拉斯的最小二乘法推导到马尔可夫链,构成机器学习工具和基础。AI主要任务是让计算机认识数据,包括图像、文本、语音和传感器数据转换为计算机可处理的特征。计算机视觉、自然语言处理、语音识别和数据挖掘是AI分支,它们处理不同形式数据,目标统一,是将数据转换为计算机能计算、推理的特征。

AI应用广泛,核心是机器学习,深度学习目前项目多。机器学习解决分类、回归和聚类问题。分类选择固定类别,回归预测数值区间内值,聚类在无标签情况下进行分类。有监督学习给定标签,无监督学习没有标签,后者节省人力,效果不如前者。

机器学习流程包括数据获取、特征工程、建立模型和评估模型。数据获取时,企业、购买、传感器、日志、爬虫等提供数据,需打标签以支持有监督学习。数据预处理通过数学变换,使数据结构化或对称,便于学习。特征工程从预处理数据中提取计算机能理解的特征,选择关键业务指标。模型基于输入数据和结果,寻找权重参数和偏置参数。评估模型通过准确率、召回率、损失值等指标验证,确保预测质量。

深度学习无需人工干涉,简化分类和回归问题解决。它模拟人脑神经网络,减少时间和人力成本。深度学习依赖大量数据和算力,资源有限、数据规模小的公司,机器学习算法性价比高。目前,深度学习在计算机视觉、自然语言处理、语音识别领域应用广泛。

强化学习通过环境反馈学习,不关注单个样本结果,追求全局收益最大化。它设计奖励和惩罚机制,适用于规则明确的场景,如游戏中的技能效果。强化学习过程复杂,依赖清晰规则,适用于规则明确的游戏领域。

本文简要介绍了机器学习的核心领域、术语、流程与深度学习、强化学习,这是AI最基本要素。未来将分享更多AI算法、模型和应用领域知识。

四、使用线性模型进行机器学习的流程是什么?

使用线性模型进行机器学习的流程如下宽核拦:

1.初始化模型 ,包括初始化 模型参数W和 b,使得对任意X可以通过 y=WX+b得到y的结果。

2.准备好数据集,即用于训练慎胡的X和Y

3.开始训练

3.1向前传播  计算y_pre=WX+b

3.2计算误差氏族(或称损失)  计算Loss=loss(y_pre,y)   其中 loss可以是mae、mse(常称为最小二乘法,或均方误差、平方2损失)、交叉熵等

3.3计算此时误差关于模型参数W、b的梯度Grad_W和Grad_b

 3.4更新W=W-Grad_W*alpha,   b=b-Grad_b*alpha  (基于梯度下降)

4.训练完成,进行验证