人工智能基本概念
人工智能(AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。AI用来生产出一种新的能以人类智能相似的方式做出反应的智能机器,领域包括机器人、语言识别、图像识别、自然语言处理和专家系统等。AI智能程度分为弱人工智能(ANI)、强人工智能(AGI)和超强人工智能(ASI)。弱人工智能专注于解决单个特定领域问题。强人工智能能够胜任人类所有工作。而超强人工智能在科学创造力、智能和社交能力等各个方面都比最强人类大脑还要聪明。AI具有算力、算法、数据三大要素,基础层提供算力支持,通用技术平台解决算法问题,场景化应用挖掘数据价值。
机器学习是AI的子集
机器学习是人工智能的一个子集,AI还包括自然语言处理、语音识别等方面。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等。机器学习研究计算机如何通过利用数据、训练出模型、然后使用模型预测,以获取新的知识或技能。机器学习于1959年提出,目标是通过算法使计算机在数据中学习,从而实现算法进化。
机器学习任务
机器学习任务主要包括监督学习、无监督学习、概率图模型和强化学习。在监督学习中,训练数据是有标签的,旨在通过建立输入变量和输出变量之间的关系来预测输出变量。无监督学习中,数据集没有标签,主要分为聚类和降维。概率图模型以贝叶斯学派为主,强化学习让模型以“试错”的方式在环境中学习,目标是使得到的奖励最大化。
有监督学习与无监督学习
有监督学习是从标记的训练数据中推断出函数,用于解决分类和回归问题。有监督学习的模型旨在通过训练数据中的标签来预测未知标签。无监督学习从未标记的训练数据中解决模式识别问题,主要用于聚类,如K-means算法,通过将样本划分为k个方差齐次的类来实现数据聚类。
机器学习操作流程
机器学习操作包括数据获取、数据处理、模型选择、模型训练、模型评估、模型调参和模型预测。数据获取时,要确保数据质量高、缺失值少。数据处理时,进行数据清洗,将非标准化数据转为标准化格式。模型选择时,匹配数据集大小和应用场景,避免过拟合。模型训练是寻找最优参数,最小化损失函数。模型评估时,计算准确率,模型调参通过网格化搜寻找到较好的模型架构。模型预测在测试集上进行,评价模型在新数据上的表现。
人工智能机器学习领域关键技术
深度学习是机器学习的一种,通过组合低层特征形成更抽象的高层表示,发现数据的分布式特征表示。深度学习通过模拟人脑分析学习的神经网络,学习样本数据的内在规律和表示层次。深度学习强调模型结构的深度,明确特征学习的重要性。深度学习框架多硬件平台适配,提供总体架构技术方案,包括设备管理层、算子适配层、训练框架与推理框架的多硬件适配指标体系。
联邦学习是加密分布式学习
联邦学习是一种分布式机器学习技术,通过在多个拥有本地数据的数据源之间进行分布式模型训练,仅通过交换模型参数或中间结果,构建基于虚拟融合数据下的全局模型,实现数据隐私保护和数据共享计算平衡。联邦学习在医疗领域多中心电子病历结构化上使用,使得各中心间数据能力共享,优化结构化能力。
计算机视觉与机器视觉
计算机视觉是指通过摄影机和电脑识别、跟踪和测量图像,并进行图形处理,使计算机处理适合人眼观察或仪器检测的图像。计算机视觉研究如何建立能够从图像或多维数据中获取信息的人工智能系统。机器视觉则是用机器代替人眼进行测量和判断,自动采集并分析图像,获取特定零件和特定活动所需的数据。机器视觉需要图像信号、纹理和颜色建模、几何处理和推理,以及物体建模。
自然语言处理NLP
自然语言处理(NLP)利用人类交流所使用的自然语言与机器进行交互通讯,通过人为处理自然语言,使计算机能够理解。NLP包括文本分类、信息检索、机器翻译等细分领域。文本处理通过关键字词统计和索引库实现检索,信息检索实时检查网络关键词并运行处理,机器翻译利用深度学习算法进行语言翻译并提升正确性。