Logo
AI

Overview

从广义上讲,机器学习是一种让机器具备“学习能力”的方法,使其能够完成很多无法通过直接编程实现的功能。从实践的角度看,机器学习更具体地是一种“用数据训练模型,再用模型做预测”的方法论。

ANI

artificial narrow intelligence

  1. smart speaker
  2. self-driving car
  3. web search
  4. AI in farming
  5. and factories

AGI

artificial general intelligence

Do anything a human can do

what is ai?

machine learning

data

what makes an AI company

what machine learning can and cannot do

optional" Intuitive explanation of deep learning

Building AI projects

how to build ai in your company

=> AI and society

Supervised Learning

Input => output

email-> spam? spam filtering

audio -> text transcript : speech recognition

en -> ch : machine translation

ad, user info -> click? : online advertising

image, radar info -> position of other cars : self-driving car

visual inspection

机器学习与模式识别、统计学习、数据挖掘、计算机视觉、语音识别、自然语言处理等领域都有非常紧密的联系。

从研究范围来看,机器学习与模式识别、统计学习、数据挖掘的覆盖面非常相近。同时,机器学习结合其它领域的处理技术,又形成了诸如计算机视觉、语音识别、自然语言处理等交叉学科。因此,在很多语境下,当我们泛泛而谈“数据挖掘”时,可以在很大程度上把它视为机器学习的一种应用形式。通常所说的机器学习应用,也不应局限于结构化数据,还包括图像、音频等非结构化数据上的应用。

  1. 模式识别(Pattern Recognition):本质上就是机器学习,两者的主要区别在于概念来源不同:前者更多源自工业界的实践,用于解决识别与分类问题;后者则主要起源于计算机科学理论和算法研究。
  2. 数据挖掘(Data Mining):可以粗略理解为“机器学习 + 数据库”。数据挖掘首先是一种思维方式,提醒我们要尝试从数据中挖掘知识。但并不是所有数据都能“挖出黄金”,不要神化数据挖掘。一个系统并不会因为多了一个“数据挖掘模块”就变得无所不能。相反,具备数据挖掘思维、对业务与数据有深入理解的人才才是关键,他们能够从数据中总结出模式与规律,进而指导业务优化。多数数据挖掘算法可以看作是对数据库环境下机器学习算法的工程化优化。
  3. 计算机视觉(Computer Vision):可以看作“图像处理 + 机器学习”。图像处理技术负责把原始图像加工成适合输入到机器学习模型中的特征或表示;机器学习则负责从这些表示中识别出有用的模式与目标。与计算机视觉相关的应用非常多,例如图像识别、手写体识别、车牌识别等。随着深度学习这一机器学习分支的快速发展,图像识别效果得到了极大提升,因此计算机视觉在未来仍然是前景广阔、极为热门的方向。
  4. 自然语言处理(Natural Language Processing, NLP):可以看作“文本处理 + 机器学习”。自然语言处理的目标,是让机器能够“理解”人类语言。在 NLP 中,会大量使用与编译原理相关的技术,比如词法分析、语法分析等;在语义理解层面,则会结合机器学习等方法。自然语言是人类自己发明的符号系统,也是目前已知人类独有的高级智能形式之一,因此 NLP 一直是机器学习领域持续投入的研究方向。有观点认为:“听和看,很多动物都能做到,但只有语言是人类独有的能力。”如何利用机器学习技术对自然语言进行更深入的建模与理解,始终是工业界和学术界关注的核心问题。

Basic Workflow

一个典型的机器学习工作流大致包含如下几个步骤:数据预处理(Processing)、模型学习(Learning)、模型评估(Evaluation)以及新样本预测(Prediction)。

  1. 数据预处理(Data Preprocessing): 输入(原始数据 + 标注)→ 处理流程(特征处理与缩放、特征选择、降维、采样等)→ 输出(训练集与测试集)。
  2. 模型学习(Model Learning): 进行模型选择、交叉验证、结果评估以及超参数选择等。
  3. 模型评估(Model Evaluation): 在验证集或测试集上评估模型表现,理解模型在当前数据集上的得分与效果。
  4. 新样本预测(Prediction): 使用训练好的模型对新的样本或测试集进行预测。

Key Components

无论你遇到的是哪一类机器学习问题,都会绕不开下面这几个核心组成部分:

  1. 可用于学习的数据;
  2. 将数据映射为输出的模型;
  3. 衡量模型好坏的目标函数;
  4. 为了优化目标函数、调整模型参数的训练算法。

Core Technologies

  1. 分类(Classification): 使用带有类别标签的数据对模型进行训练,再根据训练好的模型对新样本进行分类与预测。
  2. 聚类(Clustering): 在大规模数据中自动发现相似性和差异性,并按照“相似度最大”的原则将数据划分为多个类别。
  3. 异常检测(Anomaly Detection): 分析数据点的分布模式,识别出与“正常模式”显著不同的异常点或异常行为。
  4. 回归(Regression): 利用带有连续数值标签的数据进行训练,找到最优的拟合参数,并据此预测新样本的数值型输出。

Supervised Learning and Unsupervised Learning

监督学习需要带有标签的训练数据。以分类任务为例,你需要先为训练数据打上类别标签,再用这些带标签的数据训练模型,使其学会把新样本划分到期望的类别中。

无监督学习则不依赖人工标注标签,而是在“无引导”的情况下自动挖掘数据中的结构与关联。

  • 监督学习(Supervised Learning):训练集带有标签信息,典型任务包括分类与回归。
  • 无监督学习(Unsupervised Learning):训练集不含标签信息,典型任务包括聚类与降维。
  • 强化学习(Reinforcement Learning):通过延迟且稀疏的反馈信号来学习策略的一类方法。

监督学习可以理解为:从给定的训练数据集中学习一个函数;当有新的输入数据时,通过这个函数来预测输出。监督学习的训练集需要同时提供输入和输出(也可称为特征与目标),其中目标通常由人工标注。常见的监督学习算法包括回归分析、统计分类等。

无监督学习与监督学习相对,它的训练数据没有人工标注的结果。常见的无监督学习算法包括生成对抗网络(GAN)、各种聚类算法等。

强化学习则是通过与环境交互来学习“如何行动”的方法。每一个动作都会影响环境状态,学习体根据观察到的环境反馈不断调整行为策略。这在某种程度上类似于人类的试错式学习,因此也是当前的重要研究方向之一。

The Relationship Between Artificial Intelligence and Machine Learning

机器学习(Machine Learning)是人工智能的一个子集,是实现人工智能的一种路径,但并不是唯一路径。它主要研究如何让计算机模拟或实现人类的学习行为,获得新的知识或技能,并对已有的知识结构进行重组,从而持续提升系统表现。机器学习大约在 20 世纪 80 年代开始迅速发展,期间产生了大量基于数理统计的模型与算法。

深度学习(Deep Learning)则是机器学习的一个子领域,灵感来自人类大脑,由人工神经网络(Artificial Neural Networks, ANN)构成,模仿大脑中大量神经元与突触构成的层级结构。在深度学习中,学习是通过一个由多层“神经元”连接而成的深层网络来完成的,“深”通常指的是网络中包含的隐藏层数量。自 2012 年起,深度学习在多个应用场景中取得突破式进展,并被广泛采用。

人工智能的研究领域也在不断扩展,涵盖专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等诸多方向。

可以简单理解为:机器学习是实现人工智能的一种方法,而深度学习又是实现机器学习的一类重要技术。通常会用“同心圆”的方式来直观展示三者之间的包含关系。

我们可以把人工智能的技术与应用,粗略划分为自下而上的五个层次:

  1. 底层:基础设施 —— 主要包括数据与算力两大部分。数据越丰富、算力越强,能够支撑的 AI 能力就越强。

  2. 第二层:算法 —— 各类机器学习与深度学习算法,例如卷积神经网络(CNN)、用于序列学习的 LSTM、Q-Learning 等强化学习算法等。

  3. 第三层:技术方向与核心问题 —— 如计算机视觉、语音技术、自然语言处理等;以及基于机器学习算法构建的各类决策系统、面向大数据分析的统计系统等。

  4. 第四层:具体技术能力 —— 将上述方向落地为可复用的能力模块,例如图像识别、语音识别、机器翻译等。

  5. 顶层:行业解决方案 —— 把 AI 技术真正应用到金融、医疗、互联网、交通、游戏等各类行业场景中,这一层也是我们最关心的“实际价值”所在。

Machine Learning: A Method to Achieve Artificial Intelligence

从实践角度看,机器学习最基础的做法,就是用算法去“解析数据、从数据中学习”,然后再基于所学知识,对现实世界中的事件做出决策和预测。与传统通过“硬编码逻辑”来解决特定任务的软件不同,机器学习系统是通过大量数据“训练”出来的,它依托各种算法,从数据中自动学会如何完成任务。

一个简单的例子是电商推荐。当我们在网上购物时,经常会看到“猜你喜欢”“为你推荐”等商品列表。背后正是机器学习模型在根据你的历史浏览记录、购物记录、收藏清单等信息,推断你可能感兴趣、也更愿意购买的商品。这样的决策模型可以帮助电商平台向用户提供更合适的商品推荐,从而提升转化率。

机器学习最初直接源于早期人工智能领域的研究。传统的机器学习算法包括决策树、聚类、贝叶斯分类、支持向量机(SVM)、EM 算法、AdaBoost 等。从学习方式的角度,可以大致分为监督学习(如分类)、无监督学习(如聚类)、半监督学习、集成学习、深度学习以及强化学习等类型。

在指纹识别、基于 Haar 特征的人脸检测、基于 HoG 特征的目标检测等应用中,传统机器学习算法已经能够满足较强的商业需求或特定场景下的落地;但在很多问题上想进一步提升性能则变得非常困难,直到深度学习的出现才带来了质的飞跃。

从学科结构上看,机器学习(Machine Learning, ML)是一门交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度等多个领域。

机器学习是现代人工智能的核心,也是让计算机“变得更聪明”的基础手段。它在各类 AI 应用中都起着关键作用,更侧重通过归纳与综合的方式建模,而不是传统的演绎推理。

机器学习常被划分为三大类别:

  1. 无监督学习:无需人工标注标签,从数据中自动发现模式与结构,将其划分为不同类别,也被称为“聚类问题”等。
  2. 监督学习:利用带有历史标签的数据来训练模型,用于对未来样本进行预测。例如,根据水果的形状和颜色来判断它是香蕉还是苹果,就是一个直观的监督学习例子。
  3. 强化学习:通过环境反馈来学习决策与规划的策略。系统会对某些动作给出奖励或惩罚,通过这种反馈机制不断改进策略。这和人类基于奖励与惩罚进行学习的方式非常相似,因此成为当前的重要研究方向之一。

Deep Learning: A Technology to Achieve Machine Learning

深度学习一开始并不是一种“独立”的学习范式,它同样可以采用监督学习或无监督学习的方式来训练深层神经网络。只是近年来这个方向发展非常迅速,又陆续提出了许多具有代表性的结构和训练方法(比如残差网络 ResNet 等),因此越来越多的人将“深度学习”视作一个相对独立的研究分支。

早期的深度学习主要关注用深层神经网络来自动学习“特征表示”。深层神经网络并不是全新的概念,可以粗略理解为包含多层隐藏层的神经网络结构。为了提升深层网络的训练效果,人们对神经元的连接方式、激活函数等做了大量改进。实际上,很多想法在更早的年代就已经出现,只是当时受限于训练数据规模和计算能力,效果并不理想。

近十年来,深度学习在多个任务上取得了“碾压式”的性能提升,让人感觉“几乎所有可以由机器辅助完成的任务,都可以尝试用深度学习来做”。无人驾驶、疾病风险预测、个性化内容推荐等都已经在现实世界中落地或接近落地。

简单来说,机器学习强调的是“计算机能从数据中学到规律”;深度学习作为机器学习的一个子集,则是利用深层神经网络构建更加复杂、表达能力更强的模型,使模型能够对数据进行更加深入的表征与理解。

从形式上看,深度学习可以被视为一种“基于表示学习(Representation Learning)的机器学习方法”。其研究动机,是通过建立并训练类脑神经网络,对图像、声音、文本等数据进行自动特征提取与高层语义建模。

与一般机器学习类似,深度学习方法也可以分为监督与无监督两大类。在不同学习框架下建立的模型形式迥异,例如卷积神经网络(CNN)是典型的深度监督学习模型,而深度置信网络(DBN)则是一类早期的深度无监督学习模型。

Neural Networks: A Machine Learning Algorithm

神经网络的设计初衷,是模仿人类大脑处理信息的方式,希望在一定程度上按照“大脑的逻辑”来工作(尽管我们对大脑本身的研究还远未彻底)。神经网络的概念历史悠久,只是在较长一段时间内并不被看好。早期的神经网络存在不少问题:层数难以加深、参数众多且难以训练、样本规模有限等,因此一度被认为前景有限。直到 2006 年,Hinton 在《Science》等期刊上发表了一系列工作,提出“深度置信网络(Deep Belief Networks)”等概念,才重新点燃了人们对深层神经网络的兴趣。

人工神经网络(Artificial Neural Network, ANN)是早期机器学习中的重要算法之一,历经数十年起伏。它的基本原理来自对人脑结构的抽象:大量“神经元”之间互相连接并传递信号。不过,与大脑中可以在一定范围内自由连接的神经元不同,人工神经网络通常被组织为一层一层的离散结构,信息在层与层之间按既定方向传播。

举个简单例子:我们可以先把一张图像划分为很多小块,并将这些像素块作为输入喂给神经网络的第一层神经元;第一层将处理结果传递给第二层,第二层再传给第三层,如此层层传递,直到最后一层给出最终的输出结果。

每个神经元都会为其输入分配权重,这些权重的取值是否合理,直接影响到它所执行任务的准确程度。整个网络的输出,取决于所有权重综合计算的结果。

以识别“停(STOP)”标志为例:我们可以把一张停车标志的图像分解为多个要素,然后让神经元逐一“检查”这些要素:是否是八边形形状、是否是接近消防车的红色、是否包含醒目的字母、是否符合典型交通标志尺寸、是否处于静止状态等。神经网络需要根据所有这些信息,输出一个判断:它是不是停车标志?最终的输出可以理解为一个“概率向量”,代表不同类别的置信度。

在实际训练中,神经网络需要大量样本反复调参,才能达到较好的识别效果。以停车标志为例,需要几十万甚至上百万张图像进行训练,直到神经元上的权重被充分调整,无论是雾天、晴天还是雨天,都能较稳定地给出正确判断。只有在这个阶段,我们才可以说网络“学会了”停车标志的样子;类似地,在人脸识别应用中,网络可以学会识别你家人的面孔;在 2012 年著名的案例中,神经网络甚至在未加标注的情况下学会了“猫”的概念。

深度学习的重要突破之一,就是在“宽”和“深”两个方向上同时大幅扩展神经网络:网络层数加深、神经元数量激增,再配合海量数据进行训练。例如,在某些大规模项目中,会用上千万张视频帧作为训练数据。这里所说的“深度”,就是指网络中包含的多层结构。

如今,基于深度学习训练出来的图像识别系统,在很多具体任务上已经可以超过人类。例如:从海量照片中识别猫的存在、在血液样本中发现早期癌症迹象、在医学影像中识别肿瘤,等等。AlphaGo 则通过自我对弈的方式,不断训练自身的神经网络,最终在围棋这个极其复杂的博弈中取得了突破性的成果。

在当前的实际应用中,我们可以将人工智能系统大致分为两类:

  • 窄人工智能(Artificial Narrow Intelligence, ANI): 只在特定任务或狭窄领域表现出较强智能,如:

    1. 智能音箱
    2. 自动驾驶汽车
    3. Web 搜索
    4. 农业中的智能监测
    5. 工厂自动化与工业机器人
  • 通用人工智能(Artificial General Intelligence, AGI): 理论上能够胜任人类可以完成的任意智力任务,具备广义的、可迁移的智能。目前 AGI 仍处于探索与研究阶段,尚未真正实现。

在学习人工智能基础概念时,可以围绕几个高频问题来建立整体框架,例如:

  • 什么是 AI?
  • 什么是机器学习?
  • 数据在 AI 系统中扮演什么角色?
  • 什么样的公司可以称为“AI 公司”?
  • 机器学习能做什么,又有哪些事是目前做不到的?

Building AI projects

如果希望在企业或组织内部真正落地 AI 项目,可以从以下几个角度来思考:

  • 如何在公司内部搭建数据与算力基础设施;
  • 如何选择适合业务场景的机器学习/深度学习算法;
  • 如何构建从数据采集、标注、建模到上线部署的一体化流程;
  • 如何衡量 AI 项目对业务指标(如收入、成本、效率)的实际影响;
  • 如何在技术发展与社会责任(隐私、公平性、透明度等)之间取得平衡。

=> AI and society(AI 与社会):在更宏观的层面,还需要关注 AI 对就业、教育、伦理、法律等方面的长远影响。

Supervised Learning

在很多实际任务中,“监督学习”可以被抽象为:

输入(Input) => 输出(Output)

例如:

  • 电子邮件 → 垃圾邮件?(垃圾邮件过滤)
  • 语音音频 → 文本转写(语音识别)
  • 英文句子(en) → 中文句子(ch)(机器翻译)
  • 广告信息 + 用户特征 → 是否点击?(在线广告点击率预估)
  • 图像 + 雷达信息 → 周围车辆的位置(自动驾驶场景中的感知模块)
  • 产品图片或工业场景图像 → 是否存在缺陷(视觉质检、瑕疵检测)