🔍 搜索 🤖 问 AI

什么是机器学习

机器学习的定义、与传统编程的区别、四类典型应用。

20 分钟第 1 / 6 章1,050 字

加载中...

本章介绍了机器学习作为人工智能分支的核心概念，强调其通过数据自动学习规律而非依赖人工规则。核心概念包括：机器学习与传统编程的区别（数据驱动 vs. 规则驱动）、训练数据与模型拟合、以及回归、分类、聚类、生成四类任务。读者学完后能理解机器学习的基本原理，区分其与传统编程的差异，并识别生活中可用机器学习解决的预测或分类问题。

什么是机器学习

机器学习(Machine Learning,ML)是人工智能的一个分支,它让计算机从数据中学习规律,而不是靠人写死的规则。

与传统编程的区别

传统编程是这样的:

输入 + 程序(规则) → 输出

机器学习恰好反过来:

输入 + 输出 → 程序(模型)

我们给机器一堆"输入-输出"的样本(叫做训练数据),它自己"琢磨"出一个能根据输入预测输出的程序。

一个最朴素的例子

假设你想根据"房屋面积"预测"房价"。你手上有 50 套房子的数据:

# 训练数据
areas = [50, 60, 80, 100, 120, 150]      # 平方米
prices = [200, 240, 320, 400, 480, 600]  # 万元

传统做法:你琢磨"每平方米 4 万元",写死 price = area * 4。

机器学习做法:把数据丢给一个线性回归模型,让它自己找到最合适的系数(可能是 3.98,也可能是 4.02)。

from sklearn.linear_model import LinearRegression
import numpy as np

X = np.array(areas).reshape(-1, 1)
y = np.array(prices)

model = LinearRegression()
model.fit(X, y)

# 现在可以预测任何面积的房子
print(model.predict([[90]]))  # 预测 90 平米的价格

机器学习能做什么

机器学习在 4 类任务上大放异彩:

预测回归:预测房价、股价、销量、气温这种连续值
分类识别:判断邮件是不是垃圾邮件、图像里有没有猫、肿瘤是良性还是恶性
聚类分组:把用户分成几类、把新闻按主题归堆(没有标准答案,机器自己找)
生成创作:写文章、画图谱曲、生成代码(以 ChatGPT、Midjourney 为代表)

为什么现在才火起来

机器学习的概念早在 1950 年代就提出了,但真正爆发是 2012 年之后。三个原因缺一不可:

数据:互联网和移动设备产生海量数据
算力:GPU 让训练大模型从几个月变成几小时
算法:深度学习的突破(尤其是 2012 年的 AlexNet 在 ImageNet 比赛夺冠)

小结

机器学习 = 让计算机从数据中自动学出规律,而不是写死规则
核心范式:用训练数据 (X, y) 拟合出模型 f,再用 f(X_new) 预测
主流任务:回归、分类、聚类、生成
三大支柱:数据 + 算力 + 算法

练习思考

想一个你身边可以用"机器学习"解决的预测问题,写下来。
为什么"识别手写数字"是一个机器学习问题,而不是传统编程问题?
用一句话给你的朋友解释"机器学习"和"传统编程"的区别。

章末小测验

检验你对《什么是机器学习》的掌握程度。

1

机器学习与传统编程最本质的区别是什么?

2

下列哪一项不是机器学习的主流任务?

3

深度学习在 2012 年开始爆发,主要驱动因素不包括下列哪一项?

学完这章, 你可能想看

同课程机器学习入门

机器学习的分类

监督 / 无监督 / 半监督 / 强化学习,各举 3 个例子。

同课程机器学习入门

第一个模型:线性回归

数学原理、最小二乘法、sklearn 三行代码上手。

同课程机器学习入门

如何评估模型

训练/测试集划分、交叉验证、回归与分类常用指标。

这门课在以下学习路径中

当前课程出现在 4 条系统化路径里, 你可以一键生成完整学习计划, 自动跳过已完成章节。

机器学习工程师之路

第 1 / 6 步·下一步 stats-foundations

数据分析师之路

第 1 / 7 步·下一步 stats-foundations

学术研究者之路

第 1 / 7 步·下一步 stats-foundations

通用入门之路

第 1 / 6 步·下一步 stats-foundations

还有疑问? 问问 AI (v19.5)

基于全站 19 门课 68 章内容检索 + LLM 总结, 会引用具体章节作为出处

讨论区(0)

加载评论中...