本章介绍了机器学习作为人工智能分支的核心概念,强调其通过数据自动学习规律而非依赖人工规则。核心概念包括:机器学习与传统编程的区别(数据驱动 vs. 规则驱动)、训练数据与模型拟合、以及回归、分类、聚类、生成四类任务。读者学完后能理解机器学习的基本原理,区分其与传统编程的差异,并识别生活中可用机器学习解决的预测或分类问题。
什么是机器学习
机器学习(Machine Learning,ML)是人工智能的一个分支,它让计算机从数据中学习规律,而不是靠人写死的规则。
与传统编程的区别
传统编程是这样的:
输入 + 程序(规则) → 输出
机器学习恰好反过来:
输入 + 输出 → 程序(模型)
我们给机器一堆"输入-输出"的样本(叫做训练数据),它自己"琢磨"出一个能根据输入预测输出的程序。
一个最朴素的例子
假设你想根据"房屋面积"预测"房价"。你手上有 50 套房子的数据:
# 训练数据
areas = [50, 60, 80, 100, 120, 150] # 平方米
prices = [200, 240, 320, 400, 480, 600] # 万元
传统做法:你琢磨"每平方米 4 万元",写死 price = area * 4。
机器学习做法:把数据丢给一个线性回归模型,让它自己找到最合适的系数(可能是 3.98,也可能是 4.02)。
from sklearn.linear_model import LinearRegression
import numpy as np
X = np.array(areas).reshape(-1, 1)
y = np.array(prices)
model = LinearRegression()
model.fit(X, y)
# 现在可以预测任何面积的房子
print(model.predict([[90]])) # 预测 90 平米的价格
机器学习能做什么
机器学习在 4 类任务上大放异彩:
- 预测回归:预测房价、股价、销量、气温这种连续值
- 分类识别:判断邮件是不是垃圾邮件、图像里有没有猫、肿瘤是良性还是恶性
- 聚类分组:把用户分成几类、把新闻按主题归堆(没有标准答案,机器自己找)
- 生成创作:写文章、画图谱曲、生成代码(以 ChatGPT、Midjourney 为代表)
为什么现在才火起来
机器学习的概念早在 1950 年代就提出了,但真正爆发是 2012 年之后。三个原因缺一不可:
- 数据:互联网和移动设备产生海量数据
- 算力:GPU 让训练大模型从几个月变成几小时
- 算法:深度学习的突破(尤其是 2012 年的 AlexNet 在 ImageNet 比赛夺冠)
小结
- 机器学习 = 让计算机从数据中自动学出规律,而不是写死规则
- 核心范式:用训练数据
(X, y)拟合出模型f,再用f(X_new)预测 - 主流任务:回归、分类、聚类、生成
- 三大支柱:数据 + 算力 + 算法
练习思考
- 想一个你身边可以用"机器学习"解决的预测问题,写下来。
- 为什么"识别手写数字"是一个机器学习问题,而不是传统编程问题?
- 用一句话给你的朋友解释"机器学习"和"传统编程"的区别。
章末小测验
检验你对《什么是机器学习》的掌握程度。
1
机器学习与传统编程最本质的区别是什么?
2
下列哪一项不是机器学习的主流任务?
3
深度学习在 2012 年开始爆发,主要驱动因素不包括下列哪一项?
学完这章, 你可能想看
这门课在以下学习路径中
当前课程出现在 4 条系统化路径里, 你可以一键生成完整学习计划, 自动跳过已完成章节。
还有疑问? 问问 AI (v19.5)
基于全站 19 门课 68 章内容检索 + LLM 总结, 会引用具体章节作为出处
讨论区(0)
加载评论中...