目录

一、选课初衷:为什么聚焦这门 CV 课程?

二、课程核心收获:从概念到应用的认知升级

1. 厘清基础概念:机器视觉与计算机视觉的 “同与异”

2. 看见 CV 的 “落地力”:智能科学场景中的技术应用

3. 理解学科交叉:CV 是智能科学的 “技术枢纽”

4. 辩证看待机器智能:理性认知 CV 的能力边界

三、学习延伸:从课程到专业能力的拓展

1. 参考斯坦福课程:拓宽 CV 的知识视野

2. 聚焦核心工具:CNN (卷积神经网络)是 CV 学习的重点

3. 梳理 CV 任务链路:构建系统化的技术思维

四、学习感悟:CV 学习对智能科学专业成长的意义

结语


        作为智能科学方向的学习者,我一直将 “计算机视觉(CV)” 视为领域内核心且极具应用价值的方向 —— 它不仅是连接机器与物理世界的 “视觉接口”,更是智能医疗、智能交通、智能机器人等场景落地的关键技术支撑。近期,我系统学习了北京邮电大学鲁鹏教授的《计算机视觉与深度学习》课程(链接:计算机视觉与深度学习 北京邮电大学 鲁鹏 清晰版合集(完整版)_哔哩哔哩_bilibili),从基础概念到技术落地,搭建了更完整的 CV 知识框架。在此整理学习笔记与感悟,希望能与同方向学习者交流探讨。

一、选课初衷:为什么聚焦这门 CV 课程?

        选择鲁鹏教授的课程,核心是看重其 “理论 + 应用” 的双重属性:

  1. 贴合智能科学专业需求:CV 是智能科学的核心分支,而这门课从 “机器视觉的工程场景” 到 “深度学习的算法原理” 层层递进,恰好覆盖了专业学习中 “技术落地” 与 “理论深度” 的双重需求;
  2. 弥补知识短板:本科阶段我对 CV 的认知多停留在 “图像识别” 等表层应用,对 “机器视觉与计算机视觉的边界”“语义鸿沟的技术突破” 等深层问题理解不足,这门课恰好能填补这些盲区,帮助我建立系统化的技术认知。

二、课程核心收获:从概念到应用的认知升级

人体视觉和(计算机)视觉的联系与区别

1. 厘清基础概念:机器视觉与计算机视觉的 “同与异”

        课程开篇就解决了我长期的困惑 ——机器视觉与计算机视觉并非完全等同,但核心目标一致

  • 机器视觉:更聚焦 “机器人、工业场景”,比如机器人通过视觉系统实现环境导航、物体抓取,核心是服务于 “机器的动作决策”,强调 “视觉 - 动作” 的闭环;
  • 计算机视觉:范围更宽泛,涵盖互联网图像检索、医学影像分析、卫星图像解读等,只要涉及 “从图像中提取语义信息” 的任务,都可归为此类,更侧重 “图像 - 信息” 的转化。

        鲁鹏教授特别强调:“不必过度纠结名称差异,CV 领域的核心是解决‘如何让机器从图像中理解世界’的问题”。这一观点让我意识到:智能科学领域的技术学习,需以 “问题解决” 为导向 —— 比如面对 “智能机器人避障” 需求,重点应放在 “图像特征提取→环境语义判断→避障路径规划” 的技术链路,而非局限于 “机器视觉” 或 “计算机视觉” 的标签划分。

2. 看见 CV 的 “落地力”:智能科学场景中的技术应用

        课程中大量贴近实际的应用案例,让我直观感受到 CV 在智能科学领域的核心价值,也加深了对 “技术服务场景” 的理解:

  • 智能医疗:CV 可辅助分析胸片、核磁共振图像,自动识别肺炎、新冠等病变区域 —— 这不仅能提升诊断效率,更能为医疗资源匮乏地区提供技术支撑,是 “AI 赋能医疗” 的典型场景;
  • 智能交通:路口的车牌识别、闯红灯抓拍系统,依赖 CV 的 “动态目标检测与跟踪” 技术,通过实时解析视频流,实现交通违规的自动判定,支撑智慧交通系统落地;
  • 智能机器人:从工业机器人的 “零件抓取定位” 到火星车的 “地形环境拼接”,CV 都是机器人感知外界的核心入口 —— 比如火星车通过视觉系统识别障碍物,才能规划安全的行驶路径;
  • 特殊领域:导弹的 “精确制导”(采用红外 / 雷达成像,避免可见光干扰)、星云图像的 “天体特征提取”,这些高精尖场景同样依赖 CV 的 “复杂环境下语义理解” 能力。
    CV与其他领域的联系

        CV 并非孤立的技术,而是智能科学领域 “场景落地” 的重要工具 —— 学习 CV 时,需结合具体场景思考技术选型,比如 “医疗影像分析” 需注重算法的准确率与可解释性,“实时交通检测” 需优先保证算法的运行效率。

3. 理解学科交叉:CV 是智能科学的 “技术枢纽”

        鲁鹏教授专门梳理了 “CV 与其他学科的关联”,这让我深刻体会到智能科学 “多学科融合” 的特性:

  • 与认知神经科学的关联:人类视觉系统的 “分层处理机制”(从边缘识别到复杂物体理解),为 CV 算法提供了灵感 —— 比如卷积神经网络(CNN)的 “层级特征提取”,正是借鉴了人类视觉的处理逻辑;
  • 与算法 / 数据结构的关联:CV 的落地离不开高效算法支撑,比如 “图像特征匹配” 依赖哈希算法、“目标跟踪” 依赖粒子滤波算法,扎实的算法基础是学好 CV 的前提;
  • 与硬件技术的关联:CV 的输入依赖光学传感器(如摄像头、红外成像仪),硬件的分辨率、帧率直接影响后续算法的效果 —— 比如高清摄像头能捕捉更多图像细节,有助于提升目标检测的准确率;
  • 与图像处理的关联:图像处理是 CV 的基础,比如 “图像去模糊”“降噪” 等预处理操作,能为后续的语义提取提供更高质量的数据 —— 但两者的核心差异在于:图像处理的输入输出均为图像(侧重视觉效果优化),而 CV 的输出是语义信息(侧重内容理解)。

        这种学科交叉的认知,帮我建立了更完整的智能科学知识体系 —— 学习 CV 时,不能只关注算法本身,还需兼顾硬件特性、场景需求等多维度因素。

4. 辩证看待机器智能:理性认知 CV 的能力边界

        课程中一个让我印象深刻的观点是:“不能用人类智能的标准简单评价机器智能”。以 “深蓝战胜国际象棋冠军”“阿尔法狗击败柯洁” 为例,鲁鹏教授分析:
        机器在棋类任务中的优势,源于 “有限规则下的快速搜索能力”—— 通过算法遍历海量可能的走法,找到最优解;但机器缺乏人类的 “通用智能”,比如机器能生成符合格律的诗句,却无法赋予诗句情感与思想;再比如人类能瞬间理解 “一张图讲述的故事”,而机器需从海量像素中逐步推导语义,这就是 CV 领域的 “语义鸿沟” 问题。

语义鸿沟

        这种理性认知,帮我避免陷入 “技术万能论”—— 学习 CV 时,既要关注技术的突破,也要清晰认识其能力边界,比如 “实时复杂环境下的语义理解” 仍是 CV 的难点,未来需结合深度学习、强化学习等多技术融合实现突破。

三、学习延伸:从课程到专业能力的拓展

1. 参考斯坦福课程:拓宽 CV 的知识视野

        鲁鹏教授推荐了斯坦福大学的 CV 课程体系(CS 131/231A/231N),重点补充了:

  • 经典 CNN 网络的演进:从 AlexNet(首次用 CNN 在 ImageNet 竞赛夺冠)到 ResNet(用残差连接解决梯度消失问题),理解不同网络结构的设计思路与适用场景;
  • 深度学习在 CV 任务中的落地细节:比如 “图像分割” 如何用 U-Net 架构实现像素级标注,“图像生成” 如何用 GAN(生成对抗网络)生成逼真图像。

2. 聚焦核心工具:CNN (卷积神经网络)是 CV 学习的重点

        课程强调:“2012 年后 CV 的快速发展,核心驱动力是卷积神经网络(CNN)”。因此,我专门梳理了 CNN 的学习重点:

  • 基础原理:卷积层(提取局部特征)、池化层(降低维度、减少过拟合)、全连接层(输出分类结果)的作用机制;
  • 关键技术点:padding(保证特征图尺寸)、stride(控制卷积步长)、激活函数(引入非线性)的设计逻辑;
  • 性能指标:在 ImageNet 数据集上,2015 年 CNN 的错误率(3.6%)已低于人类(5.1%),这一数据直观体现了深度学习在 CV 领域的优势。
    ImageNet 数据集上的实验结果

        掌握 CNN 不仅是学习 CV 的基础,也是理解智能科学领域 “深度学习落地” 的关键 —— 比如后续学习 “视觉 Transformer”,也能基于 CNN 的认知进行对比分析。

3. 梳理 CV 任务链路:构建系统化的技术思维

        课程覆盖了 CV 的核心任务(图像分类→目标检测→图像分割→图像描述→图像生成),我将其梳理为 “技术链路”,形成系统化的思考框架:

  1. 图像分类(基础任务):给图像赋予语义标签(如 “猫 / 狗”),常用算法有 SVM、CNN;
  2. 目标检测(进阶任务):定位物体位置并分类(如 “图中左上角有一只猫”),经典架构有 YOLO(实时性强)、Faster R-CNN(准确率高);
  3. 图像分割(精细任务):实现像素级别的类别划分(如区分 “猫的毛发”“背景”),分为语义分割(不区分个体)、实例分割(区分个体);
  4. 图像描述与生成(高阶任务):用文字描述图像内容(图像描述),或根据文字生成图像(图像生成),需结合 CV 与自然语言处理(NLP)技术。

        这种链路化的梳理,帮我在面对具体场景时,能快速定位核心任务、选择合适技术 —— 比如 “智能超市商品识别”,可拆解为 “图像分类(识别商品类别)→目标检测(定位商品位置)→光学字符识别(读取商品条码)” 的流程。

课程章节安排

四、学习感悟:CV 学习对智能科学专业成长的意义

        通过这门课程的学习,我不仅掌握了 CV 的基础理论与技术,更对智能科学的专业方向有了更清晰的认知:

  1. 技术落地是核心:智能科学不是纯理论研究,而是以 “解决实际问题” 为目标 ——CV 的学习让我明白,无论算法多复杂,最终都需落地到具体场景(如医疗、交通),这也引导我未来更关注 “技术的实用性”;
  2. 多学科融合是关键:CV 的发展依赖神经科学、算法、硬件等多领域的支撑,这与智能科学 “多学科交叉” 的特性高度契合 —— 未来学习中,需注重拓宽知识边界,避免 “单一技术思维”;
  3. 持续学习是常态:CV 领域技术迭代迅速(从 CNN 到 Transformer,从 GAN 到扩散模型),这要求我保持对前沿技术的关注,比如近期学习的 “视觉 - 语言预训练模型(如 CLIP)”,就是 CV 与 NLP 交叉的新方向。

结语

        鲁鹏教授的《计算机视觉与深度学习》课程,不仅是一次 CV 知识的系统学习,更是我智能科学专业成长的重要沉淀。未来,我计划进一步探索 “CV 与机器人导航”“CV 与具身智能感知” 等方向,希望能将课程所学转化为实际的技术应用能力。

        如果有同专业的学习者,也欢迎在评论区交流学习心得 —— 智能科学领域的成长之路,需要我们共同探讨、彼此启发

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐