论文一:Robotic Grasping of Harvested Tomato Trusses Using Vision and Online Learning

摘要:

这篇论文的研究方向是桁架番茄的抓取系统。首先通过深度学习模型(YOLOv5)对衍架进行识别,然后使用姿态估计模型(Yolov7架构)进行抓取姿态识别,之后通过以自动编码器为基础的模型进行抓握姿态排名得到评估最好的抓握姿态。

硬件配置:英特尔Realsense D405 RGB-D(红-绿-蓝-深度)相机的Franka Panda机械手

创新点:

A:番茄桁架检测

利用YOLOv5 [19]架构的变体,其输出由其所有角的坐标(x1,y1,x2,y2,x3,y3,x4,y4)定义的定向边界框,提供精确的拟合效果。

收集图像包含不同数量和类型的番茄桁架,通过改变了图像拍摄的高度和角度,以及背景增强鲁棒性。

为了减少过拟合和提高泛化能力,模型权重在COCO 2017(上下文中的公共对象)数据集上进行了预训练。并应用常见的数据增强技术,例如HSV(色调,饱和度,值)通道的变化,随机旋转,平移和缩放,以及上下和左右翻转。

B:抓取姿势识别

预处理:两个预处理步骤应用于从RGBD图像生成的点云:1)通过重新使用先前找到的感兴趣的桁架的边界框以移除位于边界框外部的点来过滤掉周围的桁架2)通过使用RANSAC方法将平面拟合到步骤1之后剩余的点并移除具有大于dp的距离的点来移除背景桁架。dp的合适值取决于番茄的大小,并且通常与它们的直径在相同的范围内。

通过Yolov7-Pose [21]架构的变体在预处理的RGB图像上识别可能的抓取姿势,以检测每个潜在抓取姿势的边界框,该边界框包含单个关键点和夹具的相应方向。为了获得抓取姿势的3D位置,关键点的像素位置被解投影,并且抓取角度被直接作为关键点取向。

 

C:抓握姿势排名

使用一个KNN(k-最近邻)分类器,该分类器应用于自动编码器提取的特征,虽然自动编码器没有在线更新,但KNN分类器可以很容易地在真实的时间内进行调整,甚至在CPU上。与直接神经网络相比,使用自动编码器更利于分类排名,尽管只能执行和标记检测到的抓取姿势中的一个,但所有抓取建议可以用于训练自动编码器,因为这种训练不需要任何标签。

思考:

这篇论文基于自动编码器和KNN(k-最近邻)分类器的抓握姿态排名模型用以减少碰撞的方式也可以应用到番茄收获机器人在采摘过程中以减少与番茄的碰撞。

论文二:AHPPEBot: Autonomous Robot for Tomato Harvesting based on Phenotyping and Pose Estimation

摘要

这篇论文介绍了一个基于表型分析和姿态估计的桁架番茄自主采收机器人:AHPPEBot。旨在解决传统采收机器人成功率低、作物损伤风险高的问题。

系统工作流程分为四个模块:

  1. 表型分析:使用改进的多任务YOLOv5模型 同时检测番茄果串(truss)和单果,预测单果成熟度(绿熟/转色/成熟/完熟四类);提出基于检测的自适应DBScan聚类算法:利用检测框裁剪点云,以果实中心点初始化聚类,高效关联单果与所属果串,计算整串成熟度(末端果实≥转色且其余≥成熟即可采收);体积估算:将单果2D检测框反投影为球形虚拟点云,用于避碰规划。
  2. 姿态估计:定义果梗7个语义关键点:SP(果梗-主茎连接点)、CP(最大曲率点)、FP(首果连接点)、QP/MP/TQP(果梗中段点)、EP(末端点)。采用 HRNet-w48模型预测关键点,通过调整OKS(Object Keypoint Similarity)的sigma权重(降低SP/CP点的容差,提高其余点容差),使模型优先保障收割关键点(SP/CP)的精度。

  1. 信息融合与决策:融合表型(成熟度、果数)与姿态(关键点位置),排除非成熟、姿态极端(如朝向种植槽内侧)的果串;基于关键点(FP→EP)规划机械臂 "自下而上包裹"(Bottom-up wrapping)轨迹,沿果梗法线方向偏移避碰。
  2. 执行系统定制末端执行器:带导向槽的圆形锯片,槽宽仅允许果梗进入,避免损伤藤蔓;末端运动至SP点后旋转切割,果串落入网袋完成采收。

创新点:

表型分析

多任务检测-聚类联合框架:

首次将目标检测(YOLOv5)与自适应DBScan结合:利用检测框裁剪点云,减少聚类计算量;以果实中心点初始化聚类,提升单果-果串关联效率(较传统DBScan提速显著)。

成熟度分级决策机制:基于农学标准制定采收规则(末端果≥转色+其余果≥成熟),替代传统二分类模型,提升决策可解释性(表型验证集准确率89.71%,传统方法最高86.04%)。

轻量化体积估算:

单果点云简化模型:将2D检测框反投影为球形虚拟点云,替代精细分割,满足实时避碰需求(误差在采收容忍范围内)。

姿态估计

任务导向的关键点重加权策略

针对采收需求定义SP/CP/FP高优先级点(直接决定切割位与路径安全),通过调整OKS的sigma值(降低SP/CP容差,提高其他点容差),使模型优化方向与采收成功强相关(显著高于回归模型)。

热图模型优势验证

实验表明:果梗像素占比小(仅8像素宽),热图模型(HRNet)因输入分辨率高(192×168),比回归模型(YOLOv8-pose,输入640×640)更适配细长目标。

系统级创新

融合决策机制

综合表型(成熟度/果数)与姿态(关键点位置/朝向),主动排除高风险目标(如朝向种植槽的果串),减少机械臂碰撞。

末端执行器与路径协同设计

末端导向槽+锯片设计:槽宽限制仅果梗可入,切割时物理隔离藤蔓。自下而上包裹路径:沿FP→EP点生成轨迹,结合虚拟点云避碰,成功率达93.33%(15次实验14次成功包裹)。

思考:

这篇论文是一个标准且完整的番茄果实串采摘机器人设计,对于采摘机器人的研究具有很好的参考价值,之后可以对相关代码和模型进行进一步的研究和复现。

论文三:Deep Learning Based Improved Classification System for Designing Tomato Harvesting Robot

摘要

论文提出了一种基于深度学习的番茄成熟度分类系统,用于优化番茄采摘机器人的设计。整体技术流程如下:

数据采集与标注:

在自然光照下采集200张番茄图像,按成熟度分为5类(LV1:青绿期~LV5:全红期),每类≥30张样本。通过市场标准(外观品质和存储时间)标注数据(表1),并利用t-SNE算法(图2)可视化数据分布,剔除异常样本。

数据增强策略:

几何变换:缩放(S):随机水平/垂直缩放系数;旋转(R):随机角度θ∈(0°,360°];组合(R&S):同时应用旋转和缩放

噪声注入:椒盐噪声(PN)、高斯噪声(GN)、盐噪声(SN)

组合增强:生成9种数据集(如R&SN, S&GN等)

 

轻量级CNN架构:

输入层:200×200像素RGB图像

特征提取:

5层卷积(核尺寸:9×9→5×5→3×3,通道数16→128)

ReLU激活函数(式9)

2层最大池化(4×4窗口降维)

分类器:

单全连接层(32神经元)+ Softmax输出(式10)

训练策略:

交叉熵损失函数

随机梯度下降优化

 

创新点:

  1. 数据增强组合优化

首次系统对比几何变换与噪声注入的组合效果,发现:

盐噪声(SN)对番茄颜色特征干扰最小(优于椒盐/高斯噪声),因仅引入白色像素(不破坏颜色信息)

旋转+缩放+盐噪声(R&S&SN)组合显著提升准确率,较单一增强高8.1%

  1. t-SNE辅助数据验证

创新性应用t-SNE降维可视化验证数据集分布合理性:

确保同类成熟度样本空间聚集,剔除分布异常数据

解决小样本数据集标注可靠性问题

  1. 轻量级实时CNN架构

设计5层卷积+1全连接层极简结构:

大卷积核(9×9)保留全局颜色特征,小卷积核(3×3)提取局部纹理

仅32神经元全连接层大幅减少参数量(对比传统CNN)

<0.01秒/图的实时性能,满足田间机器人响应需求

  1. 跨场景鲁棒性增强

通过模拟实际环境干扰的增强方法:

旋转/缩放适应采摘角度变化

盐噪声模拟光照反射干扰

实验表明模型在亮度变化(BRIG)、翻转(FLIP)等场景下保持稳定

思考:

这篇论文对于番茄成熟度分类系统的探索,对于番茄采摘机器人的实际运用具有指导意义,其中轻量化的CNN模型实现了很好的精度,模拟环境干扰的方法也具有泛化性,在其他计算机视觉的模型中也可以使用类似方法增强鲁棒性。

论文四:Lightweight and efficient deep learning models for fruit detection in orchards

摘要

论文提出ELD(Efficient Lightweight object Detector 网络,用于复杂果园环境下的苹果实时检测。

 

数据集构建

创建高质量数据集"Appledatas"(3,151张图像),涵盖遮挡、密集目标、光照变化等真实场景

 

网络架构

Backbone:基于YOLOv5改进,采用EGSS模块(步长1/2两种结构)提取特征,保留Conv_bn_SiLU初始处理,取消SPPF层。

 

Neck:SlimPAN模块压缩通道,用深度可分离卷积(DWConv)替代标准卷积。

 
 

Head:采用Shape-IOU损失函数优化边界框回归。

 

训练优化

通过知识蒸馏将复杂教师网络(EGSS-Teacher)知识迁移至轻量学生网络(ELD),动态调整温度系数(T=20)提升效率。

 

创新点:

高效轻量特征提取模块(EGSS)

双分支结构:

步长1:分割输入特征,部分保留原始信息,部分经深度可分离卷积和MCAttention处理,通过特征拼接与通道混洗增强低维特征复用(A)。

步长2:完整提取并融合特征,缓解复杂场景下的网络退化(B)。

计算优化:深度可分离卷积减少参数,仅在教师网络使用DWConv平衡性能与效率。

混合通道注意力(MCAttention)

局部-全局融合:

分支1:将特征拆分为1×C×K×K向量,局部池化提取空间信息后转一维特征。

分支2:全局信息直接精炼。

加权融合(权重0.5)抑制冗余负信息,比直接相加提升精度。

通道压缩机制(SlimPAN)

1×1卷积统一通道:消除冗余通道,降低计算成本。

深度可分离卷积替代:扩大感受野(5×5卷积核)

形状感知损失函数(Shape-IOU)

  • 几何权重设计:根据GT框尺寸动态调整水平/垂直权重(公式1-2),优化中心点距离(公式3)和宽高比(公式5),提升边界框鲁棒性。

  • 总损失函数Lshape-IOU=1-IOU+distanceshape+0.5×Ωshape

蒸馏策略优化

教师网络定制:扩展ELD网络(ELD-Teacher)与EGSS-Teacher模块,增加深度可分离卷积和网络宽度。

温度系数动态调整:T=20时软化标签分布,L2损失函数实现最佳蒸馏效果

思考:

这篇论文聚焦算法模型,其中网络架构的轻量化方法值得思考和学习,EGSS模块和SlimPAN通过简单的结构和方法实现了模型的轻量化和精度的提升。蒸馏策略也是一种泛用性很强的方法,通过迁移学习用更小的参数量实现了更好的精度和鲁棒性,总体来说在实际应用过程中轻量的网络具有更好的应用范围,这篇论文系统的轻量化方法值得学习。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐