
2024年7月25日Arxiv人工智能相关论文
自动推理是可解释人工智能(XAI)领域中一项关键技术,这是一个年轻但迅速发展的领域。可解释性有助于在人工智能系统中建立信任,超越它们仅仅的预测准确性和稳健性。在本文中,我们提出了一个科学发现循环,将机器学习与自动推理相结合,用于生成和选择解释。我们提出了一个解释选择问题的分类法,借鉴了社会学和认知科学的见解。这些选择标准包含了现有概念,并通过新属性进行了扩展。
科学发现的自动解释选择
原标题: Automated Explanation Selection for Scientific Discovery
作者: Markus Iser
机构: 卡尔斯鲁厄理工学院 德国
摘要: 自动推理是可解释人工智能(XAI)领域中一项关键技术,这是一个年轻但迅速发展的领域。可解释性有助于在人工智能系统中建立信任,超越它们仅仅的预测准确性和稳健性。在本文中,我们提出了一个科学发现循环,将机器学习与自动推理相结合,用于生成和选择解释。我们提出了一个解释选择问题的分类法,借鉴了社会学和认知科学的见解。这些选择标准包含了现有概念,并通过新属性进行了扩展。
论文链接: https://arxiv.org/abs/2407.17454
在图稀疏优化中的随机方差减少迭代硬阈值化
原标题: Stochastic Variance-Reduced Iterative Hard Thresholding in Graph Sparsity Optimization
作者: Derek Fox, Samuel Hernandez, Qianqian Tong
机构: 北卡罗来纳大学格林斯伯勒分校 美国 德里克·福克
德州农工大学 美国 塞缪尔·埃尔南德斯
北卡罗来纳大学格林斯伯勒分校 美国 钱倩倩
摘要: 随机优化算法广泛应用于大规模数据分析,因为它们具有低的每次迭代成本,但往往由于固有方差而导致缓慢的渐近收敛。因此,已经使用方差减少技术来解决利用稀疏诱导范数或 ℓ 0 \ell_0 ℓ0-范数的结构稀疏模型中的这一问题。然而,这些技术不直接适用于复杂(非凸)图稀疏模型,而这些模型在疾病爆发监测和社交网络分析等应用中至关重要。在本文中,我们介绍了两种基于随机方差减少梯度的方法来解决图稀疏优化问题:GraphSVRG-IHT 和 GraphSCSG-IHT。我们提供了一个理论分析的通用框架,证明我们的方法具有线性收敛速度。大量实验证实。
论文链接: https://arxiv.org/abs/2407.16968
使用大语言模型进行基于语法的游戏描述生成
原标题: Grammar-based Game Description Generation using Large Language Models
作者: Tsunehiko Tanaka, Edgar Simo-Serra
摘要: 为了降低游戏设计开发的障碍,人们开始探索自动化游戏设计,通过计算过程生成游戏设计。在自动化游戏设计中,基于机器学习的技术,如进化算法已经取得成功。受益于深度学习的显著进展,计算机视觉和自然语言处理领域的应用在关卡生成方面取得了进展。然而,由于游戏设计数据量有限,深度学习在游戏描述生成等任务上的应用还不足。为了开创自动化游戏设计中处理有限数据的新方法,我们专注于大语言模型(LLMs)的上下文学习。LLMs能够从少量示例中捕捉任务特征,并应用预训练期间获得的能力。我们引入游戏描述的语法,有效地将游戏设计空间结构化到LLMs的推理过程中。语法有助于LLMs捕捉游戏描述生成这一复杂任务的特征。此外,我们提出了一种解码方法,通过利用语法迭代改进生成的输出。我们的实验表明,这种方法在生成游戏描述方面表现良好。
论文链接: https://arxiv.org/abs/2407.17404
Cheems:Wonderful Matrices 更高效更有效的架构
原标题: Cheems: Wonderful Matrices More Efficient and More Effective Architecture
作者: Jingze Shi, Lu He, Yuhan Wang, Tianyu He, Bingheng Wu, Mingkun Hou
机构: 清华大学 哈尔滨工业大学 百度
摘要: 最近的研究表明,在选择性状态空间模型扫描算法中,相对位置编码表现良好,平衡SSM和注意力的架构提高了算法的效率和有效性,而专家混合稀疏激活降低了训练成本。我研究了在结构化状态空间双算法中使用不同位置编码的有效性,以及更有效的SSD-Attn内部和外部功能混合方法,并设计了更高效的跨领域专家混合。我发现相同的矩阵在不同算法中表现出色,这使我们能够建立一个新的混合稀疏架构:Cheems。与其他混合架构相比,在语言建模任务中,它更高效、更有效。
论文链接: https://arxiv.org/abs/2407.16958
使用图神经网络对关系领域进行系统推理
原标题: Systematic Reasoning About Relational Domains With Graph Neural Networks
作者: Irtaza Khalid, Steven Schockaert
机构: 卡迪夫大学
摘要: 开发能够学习推理的模型是一个众所周知的挑战性问题。我们专注于关系领域的推理,在那里使用图神经网络(GNNs)似乎是一个自然的选择。然而,先前关于使用GNN进行推理的研究表明,这样的模型在面对需要比训练过程中看到的更长推理链的测试示例时往往失败。这表明GNN缺乏以系统方式从训练示例中推广的能力,这将从根本上限制它们的推理能力。一个常见的解决方案是转而依赖神经符号方法,这些方法能够通过设计以系统方式进行推理。不幸的是,这些方法的可扩展性通常有限,它们往往依赖过于强大的假设,例如查询可以通过检查单个关系路径来回答。在本文中,我们重新审视了使用GNN进行推理的想法,表明只要提供正确的归纳偏差,系统化泛化是可能的。特别是,我们认为节点嵌入应被视为认识状态,并且应相应地对GNN进行参数化。我们提出了一种基于这种观点的简单GNN架构,并展示它能够实现最先进的结果。此外,我们引入了一个基准测试,要求模型从多个关系路径中聚合证据。我们展示现有的神经符号方法在这一基准测试上失败,而我们考虑的GNN模型学会了准确推理。
论文链接: https://arxiv.org/abs/2407.17396
改革文本到图像检索,作为自回归 Token 到 Voken 生成
原标题: Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation
作者: Yongqi Li, Hongru Cai, Wenjie Wang, Leigang Qu, Yinwei Wei, Wenjie Li, Liqiang Nie, Tat-Seng Chua
机构: 香港理工大学 新加坡国立大学 澳大利亚莫纳什大学 哈尔滨工业大学(深圳)
摘要: 文本到图像检索是多媒体处理中的一个基本任务,旨在检索语义相关的跨模态内容。传统研究通常将这一任务视为一个判别问题,通过交叉注意力机制(单塔框架)或在一个共同嵌入空间中(双塔框架)匹配文本和图像。最近,生成式跨模态检索作为一个新的研究方向出现,该方法为图像分配唯一的字符串标识符,并将目标标识符生成为检索目标。尽管具有巨大潜力,但现有的生成方法由于以下问题而受到限制:标识符中的视觉信息不足,与高级语义不一致,以及朝向检索目标的学习差距。为解决上述问题,我们提出了一种自回归 voken 生成方法,名为 AVG。AVG 将图像标记为 vokens,即视觉标记,并创新地将文本到图像检索任务构建为一个标记到 voken 生成问题。AVG 将图像离散化为一系列 vokens 作为图像的标识符,同时保持与图像的视觉信息和高级语义的对齐。此外,为了弥合生成训练与检索目标之间的学习差距,我们将判别式训练纳入到标记到 voken 训练中,以修改学习方向。大量实验证明,AVG 在效果和效率上均取得了优越的结果。
论文链接: https://arxiv.org/abs/2407.17274
SCIsegV2:用于脊髓损伤髓内病变分割的通用工具
原标题: SCIsegV2: A Universal Tool for Segmentation of Intramedullary Lesions in Spinal Cord Injury
作者: Enamundram Naga Karthik, Jan Valošek, Lynn Farner, Dario Pfyffer, Simon Schading-Sassenhausen, Anna Lebret, Gergely David, Andrew C. Smith, Kenneth A. Weber II, Maryam Seif, RHSCIR Network Imaging Group, Patrick Freund, Julien Cohen-Adad
机构: 蒙特利尔理工学院 魁北克人工智能研究所 奥洛穆茨帕拉奇大学 苏黎世大学 斯坦福大学医学院 科罗拉多大学医学院 马克斯普朗克人类认知和大脑科学研究所 圣艾蒂安医院
摘要: 脊髓损伤(SCI)是一种毁灭性事件,导致永久性瘫痪和感觉-运动功能丧失,可能导致脊髓内形成病变。从磁共振成像(MRI)扫描中获得的成像生物标志物可以预测SCI患者的功能恢复,并帮助选择最佳治疗策略。目前,大多数研究采用手动量化这些MRI衍生生物标志物,这是一项主观且繁琐的任务。在这项工作中,我们提出(i)一种用于自动分割脊髓内SCI病变的通用工具,名为\texttt{SCIsegV2},以及(ii)一种自动计算分割病变组织桥宽度的方法。组织桥代表与病变相邻的脊髓保留组织,与SCI患者的功能恢复相关。该工具在来自7个不同SCI阶段(急性、亚急性和慢性)和病因(创伤性SCI、缺血性SCI和退行性颈髓病)的患者构成的异质数据集上进行了训练和验证。自动量化的组织桥与手动计算的结果没有显著差异,表明所提出的自动工具可用于提取相关的MRI生物标志物。\texttt{SCIsegV2}和自动组织桥计算是开源的,并可通过脊髓工具箱(版本6.4及以上)中的\texttt{sct_deepseg -task seg_sc_lesion_t2w_sci}和\texttt{sct_analyze_lesion}函数获得。
论文链接: https://arxiv.org/abs/2407.17265
通过卷积神经网络生成合成轨迹
原标题: Synthetic Trajectory Generation Through Convolutional Neural Networks
作者: Jesse Merhi, Erik Buchholz, Salil S. Kanhere
机构: 新南威尔士大学 澳大利亚 澳大利亚国立科学与工业研究组织数据61部门 网络安全CRC
摘要: 位置轨迹为从城市规划到疫情控制等各种应用提供了宝贵的见解。然而,移动数据也可能泄露有关个人的敏感信息,如政治观点、宗教信仰或性取向。现有的用于发布这些数据的隐私保护方法面临着重要的效用-隐私权衡。通过深度学习生成的发布合成轨迹数据提供了一种有前途的解决方案。由于轨迹的序贯性质,大多数现有模型基于循环神经网络(RNNs)。然而,生成对抗网络(GANs)领域的研究主要使用卷积神经网络(CNNs)进行图像生成。这种差异引发了一个问题,即计算机视觉的进展是否可以应用于轨迹生成。在这项工作中,我们引入了一种可逆的轨迹到CNN转换(RTCT),将轨迹调整为适合基于CNN的模型的格式。我们将这种转换与著名的DCGAN集成在一个概念验证中,并使用两个数据集跨四个指标评估其性能,与基于RNN的轨迹GAN相比。与RNN模型相比,概念验证在捕获空间分布方面表现优越,但在复制序贯和时间属性方面存在困难。尽管概念验证的效用不足以用于实际应用,但结果表明了这种转换促进CNN用于轨迹生成的潜力,为未来研究开辟了途径。为支持持续研究,所有源代码均已根据开源许可证提供。
论文链接: https://arxiv.org/abs/2407.16938
Github: https://github.com/jesse-merhi/CNN-TRAJGAN
在联网自动驾驶车辆的驾驶理论知识和技能上测试大语言模型
原标题: Testing Large Language Models on Driving Theory Knowledge and Skills for Connected Autonomous Vehicles
作者: Zuoyin Tang, Jianhua He, Dashuai Pei, Kezhong Liu, Tao Gao
机构: 清华大学 百度 阿里巴巴
摘要: 处理长尾边缘案例是自动驾驶车辆(AVs)面临的主要挑战。虽然大语言模型(LLMs)在处理边缘案例方面具有巨大潜力,具有出色的泛化和解释能力,并且在应用于自动驾驶方面引起了越来越多的研究兴趣,但仍然存在一些技术障碍需要解决,例如LLMs的严格模型性能和巨大的计算资源需求。在本文中,我们研究了一种新的方法,即应用远程或边缘LLMs来支持自动驾驶。这种LLM辅助驾驶系统的关键问题是评估LLMs对驾驶理论和技能的理解,确保它们有资格承担CAVs的安全关键驾驶辅助任务。我们为几种专有LLM模型(OpenAI GPT模型、百度Ernie和阿里QWen)以及开源LLM模型(清华MiniCPM-2B和MiniCPM-Llama3-V2.5)设计并运行了驾驶理论测试,其中包含500多个多选理论测试题。实验从模型准确性、成本和处理延迟等方面进行了测量。实验结果显示,虽然GPT-4模型通过了测试,具有改进的领域知识,Ernie的准确率为85%(略低于86%的及格门槛),其他LLM模型包括GPT-3.5未能通过测试。对于带有图像的测试问题,多模态模型GPT4-o具有96%的优秀准确率结果,而MiniCPM-Llama3-V2.5实现了76%的准确率。虽然GPT-4在CAV驾驶辅助应用方面具有更强的潜力,但使用GPT4模型的成本要高得多,几乎是使用GPT3.5的50倍。这些结果有助于决定是否使用现有的LLMs进行CAV应用,并在模型性能和成本之间取得平衡。
论文链接: https://arxiv.org/abs/2407.17211
合成数据,基于相似性的隐私度量以及监管(不)合规
原标题: Synthetic Data, Similarity-based Privacy Metrics, and Regulatory (Non-)Compliance
作者: Georgi Ganev
摘要: 在这篇论文中,我们认为基于相似性的隐私度量无法确保合成数据的监管合规性。我们的分析和反例表明,它们无法防止个体被识别和链接性,并且在其他基本问题中完全忽略了激励入侵者测试。
论文链接: https://arxiv.org/abs/2407.16929
在连续时间线性二次强化学习中,一个演员-评论家算法的次线性后悔
原标题: Sublinear Regret for An Actor-Critic Algorithm in Continuous-Time Linear-Quadratic Reinforcement Learning
作者: Yilie Huang, Yanwei Jia, Xun Yu Zhou
机构: 清华大学 哈尔滨工业大学
摘要: 我们研究了一类连续时间线性二次(LQ)控制问题的强化学习(RL),其中扩散的波动性取决于状态过程和控制变量。我们采用了一种无模型的方法,既不依赖于模型参数的知识,也不依赖于它们的估计,并设计了一个演员-评论家算法来直接学习最优策略参数。我们的主要贡献包括引入了一种新颖的探索计划和对所提出算法的遗憾分析。我们提供了策略参数收敛到最优参数的收敛速率,并证明该算法在对数因子内达到了 O ( N 3 4 ) O(N^{\frac{3}{4}}) O(N43)的遗憾界。我们进行了模拟研究以验证理论结果,并展示了所提出算法的有效性和可靠性。我们还在最近针对状态和控制相关波动性设置的基于模型的随机LQ RL研究方法与我们的方法之间进行了数值比较,表明前者在遗憾界方面表现更好。
论文链接: https://arxiv.org/abs/2407.17226
教育中的非语言即时性分析:一个多模态计算模型
原标题: Nonverbal Immediacy Analysis in Education: A Multimodal Computational Model
作者: Uroš Petković, Jonas Frenkel, Olaf Hellwich, Rebecca Lazarides
机构: 柏林工业大学 德国 波茨坦大学 维也纳大学
摘要: 这篇论文介绍了一种新颖的计算方法,用于分析教育环境中的非语言社交行为。该模型整合了多模态行为线索,包括面部表情、手势强度和空间动态,评估了教师的非语言亲近度(NVI),从 RGB 教室视频中进行评估。构建了一个包含来自德国教室的 400 个 30 秒视频片段的数据集,用于模型的训练和验证。手势强度回归器达到了 0.84 的相关性,感知距离回归器为 0.55,NVI 模型为 0.44,与人类评分的中位数相符。该模型展示了在非语言行为评估中提供有价值支持的潜力,接近个体人类评分者的准确性。通过问卷数据和训练观察者评分的验证,我们的模型与相关教育结果显示出中等到较强的相关性,表明它们在反映有效教学行为方面的功效。这项研究推动了对非语言沟通行为的客观评估,为教育研究开辟了新的途径。
论文链接: https://arxiv.org/abs/2407.17209
朝向在不确定性下通过 DSA 进行优化中风诊断和治疗的集成决策框架
原标题: Toward an Integrated Decision Making Framework for Optimized Stroke Diagnosis with DSA and Treatment under Uncertainty
作者: Nur Ahmad Khatim, Ahmad Azmul Asmar Irfan, Amaliya Mata’ul Hayah, Mansur M. Arief
机构: Institut Teknologi Sepuluh Nopember (ITS) Universitas Islam Negeri (UIN) Syarif Hidayatullah Stanford University
摘要: 这项研究探讨了在不确定性条件下进行中风诊断和治疗的挑战,这是一个关键问题,考虑到中风病况(如动脉瘤、动静脉畸形和闭塞)的快速发展和严重后果。当前的诊断方法,包括数字减影血管造影(DSA),由于高昂的成本和侵入性而面临限制。为了克服这些挑战,我们提出了一种使用部分可观察马尔可夫决策过程(POMDP)框架的新方法。我们的模型将先进的诊断工具和治疗方法与决策算法整合在一起,考虑中风诊断中固有的不确定性。我们的方法结合了来自CT扫描、Siriraj评分和DSA报告的嘈杂观测,以指导后续的治疗选择。我们利用在线求解器DESPOT,该求解器采用树搜索方法和粒子滤波器,模拟潜在的未来情景并指导我们的策略。结果表明,我们的POMDP框架平衡了诊断和治疗目标,在需要通过DSA等侵入性程序进行精确中风识别和有限医疗资源约束下,通过仅依靠模拟展开而不施加任何先验知识的更具成本效益的策略(如住院或在家观察)。我们的研究通过提出一个系统框架,最优地整合了中风诊断和治疗过程,并考虑了各种不确定性,从而改善了中风管理中的护理和结果。
论文链接: https://arxiv.org/abs/2407.16962
迈出一步,重新考虑:序列解码用于自我改进的神经组合优化
原标题: Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization
作者: Jonathan Pirnay, Dominik G. Grimm
机构: 慕尼黑工业大学 应用科学大学魏恩斯特芬-特里斯多夫
摘要: 在神经组合优化(NCO)中,建设性方法将组合优化问题视为有限的马尔可夫决策过程,其中解决方案是通过神经策略网络引导的一系列决策逐步构建的。为了训练这个策略,最近的研究正转向一种“自我改进”的学习方法,以解决强化学习和监督方法的局限性。在这种方法中,策略被迭代地以监督方式训练,从当前策略中得出的解决方案被用作伪标签。从策略中获得这些解决方案的方式决定了伪标签的质量。在本文中,我们提出了一种简单且与问题无关的基于无重复抽样序列解码方法,用于基于自我改进学习。我们逐步遵循找到的最佳解决方案,并从中间部分解决方案重复抽样过程。通过修改策略以忽略先前抽样的序列,我们迫使其仅考虑未见的替代方案,从而增加解决方案的多样性。对于旅行推销员问题和容量车辆路径问题的实验结果表明了其出色的性能。此外,我们的方法在作业车间调度问题上优于先前的NCO方法。
论文链接: https://arxiv.org/abs/2407.17206
ALPI:使用仅有2D标签的自动标注器和代理注入进行3D物体检测
原标题: ALPI: Auto-Labeller with Proxy Injection for 3D Object Detection using 2D Labels Only
作者: Saad Lahlali, Nicolas Granger, Hervé Le Borgne, Quoc-Cuong Pham
机构: 巴黎-萨克雷大学 CEA List
摘要: 3D物体检测在自动驾驶车辆、机器人和增强现实等各种应用中发挥着至关重要的作用。然而,训练3D检测器需要昂贵的精确标注,这阻碍了将标注扩展到大型数据集。为了解决这一挑战,我们提出了一种仅依赖于图像中的2D边界框标注和尺寸先验的弱监督3D标注器。一个主要问题是,仅使用2D框监督3D检测模型是不可靠的,因为不同3D姿势之间以及它们相同的2D投影之间存在歧义。我们引入了一种简单而有效的通用解决方案:通过构建带有注释的3D代理对象,并将其添加到训练数据集中。我们的方法仅需要尺寸先验来适应新类别。为了更好地将2D监督与3D检测对齐,我们的方法确保了深度不变性,并采用了一种新颖的表达方式来处理2D损失。最后,为了检测更具挑战性的实例,我们的标注器遵循一种离线伪标记方案,逐渐改进其3D伪标签。对KITTI数据集的大量实验证明,我们的方法不仅在汽车类别上表现与先前作品持平或更好,还在更具挑战性的类别上实现了接近完全监督方法的性能。我们进一步通过首次在更具挑战性的nuScenes数据集上进行实验来展示我们方法的有效性和稳健性。此外,我们提出了一种设置,其中弱标签是从在MS-COCO上预训练的2D检测器而不是人类注释中获得的。
论文链接: https://arxiv.org/abs/2407.17197
在事件和发生标签噪声下的稳健深度 Hawkes 过程
原标题: Robust Deep Hawkes Process under Label Noise of Both Event and Occurrence
作者: Xiaoyu Tan, Bin Li, Xihe Qiu, Jingjing Huang, Yinghui Xu, Wei Chu
机构: INF科技(上海)有限公司 上海工程科技大学 复旦大学眼耳鼻喉医院 福建大学
摘要: 将深度神经网络与 Hawkes 过程相结合,在金融、健康信息学和信息技术领域显著提高了预测能力。然而,这些模型在现实世界中经常面临挑战,特别是由于大量标签噪声。这个问题在医疗领域尤为重要,标签噪声可能来自电子病历的延迟更新或误诊,从而增加了预测风险。我们的研究表明,深度 Hawkes 过程模型在处理标签噪声时表现出较低的鲁棒性,特别是当标签噪声影响事件类型和时间时。为了解决这些挑战,我们首先研究了近似强度函数中标签噪声的影响,并提出了一个新颖的框架,即鲁棒深度 Hawkes 过程(RDHP),以克服标签噪声对 Hawkes 模型强度函数的影响,考虑到事件及其发生次数。我们使用多个开源基准测试对 RDHP 进行了测试,包括合成噪声,并在具有固有标签噪声的真实环境中对阻塞性睡眠呼吸暂停低通气综合征(OSAHS)进行了案例研究。结果表明,RDHP 能够有效地执行分类和回归任务,即使存在与事件及其时间相关的噪声。据我们所知,这是第一项成功解决深度 Hawkes 过程模型中事件和时间标签噪声的研究,为医疗应用提供了一个有前途的解决方案,特别是在诊断 OSAHS 方面。
论文链接: https://arxiv.org/abs/2407.17164
XMeCap:具有子图像适应性的模因标题生成
原标题: XMeCap: Meme Caption Generation with Sub-Image Adaptability
作者: Yuyan Chen, Songzhou Yan, Zhihong Zhu, Zhixu Li, Yanghua Xiao
机构: 复旦大学 北京大学
摘要: 幽默,深植于社会意义和文化细节之中,对机器提出了独特挑战。虽然在自然语言处理方面取得了进展,但现实世界中的幽默往往在多模态环境中蓬勃发展,独特地被表征为“模因”。本文特别强调多图像对模因字幕的影响。在此之后,我们介绍了\textsc{XMeCap}框架,这是一种采用监督微调和基于创新奖励模型的强化学习的新方法,该模型考虑了视觉和文本之间的全局和局部相似性。我们的结果与当代模型进行了基准测试,在单图像和多图像模因的字幕生成方面表现出明显改进,以及不同的模因类别。\textsc{XMeCap}在单图像模因和多图像模因的平均评估分数分别为75.85和66.32,分别比最佳基准线高出3.71%和4.82%。这项研究不仅在与模因相关的研究中确立了新的前沿,而且强调了机器在理解和生成多模态环境中的幽默潜力。
论文链接: https://arxiv.org/abs/2407.17152
SoNIC:具有自适应符合推理和受限强化学习的安全社交导航
原标题: SoNIC: Safe Social Navigation with Adaptive Conformal Inference and Constrained Reinforcement Learning
作者: Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li
机构: 清华大学 百度
摘要: 强化学习(RL)使社交机器人能够在不需要人为设计规则或干预的情况下生成轨迹,这使得它比硬编码系统更有效地泛化到复杂的现实场景中。然而,社交导航是一项安全关键任务,要求机器人在避免与行人碰撞的同时,以前基于RL的解决方案在复杂环境中的安全性能表现不佳。为了增强RL策略的安全性,在我们所知范围内,我们提出了第一个算法SoNIC,它将自适应符合推断(ACI)与受限强化学习(CRL)相结合,为社交导航学习安全策略。更具体地说,我们的方法通过ACI生成的非符合分数增强了RL观察,并为智能体提供明确指导,以利用不确定性度量来避免安全关键区域,通过将安全约束与空间放松相结合。我们的方法在安全性和遵守社交规范方面大幅优于最先进的基线,并且在面对分布之外的场景时表现出更强的鲁棒性。我们的代码和视频演示可在我们的项目网站上找到:此处的网址。
论文链接: https://arxiv.org/abs/2407.17460
Github: https://sonic-social-nav.github.io/
HumanVid:揭秘相机可控人体图像动画的训练数据
原标题: HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation
作者: Zhenzhi Wang, Yixuan Li, Yanhong Zeng, Youqing Fang, Yuwei Guo, Wenran Liu, Jing Tan, Kai Chen, Tianfan Xue, Bo Dai, Dahua Lin
机构: 香港中文大学 上海人工智能实验室
摘要: 人物图像动画涉及从人物照片生成视频,允许用户控制,并释放视频和电影制作的潜力。尽管最近的方法利用高质量的训练数据取得了令人印象深刻的结果,但这些数据集的不可访问性阻碍了公平和透明的基准测试。此外,这些方法优先考虑2D人体运动,忽视了视频中摄像机运动的重要性,导致控制能力有限且视频不稳定。为了揭开训练数据的神秘面纱,我们提出了HumanVid,这是第一个专为人物图像动画量身定制的大规模高质量数据集,结合了精心制作的真实世界数据和合成数据。对于真实世界数据,我们从互联网上收集了大量免版权的真实世界视频。通过精心设计的基于规则的过滤策略,我们确保包含高质量视频,最终形成了一组包含20K个以人为中心的1080P分辨率视频的集合。人体和摄像机运动注释是通过2D姿势估计器和基于SLAM的方法完成的。对于合成数据,我们收集了2,300个免版权的3D头像资产,以增强现有的可用3D资产。值得注意的是,我们引入了基于规则的摄像机轨迹生成方法,使合成流水线能够融入多样化和精确的摄像机运动注释,这在真实世界数据中很少见。为验证HumanVid的有效性,我们建立了一个名为CamAnimate的基准模型,即可控制摄像机的人物动画,考虑了人体和摄像机运动作为条件。通过广泛的实验,我们证明了在我们的HumanVid上进行的这种简单基准训练实现了控制人体姿势和摄像机运动的最先进性能,创造了一个新的基准。代码和数据将在\url{此https URL}上公开提供。
论文链接: https://arxiv.org/abs/2407.17438
其他链接: http://generation.To
参数高效微调用于持续学习:一种神经切线核视角
原标题: Parameter-Efficient Fine-Tuning for Continual Learning: A Neural Tangent Kernel Perspective
作者: Jingren Liu, Zhong Ji, YunLong Yu, Jiale Cao, Yanwei Pang, Jungong Han, Xuelong Li
机构: 清华大学 西安交通大学
摘要: 参数高效微调连续学习(PEFT-CL)在适应预训练模型到顺序任务并缓解灾难性遗忘问题方面显示出潜力。然而,在这一范式中决定连续性表现的机制仍然难以捉摸。为了解决这种复杂性,我们对PEFT-CL动态进行了严格分析,利用神经切向核(NTK)理论推导出相关的连续情景指标。借助NTK作为数学分析工具,我们将测试时间遗忘的挑战重新构建为训练期间的可量化泛化差距,识别影响这些差距和PEFT-CL性能的三个关键因素:训练样本大小、任务级特征正交性和正则化。为了解决这些挑战,我们引入了NTK-CL,这是一个消除任务特定参数存储的新框架,同时自适应生成与任务相关的特征。符合理论指导,NTK-CL将每个样本的特征表示三倍化,从理论和经验上减少了任务相互作用和任务特定泛化差距的幅度。基于NTK分析,我们的方法施加了自适应指数移动平均机制和对任务级特征正交性的约束,保持任务内NTK形式同时减弱任务间NTK形式。最终,通过使用适当的正则化微调可优化参数,NTK-CL在已建立的PEFT-CL基准上实现了最先进的性能。这项工作为理解和改进PEFT-CL模型提供了理论基础,提供了关于特征表示、任务正交性和泛化之间相互作用的见解,有助于开发更高效的连续学习系统。
论文链接: https://arxiv.org/abs/2407.17120
为什么机器无法具备道德:图灵停机问题与人工智能的道德界限
原标题: Why Machines Can’t Be Moral: Turing’s Halting Problem and the Moral Limits of Artificial Intelligence
作者: Massimo Passamonti
机构: 剑桥大学 未来智能中心
摘要: 在这篇文章中,我认为通过自底向上的方法推断道德原则的明确道德机器无法复制类似于人类的道德推理,也不能被视为道德代理。通过利用艾伦·图灵的计算理论,我证明了这些机器在道德推理方面由于停机问题而无法进行计算。我通过将道德问题形式化为“算法道德问题”并探索道德心理学的双过程模型来解决机器伦理学的前沿问题。尽管图灵机的性质理论上允许人工智能代理参与递归道德推理,但停机问题引入了关键限制,即无法确定地预测计算过程是否会停机。一个涉及军用无人机的思想实验说明了这个问题,表明人工智能代理可能由于停机问题而无法在行动之间做出决定,这限制了代理在所有情况下做出决策的能力,削弱了其道德代理性。
论文链接: https://arxiv.org/abs/2407.16890
EverAdapt:面向动态机器故障诊断环境的持续适应
原标题: EverAdapt: Continuous Adaptation for Dynamic Machine Fault Diagnosis Environments
作者: Edward, Mohamed Ragab, Yuecong Xu, Min Wu, Yuecong Xu, Zhenghua Chen, Abdulla Alseiari, Xiaoli Li
机构: 清华大学 哈尔滨工业大学
摘要: 无监督领域自适应(UDA)已成为数据驱动故障诊断中的关键解决方案,解决了模型在不断变化的环境中表现不佳的领域转移问题。然而,在不断变化的环境中,UDA在适应新领域时往往在先前看到的领域上表现不佳 - 这一问题被称为灾难性遗忘。为了解决这一局限性,我们引入了EverAdapt框架,专门设计用于在动态环境中进行连续模型适应。EverAdapt的核心是一种新颖的连续批归一化(CBN),它利用源域统计信息作为参考点,以标准化跨领域的特征表示。EverAdapt不仅保留了先前领域的统计信息,还有效地适应了新场景。为了补充CBN,我们设计了一个类条件域对齐模块,用于有效整合目标领域,并采用了一种样本高效回放策略来加强记忆保留。对真实世界数据集的实验表明,EverAdapt在动态环境中保持稳健的故障诊断能力。我们的代码可在此链接找到:https://这里是URL。
论文链接: https://arxiv.org/abs/2407.17117
Github: https://github.com/mohamedr002/EverAdapt
神经对决老虎机
原标题: Neural Dueling Bandits
作者: Arun Verma, Zhongxiang Dai, Xiaoqiang Lin, Patrick Jaillet, Bryan Kian Hsiang Low
机构: 新加坡国立大学 麻省理工学院
摘要: 上下文对抗性强盗算法被用来建模强盗问题,其中学习者的目标是利用对过去上下文中选择的手臂的观察到的有噪声的偏好反馈,找到给定上下文中的最佳手臂。然而,现有算法假设奖励函数是线性的,在许多现实应用中,如在线推荐或排名网络搜索结果中,奖励函数可能是复杂的和非线性的。为了克服这一挑战,我们使用神经网络来估计奖励函数,利用先前选择的手臂的偏好反馈。我们提出了基于上限置信度和汤普森抽样的算法,具有次线性遗憾保证,可以在每一轮高效地选择手臂。然后,我们将我们的理论结果扩展到具有二进制反馈的上下文强盗问题,这本身就是一个非平凡的贡献。从合成数据集派生的问题实例上的实验结果证实了我们的理论结果。
论文链接: https://arxiv.org/abs/2407.17112
PiPa++:通过自监督学习实现领域自适应语义分割的统一化
原标题: PiPa++: Towards Unification of Domain Adaptive Semantic Segmentation via Self-supervised Learning
作者: Mu Chen, Zhedong Zheng, Yi Yang
机构: IEEE
摘要: 无监督领域自适应分割旨在提高模型在目标领域上的分割准确性,而无需依赖来自这些领域的标记数据。当标记的目标领域数据稀缺或不可用时,这种方法至关重要。它旨在调整源领域(具有标记数据的地方)和目标领域(只有未标记数据的地方)的特征表示,从而使模型能够很好地泛化到目标领域。当前的图像和视频级领域自适应已经使用不同和专门的框架、训练策略和优化方法来解决,尽管它们具有潜在的联系。在本文中,我们提出了一个统一的框架 PiPa++,它利用“比较”的核心思想来(1)明确鼓励学习具有类内紧凑性和类间可分性的像素级特征,(2)促进相同补丁针对不同上下文或波动的稳健特征学习,以及(3)在动态环境下实现时间连续性的学习。通过设计的任务智能对比采样策略,PiPa++ 能够根据任务需求挖掘更多信息丰富的训练样本。大量实验证明了我们的方法在图像级和视频级领域自适应基准上的有效性。此外,所提出的方法与其他无监督领域自适应方法兼容,可以进一步提高性能而不引入额外参数。
论文链接: https://arxiv.org/abs/2407.17101
通过 k-稀疏注意力实现稳健的知识追踪模型
原标题: Towards Robust Knowledge Tracing Models via k-Sparse Attention
作者: Shuyan Huang, Zitao Liu, Xiangyu Zhao, Weiqi Luo, Jian Weng
机构: 国际思考学院 教育
摘要: 知识追踪(KT)是根据学生的历史互动序列来预测他们未来表现的问题。随着捕获上下文长期依赖能力的提升,注意力机制成为许多基于深度学习的KT(DLKT)模型中的重要组成部分之一。尽管这些注意力DLKT模型取得了令人印象深刻的性能,但它们中的许多往往容易过拟合风险,特别是在小规模教育数据集上。因此,在本文中,我们提出了\sparseKT,这是一个简单而有效的框架,用于提高基于注意力的DLKT方法的鲁棒性和泛化能力。具体而言,我们引入了一个k-选择模块,仅选择具有最高注意力分数的项目。我们提出了两种稀疏化启发式方法:(1)软阈值稀疏注意力和(2)前K个稀疏注意力。我们展示了我们的\sparseKT能够帮助注意力KT模型摆脱不相关的学生互动,并在三个公开可用的真实教育数据集上与11种最先进的KT模型相比具有可比较的预测性能。为了鼓励可重现的研究,我们将我们的数据和代码公开发布在\url{this https URL}。\footnote{我们将我们的模型合并到\textsc{pyKT}基准测试中,网址为\url{this https URL}。}
论文链接: https://arxiv.org/abs/2407.17097
Github: https://github.com/pykt-team/pykt-toolkit
A ∗ A^* A∗用于凸集图
原标题: A ∗ A^* A∗ for Graphs of Convex Sets
作者: Kaarthik Sundar, Sivakumar Rathinam
摘要: 我们提出了一种新颖的算法,将现有的基于凸规划的方法与启发式信息相结合,以找到凸集图中最短路径问题(SPP-GCS)的最优性保证和接近最优路径。我们的方法受 A ∗ A^* A∗启发,从指定的顶点子集开始一个类似最佳优先的过程,并迭代地扩展它,直到进一步增长既不可能也不有益为止。传统上,获得带有优化问题界限的解涉及解决一个松弛问题,将松弛解修改为可行解,然后比较这两个解以建立界限。然而,对于SPP-GCS,我们证明了颠倒这个过程可能更有优势,特别是在欧几里得旅行成本方面。换句话说,我们最初使用 A ∗ A^* A∗来找到SPP-GCS的一个可行解,然后解决一个限制在 A ∗ A^* A∗探索的顶点上的凸松弛问题以获得一个松弛解,最后,比较这些解以得出界限。我们提供数值结果来突出我们的算法相对于现有方法在解决的凸规划大小和计算时间方面的优势。
论文链接: https://arxiv.org/abs/2407.17413
OVR:用于视频中开放词汇时序重复计数的数据集
原标题: OVR: A Dataset for Open Vocabulary Temporal Repetition Counting in Videos
作者: Debidatta Dwibedi, Yusuf Aytar, Jonathan Tompson, Andrew Zisserman
机构: 谷歌 Deepmind
摘要: 我们介绍了一个视频中时间重复注释的数据集。该数据集 OVR(发音为over)包含超过72K个视频的注释,每个注释指定了重复次数、重复的开始和结束时间,以及重复内容的自由形式描述。这些注释是为来自Kinetics和Ego4D的视频提供的,因此涵盖了Exo和Ego观看条件,涵盖了各种动作和活动。此外,OVR几乎比以前用于视频重复的数据集大一个数量级。我们还提出了一个基于Transformer的基准计数模型OVRCounter,可以定位和计算长达320帧的视频中的重复。该模型在OVR数据集上进行了训练和评估,并通过使用文本来指定要计数的目标类别以及不使用文本来评估其性能。性能还与先前的重复计数模型进行了比较。该数据集可在以下网址下载:此https网址。
论文链接: https://arxiv.org/abs/2407.17085
其他链接: https://sites.google.com/view/openvocabreps/
视觉提示通过一个循环超网络定位良好的结构稀疏性。
原标题: (PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork
作者: Tianjin Huang, Fang Meng, Li Shen, Fan Liu, Yulong Pei, Mykola Pechenizkiy, Shiwei Liu, Tianlong Chen
机构: 埃因霍温科技大学 艾克塞特大学 利物浦大学 中山大学
摘要: 大规模神经网络在视觉和语言处理等不同领域展示了卓越的性能,尽管以大量计算资源为代价。正如压缩文献所示,结构模型剪枝是一种突出的算法,可以促进模型效率,得益于其加速友好的稀疏模式。结构剪枝的一个关键问题是如何估计通道的重要性。与此同时,关于以数据为中心的人工智能的研究表明,基于提示的技术使大型语言模型在各种下游任务中实现了令人印象深刻的泛化能力。在本文中,我们调查了一个迷人的可能性 - 利用视觉提示来捕捉通道的重要性并推导高质量的结构稀疏性。为此,我们提出了一种新颖的算法框架,即 \texttt{PASS}。它是一个定制的超网络,以视觉提示和网络权重统计数据作为输入,并以递归方式输出逐层通道稀疏性。这样的设计考虑了层间固有的通道依赖关系。在多个网络架构和六个数据集上进行的全面实验表明,\texttt{PASS} 在确定良好的结构稀疏性方面表现出优越性。例如,在相同的 FLOPs 水平上,\texttt{PASS} 子网络在 Food101 数据集上实现了 1 % ∼ 3 % 1\%\sim 3\% 1%∼3% 更好的准确度;或者在相同 80 % 80\% 80% 准确度的性能下,\texttt{PASS} 子网络比基线获得了 0.35 × 0.35\times 0.35× 的加速。
论文链接: https://arxiv.org/abs/2407.17412
当文本和图像不搭配:为异常检测校正偏见的语言-图像相似性分数
原标题: When Text and Images Don’t Mix: Bias-Correcting Language-Image Similarity Scores for Anomaly Detection
作者: Adam Goodge, Bryan Hooi, Wee Siong Ng
机构: 新加坡科技研究院 (A*STAR) 新加坡国立大学 (NUS)
摘要: 对比语言-图像预训练(CLIP)通过对齐图像和文本输入嵌入在各种下游任务中取得了显著的性能,并在异常检测方面展现了巨大潜力。然而,我们的实证实验证明,文本输入的嵌入意外地紧密聚集在一起,远离图像嵌入,与模型对齐图像-文本输入对的对比训练目标相悖。我们表明,这种现象引发了一种“相似性偏见”——由于图像与正常标签文本嵌入之间的相似性偏见导致了假阴性和假阳性错误。为了解决这种偏见,我们提出了一种名为BLISS的新方法,通过使用辅助的外部文本输入直接考虑这种相似性偏见。BLISS方法简单,不需要对异常行为有强烈的归纳偏见,也不需要昂贵的训练过程,并且在基准图像数据集上明显优于基准方法,即使对正常数据的访问非常有限。
论文链接: https://arxiv.org/abs/2407.17083
与AI从业者和AI合规专家共同设计AI影响评估报告模板
原标题: Co-designing an AI Impact Assessment Report Template with AI Practitioners and AI Compliance Experts
作者: Edyta Bogucka, Marios Constantinides, Sanja Šćepanović, Daniele Quercia
机构: 诺基亚贝尔实验室 剑桥 英国 国王学院伦敦 英国
摘要: 在不断发展的人工智能监管领域,公司进行影响评估并通过全面报告记录他们的合规性至关重要。然而,当前的报告缺乏对法规的基础,并经常只关注与人工智能系统相关的隐私等特定方面,而没有解决这些系统的实际用途。此外,目前没有系统性的努力来与人工智能从业者和合规专家共同设计和评估这些报告。为了填补这一空白,我们与14名人工智能从业者和6名合规专家进行了迭代式共同设计过程,并提出了一个基于欧盟人工智能法案、NIST的人工智能风险管理框架和ISO 42001人工智能管理系统的影响评估报告模板。我们通过为一家大型科技公司的基于人工智能的会议助手制作影响评估报告来评估该模板。一项涉及同一公司的8名人工智能从业者和来自工业界和学术界的5名合规专家的用户研究表明,我们的模板有效地提供了进行影响评估所需的信息,并记录了人工智能系统的广泛影响。参与者设想使用该模板不仅在预部署阶段用于合规性,还可作为指导人工智能使用设计阶段的工具。
论文链接: https://arxiv.org/abs/2407.17374
PatchFinder:一种用于开源软件中已公开漏洞的安全补丁追踪的两阶段方法
原标题: PatchFinder: A Two-Phase Approach to Security Patch Tracing for Disclosed Vulnerabilities in Open-Source Software
作者: Kaixuan Li, Jian Zhang, Sen Chen, Han Liu, Yang Liu, Yixiang Chen
机构: 华东师范大学 南洋理工大学 新加坡大陆-南洋理工大学企业实验室 天津大学 上海信任计算重点实验室
摘要: 开源软件(OSS)漏洞日益普遍,强调了安全补丁的重要性。然而,在诸如NVD之类的广泛使用的安全平台中,相当数量的CVE记录仍然缺乏与补丁的追踪链接。尽管已经提出了基于排名的方法来进行安全补丁追踪,但它们在单步框架中严重依赖手工制作的特征,从而限制了它们的有效性。在本文中,我们提出了PatchFinder,这是一个具有端到端相关性学习的两阶段框架,用于更好地追踪安全补丁。在初始检索阶段,我们采用混合补丁检索器,根据代码更改和CVE描述基于词汇和语义匹配,以缩小搜索空间,通过提取那些与CVE描述相似的提交作为候选者。随后,在重新排序阶段,我们设计了一个端到端架构,在监督微调范式下学习CVE描述和提交之间的语义相关性。通过这种方式,我们可以根据它们的相关性分数自动对候选者进行排名,同时保持低计算开销。我们对来自532个OSS项目的4,789个CVE进行了系统评估。结果非常令人鼓舞:PatchFinder实现了80.63%的Recall@10和0.7951的平均倒数排名(MRR)。此外,所需的Manual Effort@10被削减到2.77,比当前领先方法提高了1.94倍。在实践中应用PatchFinder时,我们最初确定了533个补丁提交,并将它们提交给官方,其中482个已被CVE编号机构确认。
论文链接: https://arxiv.org/abs/2407.17065
MuST:用于手术阶段识别的多尺度Transformer
原标题: MuST: Multi-Scale Transformers for Surgical Phase Recognition
作者: Alejandra Pérez, Santiago Rodríguez, Nicolás Ayobi, Nicolás Aparicio, Eugénie Dessevres, Pablo Arbeláez
机构: 安第斯大学 人工智能研究与培训中心
摘要: 在外科视频中进行阶段识别对于增强计算辅助外科系统至关重要,因为它能够实现对顺序程序阶段的自动化理解。现有方法通常依赖于固定的时间窗口进行视频分析,以识别动态外科阶段。因此,它们往往难以同时捕获必要的短期、中期和长期信息,以充分理解复杂的外科程序。为了解决这些问题,我们提出了用于外科阶段识别的多尺度Transformer(MuST),这是一种基于Transformer的新方法,它结合了多项框架编码器和时间一致性模块,以捕获外科视频的多个时间尺度上的信息。我们的多项框架编码器通过在感兴趣帧周围以递增的步幅采样序列,计算跨多个时间尺度的相互依赖关系。此外,我们在帧嵌入上使用长期Transformer编码器来进一步增强长期推理能力。MuST在三个不同的公共基准测试中实现了比先前最先进方法更高的性能。
论文链接: https://arxiv.org/abs/2407.17361
基于原始数据包的计算机网络安全威胁检测的人工智能方法初步研究
原标题: Preliminary study on artificial intelligence methods for cybersecurity threat detection in computer networks based on raw data packets
作者: Aleksander Ogonowski, Michał Żebrowski, Arkadiusz Ćwiek, Tobiasz Jarosiewicz, Konrad Klimaszewski, Adam Padee, Piotr Wasiuk, Michał Wójcik
摘要: 计算机网络中大多数入侵检测方法都基于流量特征。然而,这种方法可能无法充分利用深度学习算法直接从原始数据包中提取特征和模式的潜力。此外,由于需要等待处理流水线完成,这种方法阻碍了实时监控,并引入了对额外软件组件的依赖。
在本文中,我们研究了能够从网络流量中的原始数据包直接实时检测攻击的深度学习方法。我们提出了一种新颖的方法,其中数据包被堆叠成窗口并分别识别,使用适合计算机视觉模型处理的二维图像表示。我们的研究利用了包含良性流量和普遍的真实世界攻击的CIC IDS-2017数据集,为我们的研究提供了全面的基础。
论文链接: https://arxiv.org/abs/2407.17339
增强型深度学习方法和MRI选择技术在老年人群痴呆症诊断中的应用
原标题: Enhanced Deep Learning Methodologies and MRI Selection Techniques for Dementia Diagnosis in the Elderly Population
作者: Nikolaos Ntampakis, Konstantinos Diamantaras, Ioanna Chouvarda, Vasileios Argyriou, Panagiotis Sarigianndis
机构: 国际希腊大学、MetaMind创新、萨洛尼基亚里士多德大学、伦敦金斯顿大学、西马其顿大学
摘要: 痴呆症是一种影响全球数百万人的严重神经系统疾病,具有重要的诊断挑战。在这项工作中,我们介绍了一种新颖的方法,利用3D脑部磁共振成像(MRI)扫描对痴呆和非痴呆的老年患者进行分类。我们的方法采用一种独特的技术,选择性地处理MRI切片,侧重于最相关的脑部区域,并排除信息较少的部分。这种方法还配备了一个基于置信度的分类委员会,由三个定制的深度学习模型组成:Dem3D ResNet、Dem3D CNN和Dem3D EfficientNet。这些模型协同工作,增强决策准确性,利用它们的集体优势。在Open Access Series of Imaging Studies(OASIS)数据集上进行测试,我们的方法实现了令人印象深刻的94.12%准确率,超过了现有的方法。此外,在阿尔茨海默病神经影像研究倡议(ADNI)数据集上进行验证,证实了我们方法的稳健性和泛化能力。使用可解释人工智能(XAI)技术和全面的消融研究进一步证实了我们技术的有效性,提供了对决策过程的见解以及我们方法的重要性。这项研究在痴呆症诊断方面取得了重大进展,为临床应用提供了一种高度准确和高效的工具。
论文链接: https://arxiv.org/abs/2407.17324
通过多光谱成像增强环境监测:WasteMS数据集用于湖边废物的语义分割
原标题: Enhancing Environmental Monitoring through Multispectral Imaging: The WasteMS Dataset for Semantic Segmentation of Lakeside Waste
作者: Qinfeng Zhu, Ningxin Weng, Lei Fan, Yuanzhi Cai
机构: 西交利物浦大学 英国利物浦大学 CSIRO矿产资源
摘要: 湖畔绿地的环境监测对环境保护至关重要。与手动检查相比,计算机视觉技术在现场部署时提供了更高效的解决方案。多光谱成像提供了关于不同光谱下物体的多样信息,有助于区分废物和湖畔草坪环境。该研究介绍了 WasteMS,这是第一个用于湖畔废物语义分割的多光谱数据集。WasteMS 包含了草坪环境中各种类型的废物,在不同光照条件下捕获。我们实施了严格的注释过程来标记图像中的废物。采用代表性的语义分割框架来评估使用 WasteMS 进行分割的准确性。讨论了在湖畔草坪上使用 WasteMS 进行废物分割时遇到的挑战。WasteMS 数据集可在此 https URL 上获得。
论文链接: https://arxiv.org/abs/2407.17028
Github: https://github.com/zhuqinfeng1999/WasteMS
Pensieve 讨论:具有人工智能的可扩展小组计算机科学辅导系统
原标题: Pensieve Discuss: Scalable Small-Group CS Tutoring System with AI
作者: Yoonseok Yang, Jack Liu, J.D. Zamfirescu-Pereira, John DeNero
机构: Pensieve公司 UC伯克利
摘要: 计算机科学(CS)中的小组辅导是有效的,但面临着为每个小组提供专门的导师并在规模上鼓励小组成员合作的挑战。我们提出了Pensieve Discuss,这是一个软件平台,它将用于搭建编程问题的同步编辑与在线人工智能导师相结合,旨在提高学生在小组辅导会话期间的协作和体验。我们在一学期时间内向800名CS1课程的学生部署了这个系统,结果显示协作率持续较高,对AI导师的帮助和正确性反馈积极,对小组辅导体验的满意度提高,问题量显著增加。相比缺乏AI导师和同步编辑功能的界面,学生更喜欢使用我们的系统。我们的经验表明,小组辅导会话是未来教育人工智能研究的重要途径。
论文链接: https://arxiv.org/abs/2407.17007
Diffree:使用扩散模型进行文本引导的形状自由对象修复
原标题: Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
作者: Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji
机构: 厦门大学 香港大学 上海人工智能实验室
摘要: 这篇论文解决了仅凭文本指导对图像进行对象添加的重要问题。这是具有挑战性的,因为新对象必须与图像中的一致视觉背景(如光照、纹理和空间位置)无缝集成。虽然现有的文本引导图像修补方法可以添加对象,但它们要么无法保持背景一致性,要么涉及繁琐的人工干预,需要指定边界框或用户涂鸦蒙版。为了应对这一挑战,我们引入了Diffree,一个文本到图像(T2I)模型,可仅通过文本控制促进文本引导的对象添加。为此,我们通过先进的图像修补技术从中移除对象,精心策划了一个精美的合成数据集OABench。OABench包括74K个现实世界元组,包括原始图像、去除对象的修补图像、对象蒙版和对象描述。在OABench上使用稳定扩散模型进行训练,并配备额外的蒙版预测模块,Diffree独特地预测新对象的位置,并实现仅凭文本指导的对象添加。大量实验证明,Diffree在高成功率下添加新对象的同时,保持了背景一致性、空间适当性以及对象相关性和质量。
论文链接: https://arxiv.org/abs/2407.16982
基于 ViT 的相似度度量方法:通过增强视觉 Transformer 改进图像相似性解释
原标题: Case-Enhanced Vision Transformer: Improving Explanations of Image Similarity with a ViT-based Similarity Metric
作者: Ziwei Zhao, David Leake, Xiaomeng Ye, David Crandall
机构: 印第安纳大学 贝里学院
摘要: 这篇简短论文介绍了关于Case-Enhanced Vision Transformer (CEViT)的初步研究,这是一种旨在提高图像数据相似性评估可解释性的相似性测量方法。初步实验结果表明,将CEViT集成到k-最近邻(k-NN)分类中,可以实现与最先进的计算机视觉模型相媲美的分类准确性,同时增加了展示类别之间差异的能力。CEViT的解释可以受先前案例的影响,以说明与这些案例相关的相似性方面。
论文链接: https://arxiv.org/abs/2407.16981

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)