登录社区云,与社区用户共同成长
邀请您加入社区
作者|Xingyu Miao & Gongjie Zhang 引言 在大模型时代,Scaling Law是成功的关键因素之一。通过大规模、多样化的数据训练,模型能够在不同领域、任务和场景中实现良好的泛化能力。无论是语言、2D图像还是语音,数据量的扩展在各自的识别领域都证明了这一点。然而,3D视觉领域尚未实现类似的进展,核心问题在于缺乏足够规模和多样化的数据。 我们的目标是利用互联网上海量
作者|吴子杰阿里巴巴达摩院实习生 摘要 本文提出了一种前馈式的文本驱动通用网格动画生成网络,能够在数秒内根据文本描述生成具有不同拓扑结构和分辨率的高质量网格动画序列。该方法直接在顶点层面建模运动变化,探索了基于顶点运动预测的生成方式。为支持文本到网格动画的训练与评估,本文还构建了一个包含超过400万段动态网格序列的大规模数据集 DyMeshDataset,为4D内容生成的研究提供了新的数据资源。
作者|曹维维,阿里巴巴达摩院算法工程师 摘要 视觉语言预训练(VLP)在开放场景多病种辅助诊断方面具有巨大的潜力。然而,将具有低信噪比的医学图像与具有高信噪比的报告对齐存在语义密度差异,易导致视觉对齐偏差。 本文提出ViSD-Boost,通过提高视觉语义密度来促进对齐效果。我们在CT-RATE和Rad-ChestCT两个胸部CT数据集以及MedVL-CT69K腹部CT数据集上进行了广泛的实验,V
作者|阿里巴巴达摩院工程师 黄艺 引言 一种用于医学图像中管状物结构分割的新框架 HarmonySeg,通过深浅特征融合与生长-抑制平衡损失,在复杂影像环境下实现了对血管、气道等细长结构的高精度、高连通性分割。该方案突破了“标注缺失、小血管漏检、结构断裂”三大瓶颈,让模型在不依赖完美标注的前提下,也能像医生一样“该连的连上,该去的去掉”,实现解剖逻辑层面的合理补全。HarmonySeg 在肝脏血
作者|李自治,复旦大学研究生 引言 近年来,视频生成技术,尤其是基于扩散模型的文本到视频(T2V)和图像到视频(I2V)合成,取得了显著突破。然而,现有方法在运动控制与空间布局方面仍存在不足:T2V依赖文本提示,缺乏对空间结构的精确掌控;I2V虽能以图像作为起始条件提供空间基准,但受限于输入模态,缺乏灵活性与可扩展性。 针对这些挑战,我们提出 AnyI2V —— 一个全新的免训练视频生成框架。A
作者|帅欣成,复旦大学研究生 引言 第一个可以控制多物体与相机6D位姿的视频生成模型!通过构建覆盖多种场景和运动模式的大规模合成数据集SynFMC,使得模型中的相机和物体运动控制模块解耦地学习到全局相机运镜与局部的物体运动。 论文题目:《Free-Form Motion Control: Controlling the 6D Poses of Camera and Objects in Vid
作者|巢汉青,阿里巴巴达摩院算法专家 引言 全切片图像(WSI)是病理诊断的核心载体,但其超大尺寸与复杂的多尺度结构为AI分析带来了巨大挑战。现有方法多依赖两阶段流程或受限于注意力机制的计算瓶颈,难以兼顾效率与全局上下文建模。本文提出 Pixel-Mamba —— 一种全新的端到端WSI分析框架,实现从像素级输入到切片级预测的高效、统一建模。 Pixel-Mamba 结合 Mamba 架构的线
正在上传…重新上传取消