登录社区云,与社区用户共同成长
邀请您加入社区
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
作者|孙雨 阿里巴巴达摩院实习生 ReasonMed相关链接 论文链接:https://arxiv.org/abs/2506.09513 Hugging Face:https://huggingface.co/datasets/lingshu-medical-mllm/ReasonMed Code:https://github.com/alibaba-damo-academy/ReasonMe
作者|李龙阿里巴巴达摩院算法工程师 摘要 浙江大学和阿里巴巴达摩院的研究者们提出了一项名为创意链(Chain of Ideas,CoI)的创新研究。他们将文献组织成链的形式,引导模型像人类一样进行研究思考。基于 CoI,研究者们构建了一个智能体——CoI Agent。这个智能体能够通过输入一个文章主题或一篇论文,自动生成科学创意并设计对应实验。 目前项目论文、代码、Demo 均已经上线,CoI
作者|陈浩邦阿里巴巴达摩院算法工程师 摘要 近年来,大型多模态模型(MLLM)展现了惊人的信息处理潜力,但它们在理解真实世界的超长、复杂文档时,仍然面临巨大挑战。现有的基准也多侧重于短文档和抽取式问答,无法真实反映现实世界的复杂性。 为了解决这一难题,我们推出了M-LongDoc⸺一个专为超长多模态文档理解设计的全新基准和训练框架。这项工作不仅提出了更接近真实场景的“考题”,还设计了一种创新的
作者|陈桂臻阿里巴巴达摩院实习生 摘要 多模态大语言模型(MLLMs)在几何等视觉密集型推理任务中表现不佳,其核心问题在于模型的视觉感知瓶颈,制约了推理训练的效果。模型如果无法正确感知图像中的基本形状、角度和空间关系,就更无法解决复杂的几何问题。 为此,来自达摩院和新加坡南洋理工大学的研究团队提出了Geo-Perception Question-Answering(GeoPQA)基准来量化模型