MiniMind-V 开源项目教程

MiniMind-V 开源项目教程1. 项目介绍MiniMind-V 是一个开源的多模态视觉语言模型，它是基于 MiniMind 纯语言模型的视觉能力拓展。该项目提供了一个极简结构的视觉语言模型（VLM），并包含了数据集清洗、预训练、监督微调等全流程代码。MiniMind-V 的目标是使个人用户也能够在有限的成本下，快速训练并使用一个小型的多模态模型。2. 项目快速启动以下是快速启动 Mi...

邓旭诚Kit

734人浏览 · 2025-04-08 10:19:56

邓旭诚Kit · 2025-04-08 10:19:56 发布

MiniMind-V 开源项目教程

【免费下载链接】minimind-v 🚀 「大模型」1小时从0训练26M参数的视觉多模态VLM！🌏 Train a 26M-parameter VLM from scratch in just 1 hours! 项目地址: https://gitcode.com/gh_mirrors/mi/minimind-v

1. 项目介绍

MiniMind-V 是一个开源的多模态视觉语言模型，它是基于 MiniMind 纯语言模型的视觉能力拓展。该项目提供了一个极简结构的视觉语言模型（VLM），并包含了数据集清洗、预训练、监督微调等全流程代码。MiniMind-V 的目标是使个人用户也能够在有限的成本下，快速训练并使用一个小型的多模态模型。

2. 项目快速启动

以下是快速启动 MiniMind-V 的步骤：

环境准备

确保你的环境中已安装以下依赖：

Python 3.10.16
CUDA 12.2
PyTorch（支持 GPU 版本）

你可以通过以下命令安装所需的 Python 包：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

克隆代码仓库

git clone https://github.com/jingyaogong/minimind-v.git
cd minimind-v

下载模型和数据集

下载 Clip 模型到 ./model/vision_model 目录下：

git clone https://huggingface.co/openai/clip-vit-base-patch16 ./model/vision_model

下载纯语言模型权重到 ./out 目录下：

# 选择合适的模型权重文件
# https://huggingface.co/jingyaogong/MiniMind2-V-PyTorch/blob/main/lm_512.pth
# https://huggingface.co/jingyaogong/MiniMind2-V-PyTorch/blob/main/lm_768.pth

测试已有模型效果

运行以下命令加载模型，并启动命令行问答模式或 WebUI：

# 命令行问答模式
python eval_vlm.py --load 1

# 启动 WebUI
python web_demo_vlm.py

从零开始自己训练

数据下载：根据项目提供的数据集下载链接，下载所需的数据文件并解压到 ./dataset 目录下。
开始训练：

# 预训练（学习图像描述）
python train_pretrain_vlm.py --epochs 4

# 监督微调（学习看图对话方式）
python train_sft_vlm.py --epochs 4

训练过程中，模型参数将默认每隔100步保存一次到 ./out/*.pth。

3. 应用案例和最佳实践

图像问答：使用训练好的 MiniMind-V 模型，可以实现对图像内容进行问答的功能。
多模态交互：MiniMind-V 支持文本和图像的结合输入，使得在多模态交互场景中表现出色。

4. 典型生态项目

MiniMind：MiniMind 是 MiniMind-V 的基座语言模型，提供了强大的语言处理能力。
Clip：Clip 是一个开源的视觉模型，用于图像文本信息的编码，被 MiniMind-V 作为 Visual Encoder 使用。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

【无标题】

本文总结了工业互联网网络运维技术学习成果，重点围绕华为HCIA课程展开。课程通过VRP系统实训，系统讲解了工业互联网底层网络技术，涵盖路由、交换、安全及IPv6四大板块。在路由技术方面，掌握了静态路由、OSPF动态路由的配置及工业应用场景；交换技术重点学习VLAN划分、生成树协议及VRRP网关冗余；安全技术包括ACL访问控制、AAA认证及NAT地址转换。课程强调理论与实践结合，通过十余项实操项目深

DAMO开发者矩阵

被滥用的“世界模型”：李飞飞万字长文厘清渲染、模拟与规划的底层逻辑

但现实是骨感的，虽然现在的机器人演示视频看起来很惊艳，但几乎所有的系统都局限于高度受限的实验室环境中，任务时间极短、面对的物体极少。这也是当前最难啃的硬骨头：带物理标注的三维数据极其稀缺，且多物理模拟（如流体、布料、刚体的交互）的计算成本高昂。比如 World Labs 推出的首个模型 Marble，就已经打破了渲染器和模拟器之间的界限，能从单一模型中同时输出用于视觉观看的“高斯泼溅（Gaussi

DAMO开发者矩阵

触觉的中间道路：压力中心表示如何打通灵巧操作的Sim-to-Real鸿沟

摘要：苏黎世联邦理工学院（ETH Zurich）与加州大学伯克利分校（UC Berkeley）的研究团队提出了一种基于物理的压力中心（Center-of-Pressure, CoP）触觉表示法，解决了机器人触觉Sim-to-Real迁移的难题。CoP将高密度触觉数据压缩为合力向量和等效接触点，既保留了力学信息，又对仿真偏差具有鲁棒性。该方法通过可微分应力分布模型和无需真值传感器的自校准技术，实现