MiniMind-V 开源项目教程

【免费下载链接】minimind-v 🚀 「大模型」1小时从0训练26M参数的视觉多模态VLM!🌏 Train a 26M-parameter VLM from scratch in just 1 hours! 【免费下载链接】minimind-v 项目地址: https://gitcode.com/gh_mirrors/mi/minimind-v

1. 项目介绍

MiniMind-V 是一个开源的多模态视觉语言模型,它是基于 MiniMind 纯语言模型的视觉能力拓展。该项目提供了一个极简结构的视觉语言模型(VLM),并包含了数据集清洗、预训练、监督微调等全流程代码。MiniMind-V 的目标是使个人用户也能够在有限的成本下,快速训练并使用一个小型的多模态模型。

2. 项目快速启动

以下是快速启动 MiniMind-V 的步骤:

环境准备

确保你的环境中已安装以下依赖:

  • Python 3.10.16
  • CUDA 12.2
  • PyTorch(支持 GPU 版本)

你可以通过以下命令安装所需的 Python 包:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

克隆代码仓库

git clone https://github.com/jingyaogong/minimind-v.git
cd minimind-v

下载模型和数据集

  • 下载 Clip 模型到 ./model/vision_model 目录下:
git clone https://huggingface.co/openai/clip-vit-base-patch16 ./model/vision_model
  • 下载纯语言模型权重到 ./out 目录下:
# 选择合适的模型权重文件
# https://huggingface.co/jingyaogong/MiniMind2-V-PyTorch/blob/main/lm_512.pth
# https://huggingface.co/jingyaogong/MiniMind2-V-PyTorch/blob/main/lm_768.pth

测试已有模型效果

运行以下命令加载模型,并启动命令行问答模式或 WebUI:

# 命令行问答模式
python eval_vlm.py --load 1

# 启动 WebUI
python web_demo_vlm.py

从零开始自己训练

  • 数据下载:根据项目提供的数据集下载链接,下载所需的数据文件并解压到 ./dataset 目录下。

  • 开始训练:

# 预训练(学习图像描述)
python train_pretrain_vlm.py --epochs 4

# 监督微调(学习看图对话方式)
python train_sft_vlm.py --epochs 4

训练过程中,模型参数将默认每隔100步保存一次到 ./out/*.pth

3. 应用案例和最佳实践

  • 图像问答:使用训练好的 MiniMind-V 模型,可以实现对图像内容进行问答的功能。
  • 多模态交互:MiniMind-V 支持文本和图像的结合输入,使得在多模态交互场景中表现出色。

4. 典型生态项目

  • MiniMind:MiniMind 是 MiniMind-V 的基座语言模型,提供了强大的语言处理能力。
  • Clip:Clip 是一个开源的视觉模型,用于图像文本信息的编码,被 MiniMind-V 作为 Visual Encoder 使用。

【免费下载链接】minimind-v 🚀 「大模型」1小时从0训练26M参数的视觉多模态VLM!🌏 Train a 26M-parameter VLM from scratch in just 1 hours! 【免费下载链接】minimind-v 项目地址: https://gitcode.com/gh_mirrors/mi/minimind-v

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐