MiniMind-V 开源项目教程
MiniMind-V 开源项目教程1. 项目介绍MiniMind-V 是一个开源的多模态视觉语言模型,它是基于 MiniMind 纯语言模型的视觉能力拓展。该项目提供了一个极简结构的视觉语言模型(VLM),并包含了数据集清洗、预训练、监督微调等全流程代码。MiniMind-V 的目标是使个人用户也能够在有限的成本下,快速训练并使用一个小型的多模态模型。2. 项目快速启动以下是快速启动 Mi...
·
MiniMind-V 开源项目教程
1. 项目介绍
MiniMind-V 是一个开源的多模态视觉语言模型,它是基于 MiniMind 纯语言模型的视觉能力拓展。该项目提供了一个极简结构的视觉语言模型(VLM),并包含了数据集清洗、预训练、监督微调等全流程代码。MiniMind-V 的目标是使个人用户也能够在有限的成本下,快速训练并使用一个小型的多模态模型。
2. 项目快速启动
以下是快速启动 MiniMind-V 的步骤:
环境准备
确保你的环境中已安装以下依赖:
- Python 3.10.16
- CUDA 12.2
- PyTorch(支持 GPU 版本)
你可以通过以下命令安装所需的 Python 包:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
克隆代码仓库
git clone https://github.com/jingyaogong/minimind-v.git
cd minimind-v
下载模型和数据集
- 下载 Clip 模型到
./model/vision_model目录下:
git clone https://huggingface.co/openai/clip-vit-base-patch16 ./model/vision_model
- 下载纯语言模型权重到
./out目录下:
# 选择合适的模型权重文件
# https://huggingface.co/jingyaogong/MiniMind2-V-PyTorch/blob/main/lm_512.pth
# https://huggingface.co/jingyaogong/MiniMind2-V-PyTorch/blob/main/lm_768.pth
测试已有模型效果
运行以下命令加载模型,并启动命令行问答模式或 WebUI:
# 命令行问答模式
python eval_vlm.py --load 1
# 启动 WebUI
python web_demo_vlm.py
从零开始自己训练
-
数据下载:根据项目提供的数据集下载链接,下载所需的数据文件并解压到
./dataset目录下。 -
开始训练:
# 预训练(学习图像描述)
python train_pretrain_vlm.py --epochs 4
# 监督微调(学习看图对话方式)
python train_sft_vlm.py --epochs 4
训练过程中,模型参数将默认每隔100步保存一次到 ./out/*.pth。
3. 应用案例和最佳实践
- 图像问答:使用训练好的 MiniMind-V 模型,可以实现对图像内容进行问答的功能。
- 多模态交互:MiniMind-V 支持文本和图像的结合输入,使得在多模态交互场景中表现出色。
4. 典型生态项目
- MiniMind:MiniMind 是 MiniMind-V 的基座语言模型,提供了强大的语言处理能力。
- Clip:Clip 是一个开源的视觉模型,用于图像文本信息的编码,被 MiniMind-V 作为 Visual Encoder 使用。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)