Data-Juicer v1.3.0发布:数据集构建与执行引擎的重大重构

【免费下载链接】data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据! 【免费下载链接】data-juicer 项目地址: https://gitcode.com/gh_mirrors/da/data-juicer

Data-Juicer是阿里巴巴开源的一款数据预处理工具,专注于为大规模语言模型(LLM)提供高效、灵活的数据清洗和增强能力。该项目通过丰富的操作符和流程化处理,帮助研究人员和开发者快速构建高质量的训练数据集。

在最新发布的v1.3.0版本中,Data-Juicer对核心的数据集构建器和执行引擎进行了全面重构,带来了多项重要改进和新特性。这些变化不仅提升了工具的灵活性和扩展性,还显著增强了处理多样化数据源的能力。

数据集构建与执行引擎重构

本次版本最核心的改进是对数据集构建器和执行引擎的重构。新的架构采用了更加模块化和灵活的设计:

  1. YAML配置增强:现在可以通过YAML文件明确定义不同来源的数据集,本地和远程数据源可以分开配置,使得数据源管理更加清晰。

  2. 参数化控制:支持针对特定数据源的参数设置,包括验证规则和可扩展配置,为不同数据源提供定制化处理能力。

  3. 解耦执行引擎:执行引擎不再与特定数据格式(如本地JSON)强耦合,而是通过动态加载格式化器和下载器来确定输入格式,大大提高了灵活性。

  4. 数据格式验证:新增了数据格式验证功能,确保输入数据的格式一致性和正确性,减少因数据格式问题导致的处理错误。

扩展的数据源支持

重构后的架构为支持更多样化的数据源奠定了基础,v1.3.0版本新增了对以下数据源的支持:

  1. ModelScope集成:可以直接使用ModelScope平台上的数据集,简化了数据获取流程。

  2. ArXiv数据集:支持下载、解压和导入ArXiv学术论文数据集,为科研领域的数据处理提供了便利。

  3. Wikipedia数据集:新增对Wikipedia数据的支持,包括下载、解压和导入功能。

  4. Common Crawl集成:支持处理Common Crawl网络爬取数据,扩展了网络文本数据的处理能力。

其他重要特性

除了核心架构的重构,v1.3.0还带来了以下新特性和改进:

  1. 音频处理增强:新增音频添加高斯噪声操作符,为音频数据增强提供了更多选择。

  2. 动态覆盖率徽章:在项目README中添加了动态覆盖率徽章,提高了代码质量的透明度。

  3. 向后兼容性:保持了与现有数据集路径命令行语法的兼容性,确保现有工作流不受影响。

  4. 数据混合支持:新增动态数据混合功能,可以灵活组合多个数据集进行处理。

  5. 空格式化器支持:支持处理没有预定义配置文件的空格式化器和生成的数据集,提高了工具的适应性。

总结

Data-Juicer v1.3.0通过重构核心架构,显著提升了工具的灵活性、扩展性和数据处理能力。新的数据源支持和增强特性使其能够更好地服务于大规模语言模型的训练数据准备。这些改进不仅为现有用户提供了更强大的功能,也为未来功能的扩展奠定了坚实基础。

对于从事自然语言处理和机器学习的研究人员和开发者来说,升级到v1.3.0版本将能够体验到更高效、更灵活的数据处理流程,特别是在处理多样化数据源和构建复杂数据处理管道方面。

【免费下载链接】data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据! 【免费下载链接】data-juicer 项目地址: https://gitcode.com/gh_mirrors/da/data-juicer

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐