Label Studio 是一个开源的数据标注工具,支持多种数据类型(如文本、图像、音频、视频等)的标注工作。它提供了一个灵活且强大的界面,允许用户根据自己的需求定制标注任务。

1. 安装

pip install label-studio

2. 启动服务

label-studio start

注册自己的账户

3. 创建项目

登录后,点击“Create”按钮开始创建新项目

选择合适的标签模板或从头开始创建一个新的模板

假设我希望制作一个针对大模型回复的有害内容识别的标注任务:

1)选择模板 text classification

 2)直接在Code(XML语言)这里更改自己个性化的部分,不会代码的同学也可以直接在Visual部分设定。

这里简单介绍一下这里的语法:

Label Studio 的标签配置通常包含以下部分:

  1. <View>: 定义标注界面的布局。

  2. <Labels>: 定义标签选项,通常用于分类任务。

  3. <Text>: 用于文本标注任务。

  4. <Choices>: 用于多选或单选任务。

  5. <RectangleLabels>: 用于图像中的矩形框标注。

  6. <Relations>: 定义实体之间的关系。

name就是id,value如果是$<变量名称>,就是代表这个标签的值是从文件中读取的[后面导入部分再细讲], 如果没有$,那么就是代表标签的值

<!--动态加载-->
<Text name="original_question" value="$original_question"/>
<!--直接赋值-->
<Header value="Choose text sentiment"/>

toName是指把标签标注到哪个上面(根据id也就是name选择)

<Choices name="sentiment" toName="target_answer"
             choice="single" showInLine="true">

其余的话看示例应该大致也能懂

在这个任务里我是这么设置的。

<View>
  <Header value="Goal:"/>
  <Text name="original_question" value="$original_question"/>
  <Header value="Model Answers:"/>
  <Text name="target_answer" value="$target_answer"/> 
  <View style="box-shadow: 2px 2px 5px #999;
               padding: 20px; margin-top: 2em;
               border-radius: 5px;">
    <Header value="Harmful or Not"/>
    <Choices name="sentiment" toName="target_answer"
             choice="single" showInLine="true">
      <Choice value="Benign"/>
      <Choice value="Jailbreak"/>
      <Choice value="Neutral"/>
    </Choices>
  </View>
</View>

4. 导入数据

在项目创建完成后,你可以通过以下几种方式导入数据:

  • 本地文件上传:支持直接拖拽文件到指定区域或者浏览并选择文件进行上传。
  • 远程URL:提供数据的访问链接。

本地文件上传的是json文件,字段是刚才加了$的部分。

5. 标注数据

  1. 进入项目详情页,点击“Label”开始标注。
  2. 使用左侧提供的工具对数据进行标注。不同的数据类型有不同的标注工具(如矩形框用于图像中的物体检测,文字高亮用于文本中的实体识别等)。
  3. 完成标注后,点击“Submit”保存结果。

6. 导出标注结果 

完成标注后,可以通过 Label Studio 的界面方便地导出标注结果。支持多种格式的输出,包括但不限于 JSON、CSV、YOLO 等格式,以满足不同场景下的需求。

label-studio高级功能

  • 机器学习集成:可以将自定义的机器学习模型集成到 Label Studio 中,以实现实时预测辅助标注。
  • 团队协作:支持多人同时在线标注,并提供任务分配、进度跟踪等功能。
  • 质量控制:内置有质量保证机制,如随机抽查、双盲评审等,帮助提高标注质量。

这里就不再赘述了,有需要的同学可以自己研究。

Label Studio Documentation — Quick start guide for Label Studio

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐