NLP工具——doccano标注系统自动标注功能使用

0. 简介
1. doccano安装
2. 创建标注任务
3. 写一个命名实体识别的接口
4. 添加自动标注功能
5. 增加标注员用户
6. 数据导出

0. 简介

本文以序列标注为例，介绍doccano标注系统中，自动标注功能的使用。doccano是一个轻量的开源数据标注平台，采用Django实现，其主要优点在于部署和使用十分简便，个人认为比brat要方便很多。并且它支持自动标注和多人协同标注。

官方地址：https://github.com/doccano/doccano

这个工具我最近刚刚上手，实现了基本功能，但是可能也有介绍的不够准确的地方，请指出。

1. doccano安装

doccano的安装十分简单，无论是在windows PC上还是在Linux服务器上，都只需要根据官方的指引按部就班地完成即可。我安装的版本为1.6.2，需要一个python3.7或以上的环境。

pip install doccano==1.6.2

然后在改环境下终端初始化doccano并且创建管理员用户。

doccano init
# 在这里设置管理员的账号密码
doccano createuser --username admin --password pass

然后起一个web服务：

# 这里的端口号可自定义，注意不要与已有端口冲突
doccano webserver --port 8000

然后保持这个终端，再打开一个新的终端，进入之前下载doccano的python环境，启动：

doccano task

如果是在windows PC上起的服务，则可以通过本机ip访问：
http://127.0.0.1:8000/
局域网下其他计算机可以通过访问创建服务的本机ip+port(8000)进入到该页面。

如果是在服务器上，则可以通过服务器地址访问，例如，服务器地址为111.222.33.44，则访问
http://111.222.33.44:8000/即可。后面会用111.222.33.44来举例子。

进入到以下界面，点击右上角登录，输入之前创建的管理员用户账号密码，即可登录到系统中。

2. 创建标注任务

这一部分不做详细的介绍，基本上跟着系统提示的点点点就可以实现，如果有不清楚的地方，也可以参考其他人写的博客。
在这里我们创建一个序列标注任务：

然后需要设置标签，导入数据集。

3. 写一个命名实体识别的接口

在这里以百度的UIE为例，因为UIE可以自定义label做zero-shot，并且提供了数据格式转换和finetune的脚本，对整个流程形成闭环比较方便。

利用UIE进行标注，首先我们需要一个UIE的环境，需要paddlepaddle，以及写接口的工具，在这里我用的是flask，如果你想用fastapi或者其他框架，也都是可以的。

pip install paddlepaddle==2.3.1
pip install paddlenlp==2.3.4
pip install flask

在服务所在的设备上创建一个api.py，然后写识别的接口。

from flask import Flask, request, jsonify
from paddlenlp import Taskflow
app = Flask(__name__)
# 在这里定义你想要识别的实体类型
# UIE具有zero-shot能力，所以类型可以随便定义，但是识别的好坏不一定
schema = ['时间', '地点', '国家', '人物']
# 第一运行时，联网状态下会自动下载模型
# device_id为gpu id，如果写-1则使用cpu
ie = Taskflow('information_extraction', schema=schema, device_id=-1)
def convert(result):
    result = result[0]
    formatted_result = []
    for label, ents in result.items():
        for ent in ents:
            formatted_result.append(
                {
                    "label": label,
                    "start_offset": ent['start'],
                    "end_offset": ent['end']
                })
    return formatted_result
@app.route('/', methods=['POST'])
def get_result():
    text = request.json['text']
    print(text)
    result = ie(text)
    formatted_result = convert(result)
    return jsonify(formatted_result)
if __name__ == '__main__':
	# 这里写端口的时候一定要注意不要与已有的端口冲突
	# 这里的host并不是说访问的时候一定要写0.0.0.0，但是这里代码要写0.0.0.0，代表可以被本网络中所有的看到
	# 如果是其他机器访问你创建的服务，访问的时候要写你的ip
    app.run(host='0.0.0.0', port=5739)

然后我们运行它：

python api.py

看到如下信息，说明接口成功

[2022-07-11 10:04:51,619] [    INFO] - We are using <class 'paddlenlp.transformers.ernie.tokenizer.ErnieTokenizer'> to load 'C:\Users\Administrator\.paddlenlp\taskflow\information_extraction\uie-base'.
e[37m---    fused 0 elementwise_add with relu activatione[0m
e[37m---    fused 0 elementwise_add with tanh activatione[0m
e[37m---    fused 0 elementwise_add with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_add with swish activatione[0m
e[37m---    fused 0 elementwise_add with hardswish activatione[0m
e[37m---    fused 0 elementwise_add with sqrt activatione[0m
e[37m---    fused 0 elementwise_add with abs activatione[0m
e[37m---    fused 0 elementwise_add with clip activatione[0m
e[37m---    fused 0 elementwise_add with gelu activatione[0m
e[37m---    fused 0 elementwise_add with relu6 activatione[0m
e[37m---    fused 0 elementwise_add with sigmoid activatione[0m
e[37m---    fused 0 elementwise_sub with relu activatione[0m
e[37m---    fused 0 elementwise_sub with tanh activatione[0m
e[37m---    fused 0 elementwise_sub with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_sub with swish activatione[0m
e[37m---    fused 0 elementwise_sub with hardswish activatione[0m
e[37m---    fused 0 elementwise_sub with sqrt activatione[0m
e[37m---    fused 0 elementwise_sub with abs activatione[0m
e[37m---    fused 0 elementwise_sub with clip activatione[0m
e[37m---    fused 0 elementwise_sub with gelu activatione[0m
e[37m---    fused 0 elementwise_sub with relu6 activatione[0m
e[37m---    fused 0 elementwise_sub with sigmoid activatione[0m
e[37m---    fused 0 elementwise_mul with relu activatione[0m
e[37m---    fused 0 elementwise_mul with tanh activatione[0m
e[37m---    fused 0 elementwise_mul with leaky_relu activatione[0m
e[37m---    fused 0 elementwise_mul with swish activatione[0m
e[37m---    fused 0 elementwise_mul with hardswish activatione[0m
e[37m---    fused 0 elementwise_mul with sqrt activatione[0m
e[37m---    fused 0 elementwise_mul with abs activatione[0m
e[37m---    fused 0 elementwise_mul with clip activatione[0m
e[37m---    fused 0 elementwise_mul with gelu activatione[0m
e[37m---    fused 0 elementwise_mul with relu6 activatione[0m
e[37m---    fused 0 elementwise_mul with sigmoid activatione[0m
 * Running on all addresses.
   WARNING: This is a development server. Do not use it in a production deployment.
 * Running on http://xxx.xxx.xxx.xx:xxxx/ (Press CTRL+C to quit)
 * Serving Flask app 'app' (lazy loading)
 * Environment: production
   WARNING: This is a development server. Do not use it in a production deployment.
   Use a production WSGI server instead.
 * Debug mode: off

要确保接口没有问题，可以在postman测试，发POST请求，body中只有一个text字段。

这一步的操作在PC或者服务器上没有区别。

4. 添加自动标注功能

现在我们有了doccano标注平台，以及一个自动标注的接口，接下来要做的就是把它们两个放在一起。
我们进入标注系统，用管理员账号登录，点击左下角的Settings，然后选择Auto Labeling，然后会弹出下面的窗口，我们选择Custom REST Request：

点击Next，填写自动标注服务所在的地址，就是你的ip+端口，比如你的PC或者服务器的ip是
111.222.33.44，在上面第3步中py里边的port写的是1234，则应该填写如下：

然后Params和Headers中都空着，Body填写如下：

注意，这里的value中，text和括号之间有两个空格，我一开始因为没看到空格，在这里卡住好久（参考连接：https://github.com/doccano/doccano/issues/1417）
这里写完之后可以输入一句话来测试你的接口，比如我们输入一句话“小明昨天去了北京”，点击Test，如果得到了图中的结果，说明接口运行正常，否则需要去前面的环节找问题。

进入Next，在图中所示位置加入这样一段代码：

代码如下：

[
    {% for entity in input %}
        {
            "start_offset": {{ entity.start_offset }},
            "end_offset": {{ entity.end_offset}},
            "label": "{{ entity.label }}"
        }{% if not loop.last %},{% endif %}
    {% endfor %}
]

最后一步，需要建立从接口到标注平台的标签映射，这一步的作用是把你的接口识别出来的实体类型，映射到第2步中创建的标注平台的label，例如在api中定义了时间，在平台创建label的时候定义的label名称是时间日期，那么就需要建立他们之间的一个映射，把所有的映射建立起来就可以了：

最后Test->Finish，大功告成。

接下来，在标注的界面中，就可以通过打开魔法棒，来实现自动标注的功能：

通过测试我发现，第一篇文章进入的时候，并不会触发自动标注，自动标注的动作在你点击上一篇或者下一篇的按钮时触发（也有可能是我的操作有问题），所以第一篇文章如果要获取标注结果，需要先点击到第二篇，然后再回到第一篇。

此外，尽量使用GPU进行自动标注，UIE只占2G多显存，要求已经很低了。如果是cpu的话，连续的触发自动标注很容易造成任务阻塞。

至此，自动标注就大功告成了。

5. 增加标注员用户

我们需要进入Django的管理界面，地址是你的ip+标注服务的端口+admin/，例如
111.222.33.44:1234/admin/
进入界面之后，在users点击add，即可添加标注员用户：

然后回到标注系统的项目中，在成员中即可添加新的标注成员。

6. 数据导出

doccano的数据导出存在问题，可以参考这个项目进行数据导出：
https://github.com/taishan1994/doccano_export
下载这个项目到本地或你的服务器（起标注服务的设备），然后打开doccano_export.py，
修改为正确的db.sqlite3地址：

conn = sqlite3.connect(r'C:\Users\Administrator\doccano\db.sqlite3')

这个地址需要自己去找，在windows中一般是默认的地址，Linux服务器上可能是以下地址：

conn = sqlite3.connect('/root/doccano/db.sqlite3')

然后python运行它，就可以正确的导出了。

以上就是本篇全部内容了，如果有任何疑问可以在下方留言或直接联系我。最近半年一直在做产品的事情，相关技术不方便开源，所以有一阵子没有更新了，接下来还是尽量跟进一些新鲜的技术分享给大家，你的点赞就是我更新的动力，我们下期再见。

标签使用, 功能, 自动

发表回复取消回复

要发表评论，您必须先登录。

NLP工具——doccano标注系统自动标注功能使用

NLP工具——doccano标注系统自动标注功能使用

0. 简介

1. doccano安装

2. 创建标注任务

3. 写一个命名实体识别的接口

4. 添加自动标注功能

5. 增加标注员用户

6. 数据导出

发表回复 取消回复

发表回复取消回复