qw_6918966011

基于Label studio实现UIE信息抽取智能标注方案，提升标注效率！

项目链接见文末

人工标注的缺点主要有以下几点：
- 产能低：人工标注需要大量的人力物力投入，且标注速度慢，产能低，无法满足大规模标注的需求。
- 受限条件多：人工标注受到人力、物力、时间等条件的限制，无法适应所有的标注场景，尤其是一些复杂的标注任务。
- 易受主观因素影响：人工标注受到人为因素的影响，如标注人员的专业素养、标注态度、主观判断等，易受到人为误差的干扰，导致标注结果不准确。
- 难以满足个性化需求：人工标注无法满足所有标注场景和个性化需求，无法精确地标注出所有的关键信息，需要使用者自行选择和判断。
相比之下，智能标注的优势主要包括：
- 效率更高：智能标注可以自动化地进行标注，能够快速地生成标注结果，减少了人工标注所需的时间和精力，提高了标注效率。
- 精度更高：智能标注采用了先进的人工智能技术，能够对图像进行深度学习和处理，能够生成更加准确和精细的标注结果，特别是对于一些细节和特征的标注，手动标注往往存在误差较大的问题。
- 自动纠错：智能标注可以自动检测标注结果中的错误，并进行自动修正，能够有效地避免标注错误带来的影响，提高了标注的准确性。
- 灵活性更强：智能标注可以根据不同的应用场景和需求，生成不同类型的标注结果，能够满足用户的多样化需求，提高了标注的适用性。

总之，智能标注相对于人工标注有着更高的效率、更高的精度、更强的灵活性和更好的适用性，可以更好地满足用户的需求。

自然语言处理信息抽取智能标注方案包括以下几种：

基于规则的标注方案：通过编写一系列规则来识别文本中的实体、关系等信息，并将其标注。
- 基于规则的标注方案是一种传统的方法，它需要人工编写规则来识别文本中的实体、关系等信息，并将其标注。
- 这种方法的优点是易于理解和实现，但缺点是需要大量的人工工作，并且规则难以覆盖所有情况。
基于机器学习的标注方案：通过训练模型来自动识别文本中的实体、关系等信息，并将其标注。
- 基于机器学习的标注方案是一种自动化的方法，它使用已经标注好的数据集训练模型，并使用模型来自动标注文本中的实体、关系等信息。
- 这种方法的优点是可以处理大量的数据，并且可以自适应地调整模型，但缺点是需要大量的标注数据和计算资源，并且模型的性能受到标注数据的质量和数量的限制。
基于深度学习的标注方案：通过使用深度学习模型来自动识别文本中的实体、关系等信息，并将其标注。
- 基于深度学习的标注方案是一种最新的方法，它使用深度学习模型来自动从文本中提取实体、关系等信息，并将其标注。
- 这种方法的优点是可以处理大量的数据，并且具有较高的准确性，但缺点是需要大量的标注数据和计算资源，并且模型的训练和调试需要专业的知识和技能。
基于半监督学习的标注方案：通过使用少量的手工标注数据和大量的未标注数据来训练模型，从而实现自动标注。
- 基于半监督学习的标注方案是一种利用少量的手工标注数据和大量的未标注数据来训练模型的方法。
- 这种方法的优点是可以利用未标注数据来提高模型的性能，但缺点是需要大量的未标注数据和计算资源，并且模型的性能受到标注数据的质量
基于远程监督的标注方案：利用已知的知识库来自动标注文本中的实体、关系等信息，从而减少手工标注的工作量。

本次项目主要讲解的是基于半监督深度学习的标注方案。

1.UIE-base预训练模型进行命名实体识别

from pprint import pprint
from paddlenlp import Taskflow

schema = ['地名', '人名', '组织', '时间', '产品', '价格', '天气']
ie = Taskflow('information_extraction', schema=schema)

pprint(ie("2K 与 Gearbox Software 宣布，《小缇娜的奇幻之地》将于 6 月 24 日凌晨 1 点登录 Steam，此前 PC 平台为 Epic 限时独占。在限定期间内，Steam 玩家可以在 Steam 入手《小缇娜的奇幻之地》，并在 2022 年 7 月 8 日前享有获得黄金英雄铠甲包。"))

[2023-03-27 16:11:00,527] [    INFO] - Downloading model_state.pdparams from https://bj.bcebos.com/paddlenlp/taskflow/information_extraction/uie_base_v1.0/model_state.pdparams
100%|██████████| 450M/450M [00:45<00:00, 10.4MB/s] 
[2023-03-27 16:11:46,996] [    INFO] - Downloading model_config.json from https://bj.bcebos.com/paddlenlp/taskflow/information_extraction/uie_base/model_config.json
100%|██████████| 377/377 [00:00<00:00, 309kB/s]
[2023-03-27 16:11:47,074] [    INFO] - Downloading vocab.txt from https://bj.bcebos.com/paddlenlp/taskflow/information_extraction/uie_base/vocab.txt
100%|██████████| 182k/182k [00:00<00:00, 1.27MB/s]
[2023-03-27 16:11:47,292] [    INFO] - Downloading special_tokens_map.json from https://bj.bcebos.com/paddlenlp/taskflow/information_extraction/uie_base/special_tokens_map.json
100%|██████████| 112/112 [00:00<00:00, 99.6kB/s]
[2023-03-27 16:11:47,364] [    INFO] - Downloading tokenizer_config.json from https://bj.bcebos.com/paddlenlp/taskflow/information_extraction/uie_base/tokenizer_config.json
100%|██████████| 172/172 [00:00<00:00, 192kB/s]
W0327 16:11:47.478449   273 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2
W0327 16:11:47.481654   273 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
[2023-03-27 16:11:50,518] [    INFO] - Converting to the inference model cost a little time.
[2023-03-27 16:11:57,379] [    INFO] - The inference model save in the path:/home/aistudio/.paddlenlp/taskflow/information_extraction/uie-base/static/inference
[2023-03-27 16:11:59,489] [    INFO] - We are using  to load '/home/aistudio/.paddlenlp/taskflow/information_extraction/uie-base'.


[{'产品': [{'end': 35,
          'probability': 0.8595664902550801,
          'start': 25,
          'text': '《小缇娜的奇幻之地》'}],
  '地名': [{'end': 34,
          'probability': 0.30077351606695757,
          'start': 26,
          'text': '小缇娜的奇幻之地'},
         {'end': 117,
          'probability': 0.5250433327469182,
          'start': 109,
          'text': '小缇娜的奇幻之地'}],
  '时间': [{'end': 52,
          'probability': 0.8796518890642702,
          'start': 38,
          'text': '6 月 24 日凌晨 1 点'}],
  '组织': [{'end': 2,
          'probability': 0.6914450625760651,
          'start': 0,
          'text': '2K'},
         {'end': 93,
          'probability': 0.5971815528872604,
          'start': 88,
          'text': 'Steam'},
         {'end': 75,
          'probability': 0.5844303540013343,
          'start': 71,
          'text': 'Epic'},
         {'end': 105,
          'probability': 0.45620707081511114,
          'start': 100,
          'text': 'Steam'},
         {'end': 60,
          'probability': 0.5683007420326334,
          'start': 55,
          'text': 'Steam'},
         {'end': 21,
          'probability': 0.6797917390407271,
          'start': 5,
          'text': 'Gearbox Software'}]}]

pprint(ie("近日，量子计算专家、ACM计算奖得主Scott Aaronson通过博客宣布，将于本周离开得克萨斯大学奥斯汀分校(UT Austin)一年，并加盟人工智能研究公司OpenAI。"))

[{'人名': [{'end': 23,
          'probability': 0.664236391748247,
          'start': 18,
          'text': 'Scott'},
         {'end': 32,
          'probability': 0.479811241610971,
          'start': 24,
          'text': 'Aaronson'}],
  '时间': [{'end': 43,
          'probability': 0.8424644728072508,
          'start': 41,
          'text': '本周'}],
  '组织': [{'end': 87,
          'probability': 0.5550909248934985,
          'start': 81,
          'text': 'OpenAI'}]}]

使用默认模型 uie-base 进行命名实体识别，效果还不错，大多数的命名实体被识别出来了，但依然存在部分实体未被识别出，部分文本被误识别等问题。比如 "Scott Aaronson" 被识别为了两个人名，比如 "得克萨斯大学奥斯汀分校" 没有被识别出来。为提升识别效果，将通过标注少量数据对模型进行微调。

2.基于Label Studio的数据标注

在将智能标注前，先讲解手动标注，通过手动标注后才会感知到智能标注的提效和交互性。

由于AI studio不支持在线标注，这里大家在本地端进行标注，标注完毕后上传数据集即可

2.1 Label Studio安装

以下标注示例用到的环境配置：

Python 3.8+
label-studio == 1.7.1
paddleocr >= 2.6.0.1

在终端(terminal)使用pip安装label-studio：

pip install label-studio==1.7.1

安装完成后，运行以下命令行：

label-studio start

在浏览器打开http://localhost:8080/，输入用户名和密码登录，开始使用label-studio进行标注。

2.2 实体抽取任务标注

项目创建
点击创建（Create）开始创建一个新的项目，填写项目名称、描述，然后选择Object Detection with Bounding Boxes。

填写项目名称、描述

命名实体识别任务选择

添加标签(也可跳过后续在Setting/Labeling Interface中配置)
数据上传
先从本地上传txt格式文件，选择List of tasks，然后选择导入本项目。
实体抽取标注

数据导出
勾选已标注文本ID，选择导出的文件类型为JSON，导出数据：

3. 模型微调

3.1 数据转换

在终端中执行以下脚本，将 label studio 导出的数据文件格式转换成 doccano 导出的数据文件格式。

python labelstudio2doccano.py --labelstudio_file dataset/label-studio.json

参数说明：

labelstudio_file: label studio 的导出文件路径（仅支持 JSON 格式）。
doccano_file: doccano 格式的数据文件保存路径，默认为 "doccano_ext.jsonl"。
task_type: 任务类型，可选有抽取（"ext"）和分类（"cls"）两种类型的任务，默认为 "ext"。

!python doccano.py \
    --doccano_file dataset/doccano_ext.jsonl \
    --task_type "ext" \
    --save_dir ./data \
    --splits 0.8 0.2 0

[2023-03-27 16:43:33,438] [    INFO] - Converting doccano data...
100%|████████████████████████████████████████| 40/40 [00:00<00:00, 29794.38it/s]
[2023-03-27 16:43:33,440] [    INFO] - Adding negative samples for first stage prompt...
100%|███████████████████████████████████████| 40/40 [00:00<00:00, 118650.75it/s]
[2023-03-27 16:43:33,441] [    INFO] - Converting doccano data...
100%|████████████████████████████████████████| 10/10 [00:00<00:00, 38095.40it/s]
[2023-03-27 16:43:33,442] [    INFO] - Adding negative samples for first stage prompt...
100%|███████████████████████████████████████| 10/10 [00:00<00:00, 130257.89it/s]
[2023-03-27 16:43:33,442] [    INFO] - Converting doccano data...
0it [00:00, ?it/s]
[2023-03-27 16:43:33,442] [    INFO] - Adding negative samples for first stage prompt...
0it [00:00, ?it/s]
[2023-03-27 16:43:33,444] [    INFO] - Save 274 examples to ./data/train.txt.
[2023-03-27 16:43:33,445] [    INFO] - Save 70 examples to ./data/dev.txt.
[2023-03-27 16:43:33,445] [    INFO] - Save 0 examples to ./data/test.txt.
[2023-03-27 16:43:33,445] [    INFO] - Finished! It takes 0.01 seconds

参数说明：

doccano_file: doccano 格式的数据标注文件路径。
task_type: 选择任务类型，可选有抽取（"ext"）和分类（"cls"）两种类型的任务。
save_dir: 训练数据的保存目录，默认存储在 data 目录下。
negative_ratio: 最大负例比例，该参数只对抽取类型任务有效，适当构造负例可提升模型效果。负例数量和实际的标签数量有关，最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效，默认为 5。为了保证评估指标的准确性，验证集和测试集默认构造全负例。
splits: 划分数据集时训练集、验证集、测试集所占的比例。默认为 [0.8, 0.1, 0.1] 。
options: 指定分类任务的类别标签，该参数只对分类类型任务有效。默认为 ["正向", "负向"]。
prompt_prefix: 声明分类任务的 prompt 前缀信息，该参数只对分类类型任务有效。默认为 "情感倾向"。
is_shuffle: 是否对数据集进行随机打散，默认为 True。
seed: 随机种子，默认为 1000。
separator: 实体类别/评价维度与分类标签的分隔符，该参数只对实体/评价维度级分类任务有效。默认为 "##"。

注：

每次执行 doccano.py 脚本，将会覆盖已有的同名数据文件。

3.2 Finetune

在终端中执行以下脚本进行模型微调。

# 然后在终端中执行以下脚本，对 doccano 格式的数据文件进行处理，执行后会在 /home/data 目录下生成训练/验证/测试集文件。
!python finetune.py \
    --train_path "./data/train.txt" \
    --dev_path "./data/dev.txt" \
    --save_dir "./checkpoint" \
    --learning_rate 1e-5 \
    --batch_size 32 \
    --max_seq_len 512 \
    --num_epochs 100 \
    --model "uie-base" \
    --seed 1000 \
    --logging_steps 100 \
    --valid_steps 100 \
    --device "gpu"

[2023-03-27 16:47:58,806] [    INFO] - Downloading resource files...
[2023-03-27 16:47:58,810] [    INFO] - We are using  to load 'uie-base'.
W0327 16:47:58.836591 13399 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2
W0327 16:47:58.839186 13399 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
[2023-03-27 16:48:30,349] [    INFO] - global step 100, epoch: 12, loss: 0.00060, speed: 3.46 step/s
[2023-03-27 16:48:30,794] [    INFO] - Evaluation precision: 0.93878, recall: 0.85185, F1: 0.89320
[2023-03-27 16:48:30,794] [    INFO] - best F1 performence has been updated: 0.00000 --> 0.89320
[2023-03-27 16:48:58,054] [    INFO] - global step 200, epoch: 23, loss: 0.00032, speed: 3.82 step/s
[2023-03-27 16:48:58,500] [    INFO] - Evaluation precision: 0.95918, recall: 0.87037, F1: 0.91262
[2023-03-27 16:48:58,500] [    INFO] - best F1 performence has been updated: 0.89320 --> 0.91262
[2023-03-27 16:49:25,664] [    INFO] - global step 300, epoch: 34, loss: 0.00022, speed: 3.83 step/s
[2023-03-27 16:49:26,107] [    INFO] - Evaluation precision: 0.90385, recall: 0.87037, F1: 0.88679
[2023-03-27 16:49:52,155] [    INFO] - global step 400, epoch: 45, loss: 0.00017, speed: 3.84 step/s
[2023-03-27 16:49:52,601] [    INFO] - Evaluation precision: 0.93878, recall: 0.85185, F1: 0.89320
[2023-03-27 16:50:18,632] [    INFO] - global step 500, epoch: 56, loss: 0.00014, speed: 3.84 step/s
[2023-03-27 16:50:19,075] [    INFO] - Evaluation precision: 0.92157, recall: 0.87037, F1: 0.89524
[2023-03-27 16:50:45,077] [    INFO] - global step 600, epoch: 67, loss: 0.00012, speed: 3.85 step/s
[2023-03-27 16:50:45,523] [    INFO] - Evaluation precision: 0.93478, recall: 0.79630, F1: 0.86000
[2023-03-27 16:51:11,546] [    INFO] - global step 700, epoch: 78, loss: 0.00010, speed: 3.84 step/s
[2023-03-27 16:51:11,987] [    INFO] - Evaluation precision: 0.93750, recall: 0.83333, F1: 0.88235
[2023-03-27 16:51:38,013] [    INFO] - global step 800, epoch: 89, loss: 0.00009, speed: 3.84 step/s
[2023-03-27 16:51:38,457] [    INFO] - Evaluation precision: 0.93617, recall: 0.81481, F1: 0.87129
[2023-03-27 16:52:04,361] [    INFO] - global step 900, epoch: 100, loss: 0.00008, speed: 3.86 step/s
[2023-03-27 16:52:04,808] [    INFO] - Evaluation precision: 0.95745, recall: 0.83333, F1: 0.89109

结果展示：

参数说明：

train_path: 训练集文件路径。
dev_path: 验证集文件路径。
save_dir: 模型存储路径，默认为 "./checkpoint"。
learning_rate: 学习率，默认为 1e-5。
batch_size: 批处理大小，请结合机器情况进行调整，默认为 16。
max_seq_len: 文本最大切分长度，输入超过最大长度时会对输入文本进行自动切分，默认为 512。
num_epochs: 训练轮数，默认为 100。
model: 选择模型，程序会基于选择的模型进行模型微调，可选有 "uie-base", "uie-medium", "uie-mini", "uie-micro" 和 "uie-nano"，默认为 "uie-base"。
seed: 随机种子，默认为 1000。
logging_steps: 日志打印的间隔 steps 数，默认为 10。
valid_steps: evaluate 的间隔 steps 数，默认为 100。
device: 选用什么设备进行训练，可选 "cpu" 或 "gpu"。
init_from_ckpt: 初始化模型参数的路径，可从断点处继续训练。

3.3 模型评估

在终端中执行以下脚本进行模型评估。

输出示例：

参数说明：

model_path: 进行评估的模型文件夹路径，路径下需包含模型权重文件 model_state.pdparams 及配置文件 model_config.json。
test_path: 进行评估的测试集文件。
batch_size: 批处理大小，请结合机器情况进行调整，默认为 16。
max_seq_len: 文本最大切分长度，输入超过最大长度时会对输入文本进行自动切分，默认为 512。
debug: 是否开启 debug 模式对每个正例类别分别进行评估，该模式仅用于模型调试，默认关闭。

debug 模式输出示例：

!python evaluate.py \
    --model_path ./checkpoint/model_best \
    --test_path ./data/dev.txt \
    --batch_size 16 \
    --max_seq_len 512

[2023-03-27 16:56:21,832] [    INFO] - We are using  to load './checkpoint/model_best'.
W0327 16:56:21.863559 15278 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2
W0327 16:56:21.866312 15278 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
[2023-03-27 16:56:27,409] [    INFO] - -----------------------------
[2023-03-27 16:56:27,409] [    INFO] - Class Name: all_classes
[2023-03-27 16:56:27,409] [    INFO] - Evaluation Precision: 0.95918 | Recall: 0.87037 | F1: 0.91262

!python evaluate.py \
    --model_path ./checkpoint/model_best \
    --test_path ./data/dev.txt \
    --debug

[2023-03-27 16:56:31,824] [    INFO] - We are using  to load './checkpoint/model_best'.
W0327 16:56:31.856709 15361 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2
W0327 16:56:31.859668 15361 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
[2023-03-27 16:56:37,039] [    INFO] - -----------------------------
[2023-03-27 16:56:37,039] [    INFO] - Class Name: 时间
[2023-03-27 16:56:37,039] [    INFO] - Evaluation Precision: 1.00000 | Recall: 0.90000 | F1: 0.94737
[2023-03-27 16:56:37,092] [    INFO] - -----------------------------
[2023-03-27 16:56:37,092] [    INFO] - Class Name: 地名
[2023-03-27 16:56:37,092] [    INFO] - Evaluation Precision: 0.95833 | Recall: 0.85185 | F1: 0.90196
[2023-03-27 16:56:37,113] [    INFO] - -----------------------------
[2023-03-27 16:56:37,113] [    INFO] - Class Name: 产品
[2023-03-27 16:56:37,113] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2023-03-27 16:56:37,139] [    INFO] - -----------------------------
[2023-03-27 16:56:37,139] [    INFO] - Class Name: 组织
[2023-03-27 16:56:37,139] [    INFO] - Evaluation Precision: 1.00000 | Recall: 0.50000 | F1: 0.66667
[2023-03-27 16:56:37,161] [    INFO] - -----------------------------
[2023-03-27 16:56:37,161] [    INFO] - Class Name: 人名
[2023-03-27 16:56:37,161] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2023-03-27 16:56:37,181] [    INFO] - -----------------------------
[2023-03-27 16:56:37,181] [    INFO] - Class Name: 天气
[2023-03-27 16:56:37,181] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2023-03-27 16:56:37,198] [    INFO] - -----------------------------
[2023-03-27 16:56:37,198] [    INFO] - Class Name: 价格
[2023-03-27 16:56:37,198] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000

3.4 微调后效果

my_ie = Taskflow("information_extraction", schema=schema, task_path='./checkpoint/model_best')  # task_path 指定模型权重文件的路径
pprint(my_ie("2K 与 Gearbox Software 宣布，《小缇娜的奇幻之地》将于 6 月 24 日凌晨 1 点登录 Steam，此前 PC 平台为 Epic 限时独占。在限定期间内，Steam 玩家可以在 Steam 入手《小缇娜的奇幻之地》，并在 2022 年 7 月 8 日前享有获得黄金英雄铠甲包。"))

[2023-03-27 16:59:31,064] [    INFO] - Converting to the inference model cost a little time.
[2023-03-27 16:59:38,171] [    INFO] - The inference model save in the path:./checkpoint/model_best/static/inference
[2023-03-27 16:59:40,364] [    INFO] - We are using  to load './checkpoint/model_best'.


[{'产品': [{'end': 118,
          'probability': 0.9860373472963602,
          'start': 108,
          'text': '《小缇娜的奇幻之地》'},
         {'end': 35,
          'probability': 0.9870597349192849,
          'start': 25,
          'text': '《小缇娜的奇幻之地》'},
         {'end': 148,
          'probability': 0.9075982731610566,
          'start': 141,
          'text': '黄金英雄铠甲包'}],
  '时间': [{'end': 52,
          'probability': 0.9998029564426645,
          'start': 38,
          'text': '6 月 24 日凌晨 1 点'},
         {'end': 137,
          'probability': 0.9876786236837809,
          'start': 122,
          'text': '2022 年 7 月 8 日前'}],
  '组织': [{'end': 2, 'probability': 0.988802896329716, 'start': 0, 'text': '2K'},
         {'end': 93,
          'probability': 0.9500440898664806,
          'start': 88,
          'text': 'Steam'},
         {'end': 75,
          'probability': 0.9819772965571794,
          'start': 71,
          'text': 'Epic'},
         {'end': 105,
          'probability': 0.7921079762008958,
          'start': 100,
          'text': 'Steam'},
         {'end': 60,
          'probability': 0.9829542747088276,
          'start': 55,
          'text': 'Steam'},
         {'end': 21,
          'probability': 0.9994613042455924,
          'start': 5,
          'text': 'Gearbox Software'}]}]

pprint(my_ie("近日，量子计算专家、ACM计算奖得主Scott Aaronson通过博客宣布，将于本周离开得克萨斯大学奥斯汀分校(UT Austin)一年，并加盟人工智能研究公司OpenAI。"))

[{'人名': [{'end': 32,
          'probability': 0.9990170436659866,
          'start': 18,
          'text': 'Scott Aaronson'}],
  '时间': [{'end': 2,
          'probability': 0.9998477751029782,
          'start': 0,
          'text': '近日'},
         {'end': 43,
          'probability': 0.9995671774285029,
          'start': 41,
          'text': '本周'}],
  '组织': [{'end': 66,
          'probability': 0.9900270615638647,
          'start': 57,
          'text': 'UT Austin'},
         {'end': 87,
          'probability': 0.9993388552686611,
          'start': 81,
          'text': 'OpenAI'},
         {'end': 56,
          'probability': 0.9968586409231648,
          'start': 45,
          'text': '得克萨斯大学奥斯汀分校'},
         {'end': 13,
          'probability': 0.8437228020724348,
          'start': 10,
          'text': 'ACM'}]}]

基于 50 条标注数据进行模型微调后，效果有所提升。

4.基于Label Studio的智能标注（含自动训练）

部分效果展示更多详细内容查看链接：
人工智能知识图谱之信息抽取：基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版)，提效。

里面有详细代码实现

查看预标注好的数据，如有必要，对标注进行修改。

5.模型部署

以下是 UIE Python 端的部署流程，包括环境准备、模型导出和使用示例。

5.1 UIE Python 端的部署流程

模型导出
模型训练、压缩时已经自动进行了静态图的导出以及 tokenizer 配置文件保存，保存路径${finetuned_model} 下应该有 .pdimodel、.pdiparams 模型文件可用于推理。
模型部署
以下示例展示如何基于 FastDeploy 库完成 UIE 模型完成通用信息抽取任务的 Python 预测部署。先参考 UIE 模型部署安装FastDeploy Python 依赖包。可通过命令行参数--device以及--backend指定运行在不同的硬件以及推理引擎后端，并使用--model_dir参数指定运行的模型。模型目录为 model_zoo/uie/checkpoint/model_best（用户可按实际情况设置）。

FastDeploy提供各平台预编译库，供开发者直接下载安装使用。当然FastDeploy编译也非常容易，开发者也可根据自身需求编译FastDeploy。

GPU端

为了在GPU上获得最佳的推理性能和稳定性，请先确保机器已正确安装NVIDIA相关驱动和基础软件，确保CUDA >= 11.2，cuDNN >= 8.1.1，并使用以下命令安装所需依赖

5.2 Serving 服务编写

编写 predictor.py 文件：

导入依赖库：除了业务中用到的库之外，需要额外依赖serving。
后处理（可选）：根据需要对模型返回的结果进行处理，以更好地展示。本教程中通过 format() 函数和 add_o() 函数修改命名实体识别结果的形式。
Predictor 类： 不需要继承其他的类，但是至少需要提供 __init__ 和 predict 两个接口。
- 在 __init__ 中定义实体抽取结构，通过 Taskflow 加载模型。
- 在 predict 中进行预测，返回后处理的结果。

class Predictor:
    def __init__(self):
        self.schema = ['地名', '人名', '组织', '时间', '产品', '价格', '天气']
        self.ie = Taskflow("information_extraction", schema=self.schema, task_path='./checkpoint/model_best')
    

    def predict(self, json):
        text = json["input"]
        uie = self.ie(text)[0]
        result = format(text, uie)
        return result

运行：启动服务。

if __name__ == '__main__':
    serv.run(Predictor)

在项目根目录下已经提供了编写好的 predictor.py 可以直接在后续使用。

# !paddlenlp server server:app --workers 1 --host 0.0.0.0 --port 8189
# !pip install --upgrade paddlenlp

# import json

# import requests

# url = "http://0.0.0.0:8189/taskflow/uie"
# headers = {"Content-Type": "application/json"}
# texts = ["近日，量子计算专家、ACM计算奖得主Scott Aaronson通过博客宣布，将于本周离开得克萨斯大学奥斯汀分校(UT Austin)一年，并加盟人工智能研究公司OpenAI"]
# data = {
#     "data": {
#         "text": texts,
#     }
# }
# r = requests.post(url=url, headers=headers, data=json.dumps(data))
# datas = json.loads(r.text)
# print(datas)

6.总结

Label Studio 所提供的 Machine Learning Backend 提供了一个比较灵活的辅助人工标注的框架，我们通过它确实可以加快 nlp 数据的标注
Label Studio 的 enterprise 版本提供了 Active Learning 的流程，不过从其描述看这个流程并不完美，尤其是 fit 部分，由于 Label Studio 低估了「Train」所花费的时间，所以每次标注都自动训练的流程可能并不会那么顺滑(会在链接时候等待一段时间)
这次项目并没有使用 Label Studio 所提供的「Auto-Annotation」的功能，因为它存在重复标注的问题
既然 Label Studio 提供了它的 api 那其实可玩的东西还是很多的，配合 webhook 等内容可能会让这个标注和训练的流程做的更加高效

此外目前使用的UIE码源是前几个版本的，最新官网更新了一些训练升级API，后续再重新优化现有项目。

本人对容器相关技术不太了解，所以在一些容器化技术操作上更多就是借鉴使用了，如有疑问评论区留言即可。

更多详情请参考Label Studio官网：

6.1 项目链接

部分效果展示更多详细内容查看链接：

你可能感兴趣的:(easyui,前端,javascript)

Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
补充元象二面 Redstone Monstrosity 前端面试
1.请尽可能详细地说明，防抖和节流的区别，应用场景？你的回答中不要写出示例代码。防抖（Debounce）和节流（Throttle）是两种常用的前端性能优化技术，它们的主要区别在于如何处理高频事件的触发。以下是防抖和节流的区别和应用场景的详细说明：防抖和节流的定义防抖：在一段时间内，多次执行变为只执行最后一次。防抖的原理是，当事件被触发后，设置一个延迟定时器。如果在这个延迟时间内事件再次被触发，则重
微信小程序开发注意事项 jun778895 微信小程序小程序
微信小程序开发是一个融合了前端开发、用户体验设计、后端服务（可选）以及微信小程序平台特性的综合性项目。这里，我将详细介绍一个典型的小程序开发项目的全过程，包括项目规划、设计、开发、测试及部署上线等各个环节，并尽量使内容达到或超过2000字的要求。一、项目规划1.1项目背景与目标假设我们要开发一个名为“智慧校园助手”的微信小程序，旨在为学生提供一站式校园生活服务，包括课程表查询、图书馆座位预约、食堂
切换淘宝最新npm镜像源是 hai40587 npm 前端 node.js
切换淘宝最新npm镜像源是一个相对简单的过程，但首先需要明确当前淘宝npm镜像源的状态和最新的镜像地址。由于网络环境和服务更新，镜像源的具体地址可能会发生变化，因此，我将基于当前可获取的信息，提供一个通用的切换步骤，并附上最新的镜像地址（截至回答时）。一、了解npm镜像源npm（NodePackageManager）是JavaScript的包管理器，用于安装、更新和管理项目依赖。由于npm官方仓库
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
前端代码上传文件余生逆风飞翔前端 javascript 开发语言
点击上传文件import{ElNotification}from'element-plus'import{API_CONFIG}from'../config/index.js'import{UploadFilled}from'@element-plus/icons-vue'import{reactive}from'vue'import{BASE_URL}from'../config/index'i
uniapp实现动态标记效果详细步骤【前端开发】 2401_85123349 uni-app
第二个点在于实现将已经被用户标记的内容在下一次获取后刷新它的状态为已标记。这是什么意思呢？比如说上面gif图中的这些人物对象，有一些已被该用户添加为关心，那么当用户下一次进入该页面时，这些已经被添加关心的对象需要以“红心”状态显现出来。这个点的难度还不算大，只需要在每一次获取后端的内容后对标记对象进行状态更新即可。II.动态标记效果实现思路和步骤首先，整体的思路是利用动态类名对不同的元素进行选择。
高性能javascript--算法和流程控制海淀萌狗
-for,while和do-while性能相当-避免使用for-in循环，==除非遍历一个属性量未知的对象==es5:for-in遍历的对象便不局限于数组，还可以遍历对象。原因：for-in每次迭代操作会同时搜索实例或者原型属性，for-in循环的每次迭代都会产生更多开销，因此要比其他循环类型慢，一般速度为其他类型循环的1/7。因此，除非明确需要迭代一个属性数量未知的对象，否则应避免使用for-i
360前端星计划-动画可以这么玩马小蜗
动画的基本原理定时器改变对象的属性根据新的属性重新渲染动画functionupdate(context){//更新属性}constticker=newTicker();ticker.tick(update,context);动画的种类1、JavaScript动画操作DOMCanvas2、CSS动画transitionanimation3、SVG动画SMILJS动画的优缺点优点：灵活度、可控性、性能
Vue + Express实现一个表单提交九旬大爷的梦
最近在折腾一个cms系统，用的vue+express，但是就一个表单提交就弄了好久，记录一下。环境：Node10+前端：Vue服务端：Express依赖包：vueexpressaxiosexpress-formidableelement-ui（可选）前言：axiosget请求参数是：paramsaxiospost请求参数是：dataexpressget接受参数是req.queryexpresspo
JavaScript中秋快乐！ Q_w7742 javascript 开发语言 ecmascript
我们来实现一个简单的祝福网页~主要的难度在于使用canvas绘图当点击canvas时候，跳出“中秋节快乐”字样，需要注册鼠标单击事件和计时器。首先定义主要函数：初始化当点击canvas之后转到onCanvasClick函数，绘图生成灯笼。functiononCanvasClick(){//事件处理函数context.clearRect(0,0,canvas1.width,canvas1.heigh
Nginx从入门到实践(三) 听你讲故事啊
动静分离动静分离是将网站静态资源（JavaScript，CSS，img等文件）与后台应用分开部署，提高用户访问静态代码的速度，降低对后台应用访问。动静分离的一种做法是将静态资源部署在nginx上，后台项目部署到应用服务器上，根据一定规则静态资源的请求全部请求nginx服务器，达到动静分离的目标。rewrite规则Rewrite规则常见正则表达式Rewrite主要的功能就是实现URL的重写，Ngin
Nginx的使用场景：构建高效、可扩展的Web架构张某布响丸辣 nginx 前端架构
Nginx，作为当今最流行的Web服务器和反向代理软件之一，凭借其高性能、稳定性和灵活性，在众多Web项目中扮演着核心角色。无论是个人博客、中小型网站，还是大型企业级应用，Nginx都能提供强大的支持。本文将探讨Nginx的几个主要使用场景，帮助读者理解如何在实际项目中充分利用Nginx的优势。1.静态文件服务对于包含大量静态文件（如HTML、CSS、JavaScript、图片等）的网站，Ngin
前端知识点 ZhangTao_zata 前端 javascript css
下面是一个最基本的html代码body{font-family:Arial,sans-serif;margin:20px;}//JavaScriptfunctionthatdisplaysanalertwhencalledfunctionshowMessage(){alert("Hello!Youclickedthebutton.");}MyFirstHTMLPageWelcometoMyPage
第三十一节:Vue路由:前端路由vs后端路由的了解曹老师
1.认识前端路由和后端路由前端路由相对于后端路由而言的,在理解前端路由之前先对于路由有一个基本的了解路由:简而言之,就是把信息从原地址传输到目的地的活动对于我们来说路由就是:根据不同的url地址展示不同的页面内容1.1后端路由以前咱们接触比较多的后端路由,当改变url地址时,浏览器会向服务器发送请求,服务器根据这个url,返回不同的资源内容后端路由的特点就是前端每次跳转到不同url地址,都会重新访
华雁智科前端面试题因为奋斗超太帅啦前端笔试面试问题整理 javascript 开发语言 ecmascript
1.var变量的提升题目：vara=1functionfun(){console.log(b)varb=2}fun()console.log(a)正确输出结果：undefined、1答错了，给一个大嘴巴子，错误答案输出结果为：2,1此题主要考察var定义的变量，作用域提升的问题，相当于varaa=1functionfun(){varbconsole.log(b)b=2}fun()console.l
如何建设数据中台（五）——数据汇集—打破企业数据孤岛 weixin_47088026 学习记录和总结中台数据中台程序人生经验分享
数据汇集——打破企业数据孤岛要构建企业级数据中台，第一步就是将企业内部各个业务系统的数据实现互通互联，打破数据孤岛，主要通过数据汇聚和交换来实现。企业采集的数据可以是线上采集、线下数据采集、互联网数据采集、内部数据采集等。线上数据采集主要载体分为互联网和移动互联网两种，对应有系统平台、网页、H5、小程序、App等，可以采用前端或后端埋点方式采集数据。线下数据采集主要是通过硬件来采集，例如：WiFi
分布式锁和spring事务管理暴躁的鱼锁及事务分布式 spring java
最近开发一个小程序遇到一个需求需要实现分布式事务管理业务需求用户在使用小程序的过程中可以查看景点，对景点地区或者城市标记是否想去，那么需要统计一个地点被标记的人数，以及记录某个用户对某个地点是否标记为想去，用两个表存储数据，一个地点表记录改地点被标记的次数，一个用户意向表记录某个用户对某个地点是否标记为想去。由于可能有多个用户同时标记一个地点，每个用户在前端点击想去按钮之后，后台接收到请求，从数据
前端CSS面试常见题剑亦未配妥前端面试前端 css 面试
边界塌陷盒模型有两种：W3C盒模型和IE盒模型，区别在于宽度是否包含边框定义：同时给兄弟/父子盒模型设置上下边距，理论上边距值是两者之和，实际上不是注意：浮动和定位不会产生边界塌陷；只有块级元素垂直方向才会产生margin合并margin计算方案margin同为正负：取绝对值大的值一正一负：求和父子元素边界塌陷解决父元素可以通过调整padding处理；设置overflowhidden，触发BFC子
【JS】前端文件读取FileReader操作总结程序员-张师傅前端前端 javascript 开发语言
前端文件读取FileReader操作总结FileReader是JavaScript中的一个WebAPI，它允许web应用程序异步读取用户计算机上的文件（或原始数据缓冲区）的内容，例如读取文件以获取其内容，并在不将文件发送到服务器的情况下在客户端使用它。这对于处理图片、文本文件等非常有用，尤其是当你想要在用户界面中即时显示文件内容或进行文件预览时。创建FileReader对象首先，你需要创建一个Fi
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p