woisking2

基于Labelstudio的UIE半监督智能标注方案（本地版）

自然语言处理信息抽取智能标注方案包括以下几种：

基于规则的标注方案：通过编写一系列规则来识别文本中的实体、关系等信息，并将其标注。
- 基于规则的标注方案是一种传统的方法，它需要人工编写规则来识别文本中的实体、关系等信息，并将其标注。
- 这种方法的优点是易于理解和实现，但缺点是需要大量的人工工作，并且规则难以覆盖所有情况。
基于机器学习的标注方案：通过训练模型来自动识别文本中的实体、关系等信息，并将其标注。
- 基于机器学习的标注方案是一种自动化的方法，它使用已经标注好的数据集训练模型，并使用模型来自动标注文本中的实体、关系等信息。
- 这种方法的优点是可以处理大量的数据，并且可以自适应地调整模型，但缺点是需要大量的标注数据和计算资源，并且模型的性能受到标注数据的质量和数量的限制。
基于深度学习的标注方案：通过使用深度学习模型来自动识别文本中的实体、关系等信息，并将其标注。
- 基于深度学习的标注方案是一种最新的方法，它使用深度学习模型来自动从文本中提取实体、关系等信息，并将其标注。
- 这种方法的优点是可以处理大量的数据，并且具有较高的准确性，但缺点是需要大量的标注数据和计算资源，并且模型的训练和调试需要专业的知识和技能。
基于半监督学习的标注方案：通过使用少量的手工标注数据和大量的未标注数据来训练模型，从而实现自动标注。
- 基于半监督学习的标注方案是一种利用少量的手工标注数据和大量的未标注数据来训练模型的方法。
- 这种方法的优点是可以利用未标注数据来提高模型的性能，但缺点是需要大量的未标注数据和计算资源，并且模型的性能受到标注数据的质量
基于远程监督的标注方案：利用已知的知识库来自动标注文本中的实体、关系等信息，从而减少手工标注的工作量。

本次项目主要讲解的是基于半监督深度学习的标注方案。

1.智能标注本地版 Machine Learning 集成教学

1.1 本地启动 Label Studio

安装label-studio：

#创建名为label_studio的虚拟环境(示例的Python版本为3.8)
conda create -n labelstudio python=3.8

#激活虚拟环境
conda activate labelstudio


#pip安装label-studio (version=1.7.2)
pip install label-studio==1.7.2

1.2 启动 Machine Learning Backend

在终端中依次执行下列命令：


#安装label-studio机器学习后端，dirname为放代码的文件夹路径
cd dirname
git clone https://github.com/heartexlabs/label-studio-ml-backend

#安装label-studio及其依赖
cd label-studio-ml-backend
pip install -U -e .

#(可选) 安装label-studio中examples运行所需的requirements
pip install -r label_studio_ml/examples/requirements.txt

创建与启动模型:定义模型
在使用label-studio后端之前，要先定义好自己的训练模型，模型的定义需要继承自label-studio指定的类，具体可参考第四节。
创建后端模型：按照要求创建好的模型文件的路径假设为/Users/kyrol/Desktop/my_ml_backend.py，终端中执行以下命令：


# 初始化自定义机器学习后端
label-studio-ml init my_ml_backend --script /Users/kyrol/Desktop/my_ml_backend.py

#命令执行完毕会在当前文件夹下创建名为 my_ml_backend 的文件夹， 里面放有 my_ml_backend.py, _wsgi.py 等内容。
#其中，_wsgi.py是要运行的python 主文件，可以查看里面内容。注意：同时需要把依赖文件放入my_ml_backend.py文件夹。

# 开启机器学习后端服务
label-studio-ml start my_ml_backend

成功启动后，在终端中可以看到 ML 后端的 URL。

1.3 模型配置与训练

开启可视化窗口，再开启一个终端窗口，首先，激活conda对应的环境；然后，cd 到label-studio代码所在路径；然后，执行以下终端命令，启动可视化的窗口：

在启动自定义机器学习后端之后，就可以将其添加到 Label Studio 项目中。

具体步骤如下：

配置训练数据文件
- 根据不同的任务配置不同的标签，在settings中点击Labeling Interface, 配置项目标签，具体可参考官网。
训练模型
- 创建一个project
- 点击 setting
- 点击 Machine Learning
- 配置模型训练端口，导入模型
训练后的模型会保存在 my_ml_backend 文件夹中以数字命名的文件夹内。

具体步骤如下所示：

点击 Settings - Machine Learning - Add Model

填入标题、ML 后端的 URL、描述（可选）等内容

选择 Use for interactive preannotations 打开交互式预注释功能（可选）
点击 Validate and Save

1.3 获取交互式预注释

若要使用交互式预注释功能，需在添加 ML Backend 时打开 Use for interactive preannotations 选项。如未打开，可点击 Edit 进行编辑。然后随便点击一个数据，label studio 就会悄悄运行刚才的 ml backend 生成新的标注了。

查看预标注好的数据，如有必要，对标注进行修改。

本例中，预标注的结果中『NBA』没有被识别出来，手动添加实体将其标注为『组织』。
本例中，预标注的结果中将『人名』实体『三月』错标注为『时间』实体，手动进行修改。

修改完成后，或预标注的结果已经符合预期，点击 Submit 提交标注结果。

1.4 智能标注（自动再训练模型）

在标注了至少一项任务之后，就可以开始训练模型了。

点击 Settings - Machine Learning - Start Training 开始训练。

动态图为引用方便展示这个流程。

**然后返回启动 label-studio-ml-backend 的窗口可以看到训练的流程启动了。 **

2.UIE-base预训练模型进行命名实体识别

from pprint import pprint
from paddlenlp import Taskflow

schema = ['地名', '人名', '组织', '时间', '产品', '价格', '天气']
ie = Taskflow('information_extraction', schema=schema)

pprint(ie("2K 与 Gearbox Software 宣布，《小缇娜的奇幻之地》将于 6 月 24 日凌晨 1 点登录 Steam，此前 PC 平台为 Epic 限时独占。在限定期间内，Steam 玩家可以在 Steam 入手《小缇娜的奇幻之地》，并在 2022 年 7 月 8 日前享有获得黄金英雄铠甲包。"))

[{'产品': [{'end': 35,
          'probability': 0.8595664902550801,
          'start': 25,
          'text': '《小缇娜的奇幻之地》'}],
  '地名': [{'end': 34,
          'probability': 0.30077351606695757,
          'start': 26,
          'text': '小缇娜的奇幻之地'},
         {'end': 117,
          'probability': 0.5250433327469182,
          'start': 109,
          'text': '小缇娜的奇幻之地'}],
  '时间': [{'end': 52,
          'probability': 0.8796518890642702,
          'start': 38,
          'text': '6 月 24 日凌晨 1 点'}],
  '组织': [{'end': 2,
          'probability': 0.6914450625760651,
          'start': 0,
          'text': '2K'},
         {'end': 93,
          'probability': 0.5971815528872604,
          'start': 88,
          'text': 'Steam'},
         {'end': 75,
          'probability': 0.5844303540013343,
          'start': 71,
          'text': 'Epic'},
         {'end': 105,
          'probability': 0.45620707081511114,
          'start': 100,
          'text': 'Steam'},
         {'end': 60,
          'probability': 0.5683007420326334,
          'start': 55,
          'text': 'Steam'},
         {'end': 21,
          'probability': 0.6797917390407271,
          'start': 5,
          'text': 'Gearbox Software'}]}]

pprint(ie("近日，量子计算专家、ACM计算奖得主Scott Aaronson通过博客宣布，将于本周离开得克萨斯大学奥斯汀分校(UT Austin)一年，并加盟人工智能研究公司OpenAI。"))

[{'人名': [{'end': 23,
          'probability': 0.664236391748247,
          'start': 18,
          'text': 'Scott'},
         {'end': 32,
          'probability': 0.479811241610971,
          'start': 24,
          'text': 'Aaronson'}],
  '时间': [{'end': 43,
          'probability': 0.8424644728072508,
          'start': 41,
          'text': '本周'}],
  '组织': [{'end': 87,
          'probability': 0.5550909248934985,
          'start': 81,
          'text': 'OpenAI'}]}]

使用默认模型 uie-base 进行命名实体识别，效果还不错，大多数的命名实体被识别出来了，但依然存在部分实体未被识别出，部分文本被误识别等问题。比如 "Scott Aaronson" 被识别为了两个人名，比如 "得克萨斯大学奥斯汀分校" 没有被识别出来。为提升识别效果，将通过标注少量数据对模型进行微调。

3.模型微调

在终端中执行以下脚本，将 label studio 导出的数据文件格式转换成 doccano 导出的数据文件格式。

python labelstudio2doccano.py --labelstudio_file dataset/label-studio.json

参数说明：

labelstudio_file: label studio 的导出文件路径（仅支持 JSON 格式）。
doccano_file: doccano 格式的数据文件保存路径，默认为 "doccano_ext.jsonl"。
task_type: 任务类型，可选有抽取（"ext"）和分类（"cls"）两种类型的任务，默认为 "ext"。

!python doccano.py \
    --doccano_file dataset/doccano_ext.jsonl \
    --task_type "ext" \
    --save_dir ./data \
    --splits 0.8 0.2 0

参数说明：

doccano_file: doccano 格式的数据标注文件路径。
task_type: 选择任务类型，可选有抽取（"ext"）和分类（"cls"）两种类型的任务。
save_dir: 训练数据的保存目录，默认存储在 data 目录下。
negative_ratio: 最大负例比例，该参数只对抽取类型任务有效，适当构造负例可提升模型效果。负例数量和实际的标签数量有关，最大负例数量 = negative_ratio * 正例数量。该参数只对训练集有效，默认为 5。为了保证评估指标的准确性，验证集和测试集默认构造全负例。
splits: 划分数据集时训练集、验证集、测试集所占的比例。默认为 [0.8, 0.1, 0.1] 。
options: 指定分类任务的类别标签，该参数只对分类类型任务有效。默认为 ["正向", "负向"]。
prompt_prefix: 声明分类任务的 prompt 前缀信息，该参数只对分类类型任务有效。默认为 "情感倾向"。
is_shuffle: 是否对数据集进行随机打散，默认为 True。
seed: 随机种子，默认为 1000。
separator: 实体类别/评价维度与分类标签的分隔符，该参数只对实体/评价维度级分类任务有效。默认为 "##"。

注：

每次执行 doccano.py 脚本，将会覆盖已有的同名数据文件。

3.1 Finetune

在终端中执行以下脚本进行模型微调。

# 然后在终端中执行以下脚本，对 doccano 格式的数据文件进行处理，执行后会在 /home/data 目录下生成训练/验证/测试集文件。
!python finetune.py \
    --train_path "./data/train.txt" \
    --dev_path "./data/dev.txt" \
    --save_dir "./checkpoint" \
    --learning_rate 1e-5 \
    --batch_size 32 \
    --max_seq_len 512 \
    --num_epochs 100 \
    --model "uie-base" \
    --seed 1000 \
    --logging_steps 100 \
    --valid_steps 100 \
    --device "gpu"

[2023-03-31 16:14:53,465] [    INFO] - global step 600, epoch: 67, loss: 0.00012, speed: 3.76 step/s
[2023-03-31 16:14:53,908] [    INFO] - Evaluation precision: 0.93478, recall: 0.79630, F1: 0.86000
[2023-03-31 16:15:20,328] [    INFO] - global step 700, epoch: 78, loss: 0.00010, speed: 3.79 step/s
[2023-03-31 16:15:20,777] [    INFO] - Evaluation precision: 0.93750, recall: 0.83333, F1: 0.88235
[2023-03-31 16:15:46,992] [    INFO] - global step 800, epoch: 89, loss: 0.00009, speed: 3.81 step/s
[2023-03-31 16:15:47,439] [    INFO] - Evaluation precision: 0.91667, recall: 0.81481, F1: 0.86275
[2023-03-31 16:16:13,316] [    INFO] - global step 900, epoch: 100, loss: 0.00008, speed: 3.86 step/s
[2023-03-31 16:16:13,758] [    INFO] - Evaluation precision: 0.95833, recall: 0.85185, F1: 0.90196

结果展示：

参数说明：

train_path: 训练集文件路径。
dev_path: 验证集文件路径。
save_dir: 模型存储路径，默认为 "./checkpoint"。
learning_rate: 学习率，默认为 1e-5。
batch_size: 批处理大小，请结合机器情况进行调整，默认为 16。
max_seq_len: 文本最大切分长度，输入超过最大长度时会对输入文本进行自动切分，默认为 512。
num_epochs: 训练轮数，默认为 100。
model: 选择模型，程序会基于选择的模型进行模型微调，可选有 "uie-base", "uie-medium", "uie-mini", "uie-micro" 和 "uie-nano"，默认为 "uie-base"。
seed: 随机种子，默认为 1000。
logging_steps: 日志打印的间隔 steps 数，默认为 10。
valid_steps: evaluate 的间隔 steps 数，默认为 100。
device: 选用什么设备进行训练，可选 "cpu" 或 "gpu"。
init_from_ckpt: 初始化模型参数的路径，可从断点处继续训练。

3.2 模型评估

在终端中执行以下脚本进行模型评估。

输出示例：

参数说明：

model_path: 进行评估的模型文件夹路径，路径下需包含模型权重文件 model_state.pdparams 及配置文件 model_config.json。
test_path: 进行评估的测试集文件。
batch_size: 批处理大小，请结合机器情况进行调整，默认为 16。
max_seq_len: 文本最大切分长度，输入超过最大长度时会对输入文本进行自动切分，默认为 512。
debug: 是否开启 debug 模式对每个正例类别分别进行评估，该模式仅用于模型调试，默认关闭。

debug 模式输出示例：

!python evaluate.py \
    --model_path ./checkpoint/model_best \
    --test_path ./data/dev.txt \
    --batch_size 16 \
    --max_seq_len 512

[2023-03-31 16:16:18,503] [    INFO] - We are using  to load './checkpoint/model_best'.
W0331 16:16:18.530714  1666 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2
W0331 16:16:18.533171  1666 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
[2023-03-31 16:16:24,551] [    INFO] - -----------------------------
[2023-03-31 16:16:24,551] [    INFO] - Class Name: all_classes
[2023-03-31 16:16:24,551] [    INFO] - Evaluation Precision: 0.95918 | Recall: 0.87037 | F1: 0.91262

!python evaluate.py \
    --model_path ./checkpoint/model_best \
    --test_path ./data/dev.txt \
    --debug

[2023-03-31 16:16:29,246] [    INFO] - We are using  to load './checkpoint/model_best'.
W0331 16:16:29.278601  1707 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 8.0, Driver API Version: 11.2, Runtime API Version: 11.2
W0331 16:16:29.281224  1707 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
[2023-03-31 16:16:34,944] [    INFO] - -----------------------------
[2023-03-31 16:16:34,944] [    INFO] - Class Name: 时间
[2023-03-31 16:16:34,944] [    INFO] - Evaluation Precision: 1.00000 | Recall: 0.90000 | F1: 0.94737
[2023-03-31 16:16:34,998] [    INFO] - -----------------------------
[2023-03-31 16:16:34,998] [    INFO] - Class Name: 地名
[2023-03-31 16:16:34,998] [    INFO] - Evaluation Precision: 0.95833 | Recall: 0.85185 | F1: 0.90196
[2023-03-31 16:16:35,022] [    INFO] - -----------------------------
[2023-03-31 16:16:35,022] [    INFO] - Class Name: 产品
[2023-03-31 16:16:35,022] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2023-03-31 16:16:35,048] [    INFO] - -----------------------------
[2023-03-31 16:16:35,048] [    INFO] - Class Name: 组织
[2023-03-31 16:16:35,049] [    INFO] - Evaluation Precision: 1.00000 | Recall: 0.50000 | F1: 0.66667
[2023-03-31 16:16:35,071] [    INFO] - -----------------------------
[2023-03-31 16:16:35,071] [    INFO] - Class Name: 人名
[2023-03-31 16:16:35,071] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2023-03-31 16:16:35,092] [    INFO] - -----------------------------
[2023-03-31 16:16:35,092] [    INFO] - Class Name: 天气
[2023-03-31 16:16:35,092] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000
[2023-03-31 16:16:35,109] [    INFO] - -----------------------------
[2023-03-31 16:16:35,109] [    INFO] - Class Name: 价格
[2023-03-31 16:16:35,109] [    INFO] - Evaluation Precision: 1.00000 | Recall: 1.00000 | F1: 1.00000

3.3 微调后效果

my_ie = Taskflow("information_extraction", schema=schema, task_path='./checkpoint/model_best')  # task_path 指定模型权重文件的路径
pprint(my_ie("2K 与 Gearbox Software 宣布，《小缇娜的奇幻之地》将于 6 月 24 日凌晨 1 点登录 Steam，此前 PC 平台为 Epic 限时独占。在限定期间内，Steam 玩家可以在 Steam 入手《小缇娜的奇幻之地》，并在 2022 年 7 月 8 日前享有获得黄金英雄铠甲包。"))

[2023-03-31 16:16:39,383] [    INFO] - Converting to the inference model cost a little time.
[2023-03-31 16:16:46,661] [    INFO] - The inference model save in the path:./checkpoint/model_best/static/inference
[2023-03-31 16:16:48,783] [    INFO] - We are using  to load './checkpoint/model_best'.


[{'产品': [{'end': 118,
          'probability': 0.9860396834664122,
          'start': 108,
          'text': '《小缇娜的奇幻之地》'},
         {'end': 35,
          'probability': 0.9870830377819004,
          'start': 25,
          'text': '《小缇娜的奇幻之地》'},
         {'end': 148,
          'probability': 0.9075236400717301,
          'start': 141,
          'text': '黄金英雄铠甲包'}],
  '时间': [{'end': 52,
          'probability': 0.9998017644462607,
          'start': 38,
          'text': '6 月 24 日凌晨 1 点'},
         {'end': 137,
          'probability': 0.9875673117430104,
          'start': 122,
          'text': '2022 年 7 月 8 日前'}],
  '组织': [{'end': 2,
          'probability': 0.9888051241547942,
          'start': 0,
          'text': '2K'},
         {'end': 93,
          'probability': 0.9503029387182096,
          'start': 88,
          'text': 'Steam'},
         {'end': 75,
          'probability': 0.9819544449787045,
          'start': 71,
          'text': 'Epic'},
         {'end': 105,
          'probability': 0.7914398215948992,
          'start': 100,
          'text': 'Steam'},
         {'end': 60,
          'probability': 0.982935890915897,
          'start': 55,
          'text': 'Steam'},
         {'end': 21,
          'probability': 0.9994608274841141,
          'start': 5,
          'text': 'Gearbox Software'}]}]

pprint(my_ie("近日，量子计算专家、ACM计算奖得主Scott Aaronson通过博客宣布，将于本周离开得克萨斯大学奥斯汀分校(UT Austin)一年，并加盟人工智能研究公司OpenAI。"))

[{'人名': [{'end': 32,
          'probability': 0.9990193078443497,
          'start': 18,
          'text': 'Scott Aaronson'}],
  '时间': [{'end': 2,
          'probability': 0.9998481327061199,
          'start': 0,
          'text': '近日'},
         {'end': 43,
          'probability': 0.9995744486620453,
          'start': 41,
          'text': '本周'}],
  '组织': [{'end': 66,
          'probability': 0.9900117066000078,
          'start': 57,
          'text': 'UT Austin'},
         {'end': 87,
          'probability': 0.9993381402363184,
          'start': 81,
          'text': 'OpenAI'},
         {'end': 56,
          'probability': 0.9968616126324434,
          'start': 45,
          'text': '得克萨斯大学奥斯汀分校'},
         {'end': 13,
          'probability': 0.8434502340745098,
          'start': 10,
          'text': 'ACM'}]}]

基于 50 条标注数据进行模型微调后，效果有所提升。

4.智能标注：Machine Learning Backend 编写教学

在基于UIE的命名实体识别的基础上，进一步通过集成 Label Studio 的 Machine Learning Backend 实现交互式预注释和模型训练等功能。

环境安装：

pip install label_studio_ml

pip uninstall attr

完整的 Machine Learning Backend 见 my_ml_backend.py 文件。更多有关自定义机器学习后端编写的内容可参考 Write your own ML backend。

简单来讲，my_ml_backend.py 内主要包含一个继承自 LabelStudioMLBase 的类，其内容可以分为以下三个主要部分：

init 方法，包含模型的加载和基本配置的初始化
predict 方法，用于为标注数据生成新的预测结果，其关键参数 tasks 就是 label studio 传递的原始数据
fit 方法，用于模型的训练，当点击页面上的 Train 按钮时，会调用此方法（具体的位置在下文会提到），其关键参数 annotations 就是 label studio 传递的已经标注了的数据

4.1 init 初始化方法

导入依赖库

import numpy as np
import os  
import json
from paddlenlp import Taskflow
from label_studio_ml.model import LabelStudioMLBase

声明并初始化一个类

首先创建一个类声明，通过继承 LabelStudioMLBase 创建一个与 Label Studio 兼容的 ML 后端服务器。

class MyModel(LabelStudioMLBase):

然后，在 __init__ 方法中定义和初始化需要的变量。LabelStudioMLBase 类提供了以下

self.label_config: 原始标签配置。
self.parsed_label_config: 为项目提供结构化的 Label Studio 标签配置。
self.train_output: 包含之前模型训练运行的结果，与训练调用部分中定义的 fit() 方法的输出相同。

如本教程的例子中，标签配置为：

相对应的 parsed_label_config 如下所示：

{
	'label': {
		'type': 'Labels',
		'to_name': ['text'],
		'inputs': [{
			'type': 'Text',
			'value': 'text'
		}],
		'labels': ['地名', '人名', '组织', '时间', '产品', '价格', '天气'],
		'labels_attrs': {
			'地名': {
				'value': '地名',
				'background': '#FFA39E'
			},
			'人名': {
				'value': '人名',
				'background': '#D4380D'
			},
			'组织': {
				'value': '组织',
				'background': '#FFC069'
			},
			'时间': {
				'value': '时间',
				'background': '#AD8B00'
			},
			'产品': {
				'value': '产品',
				'background': '#D3F261'
			},
			'价格': {
				'value': '价格',
				'background': '#389E0D'
			},
			'天气': {
				'value': '天气',
				'background': '#5CDBD3'
			}
		}
	}
}

根据需要从 self.parsed_label_config 变量中提取需要的信息，并通过 PaddleNLP 的 Taskflow 加载用于预标注的模型。

def __init__(self, **kwargs):
    # don't forget to initialize base class...
    super(MyModel, self).__init__(**kwargs)

    # print("parsed_label_config:", self.parsed_label_config)
    self.from_name, self.info = list(self.parsed_label_config.items())[0]

    assert self.info['type'] == 'Labels'
    assert self.info['inputs'][0]['type'] == 'Text'

    self.to_name = self.info['to_name'][0]
    self.value = self.info['inputs'][0]['value']
    self.labels = list(self.info['labels'])
    self.model = Taskflow("information_extraction", schema=self.labels, task_path= './checkpoint/model_best')

4.2 使用ML Backend predict 预测方法(自动标注)

编写代码覆盖 predict(tasks, **kwargs) 方法。predict() 方法接受 [JSON 格式的 Label Studio 任务]返回预测。此外，还可以包含和自定义可用于主动学习循环的预测分数。

tasks 参数包含了有关要进行预注释的任务的详细信息。具体的 task 格式如下所示：

{
	'id': 16,
	'data': {
		'text': '新华社都柏林6月28日电（记者张琪）第二届“汉语桥”世界小学生中文秀爱尔兰赛区比赛结果日前揭晓，来自都柏林市的小学五年级学生埃拉·戈尔曼获得一等奖。'
	},
	'meta': {},
	'created_at': '2022-07-12T07:05:06.793411Z',
	'updated_at': '2022-07-12T07:05:06.793424Z',
	'is_labeled': False,
	'overlap': 1,
	'inner_id': 6,
	'total_annotations': 0,
	'cancelled_annotations': 0,
	'total_predictions': 0,
	'project': 2,
	'updated_by': None,
	'file_upload': 2,
	'annotations': [],
	'predictions': []
}

通过 Taskflow 进行预测需要从 ['data']['text'] 字段提取出原始文本，返回的 uie 预测结果格式如下所示：

{
	'地名': [{
		'text': '爱尔兰',
		'start': 34,
		'end': 37,
		'probability': 0.9999107139090313
	}, {
		'text': '都柏林市',
		'start': 50,
		'end': 54,
		'probability': 0.9997840536235998
	}, {
		'text': '都柏林',
		'start': 3,
		'end': 6,
		'probability': 0.9999684097596173
	}],
	'人名': [{
		'text': '埃拉·戈尔曼',
		'start': 62,
		'end': 68,
		'probability': 0.9999879598978225
	}, {
		'text': '张琪',
		'start': 15,
		'end': 17,
		'probability': 0.9999905824882092
	}],
	'组织': [{
		'text': '新华社',
		'start': 0,
		'end': 3,
		'probability': 0.999975681447097
	}],
	'时间': [{
		'text': '6月28日',
		'start': 6,
		'end': 11,
		'probability': 0.9997071721989244
	}, {
		'text': '日前',
		'start': 43,
		'end': 45,
		'probability': 0.9999804497706464
	}]
}

从 uie 预测结果中提取相应的字段，构成 Label Studio 接受的预注释格式。命名实体识别任务的具体预注释示例可参考 [Import span pre-annotations for text]

更多其他类型任务的具体预注释示例可参考 [Specific examples for pre-annotations]

def predict(self, tasks, **kwargs):
    from_name = self.from_name
    to_name = self.to_name
    model = self.model

    predictions = []
    for task in tasks:
        # print("predict task:", task)
        text = task['data'][self.value]
        uie = model(text)[0]
        # print("uie:", uie)

        result = []
        scores = []
        for key in uie:
            for item in uie[key]:
                result.append({
                    'from_name': from_name,
                    'to_name': to_name,
                    'type': 'labels',
                    'value': {
                        'start': item['start'],
                        'end': item['end'],
                        'score': item['probability'],
                        'text': item['text'],
                        'labels': [key]
                    }
                })
                scores.append(item['probability'])
        result = sorted(result, key=lambda k: k["value"]["start"])
        mean_score = np.mean(scores) if len(scores) > 0 else 0

        predictions.append({
            'result': result,
            # optionally you can include prediction scores that you can use to sort the tasks and do active learning
            'score': float(mean_score),
            'model_version': 'uie-ner'
        })
    return predictions

4.3 使用 ML Backend fit 训练方法（根据标注好的数据再次优化训练模型）

基于新注释更新模型。

编写代码覆盖 fit() 方法。fit() 方法接受 [JSON 格式的 Label Studio 注释]并返回任意一个可以存储模型相关信息的 JSON 字典。

def fit(self, annotations, workdir=None, **kwargs):
    """ This is where training happens: train your model given list of annotations, 
        then returns dict with created links and resources
    """
    # print("annotations:", annotations)
    dataset = convert(annotations)


    with open("./doccano_ext.jsonl", "w", encoding="utf-8") as outfile:
        for item in dataset:
            outline = json.dumps(item, ensure_ascii=False)
            outfile.write(outline + "\n")

    os.system('python doccano.py \
        --doccano_file ./doccano_ext.jsonl \
        --task_type "ext" \
        --save_dir ./data \
        --splits 0.8 0.2 0')

    os.system('python finetune.py \
        --train_path "./data/train.txt" \
        --dev_path "./data/dev.txt" \
        --save_dir "./checkpoint" \
        --learning_rate 1e-5 \
        --batch_size 4 \
        --max_seq_len 512 \
        --num_epochs 50 \
        --model "uie-base" \
        --init_from_ckpt "./checkpoint/model_best/model_state.pdparams" \
        --seed 1000 \
        --logging_steps 10 \
        --valid_steps 100 \
        --device "gpu"')

    return {
        'path': workdir
    }

6.总结

人工标注的缺点主要有以下几点：
- 产能低：人工标注需要大量的人力物力投入，且标注速度慢，产能低，无法满足大规模标注的需求。
- 受限条件多：人工标注受到人力、物力、时间等条件的限制，无法适应所有的标注场景，尤其是一些复杂的标注任务。
- 易受主观因素影响：人工标注受到人为因素的影响，如标注人员的专业素养、标注态度、主观判断等，易受到人为误差的干扰，导致标注结果不准确。
- 难以满足个性化需求：人工标注无法满足所有标注场景和个性化需求，无法精确地标注出所有的关键信息，需要使用者自行选择和判断。
相比之下，智能标注的优势主要包括：
- 效率更高：智能标注可以自动化地进行标注，能够快速地生成标注结果，减少了人工标注所需的时间和精力，提高了标注效率。
- 精度更高：智能标注采用了先进的人工智能技术，能够对图像进行深度学习和处理，能够生成更加准确和精细的标注结果，特别是对于一些细节和特征的标注，手动标注往往存在误差较大的问题。
- 自动纠错：智能标注可以自动检测标注结果中的错误，并进行自动修正，能够有效地避免标注错误带来的影响，提高了标注的准确性。
- 灵活性更强：智能标注可以根据不同的应用场景和需求，生成不同类型的标注结果，能够满足用户的多样化需求，提高了标注的适用性。

总之，智能标注相对于人工标注有着更高的效率、更高的精度、更强的灵活性和更好的适用性，可以更好地满足用户的需求。

你可能感兴趣的:(运维,开发语言)

自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解
人工智能的爆发式增长正在重塑全球产业格局。从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。然而，面对动辄数亿元的硬件投入和复杂的运维挑战，AI企业正面临一个关键抉择：自建智能算力中心，还是选择第三方算力租赁？本文将从成本、效率、风险及适用场景等维度展开深度分析，为企业提供决策参考。一、成本对比：重资产
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
[测试]性能测试的概念, 常见指标, 分类姜西西_ 软件测试测试软件测试安全性测试
文章目录1.什么是性能测试？2.常见性能测试指标并发数吞吐量响应时间并发用户、系统吞吐量、系统响应时间之间的关系事务TPS和QPS资源利用率3.性能测试关注点终端用户系统运维人员软件设计开发人员性能测试人员4.性能测试分类基准测试并发测试负载测试压力测试稳定性测试1.什么是性能测试？概念：为了发现系统性能问题或获取系统性能相关指标而进行的测试。常见的性能问题：查询数据时间过长，网速很慢，服务器无响
5大陷阱+实战：C#日志分析，从‘日志迷宫’到‘监控神殿’的逆袭全攻略！墨瑾轩 C#乐园 c#网络开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣你的日志还在‘打哑谜’吗？“错误日志像‘天书’读不懂？监控告警像‘哑巴’不发声？”——别慌！今天用C#日志分析，让你的系统像“福尔摩斯”一样精准破案，从实时监控到根因定位，从此告别“黑盒运维”！权威背书：日志分析≠‘抄作业’！“90%的故障因‘日志解析缺失’导
Linux 云计算运维三剑客grep、sed、awk简单对比 OWEN-KAI 运维 linux perl
grepsed特点简单过滤更为适用替换内容更为适用功能强大可以进行运算主要用途对文本进行筛选和查找对文本进行替换、删除、插入对文本进行数据统计、条件判断工作模式以行为单位，不涉及行内具体字段做操作主要以行为单位，可以结合正则对部分内容进行操作以字段为基本处理单位，可以对每行中不同字段进行独立操作基本正则grepsedawk扩展正则grep-Esed-rawk过滤语法结构grep'字符串'files
【玩转正则表达式】Python、Go、Java正则表达式解释器的差异解析（附示例） ThisIsClark 玩转正则表达式正则表达式 java python golang
正则表达式作为文本处理的利器，在不同编程语言中的实现却暗藏玄机。Python、Go和Java作为主流开发语言，其正则引擎在语法支持、功能完整性和性能表现上存在显著差异。本文通过具体示例，揭示这些差异及应对策略。一、原始字符串与转义差异Python使用r""定义原始字符串，避免转义：importrere.findall(r'\d+','123a456')#输出['123','456']Go和Java
Ansible自动化运维工具深度研究报告萧十一郎@ 知识科普网络运维
目录一、引言1.1研究背景与目的1.2研究方法与数据来源1.3报告结构二、Ansible基础概述2.1Ansible简介2.2发展历程2.3架构与工作原理2.4特点优势三、Ansible安装与配置3.1安装环境准备3.2安装步骤详解3.3配置文件解读3.4密钥对配置与免密登录设置四、Ansible核心功能与模块4.1命令行模块使用4.2Playbook详解4.3常用模块分析4.4模块扩展与自定义五
运维Tips | Ubuntu 24.04 安装配置 samba 文件共享全栈工程师修炼指南企业IT运维实践运维 ubuntu linux 服务器
[知识是人生的灯塔，只有不断学习，才能照亮前行的道路]Ubuntu24.04安装配置samba文件共享描述：我们将Ubuntu24.04作为机器学习的工作站，往往需要将Ubuntu24.04中的数据或者代码共享给我们其他使用Windows系统的小伙伴，此时我们可以使用SAMBA，开辟出一个文件共享目录供大家进行数据交换使用。SAMBA是什么?在Linux中，SAMBA是一个开源的软件套件，它提供了
Linux系统运维工程师入门绝招放送云计算运维工程师资讯
运维是干嘛的？安装服务器系统？重装系统再装系统？背锅的？我就稀里糊涂的，这样报着必死的决心，考下RHCE认证，走上了Linux运维的道路，成为了一名linux运维工程师。有些心得跟大家分享下，避免小白多走冤路。Linux运维必须要掌握的工具，我列出这几方面，这样的话入门就基本没问题。Linux系统学习可以选用redhat或者centos，特别是centos在企业中用得最多，当然还会有其它版本的，以
2024年运维最新【Linux】基础IO —— 缓冲区深度剖析_linux io 缓冲区大小(2)，2024年最新张口就来 JavaScript高级程序员运维 linux 服务器
最全的Linux教程，Linux从入门到精通======================linux从入门到精通(第2版)Linux系统移植Linux驱动开发入门与实战LINUX系统移植第2版Linux开源网络全栈详解从DPDK到OpenFlow第一份《Linux从入门到精通》466页====================内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linu
「AI 加持的高效架构」高并发场景下的服务器成本优化
摘要在高并发场景下，服务器资源消耗巨大，导致运维成本飙升。本篇文章将探讨限流、缓存、队列等技术手段，并结合AI技术优化服务器负载，降低计算成本。通过具体案例分析，提供更经济高效的高并发架构解决方案。引言高并发的挑战随着互联网业务增长，系统需要承受高并发请求，面临以下挑战：瞬时流量激增：秒杀、抢购、热门活动带来的超高流量。资源消耗巨大：数据库、服务器、网络带宽压力大，成本攀升。响应速度下降：延迟增加
基于HarmonyNext的ArkTS实战：构建高性能跨平台供应链管理系统 harmonyos-next
基于HarmonyNext的ArkTS实战：构建高性能跨平台供应链管理系统引言在现代供应链管理中，高效的数据处理和实时监控是提升运营效率的关键。随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何利用ArkTS12+的语法和HarmonyNext的特性，构建一个供应链管理系统。我们将通过一个详细的实战案例，讲解从
基于HarmonyNext的ArkTS实战：构建高性能跨平台应用 harmonyos-next
基于HarmonyNext的ArkTS实战：构建高性能跨平台应用引言随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了更强大的工具来构建高性能、跨平台的应用。本文将深入探讨如何利用ArkTS12+的语法和HarmonyNext的特性，构建一个实际工程中的高性能应用。我们将通过一个详细的实战案例，讲解从项目架构设计到代码实现的完整流程，确保读者能够跟随步骤完成一个真实
云原生架构设计理论与实践（14）系统架构
1.云原生背景业务快速发展与开发、运维、运营之间落后的生产关系与生产力的矛盾企业内部各占山头与企业总体战略规划的矛盾企业内部改革，降本增效的需求企业实现数字孪生，数字资产的必然需求企业外部环境，如人工智能发展、安全合规等大环境的要求2.云原生架构的设计原则服务化原则（拆分为微服务、小服务，非功能特性委托）弹性原则（可伸可缩）可观测原则（基于sla，slo，在log，trace，metric三个维度
Go语言的智能合约崔婉凝包罗万象 golang 开发语言后端
Go语言与智能合约的结合随着区块链技术的快速发展，智能合约作为其重要组成部分，正在逐渐改变传统行业的运作方式。作为区块链上的一种自执行程序，智能合约的出现为信任机制的构建提供了新的解决方案。在众多开发语言中，Go语言因其高效性、并发性和良好的可维护性，越来越受到智能合约开发者的青睐。本文将深入探讨Go语言在智能合约开发中的优势、应用以及实现方法。1.智能合约概述智能合约是一种自动执行、控制或文档的
入门笔记STA1.C++的编译，变量，new，引用逐梦云间 c++c++java 开发语言
目录1.简介1、C++简介2、书写一个C++的helloworld程序。3、编译代码。4、变量。5、常量。六、字符串。七、数据的输入八、递增递减运算符九、内存分区模型。十、程序运行前。十一、程序运行后。十二、new操作符开辟堆空间。十三、引用的基本使用。十四、引用注意事项。十五、引用做函数参数。十六、引用做函数返回值。1.简介1、C++简介1、C语言与C++区别？C语言是一种面向过程的开发语言。-
shell 知识点1 测试linux服务器之间ip和端口是否畅通 tigercat920 shell linux tcp/ip 服务器
运维工作中，可能会涉及新添加的服务器或者已有服务器之间的网络防火墙不通的情况，但是有的服务器可能已经开通了，有的没有开通，如果一个个去排查就比较麻烦，这个时候我们可以借助于下面这段shell脚本批量探测，并将结果输出；#!/bin/baship="192.168.1.1"#替换为你要检查的IP地址port="80"#替换为你要检查的端口号timeout=3#设置超时时间（秒）foriin`cat/
Python游戏开发自学指南：从入门到实践（第四天） Small踢倒coffee_氕氘氚 python自学经验分享笔记
Python不仅适用于数据分析、Web开发和自动化脚本，还可以用于游戏开发！虽然Python不是传统意义上的游戏开发语言，但其简洁的语法和丰富的库使其成为初学者学习游戏开发的绝佳选择。本文将为你提供一份全面的Python游戏开发自学指南，帮助你从入门到实践，掌握用Python开发游戏的技能。##一、为什么选择Python开发游戏？1.**简单易学**：Python语法简洁，适合初学者快速上手。2.
惊人的贵！DeepSeek-R1 本地部署成本不同方案大对比，成本优化建议也一并奉上！你能部署的起吗？涛涛讲AI 大模型大模型
关于DeepSeek-R1本地部署的成本信息，费用范围因部署方案和硬件配置差异较大，具体可分为以下三类情况：一、企业级满血版部署（671B参数）硬件采购成本服务器集群：含8张NVIDIAA100/H100显卡的服务器，市场价格约80-120万元配套设备：液冷系统、冗余电源等附加成本约15-25万元运维成本电费：满载功耗约6000W，年电费约5-8万元（按工业电价1.2元/度计算）维护：专业工程师团
Go语言 vs Java语言：核心差异与适用场景解析 By北阳 golang java 开发语言
在当今的软件开发领域，Go（Golang）和Java都是备受关注的后端开发语言。尽管二者都能构建高性能服务，但它们在设计哲学、语法特性和应用场景上存在显著差异。本文将从多个维度对比这两种语言，帮助开发者更好地理解它们的优缺点，并为技术选型提供参考。一、设计哲学与语言定位1.Go语言定位：专为高并发、分布式系统设计，强调简洁性和高效性。特点：语法简单，学习曲线平缓。静态编译为单一二进制文件，部署便捷
Github2025-03-10 开源项目周报 Top13 老孙正经胡说开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本周(2025-03-10统计)共有13个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7TypeScript项目2JavaScript项目2C++项目1JupyterNotebook项目1Vue项目1文档项目1Rust项目1Svelte项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个For
【GPT入门】第24课 langfuse介绍 *星星之火* 大模型 gpt
【GPT入门】第24课langfuse介绍1.langfuse概念与作用2.代码3.页面效果4.设计模式1.装饰器模式2.上下文管理模式1.langfuse概念与作用Langfuse是一款专为大规模语言模型（LLM）应用开发设计的开源平台。其作用主要包括以下几个方面：提升开发效率：通过消除LLM应用构建与运维的复杂性，让开发者、运维团队及产品经理能更专注于核心开发与迭代优化，减少在监控与优化方面的
202年充电计划——自学手册网络安全（黑客技术）网安康sir web安全安全网络 python linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包前言什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习
微服务架构中10个常用的设计模式微服务
在当今的微服务架构中，常见的十种设计模式，分别是服务发现模式、API网关模式、断路器模式、边车模式、负载均衡模式、Saga事务模式、CQRS模式、分片模式、分布式日志跟踪模式、熔断与降级模式。其中，服务发现模式十分关键，通过自动化发现和定位服务，减少人工配置带来的不确定性，让系统可扩展性与高可用性得以更好地保障。同时，这一模式还能有效降低运维难度，在服务数量急剧增加的情况下依然保持灵活管理，提高线
如何进行OceanBase 运维工具的部署和表性能优化! oceanbase
随着OceanBase数据库应用的日益深入，数据量不断攀升，单个表中存储数百万乃至数千万条数据的情况变得愈发普遍。因此，部署专门的运维工具、实施针对性的表性能优化策略，以及加强指标监测工作，都变得更为重要。以下为基于我们的使用场景，所采取的一些部署和优化措施分享。一、OCP部署升级1．OCP升级（1）4.2.1BP1升级到4.2.2，本来以为毫无波澜但是下载完毕一键包并完成前期准备工作启动后发现无
理解持续测试，才算理解DevOps
软件产品的成功与否，在很大程度上取决于对市场需求的及时把控，采用DevOps可以加快产品交付速度，改善用户体验，从而有助于保持领先于竞争对手的优势。作为敏捷开发方法论的一种扩展，DevOps强调开发、测试和运维不同团队间的协作与沟通。持续集成和持续测试是一个在迭代中构建、测试产品并修复Bug的过程。它有助于团队在开发阶段的初期发现缺陷，这时的缺陷通常相对不那么复杂，并且更容易被解决。通过持续集成和
如何写一个电梯程序？电气外传自动化电气自动化程序人生
如题，想通过小编的简单描述，就算您行业差距较大也能对电梯有一个不一样的理解。照例欢迎各位看官的深入探讨和批评指正。电梯已经是我们生活中不可或缺的一部分了，它提供的垂直交通方式已经成为我们楼房的核心大动脉。现在的民用高层电梯多采用微机控制方案，冗余速度和群控能力都很强大；而且民用高层电梯属于特种设备，需要有资质厂家和人员才可以安装和运维。这使得它的专业性进一步变强。显而易见小编也干不了那么专业的事情
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全 python
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
运维面试常问的100道题（大数据统计）無爲謂人工智能运维面试
一、基础知识类1、请解释什么是运维？运维是指对企业的IT系统进行运行维护，包括硬件设备、软件系统、网络等的监控、管理、优化和故障处理，以确保系统的稳定、高效运行，满足业务需求。2、简述运维的主要职责有哪些？服务器的安装、配置、维护和监控。网络设备的管理和维护。数据库的管理和维护。应用系统的部署、升级和维护。故障处理和应急响应。性能优化和容量规划。安全管理和漏洞修复。3、什么是服务器？有哪些类型？服
HarmonyOS Next ohpm-repo自动化运维——日志、备份与监控 harmonyos
在HarmonyOSNext开发过程中，ohpm-repo作为私有仓库管理工具，其稳定运行对于项目的顺利推进至关重要。有效的自动化运维是保障ohpm-repo高效运行的关键，涵盖日志管理、仓库备份与恢复以及批量操作等多个方面。接下来，我们详细探讨这些自动化运维能力。如何管理ohpm-repo的日志？ohpm-repo有一个内置的日志记录器，定义了四种日志类型，分别是访问日志（access.log）
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p