AI Studio

ChatYuan - 国内首个开源对话大模型的体验和评测

★★★ 本文源自AI Studio社区精品项目，【点击此处】查看更多精品内容 >>>

国内首个开源对话大模型ChatYuan体验和测试

ChatYuan: 元语功能型对话大模型

这个模型可以用于问答、结合上下文做对话、做各种生成任务，包括创意性写作，也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

PromptCLUE-large在1000亿token中文语料上预训练，累计学习1.5万亿中文token，并且在数百种任务上进行Prompt任务式训练。针对理解类任务，如分类、情感分析、抽取等，可以自定义标签体系；针对多种生成任务，可以进行采样自由生成。

项目github地址：https://github.com/clue-ai/ChatYuan

开源模型的paddle版本地址：https://huggingface.co/ClueAI/ChatYuan-large-v1-paddle

扫码体验或微信搜索小程序“元语智能”

# 更新paddlenlp的版本
!pip install --upgrade paddlenlp

import warnings
warnings.filterwarnings('ignore')

1. 下载ChatYuan模型并加载

PaddleNLP2.5.0 新特新之一

HuggingFace 生态联合

PaddleNLP首次和HuggingFace生态联合，支持所有Model和Tokenizer类支持直接从Huggingface Hub下载和上传，开发者可以直接从HuggingFace体验预训练模型效果

所有Model和Tokenizer类支持直接从Huggingface Hub下载和上传
Text Summarization, Fill Mask, Dialogue Taskflow支持直接从Huggingface Hub加载, 并且连通HuggingFace Inference API
新增ConversionMixin, bert和gpt模型的from_pretrained 支持直接从Huggingface Hub加载torch权重的模型

1.1 在线加载

直接从hf_hub下载模型，速度有时快有时慢

# 加载模型
from paddlenlp.transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = AutoTokenizer.from_pretrained("ClueAI/ChatYuan-large-v1", from_hf_hub=False)
model = T5ForConditionalGeneration.from_pretrained("ClueAI/ChatYuan-large-v1", from_hf_hub=False)

# 这里使用的是paddle的gpu版本，修改colab笔记本设置为gpu，并且使用paddle的gpu版本，推理会更快
def preprocess(text):
  text = text.replace("\n", "\\n").replace("\t", "\\t")
  return text

def postprocess(text):
  return text.replace("\\n", "\n").replace("\\t", "\t")

def answer(text, sample=True, top_p=1, temperature=0.7):
  '''sample：是否抽样。生成任务，可以设置为True;
  top_p：0-1之间，生成的内容越多样'''
  text = preprocess(text)
  encoding = tokenizer(text=[text], truncation=True, padding=True, max_length=768, return_tensors="pd")
  if not sample:
    out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=512, max_new_tokens=512, num_beams=1, length_penalty=0.4)
  else:
    out = model.generate(**encoding, return_dict_in_generate=True, output_scores=False, max_length=512, max_new_tokens=512, do_sample=True, top_p=top_p, temperature=temperature, no_repeat_ngram_size=3)
  
  out_text = tokenizer.batch_decode(out[0], skip_special_tokens=True)
  
  return postprocess(out_text[0])
print("end...")

end...

input_text= "写一个2023年规划,产品研发部门"
print(f"示例".center(50, "="))
input_text = "用户：" + input_text + "\n小元："
output_text = answer(input_text, sample=True,top_p=1, temperature=0.7)
print(f"{input_text}{output_text}")

========================示例========================


[2023-01-31 17:47:19,446] [ WARNING] - Accessing `bos_token_id` through `model.bos_token_id` will be deprecated after v2.6.0. Instead, do `model.config.bos_token_id`
[2023-01-31 17:47:19,449] [ WARNING] - Accessing `eos_token_id` through `model.eos_token_id` will be deprecated after v2.6.0. Instead, do `model.config.eos_token_id`
[2023-01-31 17:47:19,452] [ WARNING] - Accessing `pad_token_id` through `model.pad_token_id` will be deprecated after v2.6.0. Instead, do `model.config.pad_token_id`
[2023-01-31 17:47:19,454] [ WARNING] - Accessing `forced_bos_token_id` through `model.forced_bos_token_id` will be deprecated after v2.6.0. Instead, do `model.config.forced_bos_token_id`
[2023-01-31 17:47:19,456] [ WARNING] - Accessing `forced_eos_token_id` through `model.forced_eos_token_id` will be deprecated after v2.6.0. Instead, do `model.config.forced_eos_token_id`
[2023-01-31 17:47:19,458] [ WARNING] - Accessing `decoder_start_token_id` through `model.decoder_start_token_id` will be deprecated after v2.6.0. Instead, do `model.config.decoder_start_token_id`


用户：写一个2023年规划,产品研发部门
小元：2023年产品研发部门发展规划

一、目标

1. 开发新的产品，提高产品的质量，满足客户的需求;

2. 开发新产品，提高产品的性能，满足客户需求;
_
3. 开发新的应用，提高用户的体验，满足市场需求;
二、工作职责

1、 制定产品研发计划，确定研发目标;
2、 制定研发计划，明确研发方向，制定研发流程;
3、 制定开发计划，确保研发计划的执行;
4、 制定技术方案，保证研发成果的可靠性;
5、 制定测试方案，确保测试结果的准确性;
6、 制定培训计划，提高研发人员的专业水平;
7、 制定绩效考核，确保产品研发工作的顺利进行。

三、组织结构

1 部门职责：负责产品研发的组织、协调、实施、监督;
2 部门目标：制定研发目标，确定产品研发方向，确定开发策略，制定开发流程，保证产品研发的顺利进行;
3 部门成员：负责研发计划制定，研发计划实施，研发成果检测，研发人员培训，研发绩效考核;
4 部门组织结构：

部门负责人：负责产品开发，研发技术，研发管理，

from paddlenlp.transformers.t5.tokenizer import T5Tokenizer
from paddlenlp.transformers.t5.modeling import T5ForConditionalGeneration
from paddlenlp.transformers import AutoTokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("ClueAI/ChatYuan-large-v1", from_hf_hub=False)
model = T5ForConditionalGeneration.from_pretrained("ClueAI/ChatYuan-large-v1", from_hf_hub=False)

[2023-01-31 17:40:39,564] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/ClueAI/ChatYuan-large-v1/spiece.model
[2023-01-31 17:40:39,567] [    INFO] - Downloading https://bj.bcebos.com/paddlenlp/models/community//ClueAI/ChatYuan-large-v1/added_tokens.json and saved to /home/aistudio/.paddlenlp/models/ClueAI/ChatYuan-large-v1
[2023-01-31 17:40:39,635] [ WARNING] - file not exist
[2023-01-31 17:40:39,638] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/ClueAI/ChatYuan-large-v1/special_tokens_map.json
[2023-01-31 17:40:39,640] [    INFO] - Already cached /home/aistudio/.paddlenlp/models/ClueAI/ChatYuan-large-v1/tokenizer_config.json
[2023-01-31 17:40:39,755] [    INFO] - Downloading config.json from https://bj.bcebos.com/paddlenlp/models/community/ClueAI/ChatYuan-large-v1/config.json
100%|██████████| 807/807 [00:00<00:00, 1.17MB/s]
[2023-01-31 17:40:39,847] [    INFO] - loading configuration file /home/aistudio/.paddlenlp/models/ClueAI/ChatYuan-large-v1/config.json
[2023-01-31 17:40:39,850] [    INFO] - Model config T5Config {
  "architectures": [
    "T5ForConditionalGeneration"
  ],
  "d_ff": 2816,
  "d_kv": 64,
  "d_model": 1024,
  "decoder_start_token_id": 0,
  "dense_act_fn": "gelu_new",
  "dropout_rate": 0.1,
  "dtype": "float32",
  "enable_recompute": false,
  "eos_token_id": 1,
  "feed_forward_proj": "gated-gelu",
  "initializer_factor": 1.0,
  "is_encoder_decoder": true,
  "is_gated_act": true,
  "layer_norm_epsilon": 1e-06,
  "model_type": "t5",
  "num_decoder_layers": 24,
  "num_heads": 16,
  "num_layers": 24,
  "output_past": true,
  "pad_token_id": 0,
  "paddlenlp_version": null,
  "relative_attention_max_distance": 128,
  "relative_attention_num_buckets": 32,
  "tie_word_embeddings": false,
  "torch_dtype": "float32",
  "transformers_version": "4.26.0.dev0",
  "use_cache": true,
  "vocab_size": 32128
}

[2023-01-31 17:40:39,914] [    INFO] - Found /home/aistudio/.paddlenlp/models/ClueAI/ChatYuan-large-v1/model_state.pdparams
W0131 17:40:46.686321   272 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 7.0, Driver API Version: 11.2, Runtime API Version: 11.2
W0131 17:40:46.690373   272 gpu_resources.cc:91] device: 0, cuDNN Version: 8.2.
[2023-01-31 17:40:51,346] [    INFO] - All model checkpoint weights were used when initializing T5ForConditionalGeneration.

[2023-01-31 17:40:51,349] [    INFO] - All the weights of T5ForConditionalGeneration were initialized from the model checkpoint at ClueAI/ChatYuan-large-v1.
If your task is similar to the task the model of the checkpoint was trained on, you can already use T5ForConditionalGeneration for predictions without further training.

1.2 离线加载

# 解压从官网下载好的ChatYuan-large-v1-paddle，通过from_pretrained直接加载
!unzip -d ChatYuan-large-v1 /home/aistudio/data/data187227/ChatYuan-large-v1.zip

Archive:  /home/aistudio/data/data187227/ChatYuan-large-v1.zip
replace ChatYuan-large-v1/config.json? [y]es, [n]o, [A]ll, [N]one, [r]ename: ^C

from paddlenlp.transformers.t5.tokenizer import T5Tokenizer
from paddlenlp.transformers.t5.modeling import T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("ChatYuan-large-v1")
model = T5ForConditionalGeneration.from_pretrained("ChatYuan-large-v1")

2. 推理函数

model.generate中的参数

import paddle
from paddlenlp.transformers import T5Tokenizer, T5ForConditionalGeneration

# tokenizer = T5Tokenizer.from_pretrained("ChatYuan-large-v1")
# model = T5ForConditionalGeneration.from_pretrained("ChatYuan-large-v1")
model.eval()

def preprocess(text):
  text = text.replace("\n", "\\n").replace("\t", "\\t")
  return text

def postprocess(text):
  return text.replace("\\n", "\n").replace("\\t", "\t")

def answer(text, sample=True, top_p=1, temperature=0.6, num_beams=1, length_penalty=0.0, decode_strategy='sampling'):
  '''
  sample: 是否抽样。生成任务，可以设置为True;
  top_p (float, optional): The cumulative probability for top-p-filtering in the "sampling" strategy. The value should satisfy 0<=top_p<1
  . Default to 1.0, which means no effect.
  temperature (float, optional): The value used to module the next token probabilities in the "sampling" strategy. Default to 1.0, which means no effect.
  decode_strategy (str, optional): The decoding strategy in generation. Currently, there are three decoding strategies supported: "greedy_search", "sampling" and "beam_search". Default to "greedy_search".
  '''
  text = preprocess(text)
  encoding = tokenizer(text=[text], truncation=True, padding=True, max_length=768)
  # if not sample:
  #   out = model.generate(**encoding,
  #                       output_scores=False, 
  #                       max_length=512, 
  #                       num_beams=1, 
  #                       length_penalty=0.6, 
  #                       # use_fast=True
  #                       )
  # else:
  out, _ = model.generate(input_ids=paddle.to_tensor(encoding['input_ids']), 
                          attention_mask=paddle.to_tensor(encoding["attention_mask"]), 
                          max_length= 512, 
                          decode_strategy=decode_strategy,  
                          top_p=top_p, 
                          temperature=temperature,
                          num_beams=num_beams,
                          length_penalty=length_penalty,
                          no_repeat_ngram_size=3, 
                          # use_fast=True
                          )
  out_text = tokenizer.batch_decode(out.numpy(), skip_special_tokens=True)
  return postprocess(out_text[0])
print("end...")

end...

3. Github Demo 复现

首先，测试是否可以跑通Github上的Demo示例，

下方代码在原有的代码基础上增加了响应时间的测试代码。

3.1 问答、写作与功能型助手

import time
input_text0 = "帮我写一个请假条，我因为新冠不舒服，需要请假3天，请领导批准"
input_text1 = "你能干什么"
input_text2 = "写一封英文商务邮件给英国客户，表达因为物流延误，不能如期到达，我们可以赔偿贵公司所有损失"
input_text3 = "写一个文章，题目是未来城市"
input_text4 = "写一个诗歌，关于冬天"
input_list = [input_text0, input_text1, input_text2, input_text3, input_text4]
for i, input_text in enumerate(input_list):
  start = time.clock()#开始时间
  input_text = "用户：" + input_text + "\n\n小元："
  print(f"示例{i}".center(50, "="))
  output_text = answer(input_text)
  print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

=======================示例0========================
用户：帮我写一个请假条，我因为新冠不舒服，需要请假3天，请领导批准

小元：尊敬的领导：

您好!

我是xxx，因为最近新冠肺炎疫情，感到不适，所以请求请假3天，时间为3天。非常感谢您的批准。

期待您的回复，谢谢!
 

此致 
_

(你的名字)

推理耗时：5.352615 s
=======================示例1========================
用户：你能干什么

小元：您好!我是元语AI。我可以回答您的问题、写文章、写作业、翻译，对于一些法律等领域的问题我也可以给你提供信息。

推理耗时：2.48283 s
=======================示例2========================
用户：写一封英文商务邮件给英国客户，表达因为物流延误，不能如期到达，我们可以赔偿贵公司所有损失

小元：Dear [Name],

Thank you for your delayed arrival from the UK. We are very appreciated that we can offer you compensation for all the losses you have made due to the delays in your logistics.

We understand that logging delaies are mostly unreliable and we will offer compenses for any loss we have to offer.
	We also approach you for our understanding that delaY could not be arrived as soon as possible.
 We will provide our best solutions for your loss and please respect our products as much as the time being.
 Thanks for the details we make in the future.
 [Your name] 

Checking for

推理耗时：18.676509000000003 s
=======================示例3========================
用户：写一个文章，题目是未来城市

小元：未来城市的崛起，将给人们带来极大的便利。

未来城市将是一个充满创新的城市，它将采用新技术，创造出更先进的城市。城市将拥有更多智能设施，如自动驾驶汽车、无人驾驶汽车、智能建筑、自动零售店等，这些设施将为人们提供更多便利。与此同时，城市还将拥有更先进的交通系统，让人们出行更加便利。此外，随着科技的发展，城市中的基础设施也将更加完善，为人们的生活提供更多保障。
据悉，未来城市还拥有更智能的交通系统、更智能的城市自动化系统、更加智能的能源系统，以及更加智能的文化系统。这些技术将为城市提供更多的便利，为人们的出行带来更多便利，也为城市的发展带来新的希望。
总之，未来城市的兴起，将为人民带来更多的便利和机遇，使人们的生活质量得到提升，推动城市的发展。

推理耗时：12.748275 s
=======================示例4========================

import time
input_text5 = "从南京到上海的路线"
input_text6 = "学前教育专业岗位实习中，在学生方面会存在问题，请提出改进措施。800字"
input_text7 = "根据标题生成文章：标题：屈臣氏里的化妆品到底怎么样？正文：化妆品，要讲究科学运用，合理搭配。屈臣氏起码是正品连锁店。请继续后面的文字。"
input_text8 = "帮我对比几款GPU，列出详细参数对比，并且给出最终结论"
input_list = [input_text5, input_text6, input_text7, input_text8]
for i, input_text in enumerate(input_list):
    start = time.clock()#开始时间
    input_text = "用户：" + input_text + "\n\n小元："
    print(f"示例{i}".center(50, "="))
    output_text = answer(input_text)
    print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

=======================示例0========================
用户：从南京到上海的路线
小元：1、从南京出发，乘坐高铁，从南京南站出发，乘坐高铁，到达上海。

2、从南京乘坐高铁，到达上海，然后乘坐地铁，换乘地铁，到达上海，这样就可以到达上海了。

推理耗时：3.808785000000057 s
=======================示例1========================
用户：学前教育专业岗位实习中，在学生方面会存在问题，请提出改进措施。800字
小元：在学前教育专业岗位实习中，学生可能会存在一些问题，这些问题可能会影响学生的实习效果，甚至会影响到学生的专业知识学习。对此，我们必须采取一些改进措施，以期改善这些问题，提高学生的学习效果。

首先，要增强学生的责任心，让学生养成良好的学习习惯，认真学习专业知识，尊重老师，虚心学习，并且注重学生的知识积累。

其次，要加强学生的认知能力，让学生认识到学前教育专业的重要性，让学生能够更好地理解学前教育专业，学习学前教育专业知识，提高学生的实践能力。

最后，要加强学生的职业意识，让学生能够更好地了解学前教育专业，了解学前教育专业的发展，使学生能够更好地适应学前教育专业的发展，提高学生的职业素养。

总之，在学前教育专业岗位实习中，我们必须加强学生的能力，提高学生的职业素养，从而提高学生的实习效果。

推理耗时：13.742045000000076 s
=======================示例2========================
用户：根据标题生成文章：标题：屈臣氏里的化妆品到底怎么样？正文：化妆品，要讲究科学运用，合理搭配。屈臣氏起码是正品连锁店。请继续后面的文字。
小元：屈臣氏里的化妆品到底怎么样？屈臣氏里有个化妆品专区，里面东西很多，有化妆品，护肤品，彩妆，香水，护发素，发膜，护肤产品，药妆产品，眼霜，润肤露，眼霜，精华素，面膜，眼霜，面膜，眼霜，眼霜，面膜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，眼霜，

推理耗时：21.125676 s
=======================示例3========================
用户：帮我对比几款GPU，列出详细参数对比，并且给出最终结论
小元：1. Radeon HD 7770 AMD HD 7700 ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程，8G显存，NVIDIA GeForce GTX 1060 Ti ： 8核心，8线程

推理耗时：20.885972000000038 s

根据上述Demo的展示，可以发现YuanChat可以较好地完成一些任务，但仍然存在一些问题，例如回答会重复一遍问题、答案出现很多重复。
查阅了一些资料，我们发现文本生成过程中，解码策略对于文本生成用来说是非常重要的。
神经语言模型的基于最大化的解码方法（如 beam search）往往导致退化解，即生成的文本是不自然的，并且常常包含不必要的重复。
现有的方法通过采样或修改训练目标来引入随机性，以降低某些 token 的概率（例如，非似然训练）。
然而，它们往往导致解决方案缺乏连贯性。

对此，我们尝试不同的生成策略，对比Demo中例子生成的区别

import time
input_text3 = "写一个文章，题目是未来城市"
input_text4 = "写一个诗歌，关于冬天"
input_list = [input_text3, input_text4]
for i, input_text in enumerate(input_list):
    start = time.clock()#开始时间
    print(f"示例{i}".center(50, "="))
    input_text = "用户：" + input_text
    print(f"{input_text}")
    output_text1 = answer(input_text,decode_strategy="sampling")
    print(f"\n小元-sampling：{output_text1}")
    output_text2 = answer(input_text,decode_strategy="beam_search",num_beams=3,length_penalty=0.6)
    print(f"\n小元-beamsearch：{output_text2}")
    output_text3 = answer(input_text,decode_strategy="greedy_search",num_beams=1)
    print(f"\n小元-greedysearch：{output_text3}")
    print(f"\n推理耗时：{time.clock()-start} s")   

"""
decode_strategy (str, optional) -- The decoding strategy in generation. Currently, 
there are three decoding strategies supported: 
"greedy_search", "sampling" and "beam_search". Default to "greedy_search".
"""

=======================示例0========================
用户：写一个文章，题目是未来城市

小元-sampling：未来城市是指未来城市将会以一种更加智能、更加绿色、更加智慧的生活方式为特征。未来城市将是一个更加智能、更加绿色、更加智慧的城市。未来城市会以一种更加智能、更加绿色、更加智慧的生活方式为特征，通过发展智能交通、数字城市、智能生活、智能农业、智能医疗、智能教育、智能医疗等智能技术，实现交通、能源、能源供应、城市管理、能源管理、基础设施、生态环境、城市文明等城市文明的发展。 在城市发展中，智能交通系统将会发挥着越来越重要的作用。将智能交通系统引入城市，将极大地提高城市交通效率，减少交通拥堵，减少机动车辆的数量，减少对交通的干扰，提高城市交通的效率和安全性。智能交通系统将会在城市交通出行中发挥着越来越重要的作用，为人们营造更加安全、更高质量、更快捷、更方便的出行环境。 智能农业将会发挥着越来越重要的作用。未来城市将会以一种更加智能、更加绿色、更加智慧的生活方式为特征，利用现代农业技术，实现农业规模化、现代化、标准化，提高农业生产效率，提高农业的效益，提高农业的经济效益。 数字城市将会发挥越来越重要的作用。利用数字

3.2 多轮对话

input_text = ["你好","新冠什么症状？","可以吃什么药？"]
answer_text = ["您好!我是元语AI。我可以回答您的问题、写文章、写作业、翻译，对于一些法律等领域的问题我也可以给你提供信息", "新冠是指新型冠状病毒，其症状包括发热、干咳、乏力、嗅味觉减退、呼吸困难等。", "根据您提供的病史，目前没有明确的抗新冠病毒的药物，建议您在家进行自我隔离，避免与他人接触，多喝开水，清淡易消化饮食，避免熬夜和过度劳累，适当进行户外活动。"]
context = "\n".join([f"用户：{input_text[i]}\n\n小元：{answer_text[i]}" for i in range(len(input_text))])
print(context)

input_text = "会留下什么后遗症吗？"
print(f"示例".center(50, "="))
input_text = context + "\n用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}")

用户：你好
小元：您好!我是元语AI。我可以回答您的问题、写文章、写作业、翻译，对于一些法律等领域的问题我也可以给你提供信息
用户：新冠什么症状？
小元：新冠是指新型冠状病毒，其症状包括发热、干咳、乏力、嗅味觉减退、呼吸困难等。
用户：可以吃什么药？
小元：根据您提供的病史，目前没有明确的抗新冠病毒的药物，建议您在家进行自我隔离，避免与他人接触，多喝开水，清淡易消化饮食，避免熬夜和过度劳累，适当进行户外活动。
========================示例========================
用户：你好
小元：您好!我是元语AI。我可以回答您的问题、写文章、写作业、翻译，对于一些法律等领域的问题我也可以给你提供信息
用户：新冠什么症状？
小元：新冠是指新型冠状病毒，其症状包括发热、干咳、乏力、嗅味觉减退、呼吸困难等。
用户：可以吃什么药？
小元：根据您提供的病史，目前没有明确的抗新冠病毒的药物，建议您在家进行自我隔离，避免与他人接触，多喝开水，清淡易消化饮食，避免熬夜和过度劳累，适当进行户外活动。
用户：会留下什么后遗症吗？
小元：目前没有发现新冠病毒的后遗症，但是有少数人可能会出现咳嗽、发热、乏力、呼吸困难等。

4. ChatYuan模型测试

参考普通NLP科研人员对ChatGPT的一些思考的文章对ChatYuan模型做一些测试

4.1 关键信息抽取（NER、事件抽取、关键词提取）

4.1.1 药物NER

# 药物NER
start = time.clock() #开始时间
input_text = """帮我从下面的段落里，抽取出药物相关的名词：19世纪以前的药学作为商品学的一个分支学科，研究的对象是一些天然来源的药物， 直到19世纪开始人们从一些天然药物中陆续分离出一些具有生理活性的化学物质(从鸦片中分离出镇痛药吗啡、从颠茄中分离出抗胆碱药阿托品、从金鸡纳树皮中分离出抗疟药奎宁等)，以药物分子为主要研究对象的药物化学开始从原来的药物学中独立出来成为一个独立的学科。
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：帮我从下面的段落里，抽取出药物相关的名词：19世纪以前的药学作为商品学的一个分支学科，研究的对象是一些天然来源的药物， 直到19世纪开始人们从一些天然药物中陆续分离出一些具有生理活性的化学物质(从鸦片中分离出镇痛药吗啡、从颠茄中分离出抗胆碱药阿托品、从金鸡纳树皮中分离出抗疟药奎宁等)，以药物分子为主要研究对象的药物化学开始从原来的药物学中独立出来成为一个独立的学科。


小元：药物化学开始从原来的药物学中独立出来成为一个独立的学科

推理耗时：1.3085320000000138 s

# 药物NER
start = time.clock() #开始时间
input_text = """19世纪以前的药学作为商品学的一个分支学科，研究的对象是一些天然来源的药物， 直到19世纪开始人们从一些天然药物中陆续分离出一些具有生理活性的化学物质(从鸦片中分离出镇痛药吗啡、从颠茄中分离出抗胆碱药阿托品、从金鸡纳树皮中分离出抗疟药奎宁等)，以药物分子为主要研究对象的药物化学开始从原来的药物学中独立出来成为一个独立的学科。
帮我从上面的段落里，抽取出药物相关的名词："""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：19世纪以前的药学作为商品学的一个分支学科，研究的对象是一些天然来源的药物， 直到19世纪开始人们从一些天然药物中陆续分离出一些具有生理活性的化学物质(从鸦片中分离出镇痛药吗啡、从颠茄中分离出抗胆碱药阿托品、从金鸡纳树皮中分离出抗疟药奎宁等)，以药物分子为主要研究对象的药物化学开始从原来的药物学中独立出来成为一个独立的学科。
帮我从上面的段落里，抽取出药物相关的名词：

小元：药物分子，药物，药物化学，药物

推理耗时：0.9253470000001016 s

在药物NER识别上发现一个有趣的现象：

1.当问题在材料前面时，YuanChat总是不能记住问题，大部分情况下均给出答非所问的结果。

2.当我们把材料放在前，问题放在后，YuanChat的结果有了明显的改善，每次结果均能给出药物相关的名词。

3.有时输出的药物名词是可能间隔符号的，即输出内容格式并不规范。（增加人工引导后会好很多，例如后面在加句话“并以有序列表形式输出：”）

对比下来ChatGPT不管是问题在前或问题在后都能准确地抓住问题信息并格式规范地作答。

猜测是目前YuanChat目前训练的标注样本有所不同。

答案是引导大模型智能的技术

4.1.2 关键词抽取

# 关键词抽取 - 中文
start = time.clock() #开始时间
input_text = """19世纪以前的药学作为商品学的一个分支学科，研究的对象是一些天然来源的药物， 直到19世纪开始人们从一些天然药物中陆续分离出一些具有生理活性的化学物质(从鸦片中分离出镇痛药吗啡、从颠茄中分离出抗胆碱药阿托品、从金鸡纳树皮中分离出抗疟药奎宁等)，以药物分子为主要研究对象的药物化学开始从原来的药物学中独立出来成为一个独立的学科。
请帮我从上文中抽取出十个关键词。
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：19世纪以前的药学作为商品学的一个分支学科，研究的对象是一些天然来源的药物， 直到19世纪开始人们从一些天然药物中陆续分离出一些具有生理活性的化学物质(从鸦片中分离出镇痛药吗啡、从颠茄中分离出抗胆碱药阿托品、从金鸡纳树皮中分离出抗疟药奎宁等)，以药物分子为主要研究对象的药物化学开始从原来的药物学中独立出来成为一个独立的学科。
请帮我从上文中抽取出十个关键词。


小元：药物分子，药物化学，药物学，生理学，奎宁，奎宁，阿托品，奎宁，药物分子，药物学

推理耗时：2.6197290000000066 s

# 关键词抽取 - 英文
start = time.clock() #开始时间
input_text = """"
This paper describes our winning system on SemEval 2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts. A replaced token detection pre-trained model is utilized with minorly different task-specific heads for SubTask-A: Multi-class Classification and SubTask-B: Ranking. Incorporating a pattern-aware ensemble method, our system achieves a 68.90% accuracy score and 0.8070 spearman's rank correlation score surpassing the 2nd place with a large margin by 2.7 and 2.2 percent points for SubTask-A and SubTask-B, respectively. Our approach is simple and easy to implement, and we conducted ablation studies and qualitative and quantitative analyses for the working strategies used in our system.
Can you help me to extract 10 keywords from the above text.
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户："
This paper describes our winning system on SemEval 2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts. A replaced token detection pre-trained model is utilized with minorly different task-specific heads for SubTask-A: Multi-class Classification and SubTask-B: Ranking. Incorporating a pattern-aware ensemble method, our system achieves a 68.90% accuracy score and 0.8070 spearman's rank correlation score surpassing the 2nd place with a large margin by 2.7 and 2.2 percent points for SubTask-A and SubTask-B, respectively. Our approach is simple and easy to implement, and we conducted ablation studies and qualitative and quantitative analyses for the working strategies used in our system.
Can you help me to extract 10 keywords from the above text.


小元："This paper describes our winning system on SemEval 2022 Task 7: Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts. A replaced token detection pre-trained model is utilized with minorly different task-specific heads for SubTask-A: Multi-class Classification and SubTask-B: Ranking. Incorporating a pattern-aware ensemble method, our system achieves a 68.90% accuracy score and 0.8070 spearman's rank correlation score surpassing the 2nd place with a large margin by 2.7 and 2.2 percent po

推理耗时：20.59976000000006 s

1.中文文本关键词抽取可以胜任，抽取数量也是正确的，只是会出现一些重复抽取的情况，YuanChat有一定的关键词提取能力。

2.英文文本，在多次尝试后没能实现关键词抽取，YuanChat的英文能力略逊。

4.1.3 事件抽取

input_text = []
answer_text = []
while True:
    context = "\n".join([f"用户：{input_text[i]}\n\n小元：{answer_text[i]}" for i in range(len(input_text))])
    user_input = input("用户: ")
    if user_input == "end":
        break
    input_text.append(user_input)
    user_input = context + "\n用户：" + user_input + "\n\n小元："
    output_text = answer(user_input)
    answer_text.append(output_text)
    print(f"小元: {output_text}")
    print(f"示例".center(50, "="))

用户:  王二麻子昨天在东北偷了一辆自行车，当天晚上就被警察给逮捕了。请对上面的句子做事件抽取，并以有序列表展示。


小元: 王二麻子昨天在东北偷了一辆自行车，当天晚上就被警察逮捕了。

序号 事件 人物 事件 1 王二麻子昨天在东北偷了一辆自行车
2 王二麻子当天晚上就被警察逮捕
3 王二麻子偷自行车的地点
4 王二麻子被捕的原因是
5 警察逮捕了他
========================示例========================


用户:  王二麻子为什么被逮捕？


小元: 王二麻子被抓的原因可能是他偷的自行车价值比较大，警察怀疑他盗窃自行车，所以就逮捕了他。
========================示例========================


用户:  王二麻子在哪里偷的自行车？


小元: 王二麻子在东北偷的自行车，地点是在东北的一个小山村。
========================示例========================


用户:  地点确实是在东北，没提到小山村呀，为什么多加一个小山村呢？


小元: 因为小山村是东北的一个小山村，王二麻子偷的自行车就停在一个小山村的路边。
========================示例========================


用户:  end

事件抽取的效果不错，对于因果回答的格式也有一定的规范性。但仍然难免存在胡编乱造的成分。

4.2 简单推理任务

4.2.1 NLI任务

#  NLI任务
start = time.clock() #开始时间
input_text = """做一个自然语言推断任务：
1.我在武汉读书
2.我在中国读书
请问第一个句子，能推理出第二个句子吗？
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：做一个自然语言推断任务：
1.我在武汉读书
2.我在中国读书
请问第一个句子，能推理出第二个句子吗？


小元：不能。第一个句子指的是我在中国读书，第二个句子指的是我在武汉读书。

推理耗时：1.4971859999999424 s

# NLI
start = time.clock() #开始时间
input_text = """做一个自然语言推断任务：
1.我在武汉读书
2.我在中国读书
请问第一个句子，能推理出第二个句子吗？
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：做一个自然语言推断任务：
1.我在武汉读书
2.我在中国读书
请问第一个句子，能推理出第二个句子吗？


小元：可以的。首先，从第一个句子可以推理出第二个句子：我在武汉读书。其次，从第二个句子可以推理出第三个句子：我在中国读书。

推理耗时：2.8685749999999643 s

简单的NLI任务虽然判断正确，但解释不行

4.2.2 数学推理

# NLI
start = time.clock() #开始时间
input_text = """操场一圈1000米，甲走路的速度是1m/s,乙同学的速度是0.5m/s,两个人从同一个起点出发，向相反方向走，请问他们出发后过多久第二次相遇?
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：操场一圈1000米，甲走路的速度是1m/s,乙同学的速度是0.5m/s,两个人从同一个起点出发，向相反方向走，请问他们出发后过多久第二次相遇?


小元：那么他们出发后过多久第二次相遇呢？答案是：10分钟。

推理耗时：1.6905409999999392 s

经过多次尝试，部分结果存在公式计算，但未能有正确的计算步骤和答案

# NLI
start = time.clock() #开始时间
input_text = """如果鲁迅先生还活着，他现在多少岁了?
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：如果鲁迅先生还活着，他现在多少岁了?


小元：鲁迅先生70岁

推理耗时：0.6476829999999154 s

经过多次尝试，YuanChat推理能力比较弱，一是给出的答案千奇百怪，二是很少给出推理过程和解释

4.3 写作辅助

# 写作
start = time.clock() #开始时间
input_text = """王子、打篮球、帅气、偶像、背带裤。请帮我用上面几个关键词，造个句
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：王子、打篮球、帅气、偶像、背带裤
请帮我用上面几个关键词，造个句


小元：他是我心中的王子，他很帅气，他是我偶像，他穿着背带裤打篮球。

推理耗时：2.0538980000001175 s

input_text = []
answer_text = []
while True:
    context = "\n".join([f"用户：{input_text[i]}\n\n小元：{answer_text[i]}" for i in range(len(input_text))])
    user_input = input("用户: ")
    if user_input == "end":
        break
    input_text.append(user_input)
    user_input = context + "\n用户：" + user_input + "\n\n小元："
    output_text = answer(user_input)
    answer_text.append(output_text)
    print(f"小元: {output_text}")
    print(f"示例".center(50, "="))

用户:  王子、打篮球、帅气、偶像、背带裤。请帮我用上面几个关键词，造个句


小元: 背带裤是偶像王子的标配，他打篮球的样子帅爆了!
========================示例========================


用户:  帮我多写一些细节。


小元: 王子穿着背带裤打篮球的样子帅爆了，他帅气的外表和打篮球的样子都吸引了我的注意力。
========================示例========================


用户:  太少了，写200字


小元: 王子穿着背带裤打篮球的样子帅爆了，他帅气的外表和打篮球的样子都吸引了我的注意力。
========================示例========================


用户:  多写一点，写到200字


小元: 王子穿着背带裤打篮球的样子帅爆了，他帅气的外表和打篮球的样子都吸引了我的注意力。
========================示例========================


用户:  end

# 写作
start = time.clock() #开始时间
input_text = """酸菜鱼怎么做？
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：酸菜鱼怎么做？


小元：酸菜鱼的做法步骤：1.准备食材。2.鱼切小块，加料酒，盐，淀粉，淀粉水，腌制半小时以上。3.酸菜切条。4.锅烧热，倒入油，下入鱼炸至金黄色，捞出控油。5.锅中留底油，下入酸菜条翻炒。6.放入鱼片，翻炒。7.加入料酒，盐，糖，醋，味精，鸡精。8.出锅装盘。

推理耗时：7.845639000000119 s

# 写作
start = time.clock() #开始时间
input_text = """法语、德语和西班牙语哪个更难学？给出理由。
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：法语、德语和西班牙语哪个更难学？给出理由。


小元：法语德语西班牙语都是比较难学的，因为它们都是属于交际语言，需要在社交场合中使用。它们都有一定的语法，需要学习者掌握一定的语法知识。例如，西班牙语的语法包括动词，名词，形容词和副词，而法语的语法包括名词，动词，形容词和副词，德语的语法包括动词，名词，形容词和副词，法语的语法类似于汉语的语法，德语的语法类似于汉语的语法。

推理耗时：7.959870999999794 s

# 写作
start = time.clock() #开始时间
input_text = """请用python程序绘制一个爱心。
"""
input_text = "用户：" + input_text + "\n\n小元："
output_text = answer(input_text)
print(f"{input_text}{output_text}\n\n推理耗时：{time.clock()-start} s")

用户：请用python程序绘制一个爱心。


小元：def __init__(self):
	self._ax = None
	self._height = 0
	self._width = 0
	self._color = []
	self._ax.plot([], [], 'g')
	self._ax.plot([], [], 'o')
	self._height = height
	self._width = width
	self._color = []
	self._ax.set_xlabel('Heartbeat')
	self._ax.set_ylabel('Hearthbeat')
	self._height = height
	self._center = True
	self._pen = None
	self._pix

推理耗时：20.479966999999988 s
self._ax.plot([], [], 'o')
	self._height = height
	self._width = width
	self._color = []
	self._ax.set_xlabel('Heartbeat')
	self._ax.set_ylabel('Hearthbeat')
	self._height = height
	self._center = True
	self._pen = None
	self._pix

推理耗时：20.479966999999988 s

官方说在代码生成上YuanChat还是比较弱的，并没有喂很多的标注数据

你可能感兴趣的:(python,人工智能,开发语言)

【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
京东零售重磅开源 | OxyGent：像搭乐高一样组装AI团队，实现群体智能京东零售技术零售开源人工智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统，实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。OxyGent已在开源社区正式上线。开源地址：https://github.com/jd-opensource/OxyGent官网地址：https://oxygent.jd.co
具身智能的视觉-语言导航综述
24年2月来自曲阜师范、华东师大和哈工大的论文“Vision-LanguageNavigationwithEmbodiedIntelligence:ASurvey”。作为人工智能领域的长期愿景，具身智能的核心目标是提升智体与环境的感知、理解和交互能力。视觉-语言导航（VLN）作为实现具身智能的重要研究路径，致力于探索智体如何利用自然语言与人进行有效沟通，接收并理解指令，并最终依靠视觉信息实现精准导
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
具身智能：从理论到实践的跨越
具身智能（EmbodiedAI）的概念起源与发展是一个跨越半个多世纪的学术探索历程，其核心思想在不同学科的交叉碰撞中逐渐成型。以下从理论源头、技术奠基、术语演进三个维度展开解析，揭示这一概念的学术脉络与产业价值：一、理论源头：从图灵的哲学构想到认知科学的具身化转向1.图灵的"感官机器"设想（1950年）在人工智能奠基性论文《计算机器与智能》中，图灵提出了两种智能发展路径：抽象计算路径：如国际象棋等
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
【无标题】Python --- Day5 函数的位置传参、关键词传参及其可变性和解包操作 AnAn__kang python 前端人工智能
系列文章目录前言今天小伙伴们跟我进入第五天的Python课程学习，主要是关于函数的位置传参，关键传参和可变性和解包传参这其中的具体定义以及它们的使用场景`一、调用传参函数调用时传递参数的方式有多种，包括位置传参、关键词传参、多个参数解包、参数默认值等。1.1位置传参最常见的传参方式，参数按定义的顺序依次传入函数。示例：defgreet(name,age):print(f"Hello,{name}.
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
Python --- Day3 推导式及常见语句和内置函数的学习！！！
系列文章目录前言相信各位伙伴们在前俩次的文章和Python的基础学习中大有收获，这次我们将进入推导式，常见语句和内置函数的学习！跟着博主一起成为一名Ai的算法工程师！一、推导式用更简洁的方式创建列表、字典和集合。是Python特有的一种表达式形式。1.1列表推导式a=[1,2,3,4]result=[x*2forxina]#创建一个新列表，元素是原列表每个元素的两倍1.2字典推导式a=['a','
生命3.0时代，面对人工智能时代的到来，我们可以做些什么笃定的沙丁鱼
生命的定义生命的定义有很多，最为人所熟知的是在生物学上的定义，即生命是蛋白质存在的一种形式。但是，这种定义可能不太适用于未来的智能机器和外星文明，我们不能将我们对未来生命的思考局限在过去遇到过的物种，所以需要将生命定义得更广阔一些：生命是一个能保持自身复杂性并能进行复制的过程。复制的对象并不是由原子组成的物质，而是能阐明原子是如何排列的信息，这种信息由比特组成。换句话说：我们可以将生命看作一种自我
cuda编程python接口_使用Python写CUDA程序的方法 weixin_39822184 cuda编程python接口
使用Python写CUDA程序有两种方式：*Numba*PyCUDAnumbapro现在已经不推荐使用了，功能被拆分并分别被集成到accelerate和Numba了。例子numbaNumba通过及时编译机制(JIT)优化Python代码，Numba可以针对本机的硬件环境进行优化，同时支持CPU和GPU的优化，并且可以和Numpy集成，使Python代码可以在GPU上运行，只需在函数上方加上相关的指
基于 Python 的网站信息探测工具设计与实现计算机毕业设计指导 python 网络服务器
基于Python的网站信息探测工具设计与实现摘要在渗透测试与网络安全评估中，信息探测是最基础且关键的一步。通过对目标网站的操作系统、服务器、CMS、端口、目录结构等信息进行自动化探测，可为后续攻击路径识别提供基础数据支撑。传统工具如WhatWeb、FOFA等虽功能强大，但在定制化与扩展性方面受限。本文设计并实现了一款基于Python的轻量级网站信息探测工具，支持URL/IP扫描、开放端口探测、CM
不正规不靠谱：假摩根士丹利内部群推荐绿色低碳减排平台骗局揭露!送一万体验资金做慈善全是假的! 易星辰分享普法
关于曝光网上摩根士丹利何晓斌宝丰能源节能减排在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”
使用CrewAI创建一个研究团队 AI量化投资 php 开发语言多智能体智能体人工智能
本指导文档将带你一步步完成使用CrewAI框架创建你的第一个AI代理团队的过程。通过这个简单的示例，你将学习如何构建一个研究团队，用于研究和分析指定主题，并生成一份综合报告。本教程基于CrewAI官方文档，适合初学者快速上手。前提条件在开始之前，请确保你已完成以下准备工作：安装Python：确保你的系统安装了Python版本在3.10到3.13之间。你可以通过以下命令检查Python版本：pyth
Python成第四个支持CUDA的编程语言
Python成第四个支持CUDA的编程语言3月19日NVIDIA的GTC2013图形技术大会将开幕，在此之前会有很多宣传造势内容，其中最重大也是最主要的就是NVIDIA老总黄仁勋的开幕词了，其他合作伙伴也会发布各自的演讲。ContinuumAnalytics联合NVIDIA宣布将会引入新的PythonCUDA编译器——NumbaPro，Python也成为继C、C++以及Fortan之后的第四个支持
Python FastMCP：让你的AI工具链飞起来
PythonFastMCP：让你的AI工具链飞起来FastMCPFastMCP是什么？1.工具(Tools)：赋予LLM执行能力2.Resources（资源）：安全数据通道3.Prompts（提示模板）：标准化LLM交互4.组件协同：构建项目AI工具链5.部署架构与性能优化博主热门文章推荐：官方文档：FastMCP官方文档：https://gofastmcp.com/MCP协议规范：https:/
Python 解析 PDF 文件的基础方法电脑维修员xy python pdf 前端
```htmlPython解析PDF文件的基础方法Python解析PDF文件的基础方法在现代数据处理和信息提取任务中，PDF文件是一种常见的文档格式。然而，PDF文件的结构复杂且难以直接解析，尤其是当需要从中提取文本或数据时。幸运的是，Python提供了多种强大的库来帮助我们轻松地解析PDF文件。1.PyPDF2库PyPDF2是一个功能强大的Python库，用于处理PDF文件。它可以读取、分割、合
socket网络通信TCP与UDP原理及代码实现（c++、python）
目录Socket原理通信协议原理TCPUDP代码实现TCPC++pythonUDPC++pythonSocket原理Socket（套接字）是计算机网络中用于实现进程间通信的一种机制，特别是在不同主机之间通过网络进行数据传输时。它是网络编程的核心概念之一，为应用程序提供了统一的接口，使得开发者可以通过网络发送和接收数据。可以将Socket类比为电话系统中的“电话机”。两台设备通过Socket建立连接
【Qt Designer使用快捷键】
QtDesigner简介QtDesigner是Qt框架提供的可视化界面设计工具，用于快速创建GUI（图形用户界面）。用户可通过拖拽控件（如按钮、文本框等）设计界面，无需手动编写布局代码。生成的界面文件（.ui）可通过pyuic或uic工具转换为代码（如Python或C++），与业务逻辑集成。常用快捷键及用途通用操作Ctrl+N：新建界面文件。Ctrl+O：打开现有.ui文件。Ctrl+S：保存当前
假冒朱民！通达OA社科院朱民ST-balance项目就是假的，被骗亏损真相揭秘，亲身亏损经历正义青天
通达OA社科院朱民ST-balance项目不正规——杀猪盘不能提现投票骗局曝光！随着互联网的普及，数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！因此，我们有必要提高警惕，防范黑平台诈骗。针对网上素未谋面的牛散大咖，经济学家等推荐网上投资理财、数字经济，数字体育市场，人工智能项目，数字低碳，慈
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C