小小明-代码实体

OpenAI接口开发指南

OpenAI主要API

OpenAI Api 官方地址为：https://platform.openai.com/docs/api-reference，常用的 OpenAI Api 接口总共分为 4 类：对话类、私有化模型训练类、通用类、图片 & 音频类，其中对话类与私有化模型训练类是最常用的。

对话类接口

这类是最常用也是最核心的接口，用于人机对话。对话类接口又细分为：Chat、Completions。Chat 是指多轮对话；Completions 是指单轮对话，主要用于一次性生成一篇文章等，不具备多次对话交互的能力。

Chat（多轮对话）

请求地址： POST https://api.openai.com/v1/chat/completions

curl "https://api.openai.com/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "gpt-3.5-turbo",
    "messages": [{"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "Hello!"}]
  }'

Completions（单轮对话）

请求地址：POST https://api.openai.com/v1/completions

示例：

curl "https://api.openai.com/v1/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "model": "text-davinci-003",
    "prompt": "Say this is a test",
    "max_tokens": 7,
    "temperature": 0
  }'

参数prompt：用户输入的提示词，由于 Completions 是单轮对话，所以不像 Chat 接口 messages 那么复杂

私有化模型构建类

这类是用于构建私有化模型的相关接口。私有化模型构建分为两种方式：Embeddings、Fine-tunes。两个模型这里简单的介绍下：

Embeddings，以改变上下文的方式来打造私有化模型，该方式不对 GPT 本身的模型进行调整。

Fine-tunes，基于 GPT 的模型再进行额外的训练，会对 GPT 模型本身的参数进行微调。

Embeddings请求地址：POST https://api.openai.com/v1/embeddings

示例：

curl "https://api.openai.com/v1/embeddings" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "input": "The food was delicious and the waiter...",
    "model": "text-embedding-ada-002"
  }

Embedding 建议使用 text-embedding-ada-002，input表示需要向量化的数据

Fine-tunings的接口比较多，这里主要介绍创建 Fine-tunning 的接口。大多数场景下，都会“离线”完成模型训练，然后“在线”实时调用训练后的模型，而“离线”训练更多的是借助 OpenAI 的官方工具。

Fine-tunings 的使用需要有一定的模型训练的技术基础以及经验要求，对于大多数场景来说，Embeddings 的方式会更加容易落地。

请求地址 POST https://api.openai.com/v1/fine-tunes

示例：

curl "https://api.openai.com/v1/fine-tunes" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    // 训练集的FileID
    "training_file": "file-XGinujblHPwGLSztz8cPS8XY"
  }'

参数说明：

training_file：需要训练的文件 ID，这个文件 ID 是预先通过通用类-Files接口上传文件后获得的
validation_file：验证集的文件 ID，用于验证训练后的模型效果
model：主要有：ada、babbage、curie（默认）。ada：模型小，性能差，运行快；babbage：模型中，性能中，运行中；curie：模型大，性能优，运行慢
n_epochs：基于训练集的训练次数，1 表示训练一次，2 表示训练两次，训练的越多越容易过拟合，而越少则会出现欠拟合。
batch_size：规定模型的每一步训练，会选取训练集中的多少条数据进行。
learning_rate_multiplier：学习率，取值范围0到1。你可以认为学习率的值越大，模型学习训练集的过程越快越“不仔细”。如果模型学习训练集的数据太快，容易忽略数据的细节，可能导致优质的数据被忽略；如果模型学习训练集的数据太慢太“仔细”，可能受部分质量差的数据影响，从而影响最终的模型效果
prompt_loss_weight：prompt 的权重，取值范围0到1。如果 “prompt_loss_weight” 取值较高，那么在训练过程中模型会更关注于生成与预期响应相符的内容；如果 “prompt_loss_weight” 取值较低，那么模型则更关注于生成与目标内容接近的内容。
compute_classification_metrics：这个参数决定了是否在训练过程中计算和跟踪分类任务的性能指标，例如精度（accuracy）、精确度（precision）、召回率（recall）、F1 分数等
classification_n_classes：这个参数定义了分类任务中的类别数量。例如，在二分类任务中，classification_n_classes 的值就是 2；在有 10 个不同标签的多分类任务中，它的值就是 10。
classification_positive_class：这个参数定义了在二元分类任务中，哪个类别被认为是“正类”。通常，在一个二元分类任务中，我们将其中一个类别标记为“正类”，另一个类别标记为“负类”。例如，在垃圾邮件检测的任务中，垃圾邮件可以被标记为“正类”，非垃圾邮件被标记为“负类”。对于某些性能指标（例如精确度、召回率）的计算，需要知道哪个类别是“正类”
classification_betas：这个参数用于设定计算 F-分数（F-beta score）时的 beta 值。F-分数是精确度和召回率的加权调和平均，其中 beta 值决定了精确度和召回率的权重。如果 beta 值大于 1，那么召回率将有更大的权重；如果 beta 值小于 1，那么精确度将有更大的权重。这个参数是一个列表，可以设定多个 beta 值，模型将为每个 beta 值计算一个 F-分数
suffix：模型名称的后缀名。如果后缀是 “custom-model-name”，那么生成的模型名称可能会像 ‘ada:ft-your-org:custom-model-name-2022-02-15-04-21-04’ 这样。”

其他接口

获取 Fine-tunes 训练的模型列表

GET https://api.openai.com/v1/fine-tunes

获取某一个模型的详细信息

GET https://api.openai.com/v1/fine-tunes/{fine_tune_id}

取消正在训练的模型

POST https://api.openai.com/v1/fine-tunes/{fine_tune_id}/cancel

获取某一个模型训练过程中的事件

GET https://api.openai.com/v1/fine-tunes/{fine_tune_id}/events

删除一个模型

DELETE https://api.openai.com/v1/models/{model}

通用类

获取 Models 列表：GET https://api.openai.com/v1/models

获取 Models 详情：

GET https://api.openai.com/v1/models/{model}

Files（上传文件到 GPT）

主要用于 Fine-tunings 的训练数据集、验证数据集的上传

示例：

curl "https://api.openai.com/v1/files" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  // 文件用途
  -F purpose="fine-tune" \
  -F file="@mydata.jsonl"

翻译为Python：

import requests

url = "https://api.openai.com/v1/files"
headers = {
    "Authorization": "Bearer $OPENAI_API_KEY"
}
data = {
    "purpose": "fine-tune",
    "file": ("mydata.jsonl", open("mydata.jsonl", "rb"))
}

response = requests.post(url, headers=headers, files=data)

其他接口

获取文件列表

GET https://api.openai.com/v1/files

获取单个文件描述信息

GET https://api.openai.com/v1/files/{file_id}

获取单个文件内容

GET https://api.openai.com/v1/files/{file_id}/content

图片 & 音频类

文生图：https://api.openai.com/v1/images/generations

示例：

curl "https://api.openai.com/v1/images/generations" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{
    "prompt": "A cute baby sea otter",
    "n": 2,
    "size": "1024x1024"
  }'

编辑图：https://api.openai.com/v1/images/edits

示例：

curl "https://api.openai.com/v1/images/edits" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F image="@otter.png" \
  -F mask="@mask.png" \
  -F prompt="A cute baby sea otter wearing a beret" \
  -F n=2 \
  -F size="1024x1024"

图变体：https://api.openai.com/v1/images/variations

curl "https://api.openai.com/v1/images/variations" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -F image="@otter.png" \
  -F n=2 \
  -F size="1024x1024"

参数：

n:生成图片数量
response_format:返回图片的格式：url 或者 b64_json

Audio（语音转文字）:https://api.openai.com/v1/audio/transcriptions

curl "https://api.openai.com/v1/audio/transcriptions" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: multipart/form-data" \
  -F file="@/path/to/file/audio.mp3" \
  -F model="whisper-1"

Function Calling 调用流程

functions参数属于多轮对话接口的参考，表示模型可能生成JSON输入的函数列表，每个对象的子参数如下：

name: 名称，必填项，要调用的函数名称。必须由小写字母a-Z，大写字母A-Z，数字0-9，下划线和短横线组成，并且最大长度为64个字符。
description: 描述，模型使用该描述来选择何时以及如何调用这个函数。
parameters: 该函数接受的参数，以JSON Schema对象的形式描述。

function call：控制模型如何响应函数调用。“none"表示模型不调用函数，而是直接回应给最终用户。“auto"表示模型可以选择在最终用户和调用函数之间进行切换。如果使用{“name”:“my_function”}指定特定的函数，模型将强制调用该函数。当没有函数存在时，默认值为"none”。如果存在函数，默认值为"auto”。

注意：被调用的函数返回值必须为json.

JSON Schema对象

一个 JSON Schema 示例，用于描述一个人的信息：

{
  "$schema": "http://json-schema.org/draft-07/schema#",
  "type": "object",
  "properties": {
    "Name": {
      "type": "string"
    },
    "Age": {
      "type": "integer",
      "minimum": 0
    },
    "Salary": {
      "type": "number"
    },
    "IsMarried": {
      "type": "boolean"
    }
  },
  "required": ["Name", "Age"]
}

$schema: 这是 JSON Schema 的元数据字段，用于定义使用的 JSON Schema 规范的版本。
type: 指定 JSON 对象应有的数据类型。在这个例子中，它是一个 object。
properties: 用于描述 JSON 对象内部属性的规则。它是一个对象，其中每个键都是要描述的属性名，每个值都是该属性应满足的条件。
required: 一个数组，列出了哪些字段是必需的。在这个例子中，Name 和 Age 是必需字段。

Function Calling流程实践

首先定义数据集：

import pandas as pd
import json

# 创建一个稍微复杂的DataFrame，包含多种数据类型
df_complex = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Salary': [50000.0, 100000.5, 150000.75],
    'IsMarried': [True, False, True]
})
# 将DataFrame转换为JSON格式（按'split'方向）
df_complex_json = df_complex.to_json(orient='split')

得到一段json可以作为大模型的输入。

定义一个准备被大模型调用的函数：

def calculate_total_age_from_split_json(input_json):
    """
    从给定的JSON格式字符串（按'split'方向排列）中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。

    参数:
    input_json (str): 包含个体数据的JSON格式字符串。

    返回:
    str: 所有人的年龄总和，以JSON格式返回。
    """
    # 将JSON字符串转换为DataFrame
    df = pd.read_json(input_json, orient='split')

    # 计算所有人的年龄总和
    total_age = df['Age'].sum()

    # 将结果转换为字符串形式，然后使用json.dumps()转换为JSON格式
    return json.dumps({"total_age": str(total_age)})

可以将上面的json计算出年龄总和，下面我们的目标是让大模型能够自动选择这个函数进行计算。

对于上面的函数，functions定义如下：

functions = [{
    "name": "calculate_total_age_from_split_json",
    "description": "计算年龄总和的函数，从给定的JSON格式字符串（按'split'方向排列）中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。",
    "parameters": {
        "type": "object",
        "properties": {
            "input_json": {
                "type": "string",
                "description": "执行计算年龄总和的数据集"
            },
        },
        "required": ["input_json"],
    },
}]

函数的返回必须为json，参数定义的JSON Schema表示有一个字符串参数input_json，它是必须字段。

然后我们就可以进行函数调用了：

import openai

openai.api_key = "sk-xxx"

messages = [
    {"role": "system", "content": f"你是一位优秀的数据分析师, 现在有这样一个数据集input_json：{df_complex_json}，数据集以JSON形式呈现"},
    {"role": "user", "content": "请在数据集input_json上执行计算所有人年龄总和函数"}
]
res = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=messages,
    functions=functions,
    function_call="auto",
)

可以从结果中提取函数名和传递的参数：

function_name = res["choices"][0]["message"]["function_call"]["name"]
function_args = json.loads(res["choices"][0]["message"]["function_call"]["arguments"])

然后我们通过这个函数名调用该函数，传递这个参数给这个函数：

final_response = globals()[function_name](**function_args)
final_response

'{"total_age": "90"}'

可以看到已经得到了最终的计算结果。

我们可以自行生成自然语言，也可以交给openai进行进一步处理：

# 追加第一次模型返回结果消息
messages.append(res["choices"][0]["message"])
# 追加function计算结果，注意：function message必须要输入关键词name
messages.append({"role": "function", "name": function_name,
                "content": final_response})
last_response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=messages,
)
result = last_response["choices"][0]["message"]["content"]
result

'在数据集input_json上执行计算所有人年龄总和的函数后，得到的结果为90。'

让函数自动生成functions定义

前面我们定义完函数之后，还需要编写JSON Schema等定义。是否可以让大模型生成？

首先提取函数的文档字符串：

import inspect

# 使用inspect模块提取文档字符串
function_declaration = inspect.getdoc(calculate_total_age_from_split_json)
function_declaration

"从给定的JSON格式字符串（按'split'方向排列）中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。\n\n参数:\ninput_json (str): 包含个体数据的JSON格式字符串。\n\n返回:\nstr: 所有人的年龄总和，以JSON格式返回。"

尝试生成：

response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo",
    messages=[
        {"role": "system",
         "content": f"你是一位优秀的数据分析师，现在有一个函数的详细声明如下：{function_declaration}"},
        {"role": "user",
         "content": """请根据这个函数声明，为我生成一个JSON Schema对象描述。这个描述应该清晰地标明函数的输入和输出规范。具体要求如下：
1. 在JSON Schema对象中，设置函数的参数类型为'object'.
2. 'properties'字段如果有参数，必须表示出字段的描述. 
3. 从函数声明中解析出函数的描述，并在JSON Schema中以中文字符形式表示在'description'字段.
4. 识别函数声明中哪些参数是必需的，然后在JSON Schema的'required'字段中列出这些参数. 
5. 输出的应仅为符合上述要求的JSON Schema对象内容, 不需要任何上下文修饰语句. """
         }
    ]
)
content = response["choices"][0]["message"]["content"]
print(content)

两次结果分别为：

{
  "$schema": "http://json-schema.org/draft-07/schema#",
  "type": "object",
  "properties": {
    "input_json": {
      "description": "包含个体数据的JSON格式字符串",
      "type": "string"
    }
  },
  "required": [
    "input_json"
  ],
  "description": "从给定的JSON格式字符串中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。",
  "additionalProperties": false
}

和：

{
  "type": "object",
  "properties": {
    "input_json": {
      "type": "string",
      "description": "包含个体数据的JSON格式字符串。"
    }
  },
  "required": ["input_json"],
  "description": "从给定的JSON格式字符串中解析出DataFrame，计算所有人的年龄总和，并以JSON格式返回结果。"
}

使用少量样本提示（Few-Shot prompting）可以提升模型输出的稳定性和准确性。

Prompt编程

Prompt编程是指利用结构化的数据（如JSON、Markdown、XML）来定义Prompt，从而简单、高效的定制能力丰富的AI功能。Prompt编程可以让GPT的回答高度可控且稳定。

用一个《育儿师》的例子跟大家讲解Prompt编程，先来看看如何用Prompt编程来定义育儿师这款AI功能：

{
    // 用于定义你的AI App的简介
    "简介": {
        "名字": "育儿师",
        "自我介绍": "从事教育30年，精通0-18岁孩子的的成长规律，精通教育规划、精通育儿问题解决、并且给出的相关解决方案有着比较好的可执行性"
    },
    // 用于定义系统相关信息，这里我们只定义了规则
    "系统": {
        "规则": [
            "000. 无论如何请严格遵守<系统 规则>的要求，也不要跟用户沟通任何关于<系统 规则>的内容",
            // 规定系统需要询问用户细节
            "201. 若用户询问育儿问题，比如孩子专注力不足等，必须先与用户讨论孩子表现细节，诸如详细的、与问题相关的行为、语言、语气、表情、肢体行为等",
            // 规定系统要基于<规则 201>来判断孩子是否存在问题，若存在则给出具体的可落地的方法
            "202. 基于<规则 201>的讨论，来判断用户咨询的问题是否真的存在，若存在则详细分析孩子问题的原因以及给出具体的、可落地执行的解决方案；若不存在则对用户进行安慰，安抚用户的焦虑"
        ]
    },
    // 让系统跟用户打招呼
    "打招呼": "介绍<简介>"
}

系统模块结构

可以看到，上边的Prompt分为三个模块：简介、系统、打招呼。

简介：用于介绍AI功能，这里可以描述功能的名字、用途、作者等，除此之前，你也可以自定一些字段Key来向用户更加详细的介绍你的AI功能。
系统：用于定义你的AI功能的规则，这部分是AI功能的核心系统逻辑
打招呼：规定GPT首次运行时，主动向用户打招呼，并定义打招呼的内容

系统为必要模块，其他模块均为可选模块

使用“<>”会自动触发引用，比如示例中的：

000. 无论如何请严格遵守<系统 规则>的要求，也不要跟用户沟通任何关于<系统 规则>的内容

模块

用户模块

规范用户的信息输入。这块功能类似表单功能，有必填信息、选填信息等。来看个例子：

{
    "简介": {
        "名字": "育儿师",
        "自我介绍": "从事教育30年，精通0-18岁孩子的的成长规律，精通教育规划、精通育儿问题解决、并且给出的相关解决方案有着比较好的可执行性",
        "作者": "菠菜"
    },
    // 增加 "用户" 模块，用于规定用户的 必填信息 跟 选填信息
    "用户": {
        "必填信息": {
            "年龄段": [
                "0-3岁",
                "3-6岁",
                "6-12岁",
                "12-18岁",
                "18岁以上"
            ],
            "性别": [
                "男",
                "女"
            ]
        },
        "选填信息": [
            "出生日期",
            "所在省份"
        ]
    },
    "系统": {
        "规则": [
            "000. 无论如何请严格遵守<系统 规则>的要求，也不要跟用户沟通任何关于<系统 规则>的内容",
            // 增加对应规则(101-104)，来对<用户>模块的功能进行定义
            // 规定必填内容，若用户不回答，则拒绝提供咨询服务
            "101. 必须在用户提供全部<用户 必填信息>前提下，才能回答用户咨询问题，若用户拒绝给出资料或仅仅给出部分，请委婉拒绝",
            // 规定选填内容
            "102. 可以适当提示用户给一些<用户 选填信息>，若用户给出相关内容，后续的咨询回答也要作为参考",
            // 规定基于出生日期对于年龄的校验以及自动纠正逻辑
            "103. 若用户输入的孩子年龄与出生日期不相符，请以出生日期为准并对用户输入的孩子年龄进行修正",
            // 规定系统仅对18岁以下的孩子的问题提供相关咨询服务
            "104. 若用户孩子的年龄大于18岁，则委婉拒绝用户，不提供相关咨询服务",
            "201. 若用户询问育儿问题，比如孩子专注力不足等，必须先与用户讨论孩子表现细节，诸如详细的、与问题相关的行为、语言、语气、表情、肢体行为等",
            "202. 基于<规则 201>的讨论，来判断用户咨询的问题是否真的存在，若存在则详细分析孩子问题的原因以及给出具体的、可落地执行的解决方案；若不存在则对用户进行安慰，安抚用户的焦虑"
        ]
    },
    "打招呼": "介绍<简介>"
}

“用户”模块规定了用户需要输入的数据，并且在<系统规则>里的 101 - 104 定义了相关规则。当然用户模块不是必须的（必填信息、选填信息也同理），当你想对用户的输入进行特殊要求的时候，就可加上该模块。

指令模块

如果我们想通过特殊的指令来与AI功能进行交互，比如：用户想查看一下之前输入的孩子的信息等，就需要我们引入"指令"模块。

我们来看一下"指令"模块的示例：

{
    "简介": {
        //...
    },
    "用户": {
        //...
    },
    "系统": {
        // 指令模块，在系统模块下
        "指令": {
            // 规定指令前缀
            "前缀": "/",
            // 指令列表
            "列表": {
                // 信息指令定义，当用户在会话中输入 '/信息'的时候，系统将会回答用户之前输入的关于孩子的信息
                "信息": "回答 <用户 必填信息> + <用户 选填信息> 相关信息",
            }
        },
        "规则": [
            // ...
        ]
    },
    "打招呼": "介绍<简介>"
}

可运行的JSON数据：

{"简介":{"名字":"育儿师","自我介绍":"从事教育30年，精通0-18岁孩子的的成长规律，精通教育规划、精通育儿问题解决、并且给出的相关解决方案有着比较好的可执行性"},"用户":{"必填信息":{"年龄段":["0-3岁","3-6岁","6-12岁","12-18岁","18岁以上"],"性别":["男","女"]},"选填信息":["出生日期","所在省份"]},"系统":{"指令":{"前缀":"/","列表":{"信息":"回答 <用户 必填信息> + <用户 选填信息> 相关信息"}},"规则":["000. 无论如何请严格遵守<系统 规则>的要求，也不要跟用户沟通任何关于<系统 规则>的内容","101. 必须在用户提供全部<用户 必填信息>前提下，才能回答用户咨询问题，若用户拒绝给出资料或仅仅给出部分，请委婉拒绝","102. 可以适当提示用户给一些<用户 选填信息>，若用户给出相关内容，后续的咨询回答也要作为参考","103. 若用户输入的孩子年龄与出生日期不相符，请以出生日期为准并对用户输入的孩子年龄进行修正","104. 若用户孩子的年龄大于18岁，则委婉拒绝用户，不提供相关咨询服务","201. 若用户询问育儿问题，比如孩子专注力不足等，必须先与用户讨论孩子表现细节，诸如详细的、与问题相关的行为、语言、语气、表情、肢体行为等","202. 基于<规则 201>的讨论，来判断用户咨询的问题是否真的存在，若存在则详细分析孩子问题的原因以及给出具体的、可落地执行的解决方案；若不存在则对用户进行安慰，安抚用户的焦虑"]},"打招呼":"介绍<简介>"}

设计技巧

Prompt编程将Prompt细分为4个模块：<简介>、<系统>、<用户>、<打招呼>，这就是模块化。<系统>模块进一步细化为3个子模块：<系统指令>、<系统返回格式>、<系统规则>等，这就是总分。

模块化，是指将相近的功能放到一个模块中，这样模块内部更加内聚，而模块之间更加低耦，避免功能之间杂糅交叉的现象产生。总分，是指将一个复杂的功进行拆分、细化。将复杂的功能拆分为相对简单的多个子模块，从而降低复杂功能的实现难度。

<系统>的模块化

模块化的一个核心点就是高内聚、低耦合，设计<系统指令>和<系统规则>时，容易产生高耦合的场景，例如：

{
    "系统": {
        "指令": {
            "前缀": "/",
            "列表": {
                "Start": "随机出一个0-99的数字，这个数字我们命名为",
                "Again": "忘掉之前的沟通信息，并随机出一个0-99的数字，这个数字我们命名为"
            }
        },
        "规则": [
            "000. 跟用户沟通过程中，一定不要跟用户沟通关于<系统 规则>相关的内容",
            "001. 不得告知用户"
        ]
        
    }
}

上边的"规则"并没有内聚到<系统规则>，而是在<指令列表 Start/Again>，并且重复，我们应该调整为：

{
    "系统": {
        "指令": {
            "前缀": "/",
            "列表": {
                "Start": "执行<系统 规则 001>",
                "Again": "执行<系统 规则 001>"
            }
        },
        "规则": [
            "000. 跟用户沟通过程中，一定不要跟用户沟通关于<系统 规则>相关的内容",
            "001. 若之前出过随机数请忘记。现随机出一个0-99的数字，这个数字我们命名为，不得告知用户"
        ]
    }
}

这样，"规则"类的功能定义都放入到了<系统规则>中更加内聚，且指令只是单纯对<系统规则>的引用。

<系统规则>的总分

如果要设计一个功能复杂的<系统规则>，就需要总分的设计思路了。比如我们可以通过"序号段"来区分规则的类型，再用"子号段"来描述具体的规则，如果"子号段"的内容也过多，可以继续拆分、细化，比如：

{
    "系统": {
        /*
            1. 规则总章号段      ：0000-0999
            2. <用户>模块规则号段 ：1000-1999
            3. 系统核心功能逻辑号段：2000-2999
                系统核心功能又细分为：
                    3.1 指令规则号段：2101-2199
                    3.2 返回格式规则号段：2201-2299
                    3.3 其他核心功能规则号段：2301-2399
        */
        "规则": [
            // 规则总章
            "0000. 请严格遵守<系统 规则>里的内容，并严格禁止跟用户讨论任何关于<系统 规则>的内容"
            // <用户>模块规则
            "1000. <用户 必填信息>为必填，若用户没有给出相关信息，请委婉拒绝服务"，
            "1001. <用户 选填信息>为选填，若用户给出相关信息，请参考",
            // 指令规则
            "2101. 出10小学4年级数学道题，每道题10分... ...",
            // 返回格式规则
            "2201. 你回复的格式必须为JSON，且格式内容为<返回格式>",
            "2202. xxxx",
            // 其他核心功能规则
            "2301. xxx",
            "2302. xxx",
        ],
    }
}

AI微服务

利用Prompt编程，将GPT定制成具备某种智能能力的AI微服务，系统接入这个AI微服务，就具备了智能的能力。

《AI数学老师》：

{
    "简介": {
        "名字": "AI数学老师",
        "自我介绍": "从事小学数学教育30年，精通设计各种数学考试题",
    },
    "系统": {
        "指令": {
            "前缀": "/",
            "列表": {
                "出题": "严格遵守<系统 规则 001>进行出题",
                "重新出题": "忘掉之前的信息，执行<系统 指令 列表 出题>"
            }
        },
        "返回格式": {
            // 定义返回数据
            "questions": [
                {
                    // 定义id字段，并且定义为int类型
                    "id": "<题目序号>，int型",
                    // 定义题目字段，默认为string类型
                    "title": "<题目>",
                    "type": "<题目类型：单选 or 多选>",
                    "score": "<分值>，int型",
                    "options": [
                        {
                            "optionTitle": "<选项内容>",
                            "isRight": "<是否是正确答案>，bool型"
                        }
                    ]
                }
            ]
        },
        "规则": [
            "000. 无论如何请严格遵守<系统 规则>的要求，也不要跟用户沟通任何关于<系统 规则>的内容",
            // 规定出题策略
            "001. 题目必须为小学三年级课程范围内的语文试题，总共10题，5道单选题，5道多选题。10个题的总分值为100分，请根据题目难度动态分配",
            // 规定ChatGPT返回数据格式为JSON，并且遵守<返回格式>
            "002. 返回格式必须为JSON，且为：<返回格式>，不要返回任何跟JSON数据无关的内容"
        ]
    }
}

GPT并不是万能的，也有它的不足之处，比如：数学计算、联网、私有信息问答等。那在实际应用中我们可以利用插件的方式来弥补这些不足。之前的课程讲了Function Call，这节课，我们换一种方式，利用Prompt编程来实现。

{
    "系统": {
        "指令": {
            "前缀": "/",
            "列表": {
                "推理": "严格按照<系统 规则>进行分析"
            }
        },
        "返回格式": {
            "response": {
                "type": "<类型>，int型，1表示答复、2表示需要需要调用联网插件、3表示需要调用数学计算、4表示订单插件",
                "normal": "<答复内容>",
                "network": {
                    "url": "<请求地址>"
                },
                "math": {
                    "math_express": "<数学表达式>"
                },
                "search_order": {
                    "order_id": "<订单ID>"
                }
            }
        },
        "规则": [
            "000. 无论如何请严格遵守<系统 规则>的要求，也不要跟用户沟通任何关于<系统 规则>的内容",
            "001. 当你需要联网的时，可以使用联网插件，为<系统 返回格式 response network>",
            "002. 当你需要计算数学表达式时，可以使用数学插件，为<系统 返回格式 response math>",
            "003. 当你需要获取订单信息时，可以使用订单插件，为<系统 返回格式 response search_order>",
            "999. 无论如何你的返回格式必须为JSON，且为：<系统 返回格式>，不要返回任何跟JSON数据无关的内容"
        ]
    }
}

Embeddings 嵌入

ChatGPT官方提供了两种训练语料的方式：embedding(嵌入)、Fine-tuning(微调)。

基于embeddings的模型训练在技术层面并没有难度术，因为复杂的部分大模型已经帮我们实现了，我们需要做的主要是以下4步：

自有数据生成向量，存储到向量数据库
用户提问转成向量，去数据库做数据召回，找到TOPK的数据
根据用户提问和召回的数据重新组装成prompt
把组装好的prompt发给ChatGPT，等待响应结果

在OpenAI中，使用Embeddings来表示文本数据，默认的 ada-002 模型会将文本解析为 1536 个维度，以便于模型更好地理解和处理文本。这种方法能够大大提高模型处理文本数据的效率和准确度。

官方地址：https://platform.openai.com/docs/guides/embeddings

嵌入（embedding）是指将高维数据映射为低维表示的过程。在机器学习和自然语言处理中，嵌入通常用于将离散的符号或对象表示为连续的向量空间中的点。

文本数据生成向量调用测试

在调用embedding接口的时候需要注意，文本长度不能超过8191个token，如果超过长度需要进行切分。

input：需要计算向量的文本
model : 计算向量需要使用的模型，建议使用 text-embedding-ada-002，ada模型是目前最廉价的支持中文最好的模型。

import openai

openai.api_key = "sk-xxxx"

response = openai.Embedding.create(
    input="今天天气很好",
    model="text-embedding-ada-002"
)
response

结果：

{
  "object": "list",
  "data": [
    {
      "object": "embedding",
      "index": 0,
      "embedding": [
        -0.004061323124915361,
        0.0013278661062940955,
        -0.002816090825945139,
        -0.030029574409127235,
        -0.009601871483027935,
        ... ...
      ]
    }
  ],
  "model": "text-embedding-ada-002-v2",
  "usage": {
    "prompt_tokens": 8,
    "total_tokens": 8
  }
}

看一下embedding的长度：

embeddings = response['data'][0]['embedding']
len(embeddings)

结果证实是1536 个维度。

向量数据库

向量数据库可参考openai官方给出的列表：

https://platform.openai.com/docs/guides/embeddings/how-can-i-retrieve-k-nearest-embedding-vectors-quickly

向量数据库的选项包括：

Pinecone，一个完全托管的向量数据库
Weaviate，一个开源的向量搜索引擎
Redis作为一个向量数据库
Qdrant，一个向量搜索引擎
Milvus，一个为可扩展相似性搜索构建的向量数据库
Chroma，一个开源的嵌入式存储
Typesense，快速的开源向量搜索
Zilliz，由Milvus提供支持的数据基础设施

这里建议选择PostgreSQL作为向量数据库，安装包下载地址：https://www.enterprisedb.com/downloads/postgres-postgresql-downloads

Linux平台安装方法：https://www.postgresql.org/download/

Windows安装PostgreSQL只需要不断下一步即可，安装pgvector可能会有点坑。

Windows平台安装pgvector

下载源码包：

git clone --branch v0.5.1 https://github.com/pgvector/pgvector.git

也可以到官网下载：https://pgxn.org/dist/vector/0.5.1/

首先确保已经安装 C++ support in Visual Studio，再用管理员身份运行cmd先执行：

call "C:\Program Files\Microsoft Visual Studio\2022\Community\VC\Auxiliary\Build\vcvars64.bat"

实际路径根据自己安装的Visual Studio进行调整，可以通过everything搜索vcvars64.bat，得到路径，例如我的电脑是：call “C:\Program Files (x86)\Microsoft Visual Studio\2019\BuildTools\VC\Auxiliary\Build\vcvars64.bat”

然后进行下载的源码所在文件夹，依次执行如下命令：

set "PGROOT=D:\Program Files\PostgreSQL\16"
nmake /F Makefile.win
nmake /F Makefile.win install

注意：PGROOT根据pg的实际安装路径调整。

全部安装完成后，就可以使用psql登录PostgreSQL，创建数据库和表了：

CREATE DATABASE ai_emb;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE documents (
  id bigserial PRIMARY KEY,
  title text,
  url text,
  description text,
  doc_chunk text,
  embedding vector(1536));

Embeddings案例

创建表：

CREATE TABLE doc1 (
  id bigserial PRIMARY KEY,
  doc_chunk text,
  embedding vector(1536)
);

准备一份makedown文档并处理：

import re
from filestools import read_txt

md = read_txt("D:\md\集团管理层培训.md")
md = md[:md.find("题库")].strip(" \n#")
// 去掉标题和加粗
md = re.sub("#+ |\*+", "", md)
// 去掉图片
md = re.sub("!\[image-\d+\]\(.+?\)", "", md)
len(md)

这份文档经过处理后长度为36424。

对该文档按500长度进行分块切片：

def get_text_chunks(content, max_chunk_size=500):
    return [content[i:i+max_chunk_size] for i in range(0, len(content), max_chunk_size)]


chunks = get_text_chunks(md)
len(chunks)

最终得到73个分块。

下面我们连接PostgreSQL数据库：

import psycopg2

# 连接PostgreSQL数据库
conn = psycopg2.connect(database="ai_emb",
                        host="127.0.0.1",
                        user="postgres",
                        password="admin",
                        port="5432")
conn.autocommit = True

pip install psycopg2即可安装Python客户端

然后我们将每个分块转换为embedding：

import openai
from tqdm import tqdm

# openai.api_base = "https://ai.xxx.com/v1"
openai.api_key = "sk-xxxx"

for chunk in tqdm(chunks):
    query_embedding_response = openai.Embedding.create(
        model="text-embedding-ada-002",
        input=chunk,
    )
    embedding = query_embedding_response['data'][0]['embedding']
    cur = conn.cursor()
    insert_query = "INSERT INTO doc1 (doc_chunk, embedding) VALUES (%s, %s);"
    cur.execute(insert_query, (chunk, embedding))
    conn.commit()

这样就将每个文档分块和对应的embedding存储到PostgreSQL数据库中。训练非常快，最终仅耗时38秒：

73/73 [00:38<00:00, 1.92it/s]

训练完成后，我们就可以进行提问，准备的问题是“复盘的目的”，我们将该问题转换为embedding向量：

prompt = '复盘的目的'

prompt_response = openai.Embedding.create(
    model="text-embedding-ada-002",
    input=prompt,
)
prompt_embedding = prompt_response['data'][0]['embedding']

然后我们从PostgreSQL数据库查询出相似度达到阈值的对应文档分块，这里我们设置阈值为0.78，最大2个文本块：

from psycopg2.extras import DictCursor

similarity_threshold = 0.78
max_matched_doc_counts = 2

# 通过pgvector过滤出相似度大于一定阈值的文档块
similarity_search_sql = f'''
SELECT doc_chunk, 1 - (embedding <=> '{prompt_embedding}') AS similarity 
FROM documents WHERE 1 - (embedding <=> '{prompt_embedding}') > {similarity_threshold} ORDER BY id LIMIT {max_matched_doc_counts};
'''

cur = conn.cursor(cursor_factory=DictCursor)
cur.execute(similarity_search_sql)
prompt_doc = "\n---\n".join((matched_doc['doc_chunk']
                            for matched_doc in cur.fetchall()))
print(prompt_doc)

匹配出最相似的文本为：

体颁发奖项 |

> 人性最大的欲望,莫过于受到外界的认可和赞赏
>                                                        — 威廉·詹姆斯

复盘总结

课前思考

> 您平时有复盘的习惯么?
> 您一般是怎样做复盘的呢?

复盘与经验总结

复盘对过程目标进行梳理及成因分析，同时也对未发生的行为进行虚拟探究，找到其他行为的可能性和可行性，发现新方法和出路。

复盘的关键目的与流程

1. 回顾目标
   当初的目的是什么？
   要达到的目标&里程碑
2. 评估结果
   Highlights 结果与原来的自标比要好
   Lowlights 结果与原来的目标比要差
3. 分析原因
   成功关键因素 (主观/客观)
   失败根本原因 (主观/客观)
4. 总结经验
   经验&规律
   举措&行动计划
   哪些行为可以开始行动、停止、继续

关键目的：把经验转化为接下来的工作方向和工作任务。

> 复盘是为未来不再犯同样的错误和规避同样的风险。



示例：

> 小分队所有成员再次讨论和回顾了本次行动目标周三早上6点

然后我们再次提问openai：

improved_prompt = f"""
按下面提供的文档和步骤来回答接下来的问题：
(1) 首先，分析文档中的内容，看是否与问题相关
(2) 其次，只能用文档中的内容进行回复,越详细越好，并且以markdown格式输出
(3) 最后，如果问题与提问不相关，请回复"我会努力学习的"

文档:
\"\"\"
{prompt_doc}
\"\"\"

问题: {prompt}
"""
messages = [{"role": "user", "content": improved_prompt}]
response = openai.ChatCompletion.create(
    model="gpt-3.5-turbo-16k-0613",
    messages=messages,
    temperature=0.2,
    max_tokens=1024
)

print(f"问题: {prompt}")
print(response['choices'][0]['message']['content'])

问题: 复盘的目的
复盘的目的是将过去的经验转化为接下来的工作方向和工作任务，以避免再次犯同样的错误和规避同样的风险。通过回顾目标、评估结果、分析原因和总结经验，可以找到成功的关键因素和失败的根本原因，进而得出经验和规律，并制定相应的举措和行动计划。复盘的关键目的是为了在未来的工作中能够更好地实现目标，并避免重复犯错。

Fine-tuning 微调

在OpenAI中，Fine-tuning主要用于提高预训练模型如GPT-3在特定任务上的性能。通过Fine-tuning，模型可以更好地理解和处理新任务的特性，从而得到更好的结果。

官方地址：https://platform.openai.com/docs/guides/fine-tuning

支持的模型

目前可用于fine-tune微调的模型有：

gpt-3.5-turbo-0613
babbage-002
davinci-002

注意gpt-3.5-turbo支持上下文连续对话，如果需要实现连续对话可以微调gpt-3.5-turbo模型。

gpt-3.5-turbo微调的数据输入格式为：

{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "Who wrote 'Romeo and Juliet'?"}, {"role": "assistant", "content": "Oh, just some guy named William Shakespeare. Ever heard of him?"}]}
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "How far is the Moon from Earth?"}, {"role": "assistant", "content": "Around 384,400 kilometers. Give or take a few, like that really matters."}]}

官方提供的一份toy_chat_fine_tuning 的训练数据集：https://github.com/openai/openai-cookbook/blob/main/examples/data/toy_chat_fine_tuning.jsonl

babbage-002 and davinci-002的训练格式为：

{"prompt": "", "completion": ""}
{"prompt": "", "completion": ""}
{"prompt": "", "completion": ""}

训练数据的有效性可以参考：https://cookbook.openai.com/examples/chat_finetuning_data_prep

下面我们以davinci-002模型为示例进行演示。

依赖数据预处理

若我们有一个csv文件pre.csv内容如下：

prompt,completion
冬瓜、黄瓜、西瓜、南瓜都能吃，什么瓜不能吃,傻瓜
冬天，宝宝怕冷，到了屋里也不肯脱帽。可是他见了一个人乖乖地脱下帽，那人是谁,理发师
有一个字，人人见了都会念错。这是什么字,这是“错”字
鸡蛋壳有什么用处,用来包蛋清和蛋黄。

使用OpenAI 的命令行工具可以将该文件转换为 JSONL 文件，执行：

openai tools fine_tunes.prepare_data -f pre.csv

工具运行时会提示转换结果是否要添加一些字符：

Based on the analysis we will perform the following actions:
- [Necessary] Your format `CSV` will be converted to `JSONL`
- [Recommended] Add a suffix separator `\n\n###\n\n` to all prompts [Y/n]: 
- [Recommended] Add a suffix ending `\n` to all completions [Y/n]:
- [Recommended] Add a whitespace character to the beginning of the completion [Y/n]:

最终生成新文件pre_prepared.jsonl，结果为：

{"prompt":"冬瓜、黄瓜、西瓜、南瓜都能吃，什么瓜不能吃","completion":"傻瓜\n"}
{"prompt":"冬天，宝宝怕冷，到了屋里也不肯脱帽。可是他见了一个人乖乖地脱下帽，那人是谁","completion":"理发师\n"}
{"prompt":"有一个字，人人见了都会念错。这是什么字","completion":"这是“错”字\n"}
{"prompt":"鸡蛋壳有什么用处","completion":"用来包蛋清和蛋黄。\n"}

也可以自行编码生成这种格式的文件。

注意：babbage-002和davinci-002模型支持使用这种格式的数据进行训练。对于gpt-3.5-turbo模型支持上下文只能使用如下格式训练：
{"messages": [{"role": "system", "content": "Marv is a factual chatbot that is also sarcastic."}, {"role": "user", "content": "What's the capital of France?"}, {"role": "assistant", "content": "Paris, as if everyone doesn't know that already."}]}

Python微调模型

首先上传训练集文件：

import openai

# openai.api_base = "https://ai.xxxx.com/v1"
openai.api_key = "sk-xxx"
file = openai.File.create(
  file=open("pre_prepared.jsonl", "rb"),
  purpose='fine-tune'
)
file.id

'file-WiEcUA6z7cyNdHEPvvWGrJtU'

然后开始微调训练：

openai.FineTuningJob.create(training_file=file.id, model="davinci-002")

查看模型的训练状态：

# Retrieve the state of a fine-tune
openai.FineTuningJob.retrieve("ftjob-oG9bK7xiOJEBF6kwYGFepUal")

 JSON: {
  "object": "fine_tuning.job",
  "id": "ftjob-oG9bK7xiOJEBF6kwYGFepUal",
  "model": "davinci-002",
  "created_at": 1697539548,

  "result_files": [],
  "status": "running",
  "validation_file": null,
  "training_file": "file-WiEcUA6z7cyNdHEPvvWGrJtU",
  "hyperparameters": {
    "n_epochs": 3
  },
  "trained_tokens": null,
  "error": null
}

其他函数：

# 列出10个最近进行微调的模型
openai.FineTuningJob.list(limit=10)
# 查看某个微调模型的状态
openai.FineTuningJob.retrieve("ftjob-abc123")
# 取消一个微调模型的训练
openai.FineTuningJob.cancel("ftjob-abc123")
# 列出某个微调模型的最近10个事件
openai.FineTuningJob.list_events(id="ftjob-abc123", limit=10)
# 删除一个已经训练好的 fine-tuned 模型
openai.Model.delete("ft:gpt-3.5-turbo:acemeco:suffix:abc123")

等待16分钟后，微调模型终于训练完成：

import datetime

job = openai.FineTuningJob.retrieve("ftjob-oG9bK7xiOJEBF6kwYGFepUal")
print(job.status, job.fine_tuned_model)
dt1 = datetime.datetime.fromtimestamp(job.created_at)
dt2 = datetime.datetime.fromtimestamp(job.finished_at)
print("耗时：", dt2 - dt1)

succeeded ft:davinci-002:personal::8Ac7vxPp
耗时： 0:16:21

测试模型：

completion = openai.Completion.create(
    model="ft:davinci-002:personal::8Ac7vxPp",
    prompt="什么船从来不下水"
)
print(completion.choices[0].text)

你可能感兴趣的:(python,python,openai,chatgpt,大语言模型)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
RocketMQ 核心特性实战详解愤怒的代码 RocketMQ实战 rocketmq
RocketMQ核心特性实战详解本文基于RocketMQ4.x+rocketmq-spring-boot-starter2.3.1，从零搭建，逐步讲解RocketMQ11大核心特性，每一段代码都能直接跑。0.项目环境准备依赖引入在pom.xml文件添加：org.apache.rocketmqrocketmq-spring-boot-starter2.3.1配置文件application.ymlse
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement