大模型系列：OpenAI使用技巧_自定义文本向量化embeding

文章目录

- 0. Imports
- 1. 输入
- 2. 加载和处理输入数据
- 3. 将数据分成训练和测试集
- 4. 生成合成的负样本
- 5. 计算嵌入和余弦相似度
- 6. 绘制余弦相似度的分布图
- 7. 使用提供的训练数据优化矩阵。
- 8. 绘制训练期间找到的最佳矩阵的前后对比图，展示结果

本笔记本演示了一种将OpenAI嵌入定制为特定任务的方法。

输入是以[text_1，text_2，label]形式的训练数据，其中label为+1表示这些句子对相似，label为-1表示这些句子对不相似。

输出是一个矩阵，您可以用它来乘以您的嵌入。这个乘法的结果是一个“自定义嵌入”，它将更好地强调与您的用例相关的文本方面。在二元分类用例中，我们看到错误率下降了多达50％。

在下面的示例中，我使用了从SNLI语料库中选择的1,000个句子对。每对句子在逻辑上是蕴含的（即一个句子暗示着另一个句子）。这些句子对是我们的正例（label = 1）。我们通过组合来自不同句子对的句子来生成合成的负例，这些句子被认为不是逻辑上蕴含的（label = -1）。

对于聚类用例，您可以通过从相同聚类中的文本创建句子对来生成正例，并通过从不同聚类中的句子创建句子对来生成负例。

对于其他数据集，我们发现即使只有大约100个训练示例，也能看到相当不错的改进。当然，使用更多示例性能会更好。

0. Imports

# 导入所需的库
from typing import List, Tuple  # 用于类型提示

import numpy as np  # 用于操作数组
import pandas as pd  # 用于操作数据框
import pickle  # 用于保存嵌入缓存
import plotly.express as px  # 用于绘图
import random  # 用于生成运行ID
from sklearn.model_selection import train_test_split  # 用于拆分训练和测试数据
import torch  # 用于矩阵优化

from utils.embeddings_utils import get_embedding, cosine_similarity  # 用于嵌入

1. 输入

大部分的输入都在这里。需要改变的关键点是从哪里加载数据集，将嵌入缓存保存到哪里，以及你想要使用哪个嵌入引擎。

根据你的数据格式，你可能需要重写process_input_data函数。

# 输入参数
embedding_cache_path = "data/snli_embedding_cache.pkl"  # 嵌入将被保存/加载到这里
default_embedding_engine = "babbage-similarity"  # 推荐使用text-embedding-ada-002
num_pairs_to_embed = 1000  # 1000是任意的
local_dataset_path = "data/snli_1.0_train_2k.csv"  # 从以下网址下载：https://nlp.stanford.edu/projects/snli/

def process_input_data(df: pd.DataFrame) -> pd.DataFrame:
    # 你可以自定义这个函数来预处理你自己的数据集
    # 输出应该是一个包含3列的DataFrame：text_1, text_2, label (相似为1，不相似为-1)
    df["label"] = df["gold_label"]  # 将gold_label列的值赋给label列
    df = df[df["label"].isin(["entailment"])]  # 保留label列值为"entailment"的行
    df["label"] = df["label"].apply(lambda x: {"entailment": 1, "contradiction": -1}[x])  # 将label列的值映射为1或-1
    df = df.rename(columns={"sentence1": "text_1", "sentence2": "text_2"})  # 将列名sentence1改为text_1，将列名sentence2改为text_2
    df = df[["text_1", "text_2", "label"]]  # 保留text_1、text_2和label这三列
    df = df.head(num_pairs_to_embed)  # 保留前num_pairs_to_embed行
    return df  # 返回处理后的DataFrame

2. 加载和处理输入数据

# 加载数据
df = pd.read_csv(local_dataset_path)

# 处理输入数据
df = process_input_data(df)  # 这个函数演示了只包含正例的训练数据

# 查看数据
df.head()

/var/folders/r4/x3kdvs816995fnnph2gdpwp40000gn/T/ipykernel_17509/1977422881.py:13: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["label"] = df["label"].apply(lambda x: {"entailment": 1, "contradiction": -1}[x])

	text_1	text_2	label
2	A person on a horse jumps over a broken down a...	A person is outdoors, on a horse.	1
4	Children smiling and waving at camera	There are children present	1
7	A boy is jumping on skateboard in the middle o...	The boy does a skateboarding trick.	1
14	Two blond women are hugging one another.	There are women showing affection.	1
17	A few people in a restaurant setting, one of t...	The diners are at a restaurant.	1

3. 将数据分成训练和测试集

请注意，在生成合成的负面或正面之前，将数据分成训练和测试集非常重要。您不希望训练数据中的任何文本字符串出现在测试数据中。如果有污染，测试指标看起来会比实际生产中要好。

# 将数据分割为训练集和测试集
test_fraction = 0.5  # 测试集所占比例为0.5，这个值是相对随意的
random_seed = 123  # 随机种子是随意的，但有助于结果的可重复性
train_df, test_df = train_test_split(
    df, test_size=test_fraction, stratify=df["label"], random_state=random_seed
)
# 将训练集的"dataset"列设置为"train"
train_df.loc[:, "dataset"] = "train"
# 将测试集的"dataset"列设置为"test"
test_df.loc[:, "dataset"] = "test"

4. 生成合成的负样本

这是代码的另一部分，您需要根据您的用例进行修改。

如果您的数据中有正样本和负样本，您可以跳过本节。

如果您的数据只有正样本，您可以大部分保持原样，只生成负样本。

如果您的数据是多类别数据，您将希望生成正样本和负样本。正样本可以是共享标签的文本对，而负样本可以是不共享标签的文本对。

最终输出应该是一个带有文本对的数据框，每个对都有标签-1或1。

# 生成负样本

def dataframe_of_negatives(dataframe_of_positives: pd.DataFrame) -> pd.DataFrame:
    """通过组合正样本的元素，返回负样本的数据框。"""
    
    # 获取所有文本的集合
    texts = set(dataframe_of_positives["text_1"].values) | set(
        dataframe_of_positives["text_2"].values
    )
    
    # 生成所有可能的文本对
    all_pairs = {(t1, t2) for t1 in texts for t2 in texts if t1 < t2}
    
    # 获取正样本的文本对
    positive_pairs = set(
        tuple(text_pair)
        for text_pair in dataframe_of_positives[["text_1", "text_2"]].values
    )
    
    # 生成负样本的文本对
    negative_pairs = all_pairs - positive_pairs
    
    # 将负样本的文本对转换为数据框
    df_of_negatives = pd.DataFrame(list(negative_pairs), columns=["text_1", "text_2"])
    
    # 添加标签列，标记为-1表示负样本
    df_of_negatives["label"] = -1
    
    return df_of_negatives

# 设置每个正样本对应的负样本数量
negatives_per_positive = (
    1  # 可以使用更高的值，但是会导致数据量增加，训练速度变慢
)

# 为训练数据集生成负样本
train_df_negatives = dataframe_of_negatives(train_df)
train_df_negatives["dataset"] = "train"  # 为负样本添加一个"dataset"列，值为"train"

# 为测试数据集生成负样本
test_df_negatives = dataframe_of_negatives(test_df)
test_df_negatives["dataset"] = "test"  # 为负样本添加一个"dataset"列，值为"test"

# 从负样本中随机抽样，并与正样本合并
train_df = pd.concat(
    [
        train_df,
        train_df_negatives.sample(
            n=len(train_df) * negatives_per_positive, random_state=random_seed
        ),
    ]
)

# 从负样本中随机抽样，并与正样本合并
test_df = pd.concat(
    [
        test_df,
        test_df_negatives.sample(
            n=len(test_df) * negatives_per_positive, random_state=random_seed
        ),
    ]
)

# 将训练数据集和测试数据集合并为一个数据集
df = pd.concat([train_df, test_df])

5. 计算嵌入和余弦相似度

在这里，我创建了一个缓存来保存嵌入。这样做很方便，因为如果您想再次运行代码，就不必再次付费。

# 建立一个嵌入缓存以避免重新计算
# 缓存是一个元组(text, engine) -> embedding的字典
try:
    with open(embedding_cache_path, "rb") as f:
        embedding_cache = pickle.load(f) # 从文件中读取缓存
except FileNotFoundError:
    precomputed_embedding_cache_path = "https://cdn.openai.com/API/examples/data/snli_embedding_cache.pkl"
    embedding_cache = pd.read_pickle(precomputed_embedding_cache_path) # 如果文件不存在，则从预计算的缓存中读取

# 这个函数将从缓存中获取嵌入并保存它们
def get_embedding_with_cache(
    text: str,
    engine: str = default_embedding_engine,
    embedding_cache: dict = embedding_cache,
    embedding_cache_path: str = embedding_cache_path,
) -> list:
    if (text, engine) not in embedding_cache.keys(): # 如果缓存中没有，则调用API获取嵌入
        embedding_cache[(text, engine)] = get_embedding(text, engine)
        # 每次更新后将嵌入缓存保存到磁盘
        with open(embedding_cache_path, "wb") as embedding_cache_file:
            pickle.dump(embedding_cache, embedding_cache_file)
    return embedding_cache[(text, engine)]

# 创建嵌入列
for column in ["text_1", "text_2"]:
    df[f"{column}_embedding"] = df[column].apply(get_embedding_with_cache)

# 创建嵌入之间余弦相似度的列
df["cosine_similarity"] = df.apply(
    lambda row: cosine_similarity(row["text_1_embedding"], row["text_2_embedding"]),
    axis=1,
)

6. 绘制余弦相似度的分布图

在这里，我们使用余弦相似度来衡量文本的相似性。根据我们的经验，大多数距离函数（L1、L2、余弦相似度）的效果都差不多。请注意，我们的嵌入已经被归一化为长度为1，因此余弦相似度等同于点积。

这些图表展示了相似和不相似对的余弦相似度分布之间的重叠程度。如果存在很高程度的重叠，这意味着有些不相似的对具有比某些相似对更大的余弦相似度。

我计算的准确率是一个简单规则的准确率，该规则在余弦相似度高于某个阈值X时预测为“相似（1）”，否则预测为“不相似（0）”。

# 计算在相似度大于x时预测标签为1的准确率（以及其标准误差）
# x通过从-1到1以0.01的步长进行扫描来进行优化
def accuracy_and_se(cosine_similarity: float, labeled_similarity: int) -> Tuple[float]:
    accuracies = []  # 存储准确率的列表
    for threshold_thousandths in range(-1000, 1000, 1):  # 以千分之一为单位从-1000到1000进行循环
        threshold = threshold_thousandths / 1000  # 将千分之一转换为实际阈值
        total = 0  # 总数
        correct = 0  # 正确的数量
        for cs, ls in zip(cosine_similarity, labeled_similarity):  # 对相似度和标签进行迭代
            total += 1  # 总数加1
            if cs > threshold:  # 如果相似度大于阈值
                prediction = 1  # 预测为1
            else:
                prediction = -1  # 预测为-1
            if prediction == ls:  # 如果预测结果与实际标签相同
                correct += 1  # 正确数量加1
        accuracy = correct / total  # 计算准确率
        accuracies.append(accuracy)  # 将准确率添加到列表中
    a = max(accuracies)  # 取最大的准确率
    n = len(cosine_similarity)  # 相似度列表的长度
    standard_error = (a * (1 - a) / n) ** 0.5  # 二项式的标准误差
    return a, standard_error  # 返回准确率和标准误差


# 检查训练集和测试集是否平衡
px.histogram(
    df,
    x="cosine_similarity",
    color="label",
    barmode="overlay",
    width=500,
    facet_row="dataset",
).show()

for dataset in ["train", "test"]:  # 对训练集和测试集进行迭代
    data = df[df["dataset"] == dataset]  # 获取特定数据集的数据
    a, se = accuracy_and_se(data["cosine_similarity"], data["label"])  # 调用accuracy_and_se函数计算准确率和标准误差
    print(f"{dataset} accuracy: {a:0.1%} ± {1.96 * se:0.1%}")  # 打印准确率和标准误差

train accuracy: 89.1% ± 2.4%
test accuracy: 88.8% ± 2.4%

7. 使用提供的训练数据优化矩阵。

# 定义函数embedding_multiplied_by_matrix
# 输入参数为embedding（列表类型）和matrix（torch.tensor类型）
# 将embedding转换为torch.tensor类型，并转换为float类型
# 将embedding与matrix相乘得到modified_embedding
# 将modified_embedding转换为numpy数组类型
# 返回modified_embedding

# 定义函数apply_matrix_to_embeddings_dataframe
# 输入参数为matrix（torch.tensor类型）和df（pd.DataFrame类型）
# 遍历["text_1_embedding", "text_2_embedding"]中的每一列
# 对于每一列，将df[column]中的每个元素应用函数embedding_multiplied_by_matrix，并将结果赋值给df[f"{column}_custom"]
# 对于df中的每一行，计算"cosine_similarity_custom"，使用函数cosine_similarity计算"text_1_embedding_custom"和"text_2_embedding_custom"之间的余弦相似度
# 将计算结果赋值给df["cosine_similarity_custom"]
def embedding_multiplied_by_matrix(
    embedding: List[float], matrix: torch.tensor
) -> np.array:
    embedding_tensor = torch.tensor(embedding).float()
    modified_embedding = embedding_tensor @ matrix
    modified_embedding = modified_embedding.detach().numpy()
    return modified_embedding


# compute custom embeddings and new cosine similarities
def apply_matrix_to_embeddings_dataframe(matrix: torch.tensor, df: pd.DataFrame):
    for column in ["text_1_embedding", "text_2_embedding"]:
        df[f"{column}_custom"] = df[column].apply(
            lambda x: embedding_multiplied_by_matrix(x, matrix)
        )
    df["cosine_similarity_custom"] = df.apply(
        lambda row: cosine_similarity(
            row["text_1_embedding_custom"], row["text_2_embedding_custom"]
        ),
        axis=1,
    )


def optimize_matrix(
    modified_embedding_length: int = 2048,  # 在我的简短实验中，更大的值效果更好（2048是巴贝奇编码的长度）
    batch_size: int = 100,
    max_epochs: int = 100,
    learning_rate: float = 100.0,  # 学习率最好与批量大小相似 - 可以尝试一系列值
    dropout_fraction: float = 0.0,  # 在我的测试中，dropout可以提高几个百分点（绝对不是必需的）
    df: pd.DataFrame = df,
    print_progress: bool = True,
    save_results: bool = True,
) -> torch.tensor:
    """返回经过训练数据优化的矩阵"""
    run_id = random.randint(0, 2 ** 31 - 1)  # （范围是任意的）

    # 将数据框转换为torch张量
    # e表示嵌入，s表示相似性标签
    def tensors_from_dataframe(
        df: pd.DataFrame,
        embedding_column_1: str,
        embedding_column_2: str,
        similarity_label_column: str,
    ) -> Tuple[torch.tensor]:
        e1 = np.stack(np.array(df[embedding_column_1].values))
        e2 = np.stack(np.array(df[embedding_column_2].values))
        s = np.stack(np.array(df[similarity_label_column].astype("float").values))

        e1 = torch.from_numpy(e1).float()
        e2 = torch.from_numpy(e2).float()
        s = torch.from_numpy(s).float()

        return e1, e2, s

    # 从数据框中获取训练集和测试集的张量
    e1_train, e2_train, s_train = tensors_from_dataframe(
        df[df["dataset"] == "train"], "text_1_embedding", "text_2_embedding", "label"
    )
    e1_test, e2_test, s_test = tensors_from_dataframe(
        df[df["dataset"] == "test"], "text_1_embedding", "text_2_embedding", "label"
    )

    # 创建数据集和加载器
    dataset = torch.utils.data.TensorDataset(e1_train, e2_train, s_train)
    train_loader = torch.utils.data.DataLoader(
        dataset, batch_size=batch_size, shuffle=True
    )

    # 定义模型（投影嵌入的相似性）
    def model(embedding_1, embedding_2, matrix, dropout_fraction=dropout_fraction):
        e1 = torch.nn.functional.dropout(embedding_1, p=dropout_fraction)
        e2 = torch.nn.functional.dropout(embedding_2, p=dropout_fraction)
        modified_embedding_1 = e1 @ matrix  # @是矩阵乘法
        modified_embedding_2 = e2 @ matrix
        similarity = torch.nn.functional.cosine_similarity(
            modified_embedding_1, modified_embedding_2
        )
        return similarity

    # 定义损失函数
    def mse_loss(predictions, targets):
        difference = predictions - targets
        return torch.sum(difference * difference) / difference.numel()

    # 初始化投影矩阵
    embedding_length = len(df["text_1_embedding"].values[0])
    matrix = torch.randn(
        embedding_length, modified_embedding_length, requires_grad=True
    )

    epochs, types, losses, accuracies, matrices = [], [], [], [], []
    for epoch in range(1, 1 + max_epochs):
        # 遍历训练数据加载器
        for a, b, actual_similarity in train_loader:
            # 生成预测
            predicted_similarity = model(a, b, matrix)
            # 获取损失并进行反向传播
            loss = mse_loss(predicted_similarity, actual_similarity)
            loss.backward()
            # 更新权重
            with torch.no_grad():
                matrix -= matrix.grad * learning_rate
                # 将梯度设置为零
                matrix.grad.zero_()
        # 计算测试损失
        test_predictions = model(e1_test, e2_test, matrix)
        test_loss = mse_loss(test_predictions, s_test)

        # 计算自定义嵌入和新余弦相似度
        apply_matrix_to_embeddings_dataframe(matrix, df)

        # 计算测试准确率
        for dataset in ["train", "test"]:
            data = df[df["dataset"] == dataset]
            a, se = accuracy_and_se(data["cosine_similarity_custom"], data["label"])

            # 记录每个时期的结果
            epochs.append(epoch)
            types.append(dataset)
            losses.append(loss.item() if dataset == "train" else test_loss.item())
            accuracies.append(a)
            matrices.append(matrix.detach().numpy())

            # 可选地打印准确率
            if print_progress is True:
                print(
                    f"Epoch {epoch}/{max_epochs}: {dataset} accuracy: {a:0.1%} ± {1.96 * se:0.1%}"
                )

    data = pd.DataFrame(
        {"epoch": epochs, "type": types, "loss": losses, "accuracy": accuracies}
    )
    data["run_id"] = run_id
    data["modified_embedding_length"] = modified_embedding_length
    data["batch_size"] = batch_size
    data["max_epochs"] = max_epochs
    data["learning_rate"] = learning_rate
    data["dropout_fraction"] = dropout_fraction
    data[
        "matrix"
    ] = matrices  # 保存每个矩阵可能会变得很大；可以随意删除/更改
    if save_results is True:
        data.to_csv(f"{run_id}_optimization_results.csv", index=False)

    return data

# 示例超参数搜索
# 我建议在最初探索时将max_epochs设置为10
results = []  # 创建一个空列表用于存储结果
max_epochs = 30  # 设置最大迭代次数为30
dropout_fraction = 0.2  # 设置dropout比例为0.2

# 针对不同的batch_size和learning_rate进行循环
for batch_size, learning_rate in [(10, 10), (100, 100), (1000, 1000)]:
    # 调用optimize_matrix函数进行矩阵优化，并传入相应的参数
    result = optimize_matrix(
        batch_size=batch_size,
        learning_rate=learning_rate,
        max_epochs=max_epochs,
        dropout_fraction=dropout_fraction,
        save_results=False,
    )
    # 将结果添加到results列表中
    results.append(result)

Epoch 1/30: train accuracy: 89.1% ± 2.4%
Epoch 1/30: test accuracy: 88.4% ± 2.4%
Epoch 2/30: train accuracy: 89.5% ± 2.3%
Epoch 2/30: test accuracy: 88.8% ± 2.4%
Epoch 3/30: train accuracy: 90.6% ± 2.2%
Epoch 3/30: test accuracy: 89.3% ± 2.3%
Epoch 4/30: train accuracy: 91.2% ± 2.2%
Epoch 4/30: test accuracy: 89.7% ± 2.3%
Epoch 5/30: train accuracy: 91.5% ± 2.1%
Epoch 5/30: test accuracy: 90.0% ± 2.3%
Epoch 6/30: train accuracy: 91.9% ± 2.1%
Epoch 6/30: test accuracy: 90.4% ± 2.2%
Epoch 7/30: train accuracy: 92.2% ± 2.0%
Epoch 7/30: test accuracy: 90.7% ± 2.2%
Epoch 8/30: train accuracy: 92.7% ± 2.0%
Epoch 8/30: test accuracy: 90.9% ± 2.2%
Epoch 9/30: train accuracy: 92.7% ± 2.0%
Epoch 9/30: test accuracy: 91.0% ± 2.2%
Epoch 10/30: train accuracy: 93.0% ± 1.9%
Epoch 10/30: test accuracy: 91.6% ± 2.1%
Epoch 11/30: train accuracy: 93.1% ± 1.9%
Epoch 11/30: test accuracy: 91.8% ± 2.1%
Epoch 12/30: train accuracy: 93.4% ± 1.9%
Epoch 12/30: test accuracy: 92.1% ± 2.0%
Epoch 13/30: train accuracy: 93.6% ± 1.9%
Epoch 13/30: test accuracy: 92.4% ± 2.0%
Epoch 14/30: train accuracy: 93.7% ± 1.8%
Epoch 14/30: test accuracy: 92.7% ± 2.0%
Epoch 15/30: train accuracy: 93.7% ± 1.8%
Epoch 15/30: test accuracy: 92.7% ± 2.0%
Epoch 16/30: train accuracy: 94.0% ± 1.8%
Epoch 16/30: test accuracy: 93.0% ± 1.9%
Epoch 17/30: train accuracy: 94.0% ± 1.8%
Epoch 17/30: test accuracy: 93.0% ± 1.9%
Epoch 18/30: train accuracy: 94.2% ± 1.8%
Epoch 18/30: test accuracy: 93.1% ± 1.9%
Epoch 19/30: train accuracy: 94.2% ± 1.8%
Epoch 19/30: test accuracy: 93.1% ± 1.9%
Epoch 20/30: train accuracy: 94.3% ± 1.8%
Epoch 20/30: test accuracy: 93.0% ± 1.9%
Epoch 21/30: train accuracy: 94.5% ± 1.7%
Epoch 21/30: test accuracy: 93.1% ± 1.9%
Epoch 22/30: train accuracy: 94.5% ± 1.7%
Epoch 22/30: test accuracy: 93.3% ± 1.9%
Epoch 23/30: train accuracy: 94.6% ± 1.7%
Epoch 23/30: test accuracy: 93.3% ± 1.9%
Epoch 24/30: train accuracy: 94.6% ± 1.7%
Epoch 24/30: test accuracy: 93.3% ± 1.9%
Epoch 25/30: train accuracy: 94.8% ± 1.7%
Epoch 25/30: test accuracy: 93.3% ± 1.9%
Epoch 26/30: train accuracy: 94.8% ± 1.7%
Epoch 26/30: test accuracy: 93.4% ± 1.9%
Epoch 27/30: train accuracy: 94.8% ± 1.7%
Epoch 27/30: test accuracy: 93.4% ± 1.9%
Epoch 28/30: train accuracy: 94.9% ± 1.7%
Epoch 28/30: test accuracy: 93.4% ± 1.9%
Epoch 29/30: train accuracy: 94.9% ± 1.7%
Epoch 29/30: test accuracy: 93.4% ± 1.9%
Epoch 30/30: train accuracy: 94.9% ± 1.7%
Epoch 30/30: test accuracy: 93.3% ± 1.9%
Epoch 1/30: train accuracy: 89.7% ± 2.3%
Epoch 1/30: test accuracy: 89.1% ± 2.4%
Epoch 2/30: train accuracy: 89.8% ± 2.3%
Epoch 2/30: test accuracy: 89.9% ± 2.3%
Epoch 3/30: train accuracy: 90.3% ± 2.2%
Epoch 3/30: test accuracy: 90.0% ± 2.3%
Epoch 4/30: train accuracy: 91.0% ± 2.2%
Epoch 4/30: test accuracy: 90.3% ± 2.2%
Epoch 5/30: train accuracy: 91.3% ± 2.1%
Epoch 5/30: test accuracy: 90.3% ± 2.2%
Epoch 6/30: train accuracy: 91.8% ± 2.1%
Epoch 6/30: test accuracy: 90.4% ± 2.2%
Epoch 7/30: train accuracy: 92.4% ± 2.0%
Epoch 7/30: test accuracy: 91.0% ± 2.2%
Epoch 8/30: train accuracy: 92.8% ± 2.0%
Epoch 8/30: test accuracy: 91.3% ± 2.1%
Epoch 9/30: train accuracy: 93.1% ± 1.9%
Epoch 9/30: test accuracy: 91.6% ± 2.1%
Epoch 10/30: train accuracy: 93.4% ± 1.9%
Epoch 10/30: test accuracy: 91.9% ± 2.1%
Epoch 11/30: train accuracy: 93.4% ± 1.9%
Epoch 11/30: test accuracy: 91.8% ± 2.1%
Epoch 12/30: train accuracy: 93.6% ± 1.9%
Epoch 12/30: test accuracy: 92.1% ± 2.0%
Epoch 13/30: train accuracy: 93.7% ± 1.8%
Epoch 13/30: test accuracy: 92.4% ± 2.0%
Epoch 14/30: train accuracy: 93.7% ± 1.8%
Epoch 14/30: test accuracy: 92.5% ± 2.0%
Epoch 15/30: train accuracy: 93.9% ± 1.8%
Epoch 15/30: test accuracy: 92.8% ± 2.0%
Epoch 16/30: train accuracy: 94.0% ± 1.8%
Epoch 16/30: test accuracy: 92.8% ± 2.0%
Epoch 17/30: train accuracy: 94.0% ± 1.8%
Epoch 17/30: test accuracy: 92.8% ± 2.0%
Epoch 18/30: train accuracy: 94.2% ± 1.8%
Epoch 18/30: test accuracy: 92.8% ± 2.0%
Epoch 19/30: train accuracy: 94.2% ± 1.8%
Epoch 19/30: test accuracy: 92.8% ± 2.0%
Epoch 20/30: train accuracy: 94.2% ± 1.8%
Epoch 20/30: test accuracy: 93.1% ± 1.9%
Epoch 21/30: train accuracy: 94.3% ± 1.8%
Epoch 21/30: test accuracy: 93.3% ± 1.9%
Epoch 22/30: train accuracy: 94.3% ± 1.8%
Epoch 22/30: test accuracy: 93.3% ± 1.9%
Epoch 23/30: train accuracy: 94.5% ± 1.7%
Epoch 23/30: test accuracy: 93.3% ± 1.9%
Epoch 24/30: train accuracy: 94.5% ± 1.7%
Epoch 24/30: test accuracy: 93.3% ± 1.9%
Epoch 25/30: train accuracy: 94.6% ± 1.7%
Epoch 25/30: test accuracy: 93.4% ± 1.9%
Epoch 26/30: train accuracy: 94.6% ± 1.7%
Epoch 26/30: test accuracy: 93.3% ± 1.9%
Epoch 27/30: train accuracy: 94.6% ± 1.7%
Epoch 27/30: test accuracy: 93.4% ± 1.9%
Epoch 28/30: train accuracy: 94.8% ± 1.7%
Epoch 28/30: test accuracy: 93.4% ± 1.9%
Epoch 29/30: train accuracy: 94.8% ± 1.7%
Epoch 29/30: test accuracy: 93.3% ± 1.9%
Epoch 30/30: train accuracy: 94.8% ± 1.7%
Epoch 30/30: test accuracy: 93.4% ± 1.9%
Epoch 1/30: train accuracy: 90.7% ± 2.2%
Epoch 1/30: test accuracy: 89.9% ± 2.3%
Epoch 2/30: train accuracy: 90.9% ± 2.2%
Epoch 2/30: test accuracy: 90.3% ± 2.2%
Epoch 3/30: train accuracy: 91.6% ± 2.1%
Epoch 3/30: test accuracy: 90.3% ± 2.2%
Epoch 4/30: train accuracy: 92.2% ± 2.0%
Epoch 4/30: test accuracy: 90.7% ± 2.2%
Epoch 5/30: train accuracy: 92.4% ± 2.0%
Epoch 5/30: test accuracy: 91.3% ± 2.1%
Epoch 6/30: train accuracy: 92.5% ± 2.0%
Epoch 6/30: test accuracy: 91.8% ± 2.1%
Epoch 7/30: train accuracy: 93.0% ± 1.9%
Epoch 7/30: test accuracy: 92.2% ± 2.0%
Epoch 8/30: train accuracy: 93.1% ± 1.9%
Epoch 8/30: test accuracy: 92.7% ± 2.0%
Epoch 9/30: train accuracy: 93.3% ± 1.9%
Epoch 9/30: test accuracy: 92.5% ± 2.0%
Epoch 10/30: train accuracy: 93.4% ± 1.9%
Epoch 10/30: test accuracy: 92.7% ± 2.0%
Epoch 11/30: train accuracy: 93.6% ± 1.9%
Epoch 11/30: test accuracy: 92.8% ± 2.0%
Epoch 12/30: train accuracy: 93.7% ± 1.8%
Epoch 12/30: test accuracy: 92.8% ± 2.0%
Epoch 13/30: train accuracy: 94.0% ± 1.8%
Epoch 13/30: test accuracy: 93.0% ± 1.9%
Epoch 14/30: train accuracy: 93.9% ± 1.8%
Epoch 14/30: test accuracy: 93.0% ± 1.9%
Epoch 15/30: train accuracy: 94.2% ± 1.8%
Epoch 15/30: test accuracy: 93.0% ± 1.9%
Epoch 16/30: train accuracy: 94.2% ± 1.8%
Epoch 16/30: test accuracy: 93.0% ± 1.9%
Epoch 17/30: train accuracy: 94.3% ± 1.8%
Epoch 17/30: test accuracy: 93.0% ± 1.9%
Epoch 18/30: train accuracy: 94.5% ± 1.7%
Epoch 18/30: test accuracy: 93.1% ± 1.9%
Epoch 19/30: train accuracy: 94.5% ± 1.7%
Epoch 19/30: test accuracy: 93.1% ± 1.9%
Epoch 20/30: train accuracy: 94.6% ± 1.7%
Epoch 20/30: test accuracy: 93.3% ± 1.9%
Epoch 21/30: train accuracy: 94.8% ± 1.7%
Epoch 21/30: test accuracy: 93.3% ± 1.9%
Epoch 22/30: train accuracy: 94.8% ± 1.7%
Epoch 22/30: test accuracy: 93.4% ± 1.9%
Epoch 23/30: train accuracy: 94.8% ± 1.7%
Epoch 23/30: test accuracy: 93.4% ± 1.9%
Epoch 24/30: train accuracy: 94.8% ± 1.7%
Epoch 24/30: test accuracy: 93.4% ± 1.9%
Epoch 25/30: train accuracy: 94.8% ± 1.7%
Epoch 25/30: test accuracy: 93.4% ± 1.9%
Epoch 26/30: train accuracy: 94.9% ± 1.7%
Epoch 26/30: test accuracy: 93.6% ± 1.9%
Epoch 27/30: train accuracy: 94.9% ± 1.7%
Epoch 27/30: test accuracy: 93.6% ± 1.9%
Epoch 28/30: train accuracy: 94.9% ± 1.7%
Epoch 28/30: test accuracy: 93.6% ± 1.9%
Epoch 29/30: train accuracy: 95.1% ± 1.6%
Epoch 29/30: test accuracy: 93.6% ± 1.9%
Epoch 30/30: train accuracy: 95.1% ± 1.6%
Epoch 30/30: test accuracy: 93.6% ± 1.9%

# 将所有结果合并为一个DataFrame
runs_df = pd.concat(results)

# 绘制训练损失和测试损失随时间的变化图
px.line(
    runs_df,  # 数据源为合并后的DataFrame
    line_group="run_id",  # 按照run_id分组，每个run_id对应一条线
    x="epoch",  # x轴为epoch
    y="loss",  # y轴为loss
    color="type",  # 根据type进行颜色区分
    hover_data=["batch_size", "learning_rate", "dropout_fraction"],  # 鼠标悬停时显示的额外信息
    facet_row="learning_rate",  # 按照learning_rate进行行分面
    facet_col="batch_size",  # 按照batch_size进行列分面
    width=500,  # 图的宽度
).show()  # 显示图像

# 绘制准确率随时间的变化图
px.line(
    runs_df,  # 数据源为合并后的DataFrame
    line_group="run_id",  # 按照run_id分组，每个run_id对应一条线
    x="epoch",  # x轴为epoch
    y="accuracy",  # y轴为accuracy
    color="type",  # 根据type进行颜色区分
    hover_data=["batch_size", "learning_rate", "dropout_fraction"],  # 鼠标悬停时显示的额外信息
    facet_row="learning_rate",  # 按照learning_rate进行行分面
    facet_col="batch_size",  # 按照batch_size进行列分面
    width=500,  # 图的宽度
).show()  # 显示图像

8. 绘制训练期间找到的最佳矩阵的前后对比图，展示结果

矩阵越好，它就能更清晰地分离相似和不相似的对。

# 从所有运行结果中找到准确率最高的一组
best_run = runs_df.sort_values(by="accuracy", ascending=False).iloc[0]
# 获取最佳运行结果对应的矩阵
best_matrix = best_run["matrix"]
# 将最佳矩阵应用到原始数据中的嵌入向量上
apply_matrix_to_embeddings_dataframe(best_matrix, df)

# 绘制自定义前的相似度分布图
px.histogram(
    df,  # 数据框
    x="cosine_similarity",  # x轴为"cosine_similarity"列的值
    color="label",  # 颜色按"label"列的值分组
    barmode="overlay",  # 设置柱状图的叠加模式
    width=500,  # 设置图表宽度为500
    facet_row="dataset",  # 按"dataset"列的值分行显示子图
).show()  # 显示图表

# 从数据框中筛选出"dataset"列为"test"的数据
test_df = df[df["dataset"] == "test"]
# 计算测试集的准确率和标准误差
a, se = accuracy_and_se(test_df["cosine_similarity"], test_df["label"])
# 打印测试集的准确率和标准误差
print(f"Test accuracy: {a:0.1%} ± {1.96 * se:0.1%}")

# 绘制自定义后的相似度分布图
px.histogram(
    df,  # 数据框
    x="cosine_similarity_custom",  # x轴为"cosine_similarity_custom"列的值
    color="label",  # 颜色按"label"列的值分组
    barmode="overlay",  # 设置柱状图的叠加模式
    width=500,  # 设置图表宽度为500
    facet_row="dataset",  # 按"dataset"列的值分行显示子图
).show()  # 显示图表

# 计算自定义后的测试集准确率和标准误差
a, se = accuracy_and_se(test_df["cosine_similarity_custom"], test_df["label"])
# 打印自定义后的测试集准确率和标准误差
print(f"Test accuracy after customization: {a:0.1%} ± {1.96 * se:0.1%}")

Test accuracy: 88.8% ± 2.4%

Test accuracy after customization: 93.6% ± 1.9%

# 定义变量best_matrix，用于乘以嵌入向量
best_matrix  # 这是可以用来乘以嵌入向量的最佳矩阵

array([[-1.2566795e+00, -1.5297449e+00, -1.3271648e-01, ...,
        -1.2859761e+00, -5.3254390e-01,  4.8364732e-01],
       [-1.4826347e+00,  9.2656955e-02, -4.2437232e-01, ...,
         1.1872858e+00, -1.0831847e+00, -1.0683593e+00],
       [-2.2029283e+00, -1.9703420e+00,  3.1125939e-01, ...,
         2.2947595e+00,  5.5780332e-03, -6.0171342e-01],
       ...,
       [-1.1019799e-01,  1.3599515e+00, -4.7677776e-01, ...,
         6.5626711e-01,  7.2359240e-01,  3.0733588e+00],
       [ 1.6624762e-03,  4.2648423e-01, -1.1380885e+00, ...,
         8.7202555e-01,  9.3173909e-01, -1.6760436e+00],
       [ 7.7449006e-01,  4.9213606e-01,  3.5407653e-01, ...,
         1.3460466e+00, -1.9509128e-01,  7.7514690e-01]], dtype=float32)

你可能感兴趣的:(#,OpenAI,数据挖掘,语言模型)

2025秋招大语言模型落地实践面试题微凉的衣柜语言模型人工智能自然语言处理
本文系统地从计算力基础设施、软件架构、数据资源、应用场景和脑科学五大核心维度对大模型实践中的问题进行解答。目录计算力基础设施1.1什么是云边端协同架构？1.2信息技术应用创新计划相关政策对企业的影响？软件架构2.1拥有自己的大语言模型（LLM）是否必要？2.2何时使用微调与何时使用RAG？2.3在训练大语言模型时遇到的关键挑战是什么？数据资源3.1如何标注一个监督微调（SFT）数据集？3.2在众包
Luma AI 推出梦幻机：据说吊打Sora和快手可灵（KLING）｜TodayAI TodayAI日报 TodayAI日报人工智能文生视频
近日，美国初创公司LumaAI宣布推出其最新的文本生成视频工具——梦幻机（DreamMachine）。这一消息发布的时间正好在中国科技公司快手推出其文本生成视频模型可灵（KLING）几天之后，标志着视频生成领域的又一突破。梦幻机的亮点梦幻机与市场上现有的竞争对手，如OpenAI的Sora和快手的可灵（KLING）相比，具有显著优势。LumaAI宣称，梦幻机是一款能够从自然语言提示中生成高质量、真实
OpenAI 神秘模型「草莓」预计今秋推出，ChatGPT 将迎重大升级｜TodayAI TodayAI日报 TodayAI日报 ChatGPT OpenAI 人工智能大模型
有外媒报道指出，OpenAI内部代号为「Strawberry（草莓）」的AI模型即将在今年秋季面世。这一消息引发了业内广泛关注，被认为可能会为ChatGPT带来今年最重要的升级。「草莓」模型的强大能力与应用潜力据《TheInformation》报道，OpenAI正在全力开发这款新AI产品，其解决复杂问题的能力将超越现有的AI系统。知情人士透露，「草莓」模型不仅能够解决此前无法处理的数学问题，还能在
程序猿成长之路之数据挖掘篇——Kmeans聚类算法 zygswo 数据挖掘数据挖掘算法 kmeans
Kmeans是一种可以将一个数据集按照距离（相似度）划分成不同类别的算法，它无需借助外部标记，因此也是一种无监督学习算法。什么是聚类用官方的话说聚类就是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。用自己的话说聚类是根据不同样本数据间的相似度进行种类划分的算法。这种划分可以基于我们的业务需求或建模需求来完成，也可以单纯地帮助我们探索数据的自然结构和分布。什么是K-means聚类用官方的
A Survey on Benchmarks of Multimodal Large Language Models UnknownBody LLM Daily Survey Paper Multimodal 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《ASurveyonBenchmarksofMultimodalLargeLanguageModels》的翻译。多模态大型语言模型基准研究综述摘要1引言2前言3感知与理解4认知与推理5特定领域6关键能力7其他模态8结论摘要多模态大型语言模型（MLLM）在学术界和工业界越来越受欢迎，因为它们在视觉问答、视觉感知、理解和推理等各种应用中表现出色。在过去几年中，人们从多个角度对
【花雕学AI】11：ChatGPT与New Bing的横向比较与多维度对比测试驴友花雕
引言：人工智能AI技术正在改变我们获取和使用信息的方式。搜索引擎作为我们与互联网的主要接口，也在不断地进化和创新。2022年底，两种新型的人工智能搜索引擎，分别是ChatGPT和NewBing，引起了广泛的关注和讨论，并且出乎意料之外在2023年开始火爆起来。它们都是基于OpenAI的GPT系列模型开发的，但是有着不同的特点和功能。例如，ChatGPT可以根据用户的输入生成自然语言的回答，也可以进
全能型模型与专精型模型青空之蓝qk 人工智能 python
一、全能型模型全能型模型旨在处理广泛的任务，具备多种能力。例如，GPT-3和GPT-4等大型语言模型可以进行文本生成、翻译、对话和问答等多种功能。这类模型的优势在于：1.灵活性：全能型模型可以在多种应用场景中使用，适应性强。例如，企业可以使用同一个模型处理客户服务、内容创作和市场分析等任务，降低了开发和维护成本。2.知识整合：全能型模型通常经过大量数据训练，能够整合不同领域的知识，提供更全面的解决
2020-03-24 黑乎乎AI
Datawhale零基础入门数据挖掘-Task2数据分析【代码摘要】赛题：零基础入门数据挖掘-二手车交易价格预测地址：[https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX]EDA的价值主要在于熟悉数据集，了解数据集，对数据集进行验证来确
Chrome显示无标题错误代码STATUS_INVALID_IMAGE_HASH 洗洁精下班 chrome
笔者想要试用一下openai，88邮箱不行，qq邮箱不行，好像Gmail可以，酷酷打开chrom一顿试，无标题？无标题？全是无标题？卸载重装无果1、网络问题？梯子正常其他浏览器正常，所以排除。2、浏览器和梯子端口问题？主要是当下点settings也是无标题。哼哼，气笑了。3、扩展程序不兼容？extentions也打不开。。4、东看西看出现STATUS_INVALID_IMAGE_HASH错误代码，
【大模型】FAISS向量数据库记录：从基础搭建到实战操作爱python的王三金自然语言处理 LLM RAG faiss 数据库 rag
文章目录文章简介Embedding模型BGE-M3模型亮点FAISS是什么FAISS实战安装faiss加载Embedding模型创建FAISS数据库搜索FAISS数据删除FAISS数据保存、加载FAISS索引总结本人数据分析领域的从业者，拥有专业背景和能力，可以为您的数据采集、数据挖掘和数据分析需求提供支持。期待着能够与您共同探索更多有意义的数据洞见，为您的项目和业务提供数据分析方面的帮助。文章简
初识LangChain的快速入门指南 hai40587 langchain
初识LangChain的快速入门指南LangChain是一个强大的自然语言处理（NLP）工具链，旨在帮助开发者快速构建复杂的语言处理应用。它简化了与大语言模型（LLM）的交互过程，支持数据检索和将不同功能模块串联起来以完成复杂任务。本指南将详细介绍LangChain的安装、核心概念、基本使用、进阶使用以及社区与支持，帮助读者快速上手LangChain。一、安装与设置首先，确保你的系统中已安装Pyt
微软发布Phi-3.5——这个新型小型AI模型优于Gemini和GPT-4o AI新智元 microsoft 人工智能
微软发布了其小型语言模型Phi-3.5的最新版本。这个新版本是对上一代的重大升级，在几个重要指标上击败了谷歌、OpenAI、Mistral和Meta等领先公司的小型模型。Phi-3.5有38亿、41.5亿和419亿个参数版本。这三个版本都可以免费下载，可以使用Ollama等本地工具运行。它在推理方面表现特别出色，在领先的小型模型中仅次于GPT-4o-mini。它在数学基准测试中也表现出色，大大超过
ETH：通过文本反馈提高LLM对齐能力大模型任我行大模型-模型训练人工智能自然语言处理语言模型
标题：TowardsAligningLanguageModelswithTextualFeedback来源：arXiv,2407.16970️文章简介研究问题：如何通过文本反馈来调整语言模型，使其生成更符合用户期望的行为。主要贡献：论文的提出了ALT，一种将语言模型与文本反馈对齐的方法，通过示例反馈来引导语言模型生成更符合用户偏好的内容。重点思路相关工作对齐：此前的研究已成功利用RLHF来增强LL
SGSH: Stimulate Large Language Models with Skeleton Heuristics for Knowledge Base Question UnknownBody LLM Daily Knowledge Graph 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《SGSH:StimulateLargeLanguageModelswithSkeletonHeuristicsforKnowledgeBaseQuestionGeneration》的翻译。SGSH：用骨架启发式方法模拟大型语言模型以生成知识库问题摘要1引言2Pilot研究3方法4实验5相关工作6结论摘要知识库问题生成（KBQG）旨在从知识库中提取的一组三元组事实中生成自
从海量信息中脱颖而出：Workflow智能分析解决方案，大语言模型为AI科技文章打造精准摘要评分体系(总篇章) 汀、人工智能 AI Agent LLM工业级落地实践 LLM技术汇总人工智能 AI Agent Dify 智能体 fastgpt 智能摘要 maxkb
从海量信息中脱颖而出：Workflow智能分析解决方案，大语言模型为AI科技文章打造精准摘要评分体系(总篇章)1.简介该项目整合了编程、AI、产品设计、商业科技及个人成长等多领域的精华内容，源自顶尖技术企业和社群。借助先进语言模型技术，对精选文章进行高效摘要、专业评分及多语种翻译，实现了从初步评估到深入剖析，再到传播的全面自动化流程。通过引入Workflow平台，该项目显著提升了内容处理的速度与质
全网爆火的第一本程序员的Agent入门书籍——《大模型应用开发动手做AI Agent》 AI大模型-搬运工人工智能大模型程序员 AI Agent AI大模型 LLM promp
AIAgent火爆到什么程度？OpenAI创始人奥特曼预测，未来各行各业，每一个人都可以拥有一个AIAgent；比尔·盖茨在2023年层预言：AIAgent将彻底改变人机交互方式，并颠覆整个软件行业；吴恩达教授在AIAscent2024演讲中高赞：AIAgent是一个令人兴奋的趋势，所有从事AI开发的人都应该关注。Agent是未来最重要的智能化工具。对于程序员来说，是时候将目光转向大模型的应用开发
AI视界周刊第 2 期：Llama 3.1 开源、AI 训 AI，越训越傻、AI 搜索重燃战火战场小包 AI视界周刊人工智能 ai资讯科技 ai
AI视界周刊由战场小包维护，每周一更新，包含热点聚焦、应用破局、学术前沿、社区热议、智见交锋、跨界AI、企业动态和争议AI八大板块，后续板块划分和内容撰写在周刊迭代过程中持续优化，欢迎大家提出建议。欢迎大家来到《AI视界周刊第二期》(07-22~07-28)。✨热点聚焦里程碑——MetaLlama3.1开源：性能媲美闭源模型，支持多语言Meta公司开源Llama3.1系列开源大语言模型，包含8B、
如何本地搭建 Whisper 语音识别模型？一文解决玩AI的小胡子 whisper AIGC 人工智能语音识别
Whisper是OpenAI开发的强大语音识别模型，适用于多种语言的语音转文字任务。要在本地搭建Whisper模型，需要完成以下几个步骤，确保模型在你的设备上顺利运行。1.准备环境首先，确保你的系统上安装了Python（版本3.8到3.11之间）。此外，还需要安装PyTorch，这是Whisper依赖的深度学习框架。2.安装Whisper在命令行中运行以下命令来安装Whisper和其依赖项：pip
大规模语言模型从理论到实践：智能代理的组成 AGI通用人工智能之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践：智能代理的组成关键词：大规模语言模型、智能代理、自然语言处理、深度学习、知识表示、推理机制、应用场景文章目录大规模语言模型从理论到实践：智能代理的组成1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4.1数学模型构建4.2公式推导过程4.3案例分析与讲
遥遥无期的GPT-5与强势发布的Claude 3.5 Sonnet！附详细解读和使用方法木易AI信息差人工智能 chatgpt gpt OpenAI ai
大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。天下苦OpenAI久矣。2023年3月14日，OpenAI高调发布了令所有人眼
探索GGUF：利用llama.cpp高效运行大型语言模型 Chen_Chance llama 语言模型人工智能
探索GGUF：利用llama.cpp高效运行大型语言模型在人工智能领域，大型语言模型（LLM）的应用越来越广泛，但运行这些模型常常需要大量计算资源和复杂的配置。最近，一个名为llama.cpp的开源项目引起了广泛关注，它通过C/C++实现了一个高效的LLM推理框架，极大地简化了在各种硬件上部署和运行LLM的过程。什么是llama.cpp?llama.cpp是一个开源项目，由GeorgiGergan
人工智能时代，程序员当如何保持核心竞争力？禁默话题探讨人工智能程序人生
目录前言一.AI辅助编程对程序员工作的影响二.程序员应重点发展的核心能力三.人机协作模式下的职业发展规划结束语前言随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,我们程序员应该如何应对?一.AI辅助编程对程序
大语言模型中，role为user、assistant、system有什么区别莫听穿林打叶生语言模型人工智能自然语言处理
这里写目录标题大语言模型中，role为user、assistant、system有什么区别要实现多轮对话，也就说要记住历史问答，该如何设置System、User、Assistant？管理历史对话大语言模型中，role为user、assistant、system有什么区别在大语言模型中，通常涉及到三种角色：用户（user）、助手（assistant）和系统（system）。它们的区别在于其在对话或交
AI模型到底有多卷？Claude3.5 Sonnet如何在多个维度上超越GPT-4o 草莓屁屁我不吃人工智能 chatgpt
大型语言模型（LLMs）的竞争日益激烈，每一次技术的迭代都推动着整个行业的边界。近期，Anthropic公司推出的Claude3.5Sonnet模型，在多个关键任务上展现出了超越OpenAIGPT-4o的强大实力，再次证明了AI大语言模型领域的“内卷”程度。Claude3.5Sonnet：性能与效率Claude3.5Sonnet作为Claude3.5系列的首个模型版本，自发布以来便备受瞩目。这款中
OpenAI推出GPT-4o微调功能 go2coding AI日报人工智能
AI新闻OpenAI推出GPT-4o微调功能摘要：OpenAI近日推出了一项新功能，允许企业客户使用自有数据对GPT-4o模型进行微调，以优化针对特定任务的表现。这一举措旨在增强企业AI应用的投资回报，简化操作流程。企业需将文本数据上传至OpenAI服务器进行微调，平均耗时一到两个小时。此项功能的开放，使得企业能够更直接地利用OpenAI的最强大模型，无需依赖外部服务。NVIDIA发布首款数字人小
谷歌破解 OpenAI 模型关键信息；微软更改默认浏览器，不再主推 Edge 丨 RTE 开发者日报 Vol.163 声网 microsoft edge 实时互动
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（RealTimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。本期编辑：@CY01有话题的新闻1、苹果增加在华研发投资，首次宣布新设应用研究实验室已投入超10亿
微软在Edge浏览器中引入本地AI模型；苹果将于9月10日发布iPhone 16系列 go2coding AI日报 edge 人工智能 iphone
AI新闻微软在Edge浏览器中引入本地AI模型摘要：微软正在探索在MicrosoftEdge浏览器中引入名为Phi3Mini的本地AI模型，旨在提升用户交互体验。最新的Canary版Edge浏览器中出现了“PromptAPIforPhi3Mini”的实验性选项，用户可通过自然语言指令与内置的大语言模型互动。该API主要用于自然语言处理任务，如文本总结和分类，但不适用于要求事实准确性的场景，并需遵守
基于大语言模型的物联网（artificial intelligence of thing）姚家湾物联网人工智能 chatGPT
与当下热门的AI类似，曾几何时，物联网（Internetofthing）实现“万物互联"给人类带来了无限的遐想。但是往往事与愿违，美好的愿景并没有如约而至。十几年来，物联网远没有实现”万物互联“的美好愿景。随着chatGPT为主的AI热潮，人们又一次提出了AIoT（artificialintelligenceofthing）的新概念。AI会给IoT带来新的生机么？这是有趣的话题。多年的实践表明，I
【Tools】大模型中的 Token 概念音乐学家方大刚工具人工智能机器学习深度学习
紧紧握着青花信物信守着承诺离别总在失意中度过记忆油膏反复涂抹无法愈合的伤口你的回头划伤了沉默周传雄《青花》在大语言模型（如GPT-4等）中，Token（标记）是用于处理文本的基本单位。由于语言模型并不会直接处理完整的单词、句子或段落，因此需要先将文本分解为Token，然后再逐步进行计算和生成输出。什么是Token？Token是文本的最小组成单位，既可以是单个字符，也可以是部分单词、整个单词，甚至是
数据挖掘工具（RapidMiner） deepdata_cn 数据挖掘数据挖掘人工智能
RapidMiner是一款功能强大的数据挖掘和机器学习工具，它提供了从数据预处理、建模、评估到部署的一系列流程。它最初由德国多特蒙德工业大学的人工智能部门开发，原名Yale，后更名为RapidMiner。RapidMiner以其图形用户界面(GUI)和拖拽式操作而闻名，这使得即使是初学者也能快速上手进行数据分析。RapidMiner在全球范围内拥有广泛的用户基础，其软件平台在2010年底就已达到约
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL