小胡说人工智能

最新ChatGPT GPT-4 NLU应用之实体分类识别与模型微调（附ipynb与python源码及视频）——开源DataWhale发布入门ChatGPT技术新手从0到1必备使用指南手册（六）

前言

想象一下，如果您也可以训练一个为特定场景和目的量身打造的大型自然语言模型，以帮助您在实时聊天中更快地、更准确地与用户互动。是不是特别地牛！

ChatGPT可以帮助您非常简单地做到这一点。利用微调模型技术，ChatGPT结合您的自定义语料集，重新训练先前的预训练语言模型，提高模型的精度和可靠性。这使得ChatGPT在特定环境中表现更佳，从而帮助您优化模型，在与客户进行对话时发挥最佳效果。

让我们从零开始，一步一步地学习使用ChatGPT开始构建您的定制化自然语言模型吧。

最新ChatGPT GPT-4 自然语言理解NLU实战之实体分类识别与模型微调

主题分类

在前面"相关API"一节，我们已经介绍了各种分类和实体提取的用法。这里会给大家介绍更具体、常见的任务。

首先是主题分类，简单来说就是给定文本，判断属于哪一类主题。

我们找一个新闻主题分类的数据集看看，数据集取自：CLUEbenchmark/CLUE，共15个类别。

import pnlp
lines = pnlp.read_file_to_list_dict("./dataset/tnews.json")
len(lines)

from collections import Counter
ct = Counter([v["label_desc"] for v in lines])

ct.most_common()

[('news_tech', 1089),
 ('news_finance', 956),
 ('news_entertainment', 910),
 ('news_world', 905),
 ('news_car', 791),
 ('news_sports', 767),
 ('news_culture', 736),
 ('news_military', 716),
 ('news_travel', 693),
 ('news_game', 659),
 ('news_edu', 646),
 ('news_agriculture', 494),
 ('news_house', 378),
 ('news_story', 215),
 ('news_stock', 45)]

stock这个类别太少了，我们先给它去掉：

lines = [v for v in lines if v["label_desc"] != "news_stock"]
len(lines)

def get_prompt(text):
    prompt = f"""对给定文本进行分类，类别包括：科技、金融、娱乐、世界、汽车、文化、军事、旅游、游戏、教育、农业、房产、社会、股票。

给定文本：
{text}
类别：
"""
    return prompt

lines[0]

{'label': '102',
 'label_desc': 'news_entertainment',
 'sentence': '江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物',
 'keywords': '江疏影,美少女,经纪人,甜甜圈'}

prompt = get_prompt(lines[0]["sentence"])
print(prompt)

对给定文本进行分类，类别包括：科技、金融、娱乐、世界、汽车、文化、军事、旅游、游戏、教育、农业、房产、社会、股票。

给定文本：
江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物
类别：

import openai
OPENAI_API_KEY = "填入专属的API key"

openai.api_key = OPENAI_API_KEY

def complete(prompt):
    response = openai.Completion.create(
        prompt=prompt,
        temperature=0,
        max_tokens=10,
        top_p=1,
        frequency_penalty=0,
        presence_penalty=0,
        model="text-davinci-003"
    )
    ans = response["choices"][0]["text"].strip(" \n")
    return ans

complete(prompt)

'娱乐'

def ask(content):
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo", 
        messages=[{"role": "user", "content": content}],
        temperature=0,
        max_tokens=10,
        top_p=1,
        frequency_penalty=0,
        presence_penalty=0,
    )

    ans = response.get("choices")[0].get("message").get("content")
    return ans

ask(prompt)

'娱乐'

再试几个其他类别的：

lines[1]

{'label': '110',
 'label_desc': 'news_military',
 'sentence': '以色列大规模空袭开始！伊朗多个军事目标遭遇打击，誓言对等反击',
 'keywords': '伊朗,圣城军,叙利亚,以色列国防军,以色列'}

prompt = get_prompt(lines[1]["sentence"])
print(prompt)

对给定文本进行分类，类别包括：科技、金融、娱乐、世界、汽车、文化、军事、旅游、游戏、教育、农业、房产、社会、股票。

给定文本：
以色列大规模空袭开始！伊朗多个军事目标遭遇打击，誓言对等反击
类别：

ask(prompt)

'军事'

complete(prompt)

'军事'

lines[2]

{'label': '104',
 'label_desc': 'news_finance',
 'sentence': '出栏一头猪亏损300元，究竟谁能笑到最后！',
 'keywords': '商品猪,养猪,猪价,仔猪,饲料'}

prompt = get_prompt(lines[2]["sentence"])
print(prompt)

对给定文本进行分类，类别包括：科技、金融、娱乐、世界、汽车、文化、军事、旅游、游戏、教育、农业、房产、社会、股票。

给定文本：
出栏一头猪亏损300元，究竟谁能笑到最后！
类别：

ask(prompt)

'农业'

complete(prompt)

'社会'

精准分类解决手段

这个有点迷糊，不过「农业」这个类别感觉也没问题。当然，遇到有错误的情况，我们起码还有两种手段来解决：

Few-Shot，可以每次随机从数据集里抽几条出来作为Prompt的一部分。
Fine-Tuning，把我们自己的数据集按指定格式准备好，提交给API，让它帮我们微调一个属于我们自己的模型，它在我们自己的数据集上学习过。

Few-Shot最关键的是如何找到这个「Few」，换句话说，我们拿什么Case给模型当做参考样本。对于类别比较多的多分类（实际工作中，成百上千中Label是很常见的），Few-Shot即使每个Label一个例子，这上下文长度也不得了。不太现实。这时候其实Few-Shot有点不太方便了。当然，如果我们非要用也不是不行，还是最常用的策略：先召回几个相似句，然后把相似句的内容和类别作为Few-Shot的例子，让接口来预测给定句子的类别。

模型微调步骤

不过，我们还可以使用微调（Fine-Tuning）方法在自己的数据集上对模型进行微调，简单来说就是让模型「熟悉」我们独特的数据，进而让其具备在类似数据集上识别出类别的能力。

接下来，就让我们看看具体怎么做，一般包括三个主要步骤：

准备数据：按接口要求的格式把数据准备好，这里的数据就是我们自己的数据集，至少包含一段文本和一个类别。
微调：使用微调接口将刚刚的数据传递过去，由服务器自动完成微调，微调完成后可以得到一个新的model_id。注意，这个model_id只属于你自己，不要将它公开给其他人。
使用新的模型进行推理：嗯，这个很简单，把原来接口里的model参数内容换成我们的model_id即可。

核心代码

咱们接下来就来调调这个多分类模型，我们只取后500条作为训练集（为了快速和省钱……）。

train_lines = lines[-500:]

import pandas as pd

train = pd.DataFrame(train_lines)
train.shape

(500, 4)

train.head()

	label	label_desc	sentence	keywords
0	103	news_sports	为什么斯凯奇与阿迪达斯脚感很相似，价格却差了近一倍？	达斯勒,阿迪达斯,FOAM,BOOST,斯凯奇
1	100	news_story	女儿日渐消瘦，父母发现有怪物，每天吃女儿一遍	大将军,怪物
2	104	news_finance	另类逼空确认反弹，剑指3200点以上	股票,另类逼空,金融,创业板,快速放大
3	100	news_story	老公在聚会上让我向他的上司敬酒，现在老公哭了，我笑了	远走高飞
4	108	news_edu	女孩上初中之后成绩下降，如何才能提升成绩？

train.label_desc.value_counts()

news_finance          48
news_tech             47
news_game             46
news_entertainment    46
news_travel           44
news_sports           42
news_military         40
news_world            38
news_car              36
news_culture          35
news_edu              27
news_agriculture      20
news_house            19
news_story            12
Name: label_desc, dtype: int64

股票数据稍微少了些，问题不大。

Step1：准备数据

要保证有两列为：prompt和completion。

df_train = train[["sentence", "label_desc"]]
df_train.columns = ["prompt", "completion"]
df_train.head()

	prompt	completion
0	为什么斯凯奇与阿迪达斯脚感很相似，价格却差了近一倍？	news_sports
1	女儿日渐消瘦，父母发现有怪物，每天吃女儿一遍	news_story
2	另类逼空确认反弹，剑指3200点以上	news_finance
3	老公在聚会上让我向他的上司敬酒，现在老公哭了，我笑了	news_story
4	女孩上初中之后成绩下降，如何才能提升成绩？	news_edu

存起来：

df_train.to_json("dataset/tnews-finetuning.jsonl", orient='records', lines=True)

使用openai命令行工具进行转换：

!openai tools fine_tunes.prepare_data -f dataset/tnews-finetuning.jsonl -q

Analyzing...

- Your file contains 500 prompt-completion pairs
- Based on your data it seems like you're trying to fine-tune a model for classification
- For classification, we recommend you try one of the faster and cheaper models, such as `ada`
- For classification, you can estimate the expected model performance by keeping a held out dataset, which is not used for training
- More than a third of your `prompt` column/key is uppercase. Uppercase prompts tends to perform worse than a mixture of case encountered in normal language. We recommend to lower case the data if that makes sense in your domain. See https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset for more details
- Your data does not contain a common separator at the end of your prompts. Having a separator string appended to the end of the prompt makes it clearer to the fine-tuned model where the completion should begin. See https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset for more detail and examples. If you intend to do open-ended generation, then you should leave the prompts empty
- All completions start with prefix `news_`. Most of the time you should only add the output data into the completion, without any prefix
- The completion should start with a whitespace character (` `). This tends to produce better results due to the tokenization we use. See https://platform.openai.com/docs/guides/fine-tuning/preparing-your-dataset for more details

Based on the analysis we will perform the following actions:
- [Recommended] Lowercase all your data in column/key `prompt` [Y/n]: Y
- [Recommended] Add a suffix separator ` ->` to all prompts [Y/n]: Y
- [Recommended] Remove prefix `news_` from all completions [Y/n]: Y
- [Recommended] Add a whitespace character to the beginning of the completion [Y/n]: Y
- [Recommended] Would you like to split into training and validation set? [Y/n]: Y


Your data will be written to a new JSONL file. Proceed [Y/n]: Y

Wrote modified files to `dataset/tnews-finetuning_prepared_train.jsonl` and `dataset/tnews-finetuning_prepared_valid.jsonl`
Feel free to take a look!

Now use that file when fine-tuning:
> openai api fine_tunes.create -t "dataset/tnews-finetuning_prepared_train.jsonl" -v "dataset/tnews-finetuning_prepared_valid.jsonl" --compute_classification_metrics --classification_n_classes 14

After you’ve fine-tuned a model, remember that your prompt has to end with the indicator string ` ->` for the model to start generating completions, rather than continuing with the prompt.
Once your model starts training, it'll approximately take 14.33 minutes to train a `curie` model, and less for `ada` and `babbage`. Queue will approximately take half an hour per job ahead of you.

看一下处理成什么样子了：

!head dataset/tnews-finetuning_prepared_train.jsonl

{"prompt":"cf生存特训：火箭弹狂野复仇，为兄弟报仇就要不死不休 ->","completion":" game"}

{"prompt":"哈尔滨 东北抗日联军博物馆 ->","completion":" culture"}

{"prompt":"中国股市中，庄家为何如此猖獗？一文告诉你真相 ->","completion":" finance"}

{"prompt":"天府锦绣又重来 ->","completion":" agriculture"}

{"prompt":"生活，游戏，电影中有哪些词汇稍加修改便可以成为一个非常霸气的名字？ ->","completion":" game"}

{"prompt":"法庭上，生父要争夺孩子抚养权，小男孩的发言让生父当场哑口无言 ->","completion":" entertainment"}

{"prompt":"如何才能选到好的深圳大数据培训机构？ ->","completion":" edu"}

{"prompt":"有哪些娱乐圈里面的明星追星？ ->","completion":" entertainment"}

{"prompt":"东坞原生态野生茶 ->","completion":" culture"}

{"prompt":"亚冠：恒大不胜早有预示，全北失利命中注定 ->","completion":" sports"}

最好再验证一下每个数据集的类型：

train = pnlp.read_file_to_list_dict("./dataset/tnews-finetuning_prepared_train.jsonl")
valid = pnlp.read_file_to_list_dict("./dataset/tnews-finetuning_prepared_valid.jsonl")

len(Counter([v["completion"] for v in train]))

len(Counter([v["completion"] for v in valid]))

好的，最明显的是给我们每一个prompt后面加了个标记，除此之外还有（请注意看上面的日志）：

小写
去除标签news_前缀
在completion前面加空格
切分为训练和验证集

这些都是常见的、推荐的预处理，我们就按这样。

Step2：微调

import os

os.environ.setdefault("OPENAI_API_KEY", "填入专属的API key")

'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'

!openai api fine_tunes.create \
    -t "./dataset/tnews-finetuning_prepared_train.jsonl" \
    -v "./dataset/tnews-finetuning_prepared_valid.jsonl" \
    --compute_classification_metrics --classification_n_classes 14 \
    -m davinci\
    --no_check_if_files_exist

Upload progress: 100%|████████████████████| 41.2k/41.2k [00:00<00:00, 15.6Mit/s]
Uploaded file from ./dataset/tnews-finetuning_prepared_train.jsonl: file-DKjBKHqWFJwo7O8MNZGOcj3F
Upload progress: 100%|████████████████████| 10.5k/10.5k [00:00<00:00, 7.85Mit/s]
Uploaded file from ./dataset/tnews-finetuning_prepared_valid.jsonl: file-j088k3GWqGeqY0o2DDAfWfPh
Created fine-tune: ft-QOkrWkHU0aleR6f5IQw1UpVL
Streaming events until fine-tuning is complete...

(Ctrl-C will interrupt the stream, but not cancel the fine-tune)
[2023-04-04 21:16:33] Created fine-tune: ft-QOkrWkHU0aleR6f5IQw1UpVL

Stream interrupted (client disconnected).
To resume the stream, run:

  openai api fine_tunes.follow -i ft-QOkrWkHU0aleR6f5IQw1UpVL

其中，-t和-v分别指定训练集和验证集，接下来那行用来计算指标，-m指定要微调的模型。最后一行是检查文件是否存在，如果之前传过文件的话，这里可以复用。为了便于演示，我们这里不检查。可以微调的模型和价格参见：Pricing。

另外，值得一提的是：只能微调Completion接口，ChatCompletion不支持微调。也就是说InstructGPT的几个模型是可以微调的，但是ChatGPT不能微调，可参阅：https://platform.openai.com/docs/guides/chat/is-fine-tuning-available-for-gpt-3-5-turbo

我们这里选davinci，也是咱们之前一直用的。

可以看到，上面跑一下就断掉了，这个是正常的，我们可以通过另一个API去查看任务的进度。注意，这里的ID是上面日志打出来的ID，每次执行都会变。

!openai api fine_tunes.get -i ft-QOkrWkHU0aleR6f5IQw1UpVL

{

  "created_at": 1680614193,

  "events": [

    {

      "created_at": 1680614193,

      "level": "info",

      "message": "Created fine-tune: ft-QOkrWkHU0aleR6f5IQw1UpVL",

      "object": "fine-tune-event"

    }

  ],

  "fine_tuned_model": null,

  "hyperparams": {

    "batch_size": null,

    "classification_n_classes": 14,

    "compute_classification_metrics": true,

    "learning_rate_multiplier": null,

    "n_epochs": 4,

    "prompt_loss_weight": 0.01

  },

  "id": "ft-QOkrWkHU0aleR6f5IQw1UpVL",

  "model": "davinci",

  "object": "fine-tune",

  "organization_id": "org-bKXddeZffpMS2CUNCCXsW7m5",

  "result_files": [],

  "status": "pending",

  "training_files": [

    {

      "bytes": 41212,

      "created_at": 1680614191,

      "filename": "./dataset/tnews-finetuning_prepared_train.jsonl",

      "id": "file-DKjBKHqWFJwo7O8MNZGOcj3F",

      "object": "file",

      "purpose": "fine-tune",

      "status": "processed",

      "status_details": null

    }

  ],

  "updated_at": 1680614193,

  "validation_files": [

    {

      "bytes": 10507,

      "created_at": 1680614193,

      "filename": "./dataset/tnews-finetuning_prepared_valid.jsonl",

      "id": "file-j088k3GWqGeqY0o2DDAfWfPh",

      "object": "file",

      "purpose": "fine-tune",

      "status": "processed",

      "status_details": null

    }

  ]

}

或者用它刚刚给的提示。注意换ID！

!openai api fine_tunes.follow -i ft-QOkrWkHU0aleR6f5IQw1UpVL

[2023-04-04 14:32:14] Created fine-tune: ft-5LDv5IiFqPvLob3KkThWLTUG

Stream interrupted (client disconnected).
To resume the stream, run:

  openai api fine_tunes.follow -i ft-5LDv5IiFqPvLob3KkThWLTUG

注意，这个是follow，刚刚上面那个是get。大家可以通过openai api --help查看更多：

!openai api --help

usage: openai api [-h]

                  {engines.list,engines.get,engines.update,engines.generate,chat_completions.create,completions.create,deployments.list,deployments.get,deployments.delete,deployments.create,models.list,models.get,models.delete,files.create,files.get,files.delete,files.list,fine_tunes.list,fine_tunes.create,fine_tunes.get,fine_tunes.results,fine_tunes.events,fine_tunes.follow,fine_tunes.cancel,fine_tunes.delete,image.create,image.create_edit,image.create_variation,audio.transcribe,audio.translate}

                  ...



positional arguments:

  {engines.list,engines.get,engines.update,engines.generate,chat_completions.create,completions.create,deployments.list,deployments.get,deployments.delete,deployments.create,models.list,models.get,models.delete,files.create,files.get,files.delete,files.list,fine_tunes.list,fine_tunes.create,fine_tunes.get,fine_tunes.results,fine_tunes.events,fine_tunes.follow,fine_tunes.cancel,fine_tunes.delete,image.create,image.create_edit,image.create_variation,audio.transcribe,audio.translate}

                        All API subcommands



optional arguments:

  -h, --help            show this help message and exit

建议大家过段时间get一下进度就好，不需要一直follow。这里可能要等一段时间，等排队完成后进入训练阶段就很快了。

主要看status是什么状态，依然注意要换ID。

!openai api fine_tunes.get -i ft-QOkrWkHU0aleR6f5IQw1UpVL

{

  "created_at": 1680614193,

  "events": [

    {

      "created_at": 1680614193,

      "level": "info",

      "message": "Created fine-tune: ft-QOkrWkHU0aleR6f5IQw1UpVL",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680614845,

      "level": "info",

      "message": "Fine-tune costs $2.33",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680614846,

      "level": "info",

      "message": "Fine-tune enqueued",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680617657,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 31",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680617785,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 30",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680617805,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 29",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680617809,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 28",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680617918,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 27",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680617928,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 26",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618038,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 25",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618050,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 24",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618087,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 23",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618096,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 22",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618207,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 21",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618256,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 20",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618268,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 19",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618336,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 18",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618372,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 17",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618445,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 16",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618488,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 15",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618582,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 14",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618612,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 13",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618652,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 12",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618693,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 11",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618717,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 10",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618759,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 9",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618790,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 8",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618841,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 7",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618886,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 6",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618899,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 5",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618928,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 4",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680618979,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 3",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619057,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 2",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619065,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 1",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619127,

      "level": "info",

      "message": "Fine-tune is in the queue. Queue number: 0",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619227,

      "level": "info",

      "message": "Fine-tune started",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619443,

      "level": "info",

      "message": "Completed epoch 1/4",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619573,

      "level": "info",

      "message": "Completed epoch 2/4",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619701,

      "level": "info",

      "message": "Completed epoch 3/4",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619829,

      "level": "info",

      "message": "Completed epoch 4/4",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619890,

      "level": "info",

      "message": "Uploaded model: davinci:ft-personal-2023-04-04-14-51-29",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619891,

      "level": "info",

      "message": "Uploaded result file: file-xvIjsDl5aFEtXWOVY6nZyLcD",

      "object": "fine-tune-event"

    },

    {

      "created_at": 1680619891,

      "level": "info",

      "message": "Fine-tune succeeded",

      "object": "fine-tune-event"

    }

  ],

  "fine_tuned_model": "davinci:ft-personal-2023-04-04-14-51-29",

  "hyperparams": {

    "batch_size": 1,

    "classification_n_classes": 14,

    "compute_classification_metrics": true,

    "learning_rate_multiplier": 0.1,

    "n_epochs": 4,

    "prompt_loss_weight": 0.01

  },

  "id": "ft-QOkrWkHU0aleR6f5IQw1UpVL",

  "model": "davinci",

  "object": "fine-tune",

  "organization_id": "org-bKXddeZffpMS2CUNCCXsW7m5",

  "result_files": [

    {

      "bytes": 82416,

      "created_at": 1680619891,

      "filename": "compiled_results.csv",

      "id": "file-xvIjsDl5aFEtXWOVY6nZyLcD",

      "object": "file",

      "purpose": "fine-tune-results",

      "status": "processed",

      "status_details": null

    }

  ],

  "status": "succeeded",

  "training_files": [

    {

      "bytes": 41212,

      "created_at": 1680614191,

      "filename": "./dataset/tnews-finetuning_prepared_train.jsonl",

      "id": "file-DKjBKHqWFJwo7O8MNZGOcj3F",

      "object": "file",

      "purpose": "fine-tune",

      "status": "processed",

      "status_details": null

    }

  ],

  "updated_at": 1680619892,

  "validation_files": [

    {

      "bytes": 10507,

      "created_at": 1680614193,

      "filename": "./dataset/tnews-finetuning_prepared_valid.jsonl",

      "id": "file-j088k3GWqGeqY0o2DDAfWfPh",

      "object": "file",

      "purpose": "fine-tune",

      "status": "processed",

      "status_details": null

    }

  ]

}

过了很长一段时间，终于成功了。微调结束后，我们还可以通过下面的命令查看结果：

# -i 就是上面微调的模型id，就是`id`字段
!openai api fine_tunes.results -i ft-QOkrWkHU0aleR6f5IQw1UpVL > metric.csv

metric = pd.read_csv('metric.csv')
metric[metric['classification/accuracy'].notnull()].tail(1)

	step	elapsed_tokens	elapsed_examples	training_loss	training_sequence_accuracy	training_token_accuracy	validation_loss	validation_sequence_accuracy	validation_token_accuracy	classification/accuracy	classification/weighted_f1_score
1601	1602	83226	1602	0.008739	1.0	1.0	NaN	NaN	NaN	0.63	0.619592

metric[metric['classification/accuracy'].notnull()]['classification/accuracy'].plot()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-usRfhl1e-1683766805146)(ChatGPT%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97%E2%80%94%E2%80%94%E5%8F%A5%E8%AF%8D%E5%88%86%E7%B1%BB_files/ChatGPT%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97%E2%80%94%E2%80%94%E5%8F%A5%E8%AF%8D%E5%88%86%E7%B1%BB_209_1.png)]

这个Accuracy其实是非常一般的，应该是咱们给的语料太少的缘故。我们先看下怎么使用。

Step3：使用

prompt = get_prompt(lines[2]["sentence"])
print(prompt)

对给定文本进行分类，类别包括：科技、金融、娱乐、世界、汽车、文化、军事、旅游、游戏、教育、农业、房产、社会、股票。

给定文本：
出栏一头猪亏损300元，究竟谁能笑到最后！
类别：

def complete(prompt, model, max_tokens=2):
    response = openai.Completion.create(
        prompt=prompt,
        temperature=0,
        max_tokens=max_tokens,
        top_p=1,
        frequency_penalty=0,
        presence_penalty=0,
        model=model
    )
    ans = response["choices"][0]["text"].strip(" \n")
    return ans

# 原来的，微调之前的
complete(prompt, "text-davinci-003", 5)

'社会'

注意咱们的prompt也要改一下。预期应该要返回一个英文单词，回忆一下训练数据里面的completion。我们这里为了方便说明，特意在前面用了中文标签，微调时用英文（就是希望它能直接输出英文标签，表示微调有效）。大家在实际使用时务必要统一。

我们把模型换成刚刚微调的（就是上面返回结果中的fine_tuned_model字段）。

# 微调后的
prompt = lines[2]["sentence"] + " ->"
complete(prompt, "davinci:ft-personal-2023-04-04-14-51-29", 1)

'agriculture'

咦——居然变成农业了，它和之前ChatGPT（ChatCompletion）的输出一样，不过依然不是我们训练数据集里的「金融」。我想这个句子看起来确实更加像农业主题，放在农业主题下应该也没问题。而且，我们的训练数据集里并没有包含这条样本。所以，这个问题不太大。

如果我们非要它变成金融的，可以把这条数据也丢给微调接口，微调后应该就可以得到我们训练集里给的类别了。

上面我们介绍了主题分类的微调。实体抽取的微调也是类似的，它推荐的输入格式如下：

{"prompt":"\n\n###\n\n", "completion":"  END"}

{'prompt': '\n\n###\n\n',
 'completion': '  END'}

举个例子：

{"prompt":"Portugal will be removed from the UK's green travel list from Tuesday, amid rising coronavirus cases and concern over a \"Nepal mutation of the so-called Indian variant\". It will join the amber list, meaning holidaymakers should not visit and returnees must isolate for 10 days...\n\n###\n\n", "completion":" Portugal\nUK\nNepal mutation\nIndian variant END"}

{'prompt': 'Portugal will be removed from the UK\'s green travel list from Tuesday, amid rising coronavirus cases and concern over a "Nepal mutation of the so-called Indian variant". It will join the amber list, meaning holidaymakers should not visit and returnees must isolate for 10 days...\n\n###\n\n',
 'completion': ' Portugal\nUK\nNepal mutation\nIndian variant END'}

相信大家应该很容易理解，不妨自己做一些尝试。尤其是给一些专业领域的实体进行微调，对比一下微调前后的效果。

如果大家对这块内容感兴趣，可以进一步阅读【相关文献11和12】。

其它NLU应用及实战

最新ChatGPT GPT-4 NLU实战之文档问答类ChatPDF功能
最新ChatGPT GPT-4 NLU实战之智能多轮对话机器人

参考资料

ChatGPT 使用指南：句词分类 @长琴

其它资料下载

如果大家想继续了解人工智能相关学习路线和知识体系，欢迎大家翻阅我的另外一篇博客《重磅 | 完备的人工智能AI 学习——基础知识学习路线，所有资料免关注免套路直接网盘下载》
这篇博客参考了Github知名开源平台，AI技术平台以及相关领域专家：Datawhale，ApacheCN，AI有道和黄海广博士等约有近100G相关资料，希望能帮助到所有小伙伴们。

你可能感兴趣的:(ChatGPT商业应用,ChatGPT,chatgpt,自然语言处理,nlp,分类,人工智能)

海森矩阵（Hessian Matrix）在SLAM图优化和点云配准中的应用介绍点云SLAM 算法矩阵概率论机器学习数值优化最小二乘法算法机器人
在非线性最小二乘问题中（如SLAM或点云配准），通常我们有一个误差函数：f(x)=∑i∥ei(x)∥2f(x)=\sum_i\|e_i(x)\|^2f(x)=i∑∥ei(x)∥2其中ei(x)e_i(x)ei(x)是残差项，对它求Hessian就需要用雅可比矩阵：H=J⊤J+∑iei⊤HeiH=J^\topJ+\sum_ie_i^\topH_{e_i}H=J⊤J+i∑ei⊤Hei通常我们近似为：H
Java大厂面试实录：从Spring Boot到AI微服务架构的深度拷问 remCoding Java场景面试宝典 Java面试 Spring Boot Jakarta EE AI微服务 Kafka Spring Cloud AI面试
第一轮提问：电商场景下的高并发架构面试官：小曾，我们公司电商业务面临“双十一”秒杀场景，需要支持百万级并发，你会如何设计系统架构？请结合SpringCloud和消息队列谈谈方案。小曾：（搓手）额……我会用SpringCloudAlibaba，搞个Nacos做服务注册，网关用Zuul，然后订单服务用SpringBoot+Redis缓存，秒杀请求走消息队列，比如Kafka吧，异步处理，降低峰值压力……
Java大厂面试实录：从Spring Boot到AI微服务架构的深度技术挑战 remCoding Java场景面试宝典 Java Spring Boot Spring Cloud AI Kafka Redis Docker
场景：互联网大厂Java后端开发面试面试官（严肃）：小曾，请简单介绍下你过往的项目经验，特别是你在微服务架构中解决过哪些技术难题？小曾（自信）：我之前参与过电商平台的订单系统重构，将单体应用拆分为SpringCloud微服务架构。我们使用了SpringCloudGateway做网关路由，服务间通过Kafka异步通信，并引入Redis缓存热点数据。面试官：很好，能具体说说你们如何解决订单超卖问题的吗
暑期自学嵌入式——Day02（C语言阶段）一位搞嵌入式的 genius 嵌入式自学专栏 linux 嵌入式C语言
点关注不迷路哟。你的点赞、收藏，一键三连，是我持续更新的动力哟！！！主页：一位搞嵌入式的genius-CSDN博客https://blog.csdn.net/m0_73589512?spm=1000.2115.3001.5343目录Day02→数据类型（上）数据类型分类基本数据类型整形数据类型字符型数据类型实型数据类型构造数据类型特殊数据类型布尔类型详解基本概念使用注意事项预处理分析知识小结Day
暑期自学嵌入式——Day03（C语言阶段）一位搞嵌入式的 genius 嵌入式自学专栏 c语言开发语言 linux 嵌入式C语言
个人主页：一位搞嵌入式的genius-CSDN博客https://blog.csdn.net/m0_73589512?spm=1010.2135.3001.5343点关注不迷路哟。你的点赞、收藏，一键三连，是我持续更新的动力哟！！！目录Day03：输入输出(上)Day03→嵌入式开发输入输出（上）知识纲要数据输出1）C语言IO特性2）字符输出函数（putchar）例题：putchar函数应用3）编
暑期自学嵌入式——Day04（C语言阶段）一位搞嵌入式的 genius 嵌入式自学专栏嵌入式C语言 linux
点关注不迷路哟。你的点赞、收藏，一键三连，是我持续更新的动力哟！！！目录C语言控制语句控制语句if（上）一、控制语句分类1.基本结构与学习要求2.分支语句3.循环语句4.学习方法建议二、分支语句：if-else详解1.if语句概述2.if语句的常见形式（1）简化形式（省略else）（2）阶梯形式（elseif多分支）3.应用案例：输入分数评级题目要求设计思路与代码实现关键解析4.if语句的嵌套形式
AI产品经理面试宝典第18天：AI思维矩阵构建与实战应用面试题与答法 TGITCIC AI产品经理一线大厂面试题产品经理面试 AI产品经理面试大模型产品经理面试 AI面试大模型面试
如何构建AI思维矩阵？产品经理的"降维攻击"密码面试官：请解释什么是AI思维矩阵？作为产品经理如何构建这种思维？你的回答：AI思维矩阵不是技术架构，而是产品经理在AI时代的核心认知框架。它包含四个关键维度：软硬结合创新：如智能音箱通过硬件采集语音数据，软件优化交互体验，形成闭环数据驱动决策：在智能客服场景中，通过用户对话数据优化意图识别模型，实现NLU准确率提升30%生态协同视角：以智能家居为例，
淘宝返利微信公众号？淘宝返利app哪个最好氧惠好物
值得推荐返利app有哪些?十大返利最高的平台1、氧惠app（邀请码：666888）氧惠APP是一家综合优惠导购返佣分享型社交电商平台,致力于做全网全品类商品和服务的供给,为用户提供购物、餐饮、休闲娱乐及生活服务等领域的消费优惠,让用户可以一站式享受全网的优惠。手机应用商店搜索“氧惠”即可下载，注册填写邀请码：666888【氧惠】是一个自用省钱佣金高，分享推广赚钱多的平台，2022全新模式，0投资，
微信发送器项目指南：从结构到配置的全方位解析余媛奕Lowell
微信发送器项目指南：从结构到配置的全方位解析项目目录结构及介绍本开源项目【微信发送器](https://github.com/bluedazzle/wechat_sender.git)采用清晰的目录布局，确保开发者能够迅速定位核心组件。以下是关键目录及其简介：src：核心源代码所在目录。main.py：主要运行入口，负责整个应用的启动和逻辑控制。wechat_sender：业务逻辑包，封装了与微信
关于 Excel 学习和数据分析有什么书籍或网站推荐？ cda2024 excel 学习数据分析
在当今信息爆炸的时代，Excel和数据分析已经成为职场人士必备的技能。无论是处理日常工作中的数据、制作报表，还是进行更深入的数据分析，Excel都是一个不可或缺的工具。那么，如何系统地学习Excel和数据分析呢？有哪些书籍或网站能够帮助我们快速上手并掌握这些技能？今天，我们就来探讨一下关于Excel学习和数据分析的书籍与网站推荐。一、Excel学习入门（一）书籍推荐《Excel数据分析与应用实战》
etcd：从应用场景到实现原理的全方位解读
转自：http://www.infoq.com/cn/articles/etcd-interpretation-application-scenario-implement-principleetcd：从应用场景到实现原理的全方位解读随着CoreOS和Kubernetes等项目在开源社区日益火热，它们项目中都用到的etcd组件作为一个高可用强一致性的服务发现存储仓库，渐渐为开发人员所关注。在云计算
运维打铁: Ruby 脚本在运维自动化中的应用探索懂搬砖运维打铁原力计划运维 ruby 自动化
文章目录一、思维导图二、基础介绍1.Ruby语言特点2.运维自动化概念三、应用场景1.服务器配置管理2.定时任务执行3.日志分析处理四、代码示例1.服务器配置脚本2.定时任务脚本3.日志分析脚本五、优势与挑战1.优势2.挑战六、总结与展望一、思维导图Ruby脚本在运维自动化中的应用基础介绍应用场景代码示例优势与挑战总结与展望Ruby语言特点运维自动化概念服务器配置管理定时任务执行日志分析处理服务器
JavaScript 性能优化实战指南
JavaScript性能优化实战指南一、引言JavaScript是一种广泛使用的编程语言，尤其在前端开发中占据重要地位。随着Web应用的复杂度不断增加，性能优化成为开发过程中不可或缺的一部分。性能优化不仅可以提升用户体验，还能减少服务器负载，提高应用的响应速度。本文将从多个方面详细探讨JavaScript性能优化的实战技巧，包括代码优化、内存管理、异步编程、资源加载优化等，旨在为开发者提供一份全面
何太极：互联网中服务费的商业价值太极专栏
有一种财富之门，互联网企业绝不轻易开启，一旦打开，就是金山！这是什么呢？那就是服务费！多少互联网企业，成也服务费，败也服务费！一、服务费是互联网掘金的重要秘诀？所谓服务费，就是是对合作者、使用者入驻平台或使用平台服务所收取的使用费。在太极的《大话互联网模式》一书中，对服务费与其他费用进行了对比和分析。1.服务费与会员费服务费有时也是一种会员费，但服务内容如果不形成套餐或会员制，以独立或明细项目方式
Spring框架全面解析：从核心原理到企业级应用衣褐D spring rpc java
一、Spring框架概述1.1Spring的诞生与发展Spring框架由RodJohnson在2003年首次提出，并在他的著作《ExpertOne-on-OneJ2EEDevelopmentwithoutEJB》中阐述了传统J2EE开发模式的局限性以及轻量级容器的优势。Spring框架的诞生彻底改变了Java企业级应用的开发方式，从最初的1.0版本发展到现在的5.x系列，Spring已经发展成为一
【原创】下雨天要游泳饶金霞家庭教育心理咨询
下午，我照着昨天与小儿的约定，在四点半，就来到幼儿园门口接孩子。老师打开大门，孩子从教室里走出来，一见到我就问:“老妈，泳衣准备好了吗？”我半蹲下来拥抱他说：“都放在车上啦！”儿子在我额头上亲一口说：“你真是世界上最讲信用的好妈妈！”我有点怀疑我这儿子有NLP的基因，总是能及时地给沟通者作出良好的回应，而且还会用米尔顿。其实看着这满天的乌云，我心里还在嘀咕，这场大雨可能不会等到我们去游泳场。果不其
马斯克整出的半仙儿，Chat GPT会让多少白领失业？可能会带来哪些变化？良辰美景5566
这几天，ChatGPT火了，是美国一家叫OpenAI的高科技公司研发的，背后的投资人是谁？——埃隆马斯克！这哥们儿只要一出手，注定就和新奇呀伟大呀啥的绑在一起了，他搞的项目，比如特斯拉、星链、脑机接口，光听名字就透着不俗。很多人纳闷儿，他这次搞得ChatGPT是个啥玩意儿？简单说就是一个人工智能聊天软件，这个软件比以往的智能聊天软件强在哪儿？这么说吧，这简直就是个半仙儿啊。如果您是一位老人，这个C
数据结构——线性表木子杳衫数据结构 c++c#
目录一、线性表的定义二、线性表的分类（1）顺序表（2）单链表三、最常见的基本操作四、C/C++实现（1）顺序表1、静态顺序表1）定义其数据类型。2）相关代码。2、动态顺序表1）定义其数据类型。2）相关代码（2）单链表1、带头结点1）初始化2）判空3）查找4）插入4）删除2、不带头结点1）初始化2）判断是否为空3）插入（3）扩展1、双链表1）初始化2）删除3）销毁2、循环单链表1）初试化3、循环双链
上岸大厂Day4: 面试官说你没有产品sense
#我的求职思考(29864)##牛客福利打卡(51895)#大家都做的简历是什么样子的，学院本Jav如何确定自己是学生思维还是职场思维？mark缓解焦虑华黑子的暑期实习总结给HR整不会了一个大学毕业生在河边哭，他哭的如此伤心，连河神都动容了。河神拿着一份月薪两万但996的工作offerJAVA-hashmqp连环夺命二十问暑期实习上岸终章！腾讯pcg应用架构（录用评估挂）校招经验|三无菜鸡水硕如何
React--Fiber 架构前端_学习之路 React.js react.js 架构前端
React的Fiber架构是React16.x版本引入的核心更新，旨在解决大型应用中渲染性能瓶颈的问题。它重新设计了协调算法（Reconciliation），使渲染过程更加可控和高效。核心设计目标1.可中断渲染：将渲染工作拆分成多个小任务，允许浏览器中断渲染进程，优先处理高优先级事件（如用户输入、动画）。2.优先级调度：为不同类型的更新分配不同优先级，紧急更新（如动画）可以插队执行。3.增量渲染：
高省注册必须要邀请码吗? 高省邀请码怎么才能有凌风导师
高省注册必须要邀请码吗?高省邀请码怎么才能有这一款简单的app各种返利APP平台数据佣金测试对比（实测高省返利佣金最高，欢迎下载对比）高省-各大应用商城下载即可-购物领劵返利高，邀请码切记填882288，凌风高省邀请码882288，全网唯一教你技术的老师码填对码直送2皇冠总裁等级，《凌风导师V:125130414》送价值百万引流技术推广绝密大礼包，也可以后台联系老师进高省官方群。什么值得买好物频道
量子计算与AI融合的技术突破与实践路径
量子计算与人工智能的融合正开启一个全新的技术纪元，这种"量智融合"不是简单的技术叠加，而是多领域、多学科的横向连接，通过协同创新实现非线性增长。本文将深入探讨这一领域的最新进展、技术实现路径以及行业应用案例。电子-光子-量子一体化芯片：硬件基础突破2025年7月，美国波士顿大学、加州大学伯克利分校和西北大学团队联合开发出全球首个电子-光子-量子一体化芯片系统。这一突破性成果发表在《自然·电子学》杂
苹果UI 设计蒙小萌1993 ui cocoa macos
不同平台不同框架以下是对iOSUIKit核心组件（AppDelegate、UIWindow、UIViewController、UIView、UINavigationController）的深度解析，依据Apple官方文档的设计哲学和实现原理：核心组件关系与架构或者通常为点击手机应用图标UIApplicationAppDelegateUIWindowrootViewControllerUITable
2019-01-23 Hank_dec5
2019-01-23姓名：符振华（378期反省三组）公司：深圳蔚蓝时代商业管理有限公司-上海第一分公司【日精进打卡第234天】【知~学习】诵读《六项精进》1遍，254遍；诵读《大学》开篇1遍，259遍【经典名句分享】一万年太久，只争朝夕【行~实践】一、修身运动两小时二、建功：1、日常工作{积善}：许愿日行一善/行善1件，时间为234天；累计243件1.感谢家人无私的爱2.感谢遇到的每一个挫折3.感
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
C# Linq源码解析之Aggregate 黑哥聊dotNet DotNet-Linq详解 c#linq list
前言在Dotnet开发过程中，Aggregate作为IEnumerable的扩展方法，十分常用。本文对Aggregate方法的关键源码进行简要分析，以方便大家日后更好的使用该方法。使用Aggregate是对序列应用累加器的函数。看下面一段代码:List lst = new List() { "张三", "李四", "王麻子" };给了我们这样的一个list集合，我们想要得到"张三哈哈哈李四哈哈哈王
2025年各细分产业链企业数据(汽车、数字经济、食品、制造业) 经管数据库汽车智能手机数据分析
本数据包含2025年及之前的所有上中下游企业信息，67个细分产业。汽车专区、数字经济专区、数字创意专区、未来产业专区、高端装备专区、新能源专区、食品农业专区、传统制造业专区等71个文件。汽车专区：充电桩制造动力电池汽车材料制造汽车制造汽车制造设备汽车座椅制造驱动电机制造燃料电池汽车制造燃料电池系统制造新能源汽车制造智能驾驶智能视觉数字经济专区：5g边缘计算大数据类服务器光通信集成电路区块链人工智能
【自动化从入门到进阶】Playwright 实战指南，提升测试效率必修课！朱公子的Note python Playwright 自动化
你是否也有过“页面点击没反应，接口明明没问题”的糟心经历？就算写再多单元测试，也无法覆盖复杂的用户交互。而Playwright的出现，正为前端开发者和QA带来一剂“提效良方”：跨浏览器、强校验、自动重试、不再依赖Selenium！在2025年的软件开发浪潮中，Web应用的复杂性和用户期望持续攀升，单页应用（SPA）和跨浏览器兼容性让测试变得更加关键。想象一下，您的电商平台上线后因未发现的UI错误导
2024年，想要靠做软件测试获得高薪，还有机会吗？朱公子的Note 软件测试
2024年，科技行业风云变幻，随着自动化技术和人工智能的发展，软件测试领域的竞争愈发激烈。很多人会问，现在还投身软件测试，真的能拿到高薪吗？尤其是当越来越多的自动化工具涌现，手动测试员会不会被淘汰？时间过得真快，一眨眼，2024年已经过去了一大半。最近正值金九银十招聘季，后台不免又出现了这几个同学们关心的问题：2024年还能转行软件测试吗？零基础转行可行吗？那么，2024年，软件测试行业的高薪岗位
大学生学软件必看欧巴Godwin 日志嵌入式嵌入式操作系统 wince linux 手机游戏 j2me
一、关于企业计算方向企业计算(EnterpriseComputing)是稍时髦较好听的名词，主要是指企业信息系统,如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件）,银行证券软件,财务软件,电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统.企业计算领域对人才的需求显然永远是数量最大的,因为这是计算机应用最多的领域.搞这方面的
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st