新缸中之脑

PostgresML - PostgreSQL的生成式AI扩展

PostgresML 是 PostgreSQL 的机器学习扩展，支持生成式AI，使你能够使用 SQL 查询对文本和表格数据执行训练和推理。借助 PostgresML，你可以将机器学习模型无缝集成到你的 PostgreSQL 数据库中，并利用尖端算法的强大功能来高效地处理数据。

推荐：用 NSDT设计器快速搭建可编程3D场景。

PostGresML可以处理文本数据，例如：

执行自然语言处理 (NLP) 任务，例如情感分析、问答、翻译、摘要和文本生成
从 HuggingFace 模型中心访问 1000 种最先进的语言模型，如 GPT-2、GPT-J、GPT-Neo
针对不同任务在您自己的文本数据上微调大型语言模型 (LLM)
通过从数据库中存储的文本生成嵌入，将现有的 PostgreSQL 数据库用作矢量数据库。

使用如下SQL语句执行文本翻译：

SELECT pgml.transform(
    'translation_en_to_fr',
    inputs => ARRAY[
        'Welcome to the future!',
        'Where have you been all this time?'
    ]
) AS french;

结果：

                         french                                 
------------------------------------------------------------

[
    {"translation_text": "Bienvenue à l'avenir!"},
    {"translation_text": "Où êtes-vous allé tout ce temps?"}
]

使用如下SQL语句执行文本情感分析：

SELECT pgml.transform(
    task   => 'text-classification',
    inputs => ARRAY[
        'I love how amazingly simple ML has become!', 
        'I hate doing mundane and thankless tasks. ☹️'
    ]
) AS positivity;

结果：

                    positivity
------------------------------------------------------
[
    {"label": "POSITIVE", "score": 0.9995759129524232}, 
    {"label": "NEGATIVE", "score": 0.9903519749641418}
]

PostgresML也可以处理表格数据，例如：

47 种以上的分类和回归算法
推理速度比基于 HTTP 的模型服务快 8 - 40 倍
每秒数百万笔交易
水平可扩展性

使用如下SQL语句训练分类模型：

SELECT * FROM pgml.train(
    'Handwritten Digit Image Classifier',
    algorithm => 'xgboost',
    'classification',
    'pgml.digits',
    'target'
);

执行推理任务：

SELECT pgml.predict(
    'My Classification Project', 
    ARRAY[0.1, 2.0, 5.0]
) AS prediction;

1、安装

PostgresML 安装由三部分组成：PostgreSQL 数据库、用于机器学习的 Postgres 扩展和仪表板应用程序。该扩展提供了所有机器学习功能，并且可以通过任何 SQL IDE 独立使用。仪表板应用程序提供了一个易于使用的界面，用于编写 SQL 笔记本、执行和跟踪 ML 实验和 ML 模型。

使用Docker的安装步骤如下：

第 1 步：克隆此存储库

git clone [email protected]:postgresml/postgresml.git

第 2 步：启动 dockerized 服务。 PostgresML 将在端口 5433 上运行，以防万一你已经在运行 Postgres。可以在此处找到 Docker 安装说明。

cd postgresml
docker-compose up

第 3 步：使用 SQL IDE 或 psql 连接到 Postgres

postgres://postgres@localhost:5433/pgml_development

2、快速上手

在本地安装时，转到位于localhost的仪表板应用程序以使用 SQL 笔记本。

在托管控制台上单击“仪表板”按钮以使用 SQL 笔记本连接到你的实例。

试用预建的 SQL 笔记本

3、自然语言处理任务

PostgresML 集成了 Hugging Face Transformers，将最先进的 NLP 模型带入数据层。有数以万计的带有管道的预训练模型可以将数据库中的原始文本转化为有用的结果。许多最先进的深度学习架构已经发布并可从 Hugging Face 模型中心获取。

可以使用以下 SQL 查询调用不同的 NLP 任务并使用它们进行自定义。

SELECT pgml.transform(
    task   => TEXT OR JSONB,     -- Pipeline initializer arguments
    inputs => TEXT[] OR BYTEA[], -- inputs for inference
    args   => JSONB              -- (optional) arguments to the pipeline.
)

3.1 文本分类

文本分类涉及为给定文本分配标签或类别。常见用例包括情感分析、自然语言推理和语法正确性评估。

3.2 情绪分析

情感分析是一种自然语言处理技术，涉及分析一段文本以确定其中表达的情感或情感。它可用于将文本分类为正面、负面或中性，在市场营销、客户服务和政治分析等领域有着广泛的应用。

基本用法：

SELECT pgml.transform(
    task   => 'text-classification',
    inputs => ARRAY[
        'I love how amazingly simple ML has become!', 
        'I hate doing mundane and thankless tasks. ☹️'
    ]
) AS positivity;

结果：

[
    {"label": "POSITIVE", "score": 0.9995759129524232}, 
    {"label": "NEGATIVE", "score": 0.9903519749641418}
]

用于文本分类的默认模型是 DistilBERT-base-uncased 的微调版本，它专门针对 Stanford Sentiment Treebank 数据集 (sst2) 进行了优化。

使用特定模型

要使用 Hugging Face 上可用的 19,000 多个模型之一，请将所需模型的名称和文本分类任务作为 JSONB 对象包含在 SQL 查询中。例如，如果你想要使用在大约 40,000 条英语推文上训练的 RoBERTa 模型，并且其类别具有 POS（正面）、NEG（负面）和 NEU（中性）标签，请在制作你的 JSONB 对象时包含此信息询问。

SELECT pgml.transform(
    inputs => ARRAY[
        'I love how amazingly simple ML has become!', 
        'I hate doing mundane and thankless tasks. ☹️'
    ],
    task  => '{"task": "text-classification", 
              "model": "finiteautomata/bertweet-base-sentiment-analysis"
             }'::JSONB
) AS positivity;

结果：

[
    {"label": "POS", "score": 0.992932200431826}, 
    {"label": "NEG", "score": 0.975599765777588}
]

使用行业特定模型

通过选择专为特定行业设计的模型，你可以实现更准确和相关的文本分类。此类模型的一个示例是 FinBERT，这是一种预训练的 NLP 模型，已针对分析金融文本中的情绪进行了优化。 FinBERT 是通过在大型金融语料库上训练 BERT 语言模型，并对其进行微调以专门对金融情绪进行分类而创建的。使用 FinBERT 时，该模型将为三种不同的标签提供 softmax 输出：正、负或中性。

SELECT pgml.transform(
    inputs => ARRAY[
        'Stocks rallied and the British pound gained.', 
        'Stocks making the biggest moves midday: Nvidia, Palantir and more'
    ],
    task => '{"task": "text-classification", 
              "model": "ProsusAI/finbert"
             }'::JSONB
) AS market_sentiment;

结果：

[
    {"label": "positive", "score": 0.8983612656593323}, 
    {"label": "neutral", "score": 0.8062630891799927}
]

3.3 自然语言推理 (NLI)

NLI，即自然语言推理，是一种确定两个文本之间关系的模型。该模型将前提和假设作为输入并返回一个类，该类可以是以下三种类型之一：

蕴涵（Entailment）：这意味着假设基于前提是正确的。
矛盾（Contradiction）：这意味着根据前提假设是错误的。
中性（Neutral）：这意味着假设和前提之间没有关系。

GLUE 数据集是评估 NLI 模型的基准数据集。 NLI 模型有不同的变体，例如 Multi-Genre NLI、Question NLI 和 Winograd NLI。

如果你想使用 NLI 模型，可以在 Hugging Face 模型中心找到它们。寻找带有“mnli”的模型。

SELECT pgml.transform(
    inputs => ARRAY[
        'A soccer game with multiple males playing. Some men are playing a sport.'
    ],
    task => '{"task": "text-classification", 
              "model": "roberta-large-mnli"
             }'::JSONB
) AS nli;

结果：

[
    {"label": "ENTAILMENT", "score": 0.98837411403656}
]

3.4 问题自然语言推理 (QNLI)

QNLI 任务涉及确定给定的问题是否可以通过提供的文档中的信息来回答。如果可以在文档中找到答案，则分配的标签是“蕴含”。反之，如果在文档中找不到答案，则打上“不蕴涵”的标签。

如果想使用 QNLI 模型，可以在 Hugging Face 模型中心找到它们。寻找带有“qnli”的模型。

SELECT pgml.transform(
    inputs => ARRAY[
        'Where is the capital of France?, Paris is the capital of France.'
    ],
    task => '{"task": "text-classification", 
              "model": "cross-encoder/qnli-electra-base"
             }'::JSONB
) AS qnli;

结果：

[
    {"label": "LABEL_0", "score": 0.9978110194206238}
]

3.5 Quora 问题对 (QQP)

Quora 问题对模型旨在评估两个给定问题是否是彼此的释义。该模型接受两个问题并分配一个二进制值作为输出。 LABEL_0 表示问题是彼此的释义，LABEL_1 表示问题不是释义。用于此任务的基准数据集是 GLUE 基准中的 Quora 问题对数据集，其中包含问题对及其相应标签的集合。

如果想使用 QQP 模型，可以在 Hugging Face 模型中心找到它们。寻找带有qqp的模型。

SELECT pgml.transform(
    inputs => ARRAY[
        'Which city is the capital of France?, Where is the capital of France?'
    ],
    task => '{"task": "text-classification", 
              "model": "textattack/bert-base-uncased-QQP"
             }'::JSONB
) AS qqp;

结果：

[
    {"label": "LABEL_0", "score": 0.9988721013069152}
]

3.6 语法正确性评估

语言可接受性是一项涉及评估句子语法正确性的任务。用于此任务的模型将两个类别之一分配给句子，“可接受”或“不可接受”。 LABEL_0 表示可接受，LABEL_1 表示不可接受。用于训练和评估此任务模型的基准数据集是语言可接受性语料库 (CoLA)，它由一组文本及其相应的标签组成。

如果想使用语法正确性模型，可以在 Hugging Face 模型中心找到它们。寻找可乐模型。

SELECT pgml.transform(
    inputs => ARRAY[
        'I will walk to home when I went through the bus.'
    ],
    task => '{"task": "text-classification", 
              "model": "textattack/distilbert-base-uncased-CoLA"
             }'::JSONB
) AS grammatical_correctness;

结果：

[
    {"label": "LABEL_1", "score": 0.9576480388641356}
]

3.7 零样本分类

零样本分类是一项任务，其中模型预测它在训练阶段未见过的类。此任务利用预训练的语言模型，是一种迁移学习。迁移学习涉及使用最初针对不同应用程序中的一项任务进行训练的模型。当缺乏可用于手头特定任务的标记数据时，零样本分类特别有用。

在下面提供的示例中，我们将演示如何将给定句子分类到模型之前未遇到过的类别中。为此，我们在 SQL 查询中使用了 args，它允许我们提供 candidate_labels。您可以自定义这些标签以适合您的任务上下文。我们将使用 facebook/bart-large-mnli 模型。

在 Hugging Face 模型中心寻找具有 mnli 的模型以使用零样本分类模型。

SELECT pgml.transform(
    inputs => ARRAY[
        'I have a problem with my iphone that needs to be resolved asap!!'
    ],
    task => '{
                "task": "zero-shot-classification", 
                "model": "facebook/bart-large-mnli"
             }'::JSONB,
    args => '{
                "candidate_labels": ["urgent", "not urgent", "phone", "tablet", "computer"]
             }'::JSONB
) AS zero_shot;

结果：

[
    {
        "labels": ["urgent", "phone", "computer", "not urgent", "tablet"], 
        "scores": [0.503635, 0.47879, 0.012600, 0.002655, 0.002308], 
        "sequence": "I have a problem with my iphone that needs to be resolved asap!!"
    }
]

3.8 Token分类

Token分类是自然语言理解中的一项任务，其中将标签分配给文本中的某些标记。令牌分类的一些流行子任务包括命名实体识别 (NER) 和词性 (PoS) 标记。可以训练 NER 模型来识别文本中的特定实体，例如个人、地点和日期。另一方面，词性标注用于识别文本中不同的词性，例如名词、动词和标点符号。

3.9 命名实体识别

命名实体识别 (NER) 是一项涉及识别文本中命名实体的任务。这些实体可以包括人名、地点或组织的名称。该任务是通过为每个命名实体标记一个类和为不包含任何实体的标记标记一个名为“0”的类来完成的。在此任务中，输入是文本，输出是带有命名实体的注释文本。

SELECT pgml.transform(
    inputs => ARRAY[
        'I am Omar and I live in New York City.'
    ],
    task => 'token-classification'
) as ner;

结果：

[[
    {"end": 9,  "word": "Omar", "index": 3,  "score": 0.997110, "start": 5,  "entity": "I-PER"}, 
    {"end": 27, "word": "New",  "index": 8,  "score": 0.999372, "start": 24, "entity": "I-LOC"}, 
    {"end": 32, "word": "York", "index": 9,  "score": 0.999355, "start": 28, "entity": "I-LOC"}, 
    {"end": 37, "word": "City", "index": 10, "score": 0.999431, "start": 33, "entity": "I-LOC"}
]]

3.10 词性 (PoS) 标注

词性标注是一项涉及识别给定文本中词性的任务，例如名词、代词、形容词或动词。在此任务中，模型用特定的词性标记每个单词。

在 Hugging Face 模型中心寻找具有 pos 的模型以使用零样本分类模型。

select pgml.transform(
	inputs => array [
  	'I live in Amsterdam.'
	],
	task => '{"task": "token-classification", 
              "model": "vblagoje/bert-english-uncased-finetuned-pos"
    }'::JSONB
) as pos;

结果：

[[
    {"end": 1,  "word": "i",         "index": 1, "score": 0.999, "start": 0,  "entity": "PRON"},
    {"end": 6,  "word": "live",      "index": 2, "score": 0.998, "start": 2,  "entity": "VERB"},
    {"end": 9,  "word": "in",        "index": 3, "score": 0.999, "start": 7,  "entity": "ADP"},
    {"end": 19, "word": "amsterdam", "index": 4, "score": 0.998, "start": 10, "entity": "PROPN"}, 
    {"end": 20, "word": ".",         "index": 5, "score": 0.999, "start": 19, "entity": "PUNCT"}
]]

3.11 翻译

翻译是将用一种语言编写的文本转换成另一种语言的任务

可以选择从 Hugging Face 中心提供的 2000 多个模型中进行选择以进行翻译。

select pgml.transform(
    inputs => array[
            	'How are you?'
    ],
	task => '{"task": "translation", 
              "model": "Helsinki-NLP/opus-mt-en-fr"
    }'::JSONB	
);

结果：

[
    {"translation_text": "Comment allez-vous ?"}
]

3.12 总结摘要

摘要涉及创建文档的压缩版本，其中包含重要信息，同时减少其长度。不同的模型可以用于此任务，一些模型从原始文档中提取最相关的文本，而其他模型生成全新的文本，捕捉原始内容的本质。

select pgml.transform(
	task => '{"task": "summarization", 
              "model": "sshleifer/distilbart-cnn-12-6"
    }'::JSONB,
	inputs => array[
	'Paris is the capital and most populous city of France, with an estimated population of 2,175,601 residents as of 2018, in an area of more than 105 square kilometres (41 square miles). The City of Paris is the centre and seat of government of the region and province of Île-de-France, or Paris Region, which has an estimated population of 12,174,880, or about 18 percent of the population of France as of 2017.'
	]
);

结果：

[
    {"summary_text": " Paris is the capital and most populous city of France, with an estimated population of 2,175,601 residents as of 2018 . The city is the centre and seat of government of the region and province of Île-de-France, or Paris Region . Paris Region has an estimated 18 percent of the population of France as of 2017 ."}
    ]

你可以通过将 min_length 和 max_length 作为参数传递给 SQL 查询来控制 summary_text 的长度。

select pgml.transform(
	task => '{"task": "summarization", 
              "model": "sshleifer/distilbart-cnn-12-6"
    }'::JSONB,
	inputs => array[
	'Paris is the capital and most populous city of France, with an estimated population of 2,175,601 residents as of 2018, in an area of more than 105 square kilometres (41 square miles). The City of Paris is the centre and seat of government of the region and province of Île-de-France, or Paris Region, which has an estimated population of 12,174,880, or about 18 percent of the population of France as of 2017.'
	],
	args => '{
            "min_length" : 20,
            "max_length" : 70
	}'::JSONB
);

结果：

[
    {"summary_text": " Paris is the capital and most populous city of France, with an estimated population of 2,175,601 residents as of 2018 . City of Paris is centre and seat of government of the region and province of Île-de-France, or Paris Region, which has an estimated 12,174,880, or about 18 percent"
    }  
]

3.13 问答

问答模型旨在从给定文本中检索问题的答案，这对于在文档中搜索信息特别有用。值得注意的是，一些问答模型即使没有任何上下文信息也能够生成答案。

SELECT pgml.transform(
    'question-answering',
    inputs => ARRAY[
        '{
            "question": "Where do I live?",
            "context": "My name is Merve and I live in İstanbul."
        }'
    ]
) AS answer;

结果：

{
    "end"   :  39, 
    "score" :  0.9538117051124572, 
    "start" :  31, 
    "answer": "İstanbul"
}

3.14 文本生成

文本生成是生成新文本的任务，例如填充不完整的句子或释义现有文本。它有各种用例，包括代码生成和故事生成。完成生成模型可以预测文本序列中的下一个单词，而文本到文本生成模型被训练来学习文本对之间的映射，例如语言之间的翻译。流行的文本生成模型包括基于 GPT 的模型、T5、T0 和 BART。可以训练这些模型来完成范围广泛的任务，包括文本分类、摘要和翻译。

SELECT pgml.transform(
    task => 'text-generation',
    inputs => ARRAY[
        'Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone'
    ]
) AS answer;

结果：

[
    [
        {"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone, and eight for the Dragon-lords in their halls of blood.\n\nEach of the guild-building systems is one-man"}
    ]
]

要使用模型中心的特定模型，请在任务中传递模型名称和任务名称。

SELECT pgml.transform(
    task => '{
        "task" : "text-generation",
        "model" : "gpt2-medium"
    }'::JSONB,
    inputs => ARRAY[
        'Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone'
    ]
) AS answer;

结果：

[
    [{"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone.\n\nThis place has a deep connection to the lore of ancient Elven civilization. It is home to the most ancient of artifacts,"}]
]

要使生成的文本更长，可以包含参数 max_length 并指定所需的最大文本长度。

SELECT pgml.transform(
    task => '{
        "task" : "text-generation",
        "model" : "gpt2-medium"
    }'::JSONB,
    inputs => ARRAY[
        'Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone'
    ],
    args => '{
			"max_length" : 200
		}'::JSONB 
) AS answer;

结果：

[
    [{"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone, Three for the Dwarfs and the Elves, One for the Gnomes of the Mines, and Two for the Elves of Dross.\"\n\nHobbits: The Fellowship is the first book of J.R.R. Tolkien's story-cycle, and began with his second novel - The Two Towers - and ends in The Lord of the Rings.\n\n\nIt is a non-fiction novel, so there is no copyright claim on some parts of the story but the actual text of the book is copyrighted by author J.R.R. Tolkien.\n\n\nThe book has been classified into two types: fantasy novels and children's books\n\nHobbits: The Fellowship is the first book of J.R.R. Tolkien's story-cycle, and began with his second novel - The Two Towers - and ends in The Lord of the Rings.It"}]
]

如果你希望模型生成多个输出，可以通过在参数中包含参数 num_return_sequences 来指定所需输出序列的数量。

SELECT pgml.transform(
    task => '{
        "task" : "text-generation",
        "model" : "gpt2-medium"
    }'::JSONB,
    inputs => ARRAY[
        'Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone'
    ],
    args => '{
			"num_return_sequences" : 3
		}'::JSONB 
) AS answer;

结果：

[
    [
        {"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone, and Thirteen for the human-men in their hall of fire.\n\nAll of us, our families, and our people"}, 
        {"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone, and the tenth for a King! As each of these has its own special story, so I have written them into the game."}, 
        {"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone… What's left in the end is your heart's desire after all!\n\nHans: (Trying to be brave)"}
    ]
]

文本生成通常使用贪婪搜索算法，该算法选择概率最高的词作为序列中的下一个词。然而，可以使用一种称为波束搜索的替代方法，其目的是最大限度地减少忽略隐藏的高概率单词组合的可能性。 Beam search 通过在每一步保留 num_beams 个最有可能的假设并最终选择具有最高总体概率的假设来实现这一点。我们设置 num_beams > 1 和 early_stopping=True 以便在所有光束假设达到 EOS 令牌时完成生成。

SELECT pgml.transform(
    task => '{
        "task" : "text-generation",
        "model" : "gpt2-medium"
    }'::JSONB,
    inputs => ARRAY[
        'Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone'
    ],
    args => '{
			"num_beams" : 5,
			"early_stopping" : true
		}'::JSONB 
) AS answer;

结果：

[[
    {"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone, Nine for the Dwarves in their caverns of ice, Ten for the Elves in their caverns of fire, Eleven for the"}
]]

抽样方法涉及从一组可能的候选词中随机选择下一个词或词序列，根据语言模型按它们的概率加权。这可以产生更加多样化和创造性的文本，并避免重复的模式。在最基本的形式中，抽样意味着随机选择下一个单词
根据其条件概率分布： $w_t \approx P(w_t|w_{1:t-1})$

但是，采样方法的随机性也会导致文本连贯性降低或不一致，具体取决于模型的质量和所选的采样参数，例如温度、top-k 或 top-p。因此，选择合适的采样方法和参数对于在生成的文本中实现创造性和连贯性之间的理想平衡至关重要。

可以在参数中传递 do_sample = True 以使用采样方法。建议改变 temperature 或 top_p 但不能同时改变两者。

温度：

SELECT pgml.transform(
    task => '{
        "task" : "text-generation",
        "model" : "gpt2-medium"
    }'::JSONB,
    inputs => ARRAY[
        'Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone'
    ],
    args => '{
			"do_sample" : true,
			"temperature" : 0.9
		}'::JSONB 
) AS answer;

结果：

[[{"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone, and Thirteen for the Giants and Men of S.A.\n\nThe First Seven-Year Time-Traveling Trilogy is"}]]
top n：

SELECT pgml.transform(
    task => '{
        "task" : "text-generation",
        "model" : "gpt2-medium"
    }'::JSONB,
    inputs => ARRAY[
        'Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone'
    ],
    args => '{
			"do_sample" : true,
			"top_p" : 0.8
		}'::JSONB 
) AS answer;

结果：

[[{"generated_text": "Three Rings for the Elven-kings under the sky, Seven for the Dwarf-lords in their halls of stone, Four for the Elves of the forests and fields, and Three for the Dwarfs and their warriors.\" ―Lord Rohan [src"}]]

3.15 文本到文本生成

文本到文本生成方法，例如 T5，是一种神经网络架构，旨在执行各种自然语言处理任务，包括摘要、翻译和问答。 T5 是一种基于转换器的架构，使用去噪自动编码对大量文本数据进行预训练。这个预训练过程使模型能够学习通用语言模式和不同任务之间的关系，可以针对特定的下游任务进行微调。在微调期间，T5 模型在特定任务的数据集上进行训练，以学习如何执行特定任务。

翻译：

SELECT pgml.transform(
    task => '{
        "task" : "text2text-generation"
    }'::JSONB,
    inputs => ARRAY[
        'translate from English to French: I''m very happy'
    ]
) AS answer;

结果：

[
    {"generated_text": "Je suis très heureux"}
]

与其他任务类似，我们可以为文本到文本的生成指定一个模型。

SELECT pgml.transform(
    task => '{
        "task" : "text2text-generation",
        "model" : "bigscience/T0"
    }'::JSONB,
    inputs => ARRAY[
        'Is the word ''table'' used in the same meaning in the two previous sentences? Sentence A: you can leave the books on the table over there. Sentence B: the tables in this book are very hard to read.'

    ]
) AS answer;

3.17 填充掩码

Fill-mask 是指隐藏或“屏蔽”句子中的某些单词的任务，其目的是预测哪些单词应该填充那些屏蔽的位置。当我们想要获得有关用于训练模型的语言的统计见解时，此类模型很有价值。

SELECT pgml.transform(
    task => '{
        "task" : "fill-mask"
    }'::JSONB,
    inputs => ARRAY[
        'Paris is the  of France.'

    ]
) AS answer;

结果：

[
    {"score": 0.679, "token": 812,   "sequence": "Paris is the capital of France.",    "token_str": " capital"}, 
    {"score": 0.051, "token": 32357, "sequence": "Paris is the birthplace of France.", "token_str": " birthplace"}, 
    {"score": 0.038, "token": 1144,  "sequence": "Paris is the heart of France.",      "token_str": " heart"}, 
    {"score": 0.024, "token": 29778, "sequence": "Paris is the envy of France.",       "token_str": " envy"}, 
    {"score": 0.022, "token": 1867,  "sequence": "Paris is the Capital of France.",    "token_str": " Capital"}]

4、矢量数据库

矢量数据库是一种存储和管理矢量的数据库，矢量是多维空间中数据点的数学表示。矢量可用于表示范围广泛的数据类型，包括图像、文本、音频和数字数据。它旨在使用最近邻搜索、聚类和索引等方法支持高效的向量搜索和检索。这些方法使应用程序能够找到与给定查询向量相似的向量，这对于图像搜索、推荐系统和自然语言处理等任务很有用。

PostgresML 通过从存储在表中的文本生成嵌入来增强现有的 PostgreSQL 数据库以用作矢量数据库。要生成嵌入，可以使用 pgml.embed 函数，该函数将转换器名称和文本值作为输入。此功能会自动下载并缓存转换器以备将来重用，从而节省时间和资源。

使用矢量数据库涉及三个关键步骤：创建嵌入、使用不同算法为嵌入建立索引以及使用嵌入查询索引。让我们更详细地分解每个步骤。

4.1 使用转换器创建嵌入

要为你的数据创建嵌入，首先需要选择一个可以从你的输入数据生成嵌入的转换器。一些流行的钻换器选项包括 BERT、GPT-2 和 T5。选择转换器后，可以使用它为数据生成嵌入。

在下一节中，我们将演示如何使用 PostgresML 为情感分析中常用的推文数据集生成嵌入。为了生成嵌入，我们将使用 pgml.embed 函数，该函数将为数据集中的每条推文生成一个嵌入。然后，这些嵌入将被插入到名为 tweet_embeddings 的表中。

SELECT pgml.load_dataset('tweet_eval', 'sentiment');

SELECT * 
FROM pgml.tweet_eval
LIMIT 10;

CREATE TABLE tweet_embeddings AS
SELECT text, pgml.embed('distilbert-base-uncased', text) AS embedding 
FROM pgml.tweet_eval;

SELECT * from tweet_embeddings limit 2;

结果：

text	embedding
“QT @user In the original draft of the 7th book, Remus Lupin survived the Battle of Hogwarts. #HappyBirthdayRemusLupin”	{-0.1567948312,-0.3149209619,0.2163394839,…}
“Ben Smith / Smith (concussion) remains out of the lineup Thursday, Curtis #NHL #SJ”	{-0.0701668188,-0.012231146,0.1304316372,… }

4.2 使用不同的算法对嵌入进行索引

为数据创建嵌入后，需要使用一种或多种索引算法对它们进行索引。有几种不同类型的索引算法可用，包括 B 树、k 最近邻 (KNN) 和近似最近邻 (ANN)。你选择的具体索引算法类型将取决于你的用例和性能要求。例如，B 树是范围查询的不错选择，而 KNN 和 ANN 算法对于相似性搜索更有效。

在小型数据集（<100k 行）上，将每一行与查询进行比较的线性搜索将给出亚秒级结果，这对于你的用例来说可能足够快。对于较大的数据集，你可能需要考虑其他扩展提供的各种索引策略。

Cube 是一个内置扩展，它提供了一种用于查找相似向量的快速索引策略。默认情况下，它有 100 个维度的任意限制，除非 Postgres 以更大的尺寸编译。
PgVector 支持开箱即用的高达 2000 维的嵌入，并提供用于查找相似向量的快速索引策略。

在为你的嵌入编制索引时，重要的是要考虑准确性和速度之间的权衡。像 B 树这样的精确索引算法可以提供精确的结果，但可能不如像 KNN 和 ANN 这样的近似索引算法那么快。同样，某些索引算法可能需要比其他算法更多的内存或磁盘空间。

在下文中，我们使用 ivfflat 算法在 tweet_embeddings 表上创建索引以进行索引。 ivfflat 算法是一种混合索引，它结合了倒排文件 (IVF) 索引和平面 (FLAT) 索引。

索引是在 tweet_embeddings 表的嵌入列上创建的，该列包含从原始推文数据集生成的向量嵌入。 vector_cosine_ops 参数指定用于嵌入的索引操作。在这种情况下，它使用余弦相似性运算，这是衡量向量之间相似性的常用方法。

通过在嵌入列上创建索引，数据库可以快速搜索和检索与给定查询向量相似的记录。这对于各种机器学习应用程序很有用，例如相似性搜索或推荐系统。

CREATE INDEX ON tweet_embeddings USING ivfflat (embedding vector_cosine_ops);

4.3 使用查询的嵌入来查询索引

一旦你的嵌入被索引，就可以使用它们对您的数据库执行查询。为此，你需要提供一个查询嵌入来表示要执行的查询。然后，索引将根据查询嵌入和存储的嵌入之间的相似性，从你的数据库中返回最接近匹配的嵌入。

WITH query AS (
    SELECT pgml.embed('distilbert-base-uncased', 'Star Wars christmas special is on Disney')::vector AS embedding
)
SELECT * FROM items, query ORDER BY items.embedding <-> query.embedding LIMIT 5;

结果：

text
Happy Friday with Batman animated Series 90S forever!
“Fri Oct 17, Sonic Highways is on HBO tonight, Also new episode of Girl Meets World on Disney”
tfw the 2nd The Hunger Games movie is on Amazon Prime but not the 1st one I didn’t watch
5 RT’s if you want the next episode of twilight princess tomorrow
Jurassic Park is BACK! New Trailer for the 4th Movie, Jurassic World -

原文链接：PostgresML快速入门 — BimAnt

你可能感兴趣的:(postgresql,人工智能,数据库)

智能推理的革命：DeepSeek-R1 深度解析其算法与实现步子哥算法人工智能
在人工智能（AI）领域，语言模型（LargeLanguageModels,LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1的出现，正是为了解决这一问题，通过强化学习（ReinforcementLearning,RL）赋予语言模型更强大的推理能力，开创了LLMs
fuadmin jcsx 开源学习 django vue.js
fu-admin-web采用VUE3，TS开发。fu-admin-backend采用Python，Django和Django-Ninija开发。数据库支持MySql，SqlServer，Sqlite。‍‍前端采用VbenAdmin、Vue3、AntDesignVue。后端采用Python语言Django框架以及强大的DjangoNinja。支持加载动态权限菜单，多方式轻松权限控制。Vue2项目移步
《从传统到智能：大模型交换机的变革之路》烁月_o9 数据库服务器运维 web安全安全
大模型交换机是一种专门为大规模人工智能模型提供网络和计算资源调度的硬件设备。以下是关于它的详细介绍：特点高带宽和低延迟：大模型的训练和推理通常需要处理大量的数据，高带宽可以确保数据在各个计算节点之间快速传输，低延迟则能减少数据传输过程中可能出现的瓶颈，提高训练和推理的效率。智能路由与数据调度：基于AI算法的调度机制，能够动态地调整数据传输路径，以应对不同网络条件和负载的变化，避免某些节点的拥塞，确
超时与重试浅析 kshzhaohui 后端 java
前言超时可以说是除了空指针我们最熟悉的异常了，从系统的接入层，到服务层，再到数据库层等等都能看到超时的身影；超时很多情况下同时伴随着重试，因为某些情况下比如网络抖动问题等，重试是可以成功的；当然重试往往也会指定重试次数上限，因为如果程序确实存在问题，重试多少次都无济于事，那其实也是对资源的浪费。为什么要设置超时对于开发人员来说我们平时最常见的就是设置超时时间，比如数据库超时设置、缓存超时设置、中间
自动化测试--概念篇 .比奇堡派大星. 软件测试自动化测试 selenium
博主主页:码农派大星.数据结构专栏:Java数据结构数据库专栏:数据库JavaEE专栏:JavaEE软件测试专栏:软件测试关注博主带你了解更多知识目录1.⾃动化1.1自动化概念1.1.1回归测试1.2⾃动化分类接⼝⾃动化UI⾃动化1.3⾃动化测试⾦字塔2.web⾃动化测试安装驱动管理3.Selenium安装selenium库使⽤selenium编写代码selenium+驱动+浏览器的⼯作原理1.⾃
shell 批量导表到数据库大乔乔布斯数据库 unix linux
需求：1，一堆表格，csv文件，2，特定分割符，3，表头有特殊utf16进制字符，文件可能是16进制或者utf8的格式，统一utf84，读取第一行作为表头处理一些空的字符，还有特殊字符，BOM(ByteOrderMark)5，转化linux路径为MYSQL可识别路径，先转换下中文到英文，否则mysql不能load6，循环导入到数据库中。可以每个表在数据库工具中，像Navicat里导入，1by1，也
Hibernate和Spring Data JPA 打伞的木头人
什么是JavaPersistenceAPI？JavaPersistenceAPI提供了一个规范，用于将数据通过Java对象持久化、读取和管理到数据库中的关系表。JPA是JavaPersistenceAPI的简称，中文名Java持久层API，是JDK5.0注解或XML描述对象－关系表的映射关系，并将运行期的实体对象持久化到数据库中。Sun引入新的JPAORM规范出于两个原因：其一，简化现有JavaE
数据库连接池是如何工作的？大懒猫软件数据库网络
连接池是一种用于管理和复用连接（如数据库连接或网络连接）的技术，广泛应用于数据库操作和网络请求中，以提高应用程序的性能和资源利用率。以下是连接池的工作原理和机制的详细解释：连接池的工作原理1.初始化阶段在应用程序启动时，连接池会根据配置参数预先创建一定数量的连接对象，并将这些连接存储在一个容器（如队列或列表）中。这些连接处于空闲状态，等待被应用程序请求使用。2.获取连接当应用程序需要与外部资源（如
SpringBoot继承JWT token实现权限的验证（从头开始） CodeGuruInk spring boot java 后端
目录概述前提：我们需要知道的文件的用处第1步：数据库的连接第2步：定义一个标准化响应对象的类第3步：编写请求数据库数据代码第4步：自定义异常处理第5步：导入依赖第6步：自定义拦截器第7步：配置拦截器第8步：生成token第9步：开始测试代码第10步：vue请求示例扩展：自定义注解AuthAccess总结概述在开发后端接口时，数据的直接暴露可能会导致安全问题。为了应对这种情况，我们需要在访问接口时进
『大模型笔记』AI自动化编程工具汇总[持续更新ING]！ AI大模型前沿研究大模型笔记大模型 AI自动化工具 bolt.new Cursor V0
『大模型笔记』AI自动化编程工具汇总！文章目录一.Bolt.new(开源AI驱动全栈Web开发工具)1.1.Bolt.new介绍1.2.编程小白如何打造自己的导航网站二.Cursor(人工智能代码编辑器)2.1.Cursor入门教程2.2.Cursor左侧布局设置和VSCode一样2.3.Cursor效率之道：Agent模式＋7大高级技巧详解三.Windsurf(颠覆Cursor的全新工具)3.1
计算机毕业设计之jsp影视推荐系统我的微信bishe911 课程设计 java 开发语言 mysql jsp
随着信息化时代的到来，网络系统都趋向于智能化、系统化，影视推荐系统也不例外，但目前国内的很多行业仍使用人工管理，影视信息量也越来越庞大，人工管理显然已无法应对时代的变化，而影视推荐系统能很好地解决这一问题，轻松的对影视信息进行评分，既能提高用户对影视推荐的了解，又能快捷的查看影视信息，取代人工管理是必然趋势。本影视推荐系统以SSM作为框架，B/S模式以及MySql作为后台运行的数据库。本系统主要包
解锁 Python 与 MySQL 交互密码：全方位技术解析与实战攻略秋夜Autumn python MySQL
目录一、引言二、环境准备2.1安装MySQL2.2安装Python及相关库2.2.1使用mysql-connector-python2.2.2使用pymysql三、基本连接与操作3.1连接到MySQL数据库3.2创建游标对象3.3执行SQL查询3.3.1查询单条记录3.3.2查询多条记录3.4插入数据3.5更新数据3.6删除数据3.7关闭连接四、错误处理五、高级操作5.1使用事务5.2处理大型结果
解锁 MySQL 数据库的无限潜能：全方位深度解析秋夜Autumn 数据库 mysql
目录一、MySQL简介二、MySQL安装与配置（一）安装MySQL（二）配置MySQL三、MySQL基础语法（一）数据类型（二）数据库操作（三）表操作（四）数据操作四、MySQL高级特性（一）索引（二）视图（三）存储过程与函数（四）事务处理（五）数据备份与恢复五、MySQL性能优化（一）查询优化（二）服务器配置优化（三）数据库设计优化六、MySQL与其他技术的集成（一）MySQL与Web开发（二）
Topaz Video AI——视频修复爱研究的小牛 AIGC—视频 AIGC
一、TopazVideoAI介绍及使用TopazVideoAI是一款基于人工智能的视频增强和修复软件，主要用于提升视频质量、去噪、插帧和分辨率提升。它利用深度学习技术对视频进行智能化处理，使得视频看起来更加清晰和流畅。TopazVideoAI特别适合那些需要修复旧视频、提升低分辨率视频质量的用户。二、TopazVideoAI的主要功能视频去噪：通过AI模型去除视频中的噪点，使画面更加干净。分辨率提
如何在 Flask 中实现用户认证？ Channing Lewis Python flask python 后端
在Flask中实现用户认证，可以通过以下方式完成：基础步骤设置用户数据库：存储用户信息（如用户名、密码）。注册功能：允许用户创建账号。登录功能：验证用户输入的凭据。会话管理：使用Flask的session或第三方工具管理登录状态。登出功能：清除用户的登录状态。实现步骤以下是一个完整示例，展示如何实现用户认证功能：1.项目文件结构flask_auth/├──app.py#主应用├──auth/#用户
性能测试的指标2 吾爱乐享性能测试性能测试指标性能测试
性能测试指标主要包括两大分类系统指标：系统指标主要包括系统的响应时间，tps，并发数等资源指标：对硬件资源的利用率，cpu，磁盘，内存等1.系统指标响应时间：从用户发送一个请求到用户接受到服务器返回到响应数据这段时间响应时间是由，网络传输时间+应用程序处理时间，一个用户发起请求-->到服务器的传输时间--->服务器处理时间--->数据库传输时间---->数据库到处理时间--->数据库处理结果传输给
RPA真的是人工智能吗？微刻时光 RPA加油站 rpa 人工智能
1.RPA与AI的定义与区别1.1RPA的定义与特点机器人流程自动化（RoboticProcessAutomation，简称RPA）是一种软件技术，它通过模拟人类用户的操作行为来自动执行重复性、基于规则的任务。RPA的核心特点包括：非侵入性：RPA作为外挂工具部署在客户现有系统上，不影响原有IT基础架构。基于规则的操作：RPA流程必须有明确的、可被数字化的触发指令和输入，不允许出现无法提前定义的例
Redis基本命令详解微刻时光 Redis redis 数据库缓存
1.基本命令命令不区分大小写，而key是区分大小写的#select数据库间的切换数据库共计16个127.0.0.1:6379>select1#dbsize返回当前数据库的key的数量127.0.0.1:6379[1]>dbsize#keys*查看数据库所有的key127.0.0.1:6379[1]>keys*#flushdb清除当前数据库127.0.0.1:6379[1]>flushdb#flus
影刀 RPA：企业数字化转型的强大引擎 RPA李老师 rpa
一、影刀RPA是什么影刀RPA是一种基于机器学习和人工智能技术的自动化工具，它在当今数字化时代发挥着重要作用。影刀RPA是一款软件机器人，能模拟人的各种操作，在任何应用程式上进行鼠标点击、键盘输入、读取信息等自动化操作，释放人非主观决策、逻辑性高、规则性强的工作。在了解影刀RPA之前，我们先来认识一下RPA。RPA是RoboticProcessAutomation（机器人流程自动化）的简称，201
浅析AI大模型现状及其应用，零基础入门到精通，收藏这篇就够了程序员_大白互联网程序员大模型人工智能数据挖掘大模型
随着人工智能技术的迅猛发展，AI大模型已经成为全球科技竞争的焦点，展现出巨大的发展潜力和广阔的应用前景。AI大模型的应用落地正引发行业关注，技术进步正促使AI大模型的应用逐步从云端向终端设备延伸，从通用模型向针对特定行业的定制化解决方案转变，其商业潜力和对行业的影响不断增强。与此同时，国内外企业在大模型领域的竞争日趋激烈。AI大模型蓬勃发展AI大模型主要特征AI大模型具有泛化性(知识迁移到新领域)
C++学生学籍管理系统开发详解悦闻闻
本文还有配套的精品资源，点击获取简介：学生学籍管理系统是高校或教育机构中管理学生信息的重要工具。本项目详细介绍基于C++实现该系统的关键技术和方法。从面向对象编程、数据结构的选择，到数据库操作、运算符重载、文件I/O处理、用户界面设计、异常处理，以及单元测试等，系统地覆盖了构建高效、稳定学籍管理系统的全过程。1.面向对象编程基础面向对象编程（OOP）是现代编程范式的核心，它允许开发者通过类和对象来
【自然语言处理（NLP）】jieba分词的使用（分词模式、关键词提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍jieba分词的使用1.安装2.jieba分词模式2.1精确模式2.2全模式2.3搜索引擎模式2.4词性标注2.5加载自己的分词文件3.查看词频4.关键词提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言处理（NaturalLanguageProcessing，NLP）**是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向努力学习的大大学术会议推荐人工智能大数据深度学习神经网络
【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向文章目录【2025优质学术推荐】征稿控制科学、仪器、智能系统、通信、计算机、电子信息、人工智能、大数据、机器学习、软件工程、网络安全方向2025
Redis集群的高可用架构及维护 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2019年，随着云计算、微服务架构和容器技术的流行，NoSQL数据库和缓存技术越来越受到企业应用需求的关注。Redis集群作为一款开源内存键值存储数据库，在高性能、易用性等方面都给予了开发者更高的满意度。但在实际生产环境中运行Redis集群却并不容易，如何保证Redis集群的高可用、可靠性和持久化一直是很多公司关心的问题。本文将从以下两个角度出发，分析Redis
云计算的概念与特点：开启数字化时代的新篇章 ivwdcwso 运维云计算
在当今数字化时代，云计算（CloudComputing）已经成为推动技术创新和业务转型的核心力量。无论是大型企业、中小型企业，还是个人用户，云计算都为其提供了高效、灵活和经济的解决方案。本文将深入探讨云计算的概念及其核心特点，帮助读者全面了解这一革命性技术。©ivwdcwso(ID:u012172506)一、云计算的概念云计算是一种基于互联网的计算模式，通过将计算资源（如服务器、存储、网络、数据库
java设计模式-创建型模式-建造者模式 shuair java设计模式 java 设计模式建造者模式
java设计模式-创建型模式-建造者模式场景举例根据表名、每页条数、偏移量等属性进行拼接组装，并且根据不同的数据库类型生成不同的sql脚本观察Lombok@Builder注解生成的代码源码packagexin.yangshuai.basic01.gof23.builder;importlombok.Builder;@BuilderpublicclassDatabaseSqlLombok{/***数
Mysql事务隔离级别及其底层原理阿狸远翔 mysql 数据库
理解事务隔离级别MySQL是一种常用的关系型数据库管理系统，它支持事务的概念和隔离级别。事务隔离级别是指在并发环境下，数据库系统如何处理不同事务之间的相互干扰和冲突。MySQL提供了四种事务隔离级别，分别是读未提交（ReadUncommitted）、读已提交（ReadCommitted）、可重复读（RepeatableRead）和串行化（Serializable）。每种隔离级别都有不同的特点和适用
2025年新出炉的MySQL面试题长风清留扬 150道MySQL高频面试题 mysql 数据库面试 sql
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
精选了几道MySQL的大厂面试题，被提问的几率很高！长风清留扬 150道MySQL高频面试题 mysql android 数据库面试学习 MySQL面试
作者简介：CSDN\阿里云\腾讯云\华为云开发社区优质创作者，专注分享大数据、Python、数据库、人工智能等领域的优质内容个人主页：长风清留杨的博客形式准则：无论成就大小，都保持一颗谦逊的心，尊重他人，虚心学习。✨推荐专栏：Python入门到入魔，Mysql入门到入魔，Python入门基础大全，Flink入门到实战若缘分至此，无法再续相逢，愿你朝朝暮暮，皆有安好，晨曦微露道早安，日中炽热说午安，
免费开源的后端API服务-supabase安装和使用-简直是前端学习者福音前端三评 strapi Ajax 工具开源前端 supabase
文章目录它是什么安装和部署关于安装关于部署1、注册用户2、创建组织3、创建项目创建数据库表（填充内容）填充数据库表使用postman联调API它是什么一个开源免费的后端框架，firebase的替代品。可以简单理解类似于headlesscms，但是不仅仅只提供内容，它还集成了服务订阅、即时API，用户身份认证（包括第三方身份认证，比如使用github、Google等账号实现快速登录和注册）、边缘函数
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。