sty945

re2正则表达式匹配引擎的c接口版本cre2的中文使用手册

前言

re2 官方地址：
https://github.com/google/re2

cre2 官方地址:
https://github.com/marcomaggi/cre2

1 基本类型定义

不透明类型：cre2_regexp_t

正则表达式对象的不透明类型; 它用于
声明指向对象的指针。此类型的实例可用于
任意数量的匹配操作，并且对于
多个线程并发使用是安全的。

Struct Typedef：cre2_string_t

用于引用另一个
字符串的一部分的简单数据结构。它有以下领域：

 'const char * data'
      Pointer to the first byte in the referenced substring.

 'int length'
      The number of bytes in the referenced substring.

Enumeration Typedef: cre2_error_code_t

返回的错误代码的枚举类型

2 函数使用

函数：cre2_regexp_t * cre2_new（const char * PATTERN，int 
PATTERN_LEN，const cre2_options_t * OPT）

构建并返回一个新的正则表达式对象，表示
PATTERN_LEN字节长度的PATTERN; 该对象配置了
OPT中的选项。如果内存分配失败：返回值
是’NULL’指针。

void cre2_delete（cre2_regexp_t * REX）

完成释放所有相关
资源的正则表达式对象。

const char * cre2_pattern（const cre2_regexp_t * REX）

REX是否是成功构建的正则表达式对象
：返回指向模式字符串的指针。返回的指针
仅在REX处于活动状态时有效：如果’cre2_delete（）'应用于
REX，则指针变为无效。

int cre2_num_capturing_groups（const cre2_regexp_t * REX）

如果REX是一个成功构建的正则表达式对象：返回一个
非负整数，表示模式中捕获组的数量
（括号子表达式）。如果
在构建REX时发生错误：返回’-1’。

int cre2_find_named_capturing_groups（const cre2_regexp_t 
* REX，const char * NAME）

如果REX是成功构建的正则表达式对象：返回一个
非负整数，表示
名称为NAME 的命名捕获组的索引。如果在构建REX时发生错误
或名称无效：返回“-1”。

3 使用方法

      const char *      pattern = "from (?P.*) to (?P.*)";
      cre2_options_t *  opt     = cre2_opt_new();
      cre2_regexp_t *   rex     = cre2_new(pattern, strlen(pattern),
                                           opt);
      {
        if (cre2_error_code(rex))
          { /* handle the error */ }
        int nmatch = cre2_num_capturing_groups(rex) + 1;
        cre2_string_t strings[nmatch];
        int e, SIndex, DIndex;

        const char * text = \
           "from Montreal, Canada to Lausanne, Switzerland";
        int text_len = strlen(text);

        e = cre2_match(rex, text, text_len, 0, text_len,
                       CRE2_UNANCHORED, strings, nmatch);
        if (0 == e)
          { /* handle the error */ }

        SIndex = cre2_find_named_capturing_groups(rex, "S");
        if (0 != strncmp("Montreal, Canada",
                         strings[SIndex].data, strings[SIndex].length))
          { /* handle the error */ }

        DIndex = cre2_find_named_capturing_groups(rex, "D");
        if (0 != strncmp("Lausanne, Switzerland",
                         strings[DIndex].data, strings[DIndex].length))
          { /* handle the error */ }
      }
      cre2_delete(rex);
      cre2_opt_delete(opt);

int cre2_program_size（const cre2_regexp_t * REX）

如果REX是一个成功构建的正则表达式对象：返回一个
表示程序大小的非负整数，它
是正则表达式“成本” 的非常近似的度量; 较大的数字比较
小的数字更昂贵。如果在
构建REX时发生错误：返回’-1’。

int cre2_error_code（const cre2_regexp_t * REX）

如果在构建REX时发生错误：返回
表示相关错误代码的整数。如果没有错误则返回零

const char * cre2_error_string（const cre2_regexp_t * REX）

如果在构建REX时发生错误：返回指向
表示相关错误消息的ASCIIZ字符串的指针。在
返回的指针是唯一的，而REX是有效的：如果
将"cre2_delete()"应用到REX指针变为无效。

Demo

If REX is a successfully built regular expression object: return a pointer to an empty string. The following code: cre2_regexp_t * rex; rex = cre2_new("ci(ao", 5, NULL); { printf("error: code=%d, msg=\"%s\"\n", cre2_error_code(rex), cre2_error_string(rex)); } cre2_delete(rex); prints: error: code=6, msg="missing ): ci(ao"

void cre2_error_arg（const cre2_regexp_t * REX， cre2_string_t * ARG）

如果在构建REX时发生错误：
用表示模式的
违规部分的字节间隔填充ARG引用的结构。

demo

If REX is a successfully built regular expression object: ARG references an empty string. The following code: cre2_regexp_t * rex; cre2_string_t S; rex = cre2_new("ci(ao", 5, NULL); { cre2_error_arg(rex, &S); printf("arg: len=%d, data=\"%s\"\n", S.length, S.data); } cre2_delete(rex); prints: arg: len=5 data="ci(ao"

4匹配配置

cre2_options_t * opt; opt = cre2_opt_new(); cre2_opt_set_log_errors(opt, 0);

Opaque Typedef：cre2_options_t

选项对象的不透明指针的类型。此
类型的任何实例都可用于配置任意数量的正则表达式
对象。

Enumeration Typedef：cre2_encoding_t

选择编码的常量的枚举类型。它包含

CRE2_UNKNOWN CRE2_UTF8 CRE2_Latin1 The value 'CRE2_UNKNOWN' should never be used: it exists only in case there is a mismatch between the definitions of RE2 and CRE2.

cre2_options_t * cre2_opt_new（void）

分配并返回一个新的选项对象。如果内存分配
失败：返回值是’NULL’指针。

Function：void cre2_opt_delete（cre2_options_t * OPT）

完成释放所有相关资源的选项对象。
与此对象中配置编译的正则表达式不会
受其破坏。

以下所有函数都是正则
表达式选项的getter和setter ; setter的FLAG参数必须为false才能
禁用该选项，而true为true以启用它; 除非另行指定，否则
如果启用该选项，则“int”返回值为true，如果
禁用，则返回false 。

void cre2_opt_set_encoding（cre2_options_t * OPT， cre2_encoding_t ENC）

默认情况下，正则表达式模式和输入文本被
解释为UTF-8。CRE2_Latin1编码使它们被
解释为Latin-1。

int cre2_opt_posix_syntax（cre2_options_t * OPT） void cre2_opt_set_posix_syntax（cre2_options_t * OPT，int FLAG）

void cre2_opt_set_posix_syntax（cre2_options_t * OPT，int
FLAG）将regexp 限制为POSIX egrep语法。默认是禁用的。

- 函数：int cre2_opt_longest_match（cre2_options_t * OPT） - 功能：void cre2_opt_set_longest_match（cre2_options_t * OPT，int FLAG）

搜索最长匹配，而不是第一次匹配。默认是禁用的。

- Function：int cre2_opt_log_errors（cre2_options_t * OPT） - 功能：void cre2_opt_set_log_errors（cre2_options_t * OPT，int FLAG）

— 将语法和执行错误记录到’stderr’。默认值已启用。

Function：int cre2_opt_literal（cre2_options_t * OPT） void cre2_opt_set_literal（cre2_options_t * OPT，int FLAG）

将模式字符串解释为文字，而不是正则表达式。
默认是禁用的。

demo

Setting this option is equivalent to quoting all the special characters defining a regular expression pattern: cre2_regexp_t * rex; cre2_options_t * opt; const char * pattern = "(ciao) (hello)"; const char * text = pattern; int len = strlen(pattern); opt = cre2_opt_new(); cre2_opt_set_literal(opt, 1); rex = cre2_new(pattern, len, opt); { /* successful match */ cre2_match(rex, text, len, 0, len, CRE2_UNANCHORED, NULL, 0); } cre2_delete(rex); cre2_opt_delete(opt);

Function：int cre2_opt_never_nl（cre2_options_t * OPT） void cre2_opt_set_never_nl（cre2_options_t * OPT，int FLAG）

永远不要匹配换行符，即使它在正则
表达式模式中也是如此; 默认为禁用。启用此选项
允许我们针对
多行文本的开头尝试部分匹配，而不使用子
模式排除正则表达式模式中的换行符。

int cre2_opt_dot_nl（cre2_options_t * OPT） void cre2_opt_set_dot_nl（cre2_options_t * OPT，int FLAG）

点匹配所有内容，包括新行; 默认为
禁用。

Function：int cre2_opt_never_capture（cre2_options_t * OPT） void cre2_opt_set_never_capture（cre2_options_t * OPT，int FLAG）

所有括号解析为非捕获; 默认为禁用。

Function：int cre2_opt_case_sensitive（cre2_options_t * OPT） void cre2_opt_set_case_sensitive（cre2_options_t * OPT， int FLAG）

匹配区分大小写; 正则表达式模式可以
使用’（？i）覆盖此设置，除非在POSIX语法
模式下配置。默认值已启用。

Function：int cre2_opt_max_mem（cre2_options_t * OPT） void cre2_opt_set_max_mem（cre2_options_t * OPT，int M）

max memory选项控制可以使用多少内存来保存
正则表达式及其缓存DFA
图的编译形式。这些函数设置并获得这样的内存量。有关
详细信息，请参阅RE2的文档。

启用POSIX语法时，仅查询以下选项; 禁用POSIX语法时：这些功能始终处于
启用状态且无法关闭。

启用POSIX语法时，仅查询以下选项; 禁用POSIX语法时：这些功能始终处于
启用状态且无法关闭。

Function：int cre2_opt_perl_classes（cre2_options_t * OPT） void cre2_opt_set_perl_classes（cre2_options_t * OPT，int FLAG）

允许Perl的’\ d’，’\ s’，’\ w’，’\ D’，’\ S’， ‘\ W’。默认为
禁用。

int cre2_opt_word_boundary（cre2_options_t * OPT） void cre2_opt_set_word_boundary（cre2_options_t * OPT，int FLAG）

允许Perl的’\ b’，’\ B’（字边界而不是）。默认为
禁用。

int cre2_opt_one_line (cre2_options_t * OPT) void cre2_opt_set_one_line (cre2_options_t * OPT, int FLAG)

模式’^‘和’$'仅匹配文本的开头和结尾。默认为禁用。

5 匹配正则表达式

基本模式匹配如下:

cre2_regexp_t * rex; cre2_options_t * opt; const char * pattern = "(ciao) (hello)"; opt = cre2_opt_new(); cre2_opt_set_posix_syntax(opt, 1); rex = cre2_new(pattern, strlen(pattern), opt); { const char * text = "ciao hello"; int text_len = strlen(text); int nmatch = 3; cre2_string_t match[nmatch]; cre2_match(rex, text, text_len, 0, text_len, CRE2_UNANCHORED, match, nmatch); /* prints: full match: ciao hello */ printf("full match: "); fwrite(match[0].data, match[0].length, 1, stdout); printf("\n"); /* prints: first group: ciao */ printf("first group: "); fwrite(match[1].data, match[1].length, 1, stdout); printf("\n"); /* prints: second group: hello */ printf("second group: "); fwrite(match[2].data, match[2].length, 1, stdout); printf("\n"); } cre2_delete(rex); cre2_opt_delete(opt);

- Enumeration Typedef：cre2_anchor_t

匹配操作的锚点的枚举类型。它
包含以下常量：

CRE2_UNANCHORED CRE2_ANCHOR_START CRE2_ANCHOR_BOTH

int cre2_match（const cre2_regexp_t * REX，const char * TEXT，int TEXT_LEN，int START_POS，int END_POS，cre2_anchor_t ANCHOR，cre2_string_t * MATCH，int NMATCH）

匹配TEXT引用的文本的子字符串并保持
TEXT_LEN字节对正则表达式对象REX。
如果文本匹配则返回true，否则返回false。

The zero-based indices START_POS (inclusive) and END_POS (exclusive) select the substring of TEXT to be examined. ANCHOR selects the anchor point for the matching operation. Data about the matching groups is stored in the array MATCH, which must have at least NMATCH entries; the referenced substrings are portions of the TEXT buffer. If we are only interested in verifying if the text matches or not (ignoring the matching portions of text): we can use 'NULL' as MATCH argument and 0 as NMATCH argument. The first element of MATCH (index 0) references the full portion of the substring of TEXT matching the pattern; the second element of MATCH (index 1) references the portion of text matching the first parenthetical subexpression, the third element of MATCH (index 2) references the portion of text matching the second parenthetical subexpression; and so on.

int cre2_easy_match（const char * PATTERN，int PATTERN_LEN，const char * TEXT，int TEXT_LEN，cre2_string_t * MATCH，int NMATCH）

与’cre2_match（）'类似，但模式被指定为包含
PATTERN_LEN字节的字符串PATTERN 。此外，文本完全匹配，无需
锚定。

如果文本匹配模式，返回值为1，如果文本不匹配模式，返回值为0，如果模式是不合法的，则返回值为2

Struct Typedef：cre2_range_t

结构类型，用于表示要
作为起始和结束索引匹配的文本的子字符串。它有如下字段:

'long start' Inclusive start byte index. 'long past' Exclusive end byte index.

void cre2_strings_to_ranges（const char * TEXT， cre2_range_t * RANGES，cre2_string_t * STRINGS，int NMATCH）

给定一个STRINGS数组，其中NMATCH元素是将
TEXT与正则表达式匹配的结果：
用索引间隔填充RANGES 数组在TEXT缓冲区中表示
相同的结果。

demo

cre2_regexp_t * rex; cre2_options_t * opt; const char * pattern; pattern = "(ciao) (hello)"; opt = cre2_opt_new(); rex = cre2_new(pattern, strlen(pattern), opt); { if (cre2_error_code(rex)) printf("rex error \n"); int nmatch = 3; cre2_string_t strings[nmatch]; cre2_range_t ranges[nmatch]; int e; const char * text = "ciao hello"; int text_len = strlen(text); e = cre2_match(rex, text, text_len, 0, text_len, CRE2_UNANCHORED, strings, nmatch); if (1 != e) printf("match error \n"); cre2_strings_to_ranges(text, ranges, strings, nmatch); printf("full match: "); printf("%.*s\n", ranges[0].past-ranges[0].start,text+ranges[0].start); printf("\n"); printf("first group: "); printf("%.*s\n", ranges[1].past-ranges[1].start,text+ranges[1].start); printf("\n"); printf("second group: "); printf("%.*s\n", ranges[2].past-ranges[2].start,text+ranges[2].start); printf("\n"); } cre2_delete(rex); cre2_opt_delete(opt);

结果:

full match: ciao hello first group: ciao second group: hello

实例

以下示例是成功匹配：

const char * pattern = "ci.*ut"; const char * text = "ciao salut"; cre2_string_t input = { .data = text, .length = strlen(text) }; int result; result = cre2_full_match(pattern, &input, NULL, 0); result => 1

以下示例是成功匹配，其中
忽略括号子表达式：

const char * pattern = "(ciao) salut"; const char * text = "ciao salut"; cre2_string_t input = { .data = text, .length = strlen(text) }; int result; result = cre2_full_match(pattern, &input, NULL, 0); result => 1

以下示例是成功匹配，其中
报告了与括号子表达式匹配的文本部分：

const char * pattern = "(ciao) salut"; const char * text = "ciao salut"; cre2_string_t input = { .data = text, .length = strlen(text) }; int nmatch = 1; cre2_string_t match[nmatch]; int result; result = cre2_full_match(pattern, &input, match, nmatch); result => 1 strncmp(text, input.data, input.length) => 0 strncmp("ciao", match[0].data, match[0].length) => 0

1. int cre2_full_match（const char * PATTERN，const cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH） 2. int cre2_full_match_re（cre2_regexp_t * REX，const cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH）

匹配零终止字符串PATTERN或
针对完整缓冲区TEXT 的预编译正则表达式REX。

For example: the text 'abcdef' matches the pattern 'abcdef' according to this function, but neither the pattern 'abc' nor the pattern 'def' will match.

int cre2_partial_match（const char * PATTERN，const cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH） int cre2_partial_match_re（cre2_regexp_t * REX，const cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH）

匹配零终止字符串PATTERN或
针对缓冲区TEXT 的预编译正则表达式REX，如果
TEXT 的子字符串匹配则成功; 这些函数的行为类似于完全
匹配的函数，但匹配的文本不需要锚定到
开头和结尾。

For example: the text 'abcDEFghi' matches the pattern 'DEF' according to this function.

int cre2_consume（const char * PATTERN，cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH） int cre2_consume_re（cre2_regexp_t * REX，cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH）

匹配以\0结尾的字符串PATTERN或者
针对缓冲区TEXT 的预编译正则表达式REX，如果
TEXT 的前缀匹配则成功。TEXT引用的数据结构
在与
模式匹配的最后一个字节之后立即变为引用文本。

For example: the text 'abcDEF' matches the pattern 'abc' according to this function; after the call TEXT will reference the text 'DEF'.

int cre2_find_and_consume（const char * PATTERN， cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH） int cre2_find_and_consume_re（cre2_regexp_t * REX， cre2_string_t * TEXT，cre2_string_t * MATCH，int NMATCH）

匹配以零结尾的字符串PATTERN或者
针对缓冲区TEXT 的预编译正则表达式REX，如果
在跳过TEXT中的非匹配前缀之后，TEXT的子字符串匹配，则会成功
。TEXT引用的数据结构
在与模式匹配的最后一个字节之后立即变为引用文本。

For example: the text 'abcDEFghi' matches the pattern 'DEF' according to this function; the prefix 'abc' is skipped; after the call TEXT will reference the text 'ghi'.

cre2_replace_re(cre2_regexp_t * REX， cre2_string_t * TEXT，cre2_string_t * replace)

将符合字符串匹配模式的字符串替换成相应的字符串

cre2_regexp_t * rex; const char * pattern = "hello"; const char * text = "ciao hello salut"; const char * replace = "ohayo"; cre2_string_t target = { .data = text, .length = strlen(text) }; cre2_string_t rewrite = { .data = replace, .length = strlen(replace) }; int result; rex = cre2_new(pattern, strlen(pattern), NULL); { result = cre2_replace_re(rex, &target, &rewrite); if (1 != result) goto error; if (0 != strncmp("ciao ohayo salut", target.data, target.length)) goto error; if ('\0' != target.data[target.length]) goto error; PRINTF("rewritten to: "); FWRITE(target.data, target.length, 1); PRINTF("\n"); } cre2_delete(rex); free((void *)target.data);

还可以支持全局替换

cre2_regexp_t * rex; const char * pattern = "(壹|贰|叁|肆|伍|陆|柒|捌|玖|拾|佰|仟|萬|万|亿|零)"; const char * text = "ciao 伍 salut 肆陆壹叁"; const char * replace = "sty"; cre2_string_t target = { .data = text, .length = strlen(text) }; cre2_string_t rewrite = { .data = replace, .length = strlen(replace) }; int result; rex = cre2_new(pattern, strlen(pattern), NULL); { result = cre2_global_replace_re(rex, &target, &rewrite); printf("result is %d\n", result); if (1 != result) printf("replace error \n"); if (0 != strncmp("ciao sty salut sty", target.data, target.length)) printf("cmp error \n"); if ('\0' != target.data[target.length]) printf("target error \n"); printf("rewritten to: "); printf("%.*s\n", target.length, target.data); printf("\n"); } cre2_delete(rex); free((void *)target.data);

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
AIGC与自动驾驶：文心一言的车载交互设计 AI天才研究院 ChatGPT 实战计算 Agentic AI 实战 AIGC 自动驾驶文心一言 ai
AIGC与自动驾驶：文心一言的车载交互设计关键词：AIGC、自动驾驶、车载交互、文心一言、自然语言处理、多模态交互、用户体验摘要：本文深入探讨人工智能生成内容（AIGC）技术在自动驾驶领域的创新应用，特别是百度文心一言如何重构车载交互体验。通过解析文心一言的核心技术架构、多模态融合算法、场景化交互模型，结合具体代码实现和数学模型，揭示其在语音交互、情境理解、个性化服务等场景中的技术优势。同时通过项
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
后端领域的自然语言处理技术应用大厂资深架构师 Spring Boot 开发实战自然语言处理 easyui 人工智能 ai
后端领域的自然语言处理技术应用关键词：后端领域、自然语言处理、技术应用、算法原理、实际案例摘要：本文聚焦于后端领域中自然语言处理技术的应用。首先介绍了相关背景，包括目的范围、预期读者等。接着阐述核心概念与联系，通过文本示意图和Mermaid流程图展示其原理和架构。详细讲解了核心算法原理并给出Python源代码示例，同时介绍了数学模型和公式。通过项目实战，展示代码实际案例并进行详细解释。分析了自然语
Char Studio 使用入门：高效构建企业级对话系统的实战指南 charles666666 人工智能产品经理语言模型自然语言处理架构
数字化浪潮推动下，企业与用户的交互模式正经历深刻变革，对话系统作为核心交互手段，其重要性日益凸显。然而，众多企业在构建对话系统时，却深陷诸多困境，难以自拔。一、开篇痛点场景：企业对话系统开发的典型困境企业在自行开发对话系统时，往往面临预算超支、周期漫长以及维护成本居高不下等问题。开发团队需要投入大量时间和精力进行底层技术架构的搭建，例如自然语言处理算法的研究、对话逻辑的设计等，这不仅消耗了大量的人
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
中文大模型的技术债问题大鹏的NLP博客大模型 transformer 大模型
中文大模型的技术债问题摘要随着中文大语言模型（LargeLanguageModels,LLMs）在自然语言处理（NLP）领域的广泛应用，其研发和部署过程中积累的“技术债”（TechnicalDebt）问题日益突出。本文系统性地分析了中文大模型在数据采集、预训练、微调、评估与部署等生命周期各阶段产生的技术债类型，包括代码复杂性、数据隐患、训练流程依赖、工具链碎片化、模型解释性差、隐性资源耦合等问题，
新手向:中文语言识别的进化之路
自然语言处理（NLP）技术正在以前所未有的速度改变我们与机器的交互方式，而中文作为世界上使用人数最多的语言，其处理技术面临着独特的挑战与机遇。本文将全面剖析中文自然语言识别模型的发展历程、核心技术原理、当前应用现状以及未来发展趋势，带您深入了解这一改变人机交互方式的关键技术。一、中文NLP的特殊挑战：为什么中文处理如此困难？中文自然语言处理面临着一系列西方语言所不具备的特殊挑战，这些挑战直接影响了
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
提示词工程在实体关系抽取中的创新 AI天才研究院计算 ChatGPT AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
1.5概念结构与核心要素组成在深入探讨提示词工程在实体关系抽取中的应用之前，我们需要对其概念结构与核心要素组成有一个清晰的理解。这一部分将介绍提示词工程的基本框架，以及实体关系抽取的关键技术。提示词工程的基本框架提示词工程（PromptEngineering）是指利用人工智能技术和自然语言处理方法，设计并优化用于训练语言模型的输入提示（prompt），以达到特定任务目标的过程。其核心框架包括以下几
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
10.5 实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力机器学习深度学习人工智能语言模型
实战ChatGLM3私有数据微调之提示工程：批量生成数据稳定性秘籍在当今人工智能蓬勃发展的时代，大语言模型（LLMs）如ChatGLM3的出现，为自然语言处理领域带来了革命性的变化。企业和开发者们纷纷寻求利用这些强大的模型来构建定制化的应用，以满足特定业务需求。其中，使用私有数据对ChatGLM3进行微调，成为了实现差异化竞争和提供个性化服务的关键途径。然而，在微调过程中，确保批量生成数据的稳定性
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
AI LLM架构与原理 - 预训练模型深度解析陈乔布斯 AI 人工智能大模型人工智能架构机器学习深度学习大模型 Python AI
一、引言在人工智能领域，大型语言模型（LLM）的发展日新月异，预训练模型作为LLM的核心技术，为模型的强大性能奠定了基础。预训练模型通过在大规模无标注数据上进行学习，能够捕捉语言的通用模式和语义信息，从而在各种自然语言处理任务中展现出卓越的能力。本文将深入探讨AILLM架构与原理中预训练模型的方法论和技术，结合图解、代码解析和实际案例，为读者呈现一个全面且易懂的预训练模型图景。二、预训练模型的基本
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

re2正则表达式匹配引擎的c接口版本cre2的中文使用手册

前言

1 基本类型定义

2 函数使用

3 使用方法

Demo

demo

4匹配配置

demo

5 匹配正则表达式

demo

实例

你可能感兴趣的:(自然语言处理)