Nightmare004

RE转NFA转DFA

https://github.com/Nightmare4214/re_nfa_dfa

前置知识

$\epsilon$ 代表空串

语言

某个给定字母表上一个任意的可数的串集合

正则语言/正则表达式

正则语言（regular language）/正则表达式（regular expression）
每个正则表达式 $r$ 表示一个语言 $L\left(r\right)$

归纳基础:
1） $\mathbf{\epsilon}$ 是一个正则表达式， $L\left(\mathbf{\epsilon}\right)=\left\{\epsilon\right\}$ ,即该语言只包含空串
2）如果 $a$ 是 $\Sigma$ 上的一个符号，那么 $\mathbf{a}$ 是一个正则表达式，并且 $L\left(\mathbf{a}\right)=\left\{a\right\}$

归纳步骤:
假定 $\mathbf{r},\mathbf{s}$ 都是正则表达式，分别表示语言 $L\left(\mathbf{r}\right),L\left(\mathbf{s}\right)$ ,那么：
1） $\left(\mathbf{r}\right)|\left(\mathbf{s}\right)$ 是一个正则表达式，表示语言 $L\left(\mathbf{r}\right)\cup L\left(\mathbf{s}\right)$
2） $\left(\mathbf{r}\right)\left(\mathbf{s}\right)$ 是一个正则表达式，表示语言 $L\left(\mathbf{r}\right)L\left(\mathbf{s}\right)$
3） $\left(\mathbf{r}\right)^*$ 是一个正则表达式，表示语言 $\left(L\left(\mathbf{r}\right)\right)^*$
4） $\left(\mathbf{r}\right)$ 是一个正则表达式，表示语言 $L\left(\mathbf{r}\right)$

有穷自动机

有穷自动机是识别器，他们只能对每个可能的输入串简单地回答“是”或“否”

有穷自动机分为不确定的有穷自动机和确定的有穷自动机

不确定的有穷自动机

不确定的有穷自动机(Nondeterministic Finite Automata, NFA)对其边上的标号没有任何限制。一个符号标记离开同意状态的多条边，并且空串 $\epsilon$ 也可以作为标号
$NFA\ A=\left(Q,\Sigma,\delta,q_0,F\right)$
1)一个有穷的状态集合 $Q$
2)一个输入的符号集合 $\Sigma$ ,即输入字母表。我们假定空串 $\epsilon$ 不是 $\Sigma$ 中的元素
3）一个转换函数，它为每个状态和 $\Sigma\cup \left\{\epsilon\right\}$ 中的每个符号都给出了相应的后继状态的集合，
即 $\delta: Q \times \left(\Sigma\cup \left\{\epsilon\right\}\right) \mapsto \mathcal{P}\left(Q\right)$ ,其中 $\mathcal{P}\left(Q\right)$ 代表 $Q$ 的所有子集组成的集合
4） $Q$ 中的一个状态 $s_0$ 被指定为开始状态，或者说初始状态
5） $Q$ 的一个子集 $F$ 被指定为接收状态（或者说终止状态）的集合

确定的有穷自动机

确定的有穷自动机(Deterministic Finite Automata, DFA)，有且只有一条离开该状态、以该符号为标号的边
DFA是NFA的一个特例，其中
$\delta: Q \times \Sigma \mapsto Q$
即：
1）没有输入 $\epsilon$ 之上的转换动作
2）对每个状态 $s$ 和每个输入符号 $a$ ，有且只有一条标号为 $a$ 的边离开 $s$

自动机中输入字符串的接受

一个NFA接受输入字符串 $x$ ，当且仅当对应的转换图中存在一条从开始状态到某个接收状态的路径，使得该路径中各条边上的标号祖传符号串 $x$ （路径中的 $\epsilon$ 标号将被忽略）

正则表达式转NFA

McNaughton–Yamada–Thompson algorithm算法
**输入：**字母表 $\Sigma$ 上的一个正则表达式 $\mathbf{r}$
**输出：**一个接受 $L\left(\mathbf{r}\right)$ 的 $NFA\ N$
**方法：**首先对 $\mathbf{r}$ 进行语法分析，分解出组成它的子表达式。
**基本规则：**对于表达式 $\mathbf{\epsilon}$ ,构造下面的 $N F A$

对于字母表 $\Sigma$ 中的子表达式 $\mathbf{a}$ ，构造下面的 $N F A$

**归纳规则：**假设正则表达式 $\mathbf{s}$ 和 $\mathbf{t}$ 的 $N F A$ 分别为 $N\left(\mathbf{s}\right)$ 和 $N\left(\mathbf{t}\right)$
1）假设 $\mathbf{r}=\mathbf{s}|\mathbf{t}$ 则如图构造 $N\left(\mathbf{r}\right)$

2）假设 $\mathbf{r}=\mathbf{s}\mathbf{t}$ 则如图构造 $N\left(\mathbf{r}\right)$

3）假设 $\mathbf{r}=\mathbf{s}^*$ 则如图构造 $N\left(\mathbf{r}\right)$

（不过我上课教的是下面这种

只是代码可能不好写）
4）假设 $\mathbf{r}=\left(\mathbf{s}\right)$ ，那么 $N\left(\mathbf{s}\right)=N\left(\mathbf{r}\right)$

性质：
1） $N\left(\mathbf{r}\right)$ 状态数最多为 $\mathbf{r}$ 中的运算符和运算分量的总数的2倍（因为每一步构造最多多2个状态）
2） $N\left(\mathbf{r}\right)$ 有且有只有一个开始状态和一个接受状态。接受状态没有出边，开始状态没有入边
3） $N\left(\mathbf{r}\right)$ 除接受状态之外，每个状态要么有一条标号为 $\Sigma$ 中符号的出边，有么有两条标号为 $\epsilon$ 的出边（？）

代码

Trans.h

#pragma once
extern char const EPSILON = '$';
class Trans {
public:
	int vertex_from;
	int vertex_to;
	char trans_symbol;
	Trans(int vertex_from = 0, int vertex_to = 1, char trans_symbol = EPSILON) :
		vertex_from(vertex_from), vertex_to(vertex_to), trans_symbol(trans_symbol) {}
};

NFA.h
这里没定义 $\Sigma$ 你可以自己写一下
默认0是起始状态

其他的都是一些get和set

#pragma once
#include"Trans.h"
#include
#include
#include
#include
class NFA {
public:
	//0 is the only start state
	int vertex_cnt;//Q
	std::vector<Trans> transitions;//delta,transition graph
	std::unordered_set<int> final_states;//F

	NFA(int vertex_cnt = 0) :vertex_cnt(vertex_cnt) {}
	NFA(int vertex_cnt, const std::vector<Trans>& transitions, const std::unordered_set<int>& final_states) :
		vertex_cnt(vertex_cnt), transitions(transitions), final_states(final_states) {}
	int get_vertex_count()const {
		return vertex_cnt;
	}

	void set_vertex_cnt(int vertex_cnt) {
		this->vertex_cnt = vertex_cnt;
	}

	std::vector<Trans> get_transition()const {
		return transitions;
	}

	void add_transition(int vertex_from, int vertex_to, char trans_symbol) {
		transitions.emplace_back(vertex_from, vertex_to, trans_symbol);
	}

	std::unordered_set<int> get_final_states()const {
		return final_states;
	}

	void add_final_state(int state) {
		final_states.insert(state);
	}

	void clear() {
		vertex_cnt = 0;
		transitions.clear();
		final_states.clear();
	}
	
	void display()const {
		printf("-------------------------\n");
		for (Trans temp : transitions) {
			printf("q_%d -> q_%d: %c\n", temp.vertex_from, temp.vertex_to, temp.trans_symbol);
		}
		printf("\n");
		printf("\n");
		printf("final_states: ");
		for (int f : final_states) {
			printf("%d ", f);
		}
		printf("\n");
		printf("-------------------------\n");
		
	}
};

Re2NFA.h
主要就是类似中缀表达式那样解析，碰到 $*$ 要立即结算

#pragma once
#include
#include
#include
#include
#include"Trans.h"
#include"NFA.h"

//re: a.b
NFA concat(NFA a, NFA b) {
	int a_vertex_cnt = a.get_vertex_count();
	int b_vertex_cnt = b.get_vertex_count();
	int total_states = a_vertex_cnt + b_vertex_cnt;
	NFA result(total_states, a.get_transition(), { total_states - 1 });
	result.add_transition(a_vertex_cnt - 1, a_vertex_cnt, EPSILON);

	for (const Trans& trans : b.get_transition()) {
		result.add_transition(
			trans.vertex_from + a_vertex_cnt,
			trans.vertex_to + a_vertex_cnt,
			trans.trans_symbol);
	}
	return result;
}

//re: a*
NFA kleene(NFA a) {
	int a_vertex_cnt = a.get_vertex_count();
	NFA result(
		a_vertex_cnt + 2, {
			Trans(0,1,EPSILON),
			Trans(a_vertex_cnt,1,EPSILON),
			Trans(a_vertex_cnt,a_vertex_cnt + 1,EPSILON),
			Trans(0,a_vertex_cnt + 1,EPSILON)
		},
		{ a_vertex_cnt + 1 }
	);

	for (const Trans& trans : a.get_transition()) {
		result.add_transition(trans.vertex_from + 1, trans.vertex_to + 1, trans.trans_symbol);
	}

	return result;
}

//re: a|b
NFA or_selection(NFA a, NFA b) {
	int a_vertex_cnt = a.get_vertex_count();
	int b_vertex_cnt = b.get_vertex_count();

	NFA result(
		a_vertex_cnt + b_vertex_cnt + 2, {
			Trans(0,1,EPSILON),
			Trans(0,a_vertex_cnt + 1,EPSILON),
			Trans(a_vertex_cnt,a_vertex_cnt + b_vertex_cnt + 1,EPSILON),
			Trans(a_vertex_cnt + b_vertex_cnt,a_vertex_cnt + b_vertex_cnt + 1,EPSILON)
		},
		{ a_vertex_cnt + b_vertex_cnt + 1 }
	);

	for (const Trans& trans : a.get_transition()) {
		result.add_transition(trans.vertex_from + 1, trans.vertex_to + 1, trans.trans_symbol);
	}

	for (const Trans& trans : b.get_transition()) {
		result.add_transition(trans.vertex_from + a_vertex_cnt + 1, trans.vertex_to + a_vertex_cnt + 1, trans.trans_symbol);
	}

	return result;
}


int level(const char& op) {
	if (op == '#') {
		return 0;
	}
	else if (op == '(' || op == ')') {
		return 1;
	}
	else if (op == '|') {
		return 2;
	}
	//.
	return 3;
}


/**
 * compare right operator with left operator
 * @param left_operator left operator
 * @param right_operator right operator
 * @return right operator>left operator return 1，= return 0，< -1
 */
int cmp(const char& left_operator, const char& right_operator) {
	if (left_operator == '(' && right_operator == ')') {
		return 0;
	}
	else if (right_operator == '(') {
		return 1;
	}
	if (level(left_operator) < level(right_operator)) {
		return 1;
	}
	return -1;
}


bool is_operator(const char& op) {
	return op == '|' || op == '.' || op == '*' || op == '(' || op == ')';
}

NFA calculate(const NFA& left_operand, const NFA& right_operand, const char& op) {
	if (op == '|') {
		return or_selection(left_operand, right_operand);
	}
	return concat(left_operand, right_operand);
}


//McNaughton–Yamada–Thompson algorithm
NFA re2nfa(const std::string& expression) {
	std::stack<NFA> operands;
	std::stack<char> operators;
	operators.push('#');

	for (std::string::const_iterator it = expression.begin(); it != expression.end(); ++it) {
		while (it != expression.end() && isspace(*it)) {
			++it;
		}
		if (it == expression.end()) {
			break;
		}
		char right_op = *it;
		if (is_operator(right_op)) {
			if (right_op == '*') {
				NFA temp = operands.top();
				operands.pop();
				operands.push(kleene(temp));
			}
			else {
				char left_op = operators.top();
				int cmp_result = cmp(left_op, right_op);
				//left_op >= right_op
				while (cmp_result != 1) {
					//left_op=='(' && right_op== ')'
					if (cmp_result == 0) {
						operators.pop();
						break;
					}
					else {
						NFA right_nfa = operands.top();
						operands.pop();
						NFA left_nfa = operands.top();
						operands.pop();
						operands.push(calculate(left_nfa, right_nfa, left_op));

						operators.pop();
						left_op = operators.top();
						cmp_result = cmp(left_op, right_op);
					}
				}
				if (right_op != ')') {
					operators.push(right_op);
				}
			}
		}
		else {
			operands.push(NFA(2, { Trans(0,1,*it) }, { 1 }));
		}
	}
	char op = operators.top();
	while (op != '#') {
		operators.pop();
		NFA right_nfa = operands.top();
		operands.pop();
		if (op == '*') {
			operands.push(kleene(right_nfa));
		}
		else {
			NFA left_nfa = operands.top();
			operands.pop();
			operands.push(calculate(left_nfa, right_nfa, op));
		}
		op = operators.top();
	}
	return operands.top();
}

NFA转DFA

子集构造法(subset construction)
输入: $NFA\ N=\left(Q,\Sigma,\delta,q_0,F\right)$
输出: $DFA\ D=\left(Q',\Sigma,\delta',q_0',F'\right)$
其中 $Q'=\mathcal{P}\left(Q\right),q_0'=\epsilon-closure\left(q_0\right),F'=\left\{q'\in Q'|q'\cap F\neq \empty\right\}$

方法: 我们的算法为 $D$ 构造一个转换表 $D t r a n$ 。 $D$ 的每一个状态时一个 $N F A$ 状态的集合，
我们将构造 $D t r a n$ ，使得 $D$ 能够并行地模拟 $N$ 在遇到一个给定串时可能执行的所有动作。

定义如下操作

操作	描述
$\epsilon-closure\left(s\right)$	能够从 $N F A$ 的状态 $s$ 开始只通过 $\epsilon$ 转换到达的 $N F A$ 状态合集
$\epsilon-closure\left(T\right)$	能够从 $T$ 中某个 $N F A$ 的状态 $s$ 开始只通过 $\epsilon$ 转换道道的NFA状态集合，即 $\bigcup\limits_{s\in T}\epsilon-closure\left(s\right)$
$move\left(T,a\right)$	能够从 $T$ 中某个状态 $s$ 出发通过标号为a的转换到达的 $N F A$ 状态的集合

我们必须找到当 $N$ 读入某个输入串之后可能位于的所有状态集合。

1）首先读入第一个输入符号之前，N可以位于集合 $\epsilon-closure\left(s_0\right)$ 中的任何状态上，其中 $s_0$ 时 $N$ 的开始状态
2）下面进行归纳，假定 $N$ 在读入输入串 $x$ 之后，可以位于集合 $T$ 中的状态上。
如果下一个输入符号是 $a$ ，那么 $N$ 可以立即移动到集合 $move\left(T,a\right)$ 中的任何状态。
然而， $N$ 可以在读入 $a$ 后，再执行几个 $\epsilon$ 转换，因此 $N$ 在读入 $x a$ 后可能位于 $\epsilon-closure\left(move\left(T,a\right)\right)$ 中的任何状态上

子集构造法伪代码如下

Dstates={epsilon-closure(s_0)}; //epsilon-closure(s_0) is unmarked
for(T in Dstates){
    mark T;
    for(a in Sigma){//Sigma is the input alphabet
    	U=epsilon-closure(move(T,a));
    	if(U not in Dstates){
    		Dstates.add(U);//U is unmarked
    	}
    	Dtran[T,a]=U;
    }
}

$\epsilon-closure\left(T\right)$ 伪代码如下

//push all states in T to the stack
for(t in T){
	statck.push(t);
}

epsilon-closure(T)=T;
while(!stack.empty()){
	t = stack.top();
	stack.pop();
	for((t,epsilon,u) in delta){ //t can move to u by epsilon
		if(u not in epsilon-closure(T)){
			epsilon-clousre(T).add(u);
			stack.push(u);
	}
}

最终构造的转换表

最后，DFA所代表的状态集合，包含原来NFA的终态的，作为DFA的终态

有效性证明

$NFA\ N=\left(Q,\Sigma,\delta,q_0,F\right)$
$DFA\ D=\left(Q',\Sigma,\delta',q_0',F'\right)$
其中 $Q'=\mathcal{P}\left(Q\right),q_0'=\epsilon-closure\left(q_0\right),F'=\left\{q'\in Q'|q'\cap F\neq \empty\right\}$

假设 $w\in \Sigma^*$ ,我们要证明 $w\in L(N)\Leftrightarrow L(N)$

实际上可以证明，假设 $q,p\in Q$ ，
$N$ 中存在从 $q$ 到 $p$ 的路径表示 $w$ ，当且仅当 $D$ 中存在从 $\epsilon-closure(q)$ 到P的路径表示 $w$ ( $p\in P$ )

证明：
用数学归纳法，
当 $w=\epsilon$ 时， $D$ 只能直接接受 $\epsilon$ ,即 $P=\epsilon-closure(q)$
而 $N$ ，路径只能包含 $\epsilon$ ，即 $p\in\epsilon-closure(q)=P$

假设 $\left|w\right|\le k$ 时成立（字符串 $w$ 长度小于等于 $k$ ）

当 $\left|w\right|=k+1$ 时，设 $w=va,\left|v\right|=k$ ,且 $v\in \Sigma^*,a\in\Sigma$

如图
假设 $N$ 中存在从 $q$ 到 $p$ 的路径表示 $w$
这条路径可以表示为， $q$ 存在路径表示 $v$ ，到达 $r_1$ ，经过 $a$ ，到达 $r_2$ ，再经过 $\epsilon^*$ 到达 $p$
那么由归纳， $P$ 中存在从 $E (q)$ 到 $R$ 表示 $v$ 的路径
$r_2\in move(R,a),p \in \epsilon-closure\left(move(R,a)\right)$ ，令 $P=\epsilon-closure\left(move(R,a)\right)$ ,就可以表示 $w$ 了

假设 $D$ 中存在从 $\epsilon-closure(q)$ 到P的路径表示 $w$ ，同样的 $N$ 中存在从 $q$ 到 $p$ 的路径表示 $w$

代码

NFA.h
与上面不同的是，多了 $\epsilon-closure(T),move(T,a)$
还写了个find_traverse_symbols，因为我没有定义 $\Sigma$ ,所以需要找到所有的边上的字符

#pragma once
#include"Trans.h"
#include
#include
#include
#include
class NFA {
public:
	//0 is the only start state
	int vertex_cnt;//Q
	std::vector<Trans> transitions;//delta,transition graph
	std::unordered_set<int> final_states;//F

	NFA(int vertex_cnt = 0) :vertex_cnt(vertex_cnt) {}
	NFA(int vertex_cnt, const std::vector<Trans>& transitions, const std::unordered_set<int>& final_states) :
		vertex_cnt(vertex_cnt), transitions(transitions), final_states(final_states) {}
	int get_vertex_count()const {
		return vertex_cnt;
	}

	void set_vertex_cnt(int vertex_cnt) {
		this->vertex_cnt = vertex_cnt;
	}

	std::vector<Trans> get_transition()const {
		return transitions;
	}

	void add_transition(int vertex_from, int vertex_to, char trans_symbol) {
		transitions.emplace_back(vertex_from, vertex_to, trans_symbol);
	}

	std::unordered_set<int> get_final_states()const {
		return final_states;
	}

	void add_final_state(int state) {
		final_states.insert(state);
	}

	void clear() {
		vertex_cnt = 0;
		transitions.clear();
		final_states.clear();
	}
	
	void display()const {
		printf("-------------------------\n");
		for (Trans temp : transitions) {
			printf("q_%d -> q_%d: %c\n", temp.vertex_from, temp.vertex_to, temp.trans_symbol);
		}
		printf("\n");
		printf("\n");
		printf("final_states: ");
		for (int f : final_states) {
			printf("%d ", f);
		}
		printf("\n");
		printf("-------------------------\n");
		
	}

	std::unordered_set<int> epsilon_closure(const std::unordered_set<int>& T)const {
		std::stack<int> st;
		for (const int& state : T) {
			st.push(state);
		}

		std::unordered_set<int> closure = T;
		while (!st.empty()) {
			int t = st.top();
			st.pop();
			for (const Trans& trans : transitions) {
				if (trans.trans_symbol == EPSILON && 
					closure.find(trans.vertex_from) != closure.end() &&
					closure.find(trans.vertex_to) == closure.end()) {

					closure.insert(trans.vertex_to);
					st.push(trans.vertex_to);
				}
			}
		}

		return closure;
	}

	std::unordered_set<int> move_symbol(const std::unordered_set<int>& T, const char& symbol)const {
		std::unordered_set<int> result;
		for (const int& state : T) {
			for (const Trans& trans : transitions) {
				if (trans.vertex_from == state && trans.trans_symbol == symbol) {
					result.insert(trans.vertex_to);
				}
			}
		}

		return result;
	}

	//u in states, (u,symbol,t) in transition, result={all symbol}
	std::unordered_set<char> find_traverse_symbols(const std::unordered_set<int>& states)const {
		std::unordered_set<char> result;
		for (const int& state : states) {
			for (const Trans& trans : transitions) {
				if (trans.vertex_from == state && trans.trans_symbol != EPSILON) {
					result.insert(trans.trans_symbol);
				}
			}
		}

		return result;
	}
};

DFA.h
这里的转换函数，用的是邻接表
起始状态也是0

#pragma once
#include
#include
#include
#include
class DFA {
public:
	//0 is the only start state
	int vertex_cnt;//Q
	std::vector<std::unordered_map<char, int> > transitions;//delta,transition graph
	std::unordered_set<int> final_states;//F
	DFA(int vertex_cnt = 0) :vertex_cnt(vertex_cnt) {}
	DFA(int vertex_cnt, const std::vector<std::unordered_map<char, int> >& transitions, const std::unordered_set<int>& final_states) :
		vertex_cnt(vertex_cnt), transitions(transitions), final_states(final_states) {}

	int get_vertex_cnt()const {
		return vertex_cnt;
	}

	std::vector<std::unordered_map<char, int> > get_transitions()const {
		return transitions;
	}

	std::unordered_set<int> get_final_states()const {
		return final_states;
	}

	void display()const {
		printf("-------------------------\n");
		for (int i = 0; i < transitions.size(); ++i) {
			for (const auto& temp : transitions[i]) {
				printf("q_%d -> q_%d: %c\n", i, temp.second, temp.first);
			}
		}
		printf("\n");
		printf("\n");
		printf("final_states: ");
		for (int f : final_states) {
			printf("%d ", f);
		}
		printf("\n");
		printf("-------------------------\n");
	}
};

NFA2DFA.h

#pragma once
#include
#include
#include
#include
#include"Trans.h"
#include"NFA.h"
#include"DFA.h"

//subset construction
DFA nfa2dfa(const NFA& nfa) {
	std::vector<std::unordered_set<int> > idx2state;
	std::vector<std::unordered_map<char, int> > transitions;
	
	std::queue<int> q;
	q.push(0);
	idx2state.push_back(nfa.epsilon_closure({ 0 }));
	transitions.emplace_back(std::unordered_map<char, int>());

	while (!q.empty()) {
		int cur = q.front();
		q.pop();
		//for(a in Sigma)
		for (const char& symbol : nfa.find_traverse_symbols(idx2state[cur])) {
			std::unordered_set<int> temp = nfa.epsilon_closure(nfa.move_symbol(idx2state[cur], symbol));
			int i = 0;
			while (i < idx2state.size()) {
				if (idx2state[i] == temp) {
					break;
				}
				++i;
			}
			//mark unseen state
			if (i == idx2state.size()) {
				q.push(i);
				idx2state.emplace_back(temp);
				transitions.emplace_back(std::unordered_map<char, int>());
			}
			transitions[cur][symbol] = i;

		}
	}
	std::unordered_set<int> F = nfa.get_final_states();
	std::unordered_set<int> final_states;
	for (int i = 0; i < idx2state.size(); ++i) {
		for (const int& state : idx2state[i]) {
			//set which contains final is a final set
			if (F.find(state) != F.end()) {
				final_states.insert(i);
				break;
			}
		}
	}
	return DFA(transitions.size(), transitions, final_states);
}

NFA转正则表达式

Kleene’s algorithm
GNFA：与NFA类似，但是边是正则表达式

第一步：创建一个唯一的开始状态和接受状态
开始状态用 $\epsilon$ 连接原来的开始状态
所有接受状态用 $\epsilon$ 连接新的接受状态

第二步：依次消除非初始状态和非接受状态

假设消除 $S_2$
$S_0,S_1$ 到 $S_2$ 有边
且 $S_2$ 到 $S_3,S_4$ 有边
则产生4条边 $S_0\to S_3$ , $S_0\to S_4$ , $S_1\to S_3$ , $S_1\to S_4$ ,边上的正则表达式为原来的边的连接

如果一个状态有2条边到另一个状态，则合并

最后产生

最复杂的情况之一

代码

NFA2RE.h

#pragma once
#include
#include
#include
#include
#include"Trans.h"
#include"NFA.h"

void merge_edge(std::unordered_map<int, std::string>& edges, int u, const std::string& re) {
	if (edges.find(u) == edges.end() || edges[u].empty()) {
		edges[u] = re;
	}
	else {
		edges[u] = "(" + edges[u] + ")|(" + re + ")";
	}
}

std::string merge_string(const std::string& left, const std::string& right) {
	std::string result = left;
	if (left.empty() || left == "$") {
		result = right;
	}
	else if (!right.empty() && right != "$") {
		result = "(" + result + ").(" + right + ")";
	}

	return result;
}

std::string merge_string(const std::vector<std::string>& strs) {
	std::string result;
	for (const std::string& s : strs) {
		result = merge_string(result, s);
	}
	return result;
}

void remove_states(std::vector<std::unordered_map<int, std::string> >& edges) {
	int cnt = edges.size();

	//remove states except the start and final
	for (int i = 1; i + 1 < cnt; ++i) {//remove i
		std::string mid;
		if (edges[i].find(i) != edges[i].end()) {
			mid = "(" + edges[i][i] + ")*";
		}
		edges[i].erase(i);

		for (int j = 0; j < cnt; ++j) {
			if (0 < j && j <= i) {
				continue;
			}
			//j->i
			if (edges[j].find(i) != edges[j].end()) {
				std::string left = edges[j][i];
				edges[j].erase(i);
				//j->i->k
				for (const auto& p : edges[i]) {
					//j.i*.k
					merge_edge(edges[j], p.first, merge_string({ left, mid, p.second }));
				}
			}
		}
	}
}

std::string nfa2re(const NFA& nfa) {
	int cnt = nfa.get_vertex_count()+2;
	std::vector<std::unordered_map<int, std::string> > edges(cnt);
	edges[0][1] = std::string(1, EPSILON);
	for (const Trans& trans : nfa.get_transition()) {
		merge_edge(edges[trans.vertex_from + 1], trans.vertex_to + 1, std::string(1, trans.trans_symbol));
	}

	for (const int& state : nfa.get_final_states()) {
		edges[state + 1][cnt - 1] = std::string(1, EPSILON);
	}

	//remove states except the start and final
	remove_states(edges);

	return edges[0][cnt - 1];
}

DFA2RE.h

#pragma once
#include
#include
#include
#include
#include"NFA2RE.h"
#include"DFA.h"

std::string dfa2re(const DFA& dfa) {
	int cnt = dfa.get_vertex_cnt() + 2;
	std::vector<std::unordered_map<char, int> > transitions = dfa.get_transitions();
	std::vector<std::unordered_map<int, std::string> > edges(cnt);
	edges[0][1] = std::string(1, EPSILON);
	for (int u = 0; u < transitions.size(); ++u) {
		for (const auto& p : transitions[u]) {
			merge_edge(edges[u + 1], p.second + 1, std::string(1, p.first));
		}
		
	}

	for (const int& state : dfa.get_final_states()) {
		edges[state + 1][cnt - 1] = std::string(1, EPSILON);
	}

	//remove states except the start and final
	remove_states(edges);

	return edges[0][cnt - 1];
}

Kleene’s Theorem

正则语言等价于可以被有限状态自动机接受

证明：
正则语言转有限状态自动机：McNaughton–Yamada–Thompson algorithm算法
有限状态自动机转正则语言：Kleene’s algorithm

Myhill–Nerode theorem

可区分字符串

设 $L$ 是一个语言 $x,y\in \Sigma^*$
如果 $\exists z$ 使得 $xz\in L,yz\notin L$ ,则称 $x, y$ 在 $L$ 上可区分(distinguishable to L)

引理1

设 $L$ 是一个语言， $DFA\ M$ 可以识别 $L$ ， $x,y\in \Sigma^*$ 在L上可区分
则 $M$ 输入 $x$ 到达的状态和输入 $y$ 到达的状态不同

证明：
假设 $x, y$ 到达的状态一样
则输入 $x z, y z$ 到达的状态也一样，
即 $xz\in L$ 且 $\in L$ 或者 $\notin L$ 且 $yz\notin L$ ，与 $x, y$ 在 $L$ 上可区分矛盾

可区分字符串集合

可区分字符串集合（Distinguishing Set of Strings）
设 $L$ 是一个语言， $S=\left\{x_1,\cdots,x_k\right\}$
如果 $\forall x_i,x_j\in S, x_i\neq x_j$ ,则 $S$ 是L上的可区分字符串集合

引理2

设 $L\subseteq \Sigma^*$ 是任意语言， $S$ 是 $L$ 上的可区分字符串集合
则识别 $L$ 的 $D F A$ 至少有 $\left|S\right|$ 个状态

证明：
设 $S=\left\{x_1,\cdots,x_k\right\}$
根据Kleene’s Theorem，对于非正则语言，不存在有限自动机识别，即状态数是无限的

如果 $L$ 是正则语言，设 $DFA\ M$ 可以识别 $L$
$\forall i\neq j$ , $x_i,x_j$ 是可区分的，则根据引理1，输入 $M$ ，他们将到达不同状态，也就是说至少有 $\left|S\right|$ 个状态

定义： $\approx_L$ , 如果 $x, y$ 在 $L$ 上不可区分，则 $\approx_{L} y$ ,容易验证这是一个等价关系
有了等价关系就可以划分等价类，记为 $\left[x\right]$
引理2也可以写作识别正则语言 $L$ 的 $D F A$ 的状态数至少为等价类的数量

定理

$L$ 是正则语言当且仅当 $L$ 有有限个根据 $\approx_L$ 划分等价类，并且 $L$ 可以被DFA识别，这个DFA的状态数为等价类的数量

证明：
现在要定义一个 $DFA\ M$ 识别 $L$ ，并且状态数为等价类的数量
显然起始状态为 $\left[\epsilon\right]$ ,接受状态为 $\left[x\right](x\in L)$
设 $a\in\Sigma$ ，定义 $\delta\left(\left[x\right],a\right)=\left[xa\right]$ ，容易验证一个等价类的任意字符串，经过 $a$ ，会到达相同的状态
根据数学归纳法，容易验证 $M$ 可以识别 $L$

举个例子
$\left(a|b\right)^*bbb\left(a|b\right)$ ,可以划分为4个等价类 $[\epsilon],[b],[bb],[bbb]$

另一个例子
$L=\left\{0^n 1^n|n\ge0\right\}$ 不是正规语言，因为可以划分等价类 $[0],[00],\cdots$ ,有无穷个等价类，所以不是正则语言
（当然也可以用pumping lemma，不过并不是所有非正则语言都可以用pumping lemma验证）

DFA最小化

不可达状态：DFA在任意输入串下都无法到达的状态
等价状态/不可分状态(indistinguishable)：同一输入串下不产生区别的状态

消除不可达状态

其实就是根据 $\Sigma$ 执行bfs

合并等价状态

Hopcroft算法

输入： 一个 $DFA\ D$ ,其状态集合为 $S$ ，输入字母表为 $\Sigma$ ，开始状态为 $s_0$ ，接受状态集为 $F$
输出： 一个 $DFA\ D'$ ,它和 $D$ 接受相同的语言，且状态最少
方法：
1）首先构造包含两个组 $F$ 和 $S - F$ 的初始划分 $\Pi$ ，这两个组分别是 $D$ 的接受状态组和非接受状态组
2）

3）如果 $\Pi_{new}=\Pi$ ，令 $\Pi_{final}=\Pi$ 并接着执行步骤4；否则，用 $\Pi_{new}$ 替换 $\Pi$ 并重复步骤2
4）在分划 $\Pi_{final}$ 的每个组中选取一个状态作为该组的代表，这些代表构成 $D^{'}$ 的状态
a) $D^{'}$ 的开始状态是包含了 $D$ 的开始状态的组的代表
b) $D^{'}$ 的接受状态是那些包含了 $D$ 的接受状态的组的代表
c)令 $s$ 是 $\Pi_{final}$ 中某个组 $G$ 的代表，并令 $DFA\ D$ 中在输入 $a$ 上离开 $s$ 的转换到达状态 $t$ 。
令 $r$ 为 $t$ 所在组 $H$ 的代表。那么在 $D^{'}$ 中存在一个从 $s$ 到 $r$ 在输入 $a$ 上的转换。

（其实4就是把原来的边拼上去而已）

伪代码

最小化DFA唯一证明

假设所有的状态都可以到达
设最小化 $DFA\ A=\left(Q_{A},\Sigma,\delta_A,q_{0,A},F_A\right)$
以及最小化 $DFA\ B=\left(Q_{B},\Sigma,\delta_B,q_{0,B},F_B\right)$

由最小化， $\left|Q_A\right|=\left|Q_B\right|=k$

$S=\left\{x_1,x_2,\cdots,x_k\right\}$ 是 $L$ 上的可区分字符串集合
显然 $\delta\left(q_{0,A},x_1\right)\neq \delta\left(q_{0,A},x_2\right)$
设 $q_A=\delta\left(q_{0,A},x_1\right),q_{B}=\delta\left(q_{0,B},x_1\right)$
即 $Q_A$ 和 $Q_B$ 内的状态可以一一对应

$q_A=\delta\left(q_{1,A},x_1\right),q_{B}=\delta\left(q_{1,B},x_1\right)$ 也应该一一对应（即边也是一样的
所以 $A = B$

代码

DFAMinimal.h

#pragma once
#include
#include
#include
#include
#include
#include
#include"DFA.h"

//bfs
DFA remove_unreachable_state(const DFA& dfa, const std::vector<char>& symbols) {
	std::queue<int> q;
	q.push(0);
	std::unordered_set<int> reachable_state = { 0 };
	int vertex_cnt = dfa.get_vertex_cnt();
	std::vector<std::unordered_map<char, int> > transitions = dfa.get_transitions();
	std::unordered_set<int> final_states = dfa.get_final_states();
	while (!q.empty()) {
		int cur = q.front();
		q.pop();
		std::unordered_map<char, int> temp = transitions[cur];
		//traverse symbols (Sigma)
		for (const char& c : symbols) {
			if (temp.find(c) != temp.end()) {
				int state = temp[c];
				if (reachable_state.find(state) == reachable_state.end()) {
					q.push(state);
					reachable_state.insert(state);
				}
			}
		}
		
	}

	std::vector<int> idx2state(vertex_cnt);
	std::vector<std::unordered_map<char, int> > new_transitions;
	std::unordered_set<int> new_final_states;
	int cnt = 0;
	//relabel and find new final states
	for (int i = 0; i < vertex_cnt; ++i) {
		if (reachable_state.find(i) != reachable_state.end()) {
			idx2state[i] = cnt;
			if (final_states.find(i) != final_states.end()) {
				new_final_states.insert(cnt);
			}
			++cnt;
		}
	}

	for (int i = 0; i < vertex_cnt; ++i) {
		if (reachable_state.find(i) != reachable_state.end()) {
			std::unordered_map<char, int> temp;
			for (const auto& transition : transitions[i]) {
				if (reachable_state.find(transition.second) != reachable_state.end()) {
					temp[transition.first] = idx2state[transition.second];
				}
			}
			new_transitions.push_back(temp);
		}
	}
	return DFA(cnt, new_transitions, new_final_states);
}

DFA hopcroft(const DFA& dfa, const std::vector<char>& symbols) {
	int vertex_cnt = dfa.get_vertex_cnt();
	std::vector<std::unordered_map<char, int> > transitions = dfa.get_transitions();
	std::unordered_set<int> final_states = dfa.get_final_states();

	std::unordered_set<int> start_states;
	for (int i = 0; i < vertex_cnt; ++i) {
		if (final_states.find(i) == final_states.end()) {
			start_states.insert(i);
		}
	}

	std::vector<std::unordered_set<int> > partition = { start_states,final_states };//Q'
	std::vector<std::unordered_set<int> > work_list = { final_states };//W
	while (!work_list.empty()) {
		std::unordered_set<int> q_prime = work_list.back();
		work_list.pop_back();

		for (const char& symbol : symbols) {
			std::unordered_set<int> x;//predecessor
			for (int i = 0; i < vertex_cnt; ++i) {
				if (transitions[i].find(symbol) != transitions[i].end()&&
					q_prime.find(transitions[i][symbol]) != q_prime.end()) {
					x.insert(i);
				}
			}

			if (!x.empty()) {
				std::vector<std::unordered_set<int> > temp;
				for (const auto& y : partition) {
					std::unordered_set<int> y_cap_x;//y cap x
					std::unordered_set<int> y_diff_x;//y-x
					//split
					for (const int& state : y) {
						if (x.find(state) != x.end()) {
							y_cap_x.insert(state);
						}
						else {
							y_diff_x.insert(state);
						}
					}

					if (!y_cap_x.empty() && !y_diff_x.empty()) {
						temp.push_back(y_cap_x);
						temp.push_back(y_diff_x);

						auto it = std::find(work_list.begin(), work_list.end(), y);
						if (it != work_list.end()) {
							work_list.erase(it);
							work_list.push_back(y_cap_x);
							work_list.push_back(y_diff_x);
						}
						else if (y_cap_x.size() < y_diff_x.size()) {
							work_list.push_back(y_cap_x);
						}
						else {
							work_list.push_back(y_diff_x);
						}
					}
					else {
						//indistinguish, don't split y
						temp.push_back(y);
					}
				}
				partition = temp;
			}
		}

	}

	int cnt = partition.size();
	//let the partition which contains 0 also be 0 in the new dfa
	for (int i = 0; i < cnt; ++i) {
		bool flag = false;
		for (const int& state : partition[i]) {
			if (state == 0) {
				std::swap(partition[i], partition[0]);
				flag = true;
				break;
			}
		}
		if (flag) {
			break;
		}
	}

	std::vector<std::unordered_map<char, int> > new_transitions(cnt);
	std::unordered_set<int> new_final_states;
	std::vector<int> idx2state(vertex_cnt);
	
	//relabel and find new final states
	for (int i = 0; i < cnt; ++i) {
		for (const int& state : partition[i]) {
			idx2state[state] = i;
			if (final_states.find(state) != final_states.end()) {
				new_final_states.insert(i);
			}

		}
	}

	for (int i = 0; i < transitions.size(); ++i) {
		for (const auto& p : transitions[i]) {
			new_transitions[idx2state[i]][p.first] = idx2state[p.second];
		}
	}

	return DFA(cnt, new_transitions, new_final_states);
}

完整代码

https://github.com/Nightmare4214/re_nfa_dfa

参考
https://en.wikipedia.org/wiki/Regular_language
http://cgosorio.es/Seshat/thompsonForm
https://courses.cs.washington.edu/courses/cse322/01sp/subset.pdf
https://gist.github.com/fonlang/f712e1463bf276b389e27164b60bd023
https://www.omegaxyz.com/2019/02/01/hopcroft-min-dfa/
https://en.wikipedia.org/wiki/DFA_minimization
https://codeantenna.com/a/36ziXkYcjM

https://people.csail.mit.edu/rrw/6.045-2019/notemindfa.pdf
https://cse.sc.edu/~fenner/csce551/minimization.pdf
https://neuraldump.net/2017/11/proof-of-kleenes-theorem/
https://en.wikipedia.org/wiki/Kleene%27s_algorithm
https://inside.mines.edu/~ndantam/csci-561/L11-min-prelecture.pdf

你可能感兴趣的:(数据结构与算法,编译原理,dfa,nfa,正则语言)

对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
C语言中的结构体大小计算与字节对齐人才程序员 C语言系列课程 c语言 java linux 开发语言后端软件工程软件构建
文章目录C语言中的结构体大小计算与字节对齐1.结构体字节对齐的原理1.1什么是字节对齐？1.2字节对齐的影响1.3对齐方式2.结构体大小的计算2.1默认字节对齐规则解释：可能的内存布局：2.2结构体的对齐与大小3.控制字节对齐：`#pragmapack`3.1使用`#pragmapack`设置字节对齐3.2示例：使用`#pragmapack`来控制对齐注意：3.3恢复默认对齐4.总结C语言中的结构
妈妈教的数学蛋卷426
学习心得听见数学我就头疼，可是听完课立马对数学有了兴趣，哈，神奇？人天生是爱学习的，天生具有好奇心？对于孩子，做好数学启萌很重要，用正确的方法让孩子爱上学习，同时不要害怕孩子出错，犯错是教育孩子最好的机会，我们要发现孩子出现问题的根本原因，是不是看不懂题目？语言理解的不对？还是这个知识点不懂，没学会？听完能拿来就用的方法，扳指头学习乘法表，今天就找来学习，教给孩子……又油然而生一种与孩子共成长的感
【时时三省】(C语言基础)字符指针作函数参数时时三省【理论+经验】c语言入门 c语言基础知识点 c语言
山不在高，有仙则名。水不在深，有龙则灵。----CSDN时时三省如果想把一个字符串从一个函数“传递”到另一个函数，可以用地址传递的办法，即用字符数组名作参数，也可以用字符指针变量作参数。在被调用的函数中可以改变字符串的内容，在主调函数中可以引用改变后的字符串。例题1用函数调用实现字符串的复制。解题思路：定义一个函数copy_string用来实现字符串复制的功能，在主函数中调用此函数，函数的形参和实
【时时三省】unity test 测试框架介绍（适用于C语言进行测试的）时时三省 unity 游戏引擎
山不在高，有仙则名。水不在深，有龙则灵。----CSDN时时三省目录1，关于unitytest测试框架的介绍2，测试框架关于源码的介绍3，使用unitytest测试C代码4，常用断言举例1，关于unitytest测试框架的介绍unitytest是ThrowTheSwitch.org的一个主要工程。它是专注于为嵌入式工具链而生的C语言单元测试框架。它可以适用于大工程或者小工程都可以。它的核心文件是一
电科金仓AI数据库一体机发布：30%性能提升+自然语言运维，重塑数据底座！ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>百万级并发处理与聊天式数据库运维，正在中国企业机房掀起静默革命。“替换数据库是一件非常困难的事。”电科金仓总裁杜胜在7月15日北京发布会现场坦言。过去20多年里，国外数据库建立的标准让应用软件与数据库深度耦合，迁移复杂度高、改造成本大、停机风险难控。随着他身后大屏幕亮起**“数据库平替用金仓”**的全新口号，电科金仓正式向这一行业痛点宣战。这场名为“融合进化智领未来”的发布会，最耀眼的明星是**
读出关爱感-积极阅读记录2021-07-16 陪娃走过四年级
最近，我们的睡前有声阅读，读的是《亲爱的，汉修先生》。主人公刚好是个小学的男生。家里经济条件一般，父母离异，男孩成长过程中拥有的那些有趣的事情、浅浅的人生感悟都给我们很多启发。孩子更喜欢的是书里那些符合他们年龄的心理描述和风趣语言，同时那些人生观也潜移默化的对他发生着影响。这本书我们已经共读第三遍了。看到孩子这么感兴趣，我特别有感触。现在孩子们的书都多得不得了，这本还没沉淀一下已经有十本在后面等着
SIMATIC Step 7授权书的含义与应用
本文还有配套的精品资源，点击获取简介：Step7是西门子用于PLC编程的专业软件，适用于多种控制器系列，如S7-300/400和S7-1200/1500。授权书是用户合法使用该软件的证明，包含序列号或激活码，确保合法下载、安装和更新。它支持多种编程语言，符合IEC61131-3标准，并与多种自动化组件集成。此外，Step7V5.4版本可能表示软件的某个特定版本，包含新特性和性能优化。用户可以通过授
【AI论文】EmbRACE-3K: 复杂环境中的具身推理与行为研究
摘要：近期先进的视觉语言模型（Vision-LanguageModels，VLMs）在被动、离线的图像和视频理解任务中展现出了卓越的性能。然而，在具身场景中，这些模型的有效性仍较为有限。具身场景要求在线交互和主动的场景理解，在此类场景中，智能体以第一人称视角感知环境，且每一次动作都会动态地影响后续的观察结果。即便是像GPT-4o、Claude3.5Sonnet和Gemini2.5Pro这样的先进模
6、LangChain —— 使用 Huggingface 中的开源模型 Miyazaki_Hayao LangChain 实战 langchain
文章目录一、概述二、大语言模型发展史三、预训练+微调的模式四、用HuggingFace跑开源模型五、申请使用Meta的Llama2模型六、通过HuggingFace调用Llama七、LangChain和HuggingFace的接口1、通过HuggingFaceHub2、通过HuggingFacePipeline八、用LangChain调用自定义语言模型一、概述大语言模型，不止ChatGPT一种。
迈向大型推理模型：基于大型语言模型的强化推理综述（附教程） LLM大模型人工智能自然语言处理知识库本地化部署吴恩达大模型 RAG
语言长期以来被认为是人类推理的基本工具。大型语言模型（LLM）的突破激发了大量研究兴趣，推动了利用这些模型解决复杂推理任务的探索。研究人员通过引入“思维”这一概念——即一系列代表推理过程中的中间步骤的标记——超越了简单的自回归标记生成。这一创新范式使LLMs能够模仿复杂的人类推理过程，如树搜索和反思性思维。近年来，学习推理的趋势逐渐兴起，强化学习（RL）被应用于训练LLMs掌握推理过程。这种方法通
使用Python调用Hugging Face Question Answering (问答)模型墨如夜色 python easyui 开发语言 Python
使用Python调用HuggingFaceQuestionAnswering(问答)模型在自然语言处理领域，问答系统是一种能够回答用户提出的问题的智能系统。HuggingFace是一个知名的开源软件库，提供了许多强大的自然语言处理工具和模型。其中，HuggingFace的QuestionAnswering模型可以帮助我们构建问答系统，使得我们能够从给定的文本中提取答案。本文将介绍如何使用Pytho
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
MacOS上安装Homebrew的详细教程
MacOS上安装Homebrew的详细教程一、引言Homebrew（通常简称为brew）是一款专门为MacOS操作系统设计的开源包管理器，它提供了一种简单、高效的方式来安装、管理和升级命令行工具、编程语言环境以及各种应用程序。其核心概念和作用如下：简化安装流程：在MacOS中，用户无需手动下载软件源码并配置编译环境，只需通过Homebrew提供的命令即可一键安装软件。Homebrew会自动处理软件
java学习笔记
期末课堂作业,以下内容为2024年上学期java课堂学习笔记202402150705目录[第1章:Java语言概述](#第1章:Java语言概述)[第2章:数据类型与运算符](#第2章:数据类型与运算符)[第3章:控制流程语句](#第3章:控制流程语句)[第4章:数组](#第4章:数组)[第5章:类与对象](#第5章:类与对象)[第6章:封装、继承与多态](#第6章:封装、继承与多态)[第7章:异
【C语言】指针的爱恨纠葛：常量指针vs指向常量的指针 LuckiBit C语言 c语言 java 指针常量指针指向常量的指针嵌入式内存
目录常量指针vs.指向常量的指针1.综合比较2.常量指针(ConstantPointer)2.1定义与语法2.2示例代码2.3解释2.4应用场景2.5注意事项3.指向常量的指针(PointertoConstant)3.1定义与语法3.2示例代码3.3解释3.4应用场景3.5注意事项4.复杂示例4.1常量指针的复杂示例输出结果4.2指向常量的指针的复杂示例输出结果5.实际应用中的最佳实践5.1使用常
〔53〕关于童谣一事结束后花恣飘零
关于童谣表演这个事情，在昨天周一已经结束了，看到班主任老师在群里发的视频，心里还是颇有感触的，其实这件事情不仅是我们做父母的有感触，我觉得作为孩子的他们的，感触应该也更多~李涵放学一回来就说，他们同学表演的真好，并且还会说他们的语言、表情、动作都很好，她说真有意思……从她这点点滴滴的描述中，就可以看出，其实她应该还是很羡慕的~虽然这件事情已经过去了，孩子的心里应该也想了很多，可能他们同学之间也会讨
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
中原焦点团队焦点初级32期梁怡2021年12月26日坚持分享第39天怡_96d8
SFBT来说,开放式问句的运用乃使咨询师更能聚焦在当事人的参照架构之上，并能在回应当事人的关键用字下，试图从当事人身上引出相关细节，而扩大当事人的知觉领域。举例来说,咨询师不会用“是的……但是”(yes...but...)来回应当事人，而会以“是的……而且”(yesand-)的概念来连接当事人与自己语言的关系。更为可贵的是，当咨询师由衷地、好奇地使用开放式问句询问当事人时，咨询师已经将控制权和责任
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
C语言-栈和队列 HanLop 初阶数据结构-C语言 c语言开发语言数据结构算法
文章目录引言栈和队列1.栈1.1栈的概念与结构1.2栈的实现2.队列2.1队列的概念与结构2.2队列的实现结语引言欢迎来到HanLop博客的C语言数据结构初阶系列。在之前的文章中，我们详细介绍了链表及其操作方法。在本篇文章中，我们将深入探讨栈和队列这两种常见的数据结构。栈和队列虽然都是线性数据结构，但它们在数据的存取方式上有着显著的区别。栈是一种后进先出（LIFO,LastInFirstOut）的
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
数据结构（C语言实现）呈羲笔记数据结构 c语言开发语言
一、链表1.链表实现以及在头部插入结点先来一段代码....该代码包含创建链表并在头部插入结点，遍历链表并打印结点数据，接下来逐步分析，简单的基础语法不过多记录....#include#includestructNode{intdata;structNode*next;};structNode*head;voidInsert(intx){Node*temp=(Node*)malloc(sizeof(
Selenium 知识点详解：从基础操作到代码实战壮志凌云不假 selenium python 测试工具
在自动化测试领域，Selenium是一款备受瞩目的工具。一、Selenium简介Selenium是一个用于Web应用程序测试的工具，它支持多种浏览器和编程语言，能模拟用户在浏览器上的各种操作，如点击、输入文本等，从而实现对Web应用的自动化测试，帮助开发者快速发现潜在问题，提高开发效率。二、环境配置要使用Selenium，需先进行环境配置。以Python为例，首先需安装Selenium库，可通过p
Selenium自动化测试实战指南：原理、工具与应用 Compass宁
本文还有配套的精品资源，点击获取简介：Selenium是一个用于Web应用程序自动化测试的开源工具，它通过提供API支持多种编程语言编写脚本，实现浏览器的自动化操作。本实例将详细介绍如何使用Selenium进行自动化测试，包括浏览器驱动的使用方法。学习Selenium可以提高软件测试效率，减少错误，并通过各种实例加深对自动化测试工具的理解。实例包括了如何安装、配置Selenium库和浏览器驱动，以
《不离不弃，品行且珍惜：林徽因传》读书笔记（八）棉麻布衣
《一生挚爱一生等待》“人生若只如初见，何事秋风悲画扇。”可人生又怎能只如初见，如果说初见灿若春花，携手一段漫长人生，便可看秋叶之静美了。喜欢一个人，爱一个人，是一件沉重而长远的事，可能会是一生一世。这要靠行动而非语言。喜欢，或者爱，于用情至深之人，是千钧的重量，一旦化成语言就减轻了分量；是付出，而非索取，一旦索取就不再纯粹。佛把他变成了一棵树，永远等在她必经的路旁。世上再无金岳霖，那份可能称之为“
2023-10-31 喜欢慢生活
语言的重要性经常听人说要口出莲花，说给别人能量可以鼓励到人的话。一段时间不学习就会忘记，昨天女儿很兴奋的和我谈起她们要去秋游。本来女儿是充满期待的。也非常盼望着和小伙伴们有一次开心的旅行。结果自己不知道为什么就和她说了哥哥第一次秋游掉队了。找不到小伙伴和老师。女儿马上对秋游没有了兴趣，内心充满了恐惧。马上都不想去秋游了。所以，以后不论说什么话一定要从心里过一下才好，知道什么话该说什么话不该说。说出
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
3篇5章2节：绘制临床研究中的趋势图与ROC曲线 MD分析用R探索医药数据科学信息可视化 r语言 r语言-4.2.1 数据分析趋势变化图模型性能评估
在医学统计分析与数据科学实践中，趋势图与ROC曲线不仅是可视化的“门面担当”，更是揭示数据背后规律与诊断性能的核心工具。无论是观察血压、血糖等临床指标随时间或干预手段的变化，还是评估模型的判别能力与诊断准确性，一幅设计得当的图表，往往胜过千言万语。本文围绕R语言中两个功能强大的可视化函数展开，深入剖析它们在实际科研中的应用技巧与美化策略。通过案例演示与参数讲解，你将学会如何绘制清晰、美观、信息量丰
【华为OD机试真题 2025B卷】153、端口合并 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题 javascript 端口合并
文章目录一、题目题目描述输入输出样例1样例2样例3二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后