u013250861

NLP-分词器：SentencePiece【参考Chinese-LLaMA-Alpaca在通用中文语料上训练的20K中文词表并与原版LLaMA模型的32K词表进行合并的代码】

背景

随着ChatGPT迅速出圈，最近几个月开源的大模型也是遍地开花。目前，开源的大语言模型主要有三大类：ChatGLM衍生的大模型（wenda、ChatSQL等）、LLaMA衍生的大模型（Alpaca、Vicuna、BELLE、Phoenix、Chimera等）、Bloom衍生的大模型（Bloomz、BELLE、Phoenix等）。其中，ChatGLM-6B主要以中英双语进行训练，LLaMA主要以英语为主要语言的拉丁语系进行训练，而Bloom使用了46种自然语言、13种编程语言进行训练。

模型	训练数据量	模型参数	训练数据范围	词表大小	HF分词器的分词算法	HF分词器（Tokenizer）
LLaMA	1T～1.4T tokens(其中，7B/13B使用1T，33B/65B使用1.4T)	7B～65B	以英语为主要语言的拉丁语系	32000	BBPE	LlamaTokenizer(基于SentencePiece工具实现 )/LlamaTokenizerFast(基于Huggingface底层的BaseTokenizer实现)
ChatGLM-6B	约 1T tokens	6B	中英双语	130528	BBPE	ChatGLMTokenizer(基于SentencePiece工具实现)
Bloom	1.6TB预处理文本，转换为 350B 唯一 tokens	300M~176B	46种自然语言，13种编程语言	250680	BBPE	BloomTokenizerFast(基于Huggingface底层的BaseTokenizer实现)

目前来看，在开源大模型中，LLaMA无疑是其中最闪亮的星。但是，与ChatGLM-6B和Bloom原生支持中文不同。LLaMA 原生仅支持 Latin 或 Cyrillic 语系，对于中文支持不是特别理想。原版LLaMA模型的词表大小是32K，而多语言模型（如：XLM-R、Bloom）的词表大小约为250K。以中文为例，LLaMA词表中的中文token比较少（只有几百个）。这将导致了两个问题：

LLaMA 原生tokenizer词表中仅包含少量中文字符，在对中文字进行tokenzation时，一个中文汉字往往被切分成多个token（2-3个Token才能组合成一个汉字），显著降低编解码的效率。
预训练中没有出现过或者出现得很少的语言学习得不充分。

为了解决这些问题，我们可能就需要进行中文词表扩展。比如：在中文语料库上训练一个中文tokenizer模型，然后将中文 tokenizer 与 LLaMA 原生的 tokenizer 进行合并，通过组合它们的词汇表，最终获得一个合并后的 tokenizer 模型。

本文将介绍使用SentencePiece工具如何使用中文语料训练一个分词模型。

预备知识

讲解 SentencePiece 之前，我们先讲解下分词器（Tokenizer）。

那什么是分词器？简单点说就是将字符序列转化为数字序列，对应模型的输入。

通常情况下，Tokenizer有三种粒度：word/char/subword

word: 按照词进行分词，如: Today is sunday. 则根据空格或标点进行分割[today, is, sunday, .]
character：按照单字符进行分词，就是以char为最小粒度。如：Today is sunday. 则会分割成[t， o， d，a，y， .... ，s，u，n，d，a，y， .]
subword：按照词的subword进行分词。如：Today is sunday. 则会分割成[to， day，is ， s，un，day， .]

可以看到这三种粒度分词截然不同，各有利弊。

对于word粒度分词：

优点：词的边界和含义得到保留；
缺点：1）词表大，稀有词学不好；2）OOV（可能超出词表外的词）；3）无法处理单词形态关系和词缀关系，会将两个本身意思一致的词分成两个毫不相同的ID，在英文中尤为明显，如：cat， cats。

对于character粒度分词：

优点：词表极小，比如：26个英文字母几乎可以组合出所有词，5000多个中文常用字基本也能组合出足够的词汇；
缺点：1）无法承载丰富的语义，英文中尤为明显，但中文却是较为合理，中文中用此种方式较多。2）序列长度大幅增长；

最后为了平衡以上两种方法，又提出了基于 subword 进行分词：它可以较好的平衡词表大小与语义表达能力；常见的子词算法有Byte-Pair Encoding (BPE) / Byte-level BPE（BBPE）、Unigram LM、WordPiece、SentencePiece等。

BPE：即字节对编码。其核心思想是从字母开始，不断找词频最高、且连续的两个token合并，直到达到目标词数。
BBPE：BBPE核心思想将BPE的从字符级别扩展到子节（Byte）级别。BPE的一个问题是如果遇到了unicode编码，基本字符集可能会很大。BBPE就是以一个字节为一种“字符”，不管实际字符集用了几个字节来表示一个字符。这样的话，基础字符集的大小就锁定在了256（2^8）。采用BBPE的好处是可以跨语言共用词表，显著压缩词表的大小。而坏处就是，对于类似中文这样的语言，一段文字的序列长度会显著增长。因此，BBPE based模型可能比BPE based模型表现的更好。然而，BBPE sequence比起BPE来说略长，这也导致了更长的训练/推理时间。BBPE其实与BPE在实现上并无大的不同，只不过基础词表使用256的字节集。
WordPiece：WordPiece算法可以看作是BPE的变种。不同的是，WordPiece基于概率生成新的subword而不是下一最高频字节对。WordPiece算法也是每次从词表中选出两个子词合并成新的子词。BPE选择频数最高的相邻子词合并，而WordPiece选择使得语言模型概率最大的相邻子词加入词表。
Unigram：它和 BPE 以及 WordPiece 从表面上看一个大的不同是，前两者都是初始化一个小词表，然后一个个增加到限定的词汇量，而 Unigram Language Model 却是先初始一个大词表，接着通过语言模型评估不断减少词表，直到限定词汇量。
SentencePiece：SentencePiece它是谷歌推出的子词开源工具包，它是把一个句子看作一个整体，再拆成片段，而没有保留天然的词语的概念。一般地，它把空格也当作一种特殊字符来处理，再用BPE或者Unigram算法来构造词汇表。SentencePiece除了集成了BPE、ULM子词算法之外，SentencePiece还能支持字符和词级别的分词。

下图是一些主流模型使用的分词算法，比如：GPT-1 使用的BPE实现分词，LLaMA/BLOOM/GPT2/ChatGLM使用BBPE实现分词。BERT/DistilBERT/Electra使用WordPiece进行分词，XLNet则采用了SentencePiece进行分词。

从上面的表格中我们也可以看到当前主流的一些开源大模型有很多基于 BBPE 算法使用 SentencePiece 实现分词器，从Huggingface Transformers库的源码中也能看到很多分词器基于SentencePiece工具实现，下面来讲解SentencePiece工具的具体使用。

SentencePiece 简介

SentencePiece 是一种无监督的文本 tokenizer 和 detokenizer，主要用于基于神经网络的文本生成系统，其中，词汇量在神经网络模型训练之前就已经预先确定了。 SentencePiece 实现了subword单元（例如，字节对编码 (BPE)）和 unigram 语言模型），并可以直接从原始句子训练字词模型(subword model)。这使得我们可以制作一个不依赖于特定语言的预处理和后处理的纯粹的端到端系统。

SentencePiece 特性

唯一Token数量是预先确定的

神经网络机器翻译模型通常使用固定的词汇表进行操作。与大多数假设无限词汇量的无监督分词算法不同，SentencePiece 在训练分词模型时，使最终的词汇表大小固定，例如：8k、16k 或 32k。

从原始句子进行训练

以前的子词（sub-word）实现假设输入句子是预标记（pre-tokenized）的。这种约束是有效训练所必需的，但由于我们必须提前运行依赖于语言的分词器，因此使预处理变得复杂。 SentencePiece 的实现速度足够快，可以从原始句子训练模型。这对于训练中文和日文的tokenizer和detokenizer很有用，因为在这些词之间不存在明确的空格。

空格被视为基本符号

自然语言处理的第一步是文本 tokenization。

例如，标准的英语分词器（tokenizer）将对文本Hello world进行分段。分为[Hello] [World] [.]这三个token。这种情况将导致原始输入和标记化(tokenized)序列不可逆转换。例如，“World”和“.”之间没有空格的信息。空格将从标记化序列中删除，例如:Tokenize(“World.”) == Tokenize(“World .”)

但是，SentencePiece 将输入文本视为一系列 Unicode 字符。空格也作为普通符号处理。为了明确地将空格作为基本标记处理，SentencePiece 首先使用元符号 "▁" (U+2581) 转义空格。

Hello▁World.

然后，将这段文本分割成小块，例如：

[Hello] [▁Wor] [ld] [.]

由于空格保留在分段文本中，我们可以毫无歧义地对文本进行detokenize。

ini

复制代码

detokenized = ''.join(pieces).replace(' ', ' ')

此特性可以在不依赖特定于语言的资源的情况下执行detokenization。

注意: 在使用标准分词器拆分句子时，我们不能应用相同的无损转换，因为它们将空格视为特殊符号。标记化(Tokenized)序列不保留恢复原始句子所需的信息。

子词正则化和 BPE-dropout

子词正则化和 BPE-dropout 是简单的正则化方法，它们实际上通过实时子词采样来增强训练数据，这有助于提高神经网络机器翻译（NMT）模型的准确性和鲁棒性。

为了启用子词正则化，你可以将 SentencePiece 库（C++/Python）集成到 NMT 系统中，以便为每个参数更新采样一个分段，这与标准的离线数据准备不同。

下面是 Python 库的示例。

less

复制代码

>>> import sentencepiece as spm >>> s = spm.SentencePieceProcessor(model_file='spm.model') >>> for n in range(5): ... s.encode('New York', out_type=str, enable_sampling=True, alpha=0.1, nbest_size=-1) ... ['▁', 'N', 'e', 'w', '▁York'] ['▁', 'New', '▁York'] ['▁', 'New', '▁Y', 'o', 'r', 'k'] ['▁', 'New', '▁York'] ['▁', 'New', '▁York']

您会发现New York在每个 SampleEncode (C++) 或使用 enable_sampling=True (Python)进行编码的调用时的分段方式都不同。采样参数的详细信息可在 sentencepiece_processor.h 中找到。

SentencePiece 技术优势

纯数据驱动：SentencePiece 从句子中训练 tokenization 和 detokenization 模型。并不总是需要Pre-tokenization(Moses tokenizer/MeCab/KyTea) 。
独立于语言：SentencePiece 将句子视为 Unicode 字符序列。没有依赖于语言的逻辑。
多子词算法：支持 BPE 和 unigram 语言模型。
子词正则化：SentencePiece 实现子词正则化和 BPE-dropout 的子词采样，有助于提高 NMT 模型的鲁棒性和准确性。
快速且轻量级：分割速度约为 50k 句子/秒，内存占用约为 6MB。
Self-contained：只要使用相同的模型文件，就可以获得相同的tokenization/detokenization。
直接词汇 ID 生成：SentencePiece 管理词汇到 ID 的映射，可以直接从原始句子生成词汇 ID 序列。
基于 NFKC 的 normalization：SentencePiece 执行基于 NFKC 的文本 normalization。

SentencePiece与其他实现的比较

特性	SentencePiece	subword-nmt	WordPiece
支持的算法	BPE, unigram, char, word	BPE	BPE*
是否开源?	Yes	Yes	Google internal
是否支持子词正则化	Yes	No	No
是否提供 Python 库 (pip)	Yes	No	N/A
是否提供 C++ 库	Yes	No	N/A
是否需要预分割?	No	Yes	Yes
是否可自定义 normalization (例如：NFKC)	Yes	No	N/A
是否直接id生成	Yes	No	N/A

注意：WordPiece 中使用的 BPE 算法与原始 BPE 略有不同。

环境安装

SentencePiece分为两部分：训练模型和使用模型。其中，训练模型部分是用C语言实现的，可编译二进程程序执行，训练结束后生成一个model文件和一个词典文件。

模型使用部分同时支持二进制程序和Python调用两种方式，训练完生成的词典数据是明文，可编辑，因此，也可以用其他任何语言进行读取和使用。

从 C++ 源构建和安装 SentencePiece 命令行工具

由于我们需要命令行工具模型训练，因此，我们需要先安装 SentencePiece 命令行工具。

构建 SentencePiece 需要以下工具和库：

cmake
C++11 编译器
gperftools 库（可选的，可以获得 10-40% 的性能提升）

在 Ubuntu 上，可以使用 apt-get 安装构建工具：

arduino

复制代码

sudo apt-get install cmake build-essential pkg-config libgoogle-perftools-dev

接下来，按如下方式构建和安装命令行工具。

bash

复制代码

git clone https://github.com/google/sentencepiece.git cd sentencepiece mkdir build cd build cmake .. make -j $(nproc) make install ldconfig -v

查看命令使用文档：

bash

复制代码

spm_train --help

使用pip安装sentencepiece库

SentencePiece 提供了支持 SentencePiece 训练和分割的 Python 包装器。由于后续会基于Python语言使用模型，因此，使用 pip 安装 SentencePiece 的 Python 二进制包。

复制代码

pip install sentencepiece

训练模型

由于官网只提供英语和日语数据，如果使用中文进行模型训练的话，需要先下载中文训练数据。本文使用红楼梦（需要自行预先清洗下数据）进行模型训练。

css

复制代码

spm_train --input=/workspace/data/book/hongluomeng_clean.txt --model_prefix=/workspace/model/book/hongluomeng-tokenizer --vocab_size=4000 --character_coverage=0.9995 --model_type=bpe

参数说明：

--input: 训练语料文件，可以传递以逗号分隔的文件列表。文件格式为每行一个句子。无需运行tokenizer、normalizer或preprocessor。默认情况下，SentencePiece 使用 Unicode NFKC 规范化输入。
--model_prefix：输出模型名称前缀。训练完成后将生成 .model 和 .vocab 文件。
--vocab_size：训练后的词表大小，例如：8000、16000 或 32000
--character_coverage：模型覆盖的字符数量，对于字符集丰富的语言（如日语或中文）推荐默认值为 0.9995，对于其他字符集较小的语言推荐默认值为 1.0。
--model_type：模型类型。可选值：unigram（默认）、bpe、char 或 word 。使用word类型时，必须对输入句子进行pretokenized。

运行过程：

scss

复制代码

> spm_train --input=/workspace/data/book/hongluomeng_clean.txt --model_prefix=/workspace/model/book/hongluomeng-tokenizer --vocab_size=4000 --character_coverage=0.9995 --model_type=bpe sentencepiece_trainer.cc(77) LOG(INFO) Starts training with : trainer_spec { input: /workspace/data/book/hongluomeng_clean.txt input_format: model_prefix: /workspace/model/book/hongluomeng-tokenizer model_type: BPE vocab_size: 4000 self_test_sample_size: 0 character_coverage: 0.9995 input_sentence_size: 0 shuffle_input_sentence: 1 seed_sentencepiece_size: 1000000 shrinking_factor: 0.75 max_sentence_length: 4192 num_threads: 16 num_sub_iterations: 2 max_sentencepiece_length: 16 split_by_unicode_script: 1 split_by_number: 1 split_by_whitespace: 1 split_digits: 0 pretokenization_delimiter: treat_whitespace_as_suffix: 0 allow_whitespace_only_pieces: 0 required_chars: byte_fallback: 0 vocabulary_output_piece_score: 1 train_extremely_large_corpus: 0 hard_vocab_limit: 1 use_all_vocab: 0 unk_id: 0 bos_id: 1 eos_id: 2 pad_id: -1 unk_piece: bos_piece: eos_piece: pad_piece: unk_surface: ⁇ enable_differential_privacy: 0 differential_privacy_noise_level: 0 differential_privacy_clipping_threshold: 0 } normalizer_spec { name: nmt_nfkc add_dummy_prefix: 1 remove_extra_whitespaces: 1 escape_whitespaces: 1 normalization_rule_tsv: } denormalizer_spec {} trainer_interface.cc(351) LOG(INFO) SentenceIterator is not specified. Using MultiFileSentenceIterator. trainer_interface.cc(183) LOG(INFO) Loading corpus: /workspace/data/book/hongluomeng_clean.txt trainer_interface.cc(378) LOG(WARNING) Found too long line (4224 > 4192). trainer_interface.cc(380) LOG(WARNING) Too long lines are skipped in the training. trainer_interface.cc(381) LOG(WARNING) The maximum length can be changed with --max_sentence_length= flag. trainer_interface.cc(407) LOG(INFO) Loaded all 3144 sentences trainer_interface.cc(414) LOG(INFO) Skipped 6 too long sentences. trainer_interface.cc(423) LOG(INFO) Adding meta_piece: trainer_interface.cc(423) LOG(INFO) Adding meta_piece: trainer_interface.cc(423) LOG(INFO) Adding meta_piece: trainer_interface.cc(428) LOG(INFO) Normalizing sentences... trainer_interface.cc(537) LOG(INFO) all chars count=866703 trainer_interface.cc(548) LOG(INFO) Done: 99.95% characters are covered. trainer_interface.cc(558) LOG(INFO) Alphabet size=3986 trainer_interface.cc(559) LOG(INFO) Final character coverage=0.9995 trainer_interface.cc(591) LOG(INFO) Done! preprocessed 3144 sentences. trainer_interface.cc(597) LOG(INFO) Tokenizing input sentences with whitespace: 3144 trainer_interface.cc(608) LOG(INFO) Done! 3395 bpe_model_trainer.cc(159) LOG(INFO) Updating active symbols. max_freq=10909 min_freq=13 trainer_interface.cc(686) LOG(INFO) Saving model: /workspace/model/book/hongluomeng-tokenizer.model trainer_interface.cc(698) LOG(INFO) Saving vocabs: /workspace/model/book/hongluomeng-tokenizer.vocab

模型输出文件(词表及模型权重)：

shell

复制代码

> ls -al /workspace/model/book total 328 drwxr-xr-x 2 root root 4096 May 19 01:55 . drwxrwxrwx 21 root root 4096 May 19 01:55 .. -rw-r--r-- 1 root root 285840 May 19 01:55 hongluomeng-tokenizer.model -rw-r--r-- 1 root root 38885 May 19 01:55 hongluomeng-tokenizer.vocab

查看词表：

bash

复制代码

> head -n20 /workspace/model/book/hongluomeng-tokenizer.vocab 0 0 0 :“ -0 。” -1 宝玉 -2 笑道 -3 ?” -4 太太 -5 什么 -6 凤姐 -7 了一 -8 贾母 -9 也不 -10 , -11 。 -12 了 -13 不 -14 的 -15 一 -16

使用模型

基于命令行使用模型

将原始文本编码成句子片段(token)。

shell

复制代码

> echo "白日依山尽，黄河入海流。" | spm_encode --model=/workspace/model/book/hongluomeng-tokenizer.model ▁ 白日依山尽 , 黄河入海流。

将原始文本编码成句子片段（Token）id。注意：--output_format参数默认为piece。

shell

复制代码

> echo "白日依山尽，黄河入海流。" | spm_encode --model=/workspace/model/book/hongluomeng-tokenizer.model --output_format=id 60 254 70 333 468 400 14 733 1476 317 603 510 15

将句子片段(token) id 解码为原始文本。

shell

复制代码

> echo "60 254 70 333 468 400 14 733 1476 317 603 510 15" | spm_decode --model=/workspace/model/book/hongluomeng-tokenizer.model --input_format=id 白日依山尽,黄河入海流。

基于模型文件导出词汇表。

css

复制代码

# spm_export_vocab --model=<模型文件> --output=<输出文件> spm_export_vocab --model=/workspace/model/book/hongluomeng-tokenizer.model --output=/workspace/output/hongluomeng.vocab

其中，--output指定输出文件，里面存储着词汇列表和 emission log probabilities。词汇表 id 对应于此文件中的行号。

官网还提供了端到端（包括：训练(spm_train)，编码(spm_encode)和解码(spm_decode)）示例，如下所示：

scss

复制代码

% spm_train --input=data/botchan.txt --model_prefix=m --vocab_size=1000 unigram_model_trainer.cc(494) LOG(INFO) Starts training with : input: "../data/botchan.txt" ... unigram_model_trainer.cc(529) LOG(INFO) EM sub_iter=1 size=1100 obj=10.4973 num_tokens=37630 num_tokens/piece=34.2091 trainer_interface.cc(272) LOG(INFO) Saving model: m.model trainer_interface.cc(281) LOG(INFO) Saving vocabs: m.vocab % echo "I saw a girl with a telescope." | spm_encode --model=m.model ▁I ▁saw ▁a ▁girl ▁with ▁a ▁ te le s c o pe . % echo "I saw a girl with a telescope." | spm_encode --model=m.model --output_format=id 9 459 11 939 44 11 4 142 82 8 28 21 132 6 # 原来输入的句子是从词汇表id序列中还原出来 % echo "9 459 11 939 44 11 4 142 82 8 28 21 132 6" | spm_decode --model=m.model --input_format=id I saw a girl with a telescope.

基于Python库使用模型

python

复制代码

>>> import sentencepiece as spm >>> >>> sp = spm.SentencePieceProcessor() >>> >>> text="这贾雨村原系胡州人氏，也是诗书仕宦之族，因他生于末世，父母祖宗根基已尽，人口衰丧，只剩得他一身一口，在家乡无益，因进京求取功名，再整基业。" >>> >>> sp.Load("/workspace/model/book/hongluomeng-tokenizer.model") True >>> print(sp.EncodeAsPieces(text)) ['▁', '这', '贾', '雨', '村', '原', '系', '胡', '州', '人', '氏', ',', '也', '是', '诗', '书', '仕', '宦', '之', '族', ',', '因', '他', '生', '于', '末', '世', ',', '父', '母', '祖', '宗', '根', '基', '已', '尽', ',', '人', '口', '衰', '丧', ',', '只', '剩', '得', '他', '一', '身', '一', '口', ',', '在', '家', '乡', '无', '益', ',', '因', '进', '京', '求', '取', '功', '名', ',', '再', '整', '基', '业', '。']

除此之外，我们还可以将训练的新词表并与原来的词表进行合并。具体可参考Chinese-LLaMA-Alpaca在通用中文语料上基于sentencepiece训练的20K中文词表并与原版LLaMA模型的32K词表(HF实现LLaMA分词基于BBPE算法，底层调用的也是sentencepiece的方法)进行合并的代码。

结语

本文主要给大家讲解了SentencePiece的基本原理及使用方法。如果我们分析某个领域相关问题，可以基于该领域的书籍和文档使用SentencePiece去训练一个分词模型。SentencePiece并不限于被分析的内容本身。训练数据越多，模型效果越好。

参考文档：

SentencePiece
BPE、WordPiece和SentencePiece
大模型中的分词器tokenizer：BPE、WordPiece、Unigram LM、SentencePiece
sentencepiece原理与实践
【OpenLLM 008】大模型基础组件之分词器-万字长文全面解读LLM中的分词算法与分词器（tokenization & tokenizers）：BPE/WordPiece/ULM & beyond
Summary of the tokenizers

大模型词表扩充必备工具SentencePiece - 掘金

sentencepiece原理与实践

https://github.com/google/sentencepiece/blob/master/python/README.md

NLP笔记：中文分词工具简介-腾讯云开发者社区-腾讯云

你可能感兴趣的:(#,NLP基础/分词,自然语言处理,人工智能)

美团二面拷打：MySQL中 SQL 语句的执行流程？ JavaGuide 大厂面试 mysql sql java
本篇文章会分析下一个SQL语句在MySQL中的执行流程，包括SQL的查询在MySQL内部会怎么流转，SQL语句的更新是怎么完成的。在分析之前我会先带着你看看MySQL的基础架构，知道了MySQL由那些组件组成以及这些组件的作用是什么，可以帮助我们理解和解决这些问题。相关阅读：MySQL常见面试题总结MySQL索引详解MySQL三大日志(binlog、redolog和undolog)详解MySQL事
Java 关于抽象 -- Java 语言的抽象类、接口和函数式接口栗筝i 栗筝i 的 Java 技术栈（付费部分）#Java 基础 -专栏栗筝i 的 Java 技术栈 Java 基础 Java 入门 Java 抽象 Java
大家好，我是栗筝i，这篇文章是我的“栗筝i的Java技术栈”专栏的第008篇文章，在“栗筝i的Java技术栈”这个专栏中我会持续为大家更新Java技术相关全套技术栈内容。专栏的主要目标是已经有一定Java开发经验，并希望进一步完善自己对整个Java技术体系来充实自己的技术栈的同学。与此同时，本专栏的所有文章，也都会准备充足的代码示例和完善的知识点梳理，因此也十分适合零基础的小白和要准备工作面试的同
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）开源技术探险家开源模型-实际应用落地 #人工智能自然语言处理语言模型深度学习
一、前言在当今人工智能技术迅猛发展的时代，各类人工智能模型如雨后春笋般不断涌现，其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉，从智能安防到医疗诊断，AI模型广泛应用于各个领域，人们对其准确性、稳定性和高效性的期望也与日俱增。在此背景下，DeepSeek模型的出现为行业带来了新的曙光。DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏
蓝桥杯——BASIC-02——基础练习序列求和满天星✧ 蓝桥杯职场和发展算法
问题描述：求1+2+3+...+n的值。输入格式：输入包括一个整数n。输出格式：输出一行，包括一个整数，表示1+2+3+...+n的值。数据规模与约定：1<=n<=1,000,000,000。说明：有一些试题会给出多组样例输入输出以帮助你更好的做题。一般在提交之前所有这些样例都需要测试通过才行，但这不代表这几组样例数据都正确了你的程序就是完全正确的，潜在的错误可能仍然导致你的得分较低。请注意这里的
蓝桥杯——BASIC-02——序列求和（java）基础练习小羊卷儿. 蓝桥杯—基础练习蓝桥杯 java 算法职场和发展 eclipse
资源限制时间限制：1.0s内存限制：256.0MB问题描述求1+2+3+...+n的值。输入格式输入包括一个整数n。输出格式输出一行，包括一个整数，表示1+2+3+...+n的值。样例输入4样例输出10样例输入100说明：有一些试题会给出多组样例输入输出以帮助你更好的做题。一般在提交之前所有这些样例都需要测试通过才行，但这不代表这几组样例数据都正确了你的程序就是完全正确的，潜在的错误可能仍然导致你
手机Python爬虫教程：利用手机学习Python爬虫的终极指南一只会写程序的猫 Python 智能手机 python 爬虫
【引言】在数字化时代，手机已经成为人们生活中不可或缺的一部分。而Python爬虫作为一种强大的数据获取工具，也受到越来越多人的关注。但是，是否可以利用手机进行Python爬虫学习呢？本文将介绍如何通过手机学习Python爬虫，为你打开一扇全新的学习之门。【一、手机学习资源】1.《Python爬虫入门教程》（手机应用）这款手机应用程序提供了Python爬虫的基础知识和实例讲解，适合初学者使用。你可以
Diffusion--人工智能领域的革命性技术油泼辣子多加专业名词解释人工智能
在人工智能领域，“diffusion”一词通常指的是“扩散模型”（DiffusionModels），其全称为“DenoisingDiffusionProbabilisticModels”（DDPMs）。扩散模型是一类生成式模型，它通过逐步去噪的方式，从随机噪声中生成高质量的数据，近年来在图像、音频、视频等多个领域取得了显著进展。1.发展历史扩散模型的概念源于物理学中的扩散过程，即粒子在介质中的随机
探索2025年的编程新趋势：技术、工具与未来展望桂月二二 wasm 人工智能前端
随着2025年的到来，编程技术领域依旧在高速发展。一些新兴的技术方向、工具和方法正在悄然改变开发者的日常实践。如果您是一名开发者，无论是资深还是初入门道，跟上这些趋势将让您的技能保持前沿，并为职业发展打下坚实基础。本文将从多个维度深入探讨当前最值得关注的编程技术，希望为您的技术提升带来启发。一、AI驱动的编程辅助工具人工智能已成为程序开发的重要组成部分。以下是几款2025年值得关注的AI驱动编程工
基于Hexo的主题Fluid搭建Github博客 qq742234984 计算机 github git npm node.js hexo
公众号：数学建模与人工智能基于Hexo的主题Fluid搭建Github博客一、Github配置1.安装Git2.部署本地Git与Github连接（SSH）二、node.js安装和环境配置1.安装node.js2.查看安装是否成功（版本号）3.配置环境变量三、下载Hexo并配置fluid主题1.下载Hexo2.配置fluid主题1.安装fluid2.配置fluid3.更新部署博客页面4.部署到git
2025年02月02日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：oumi项目地址url：https://github.com/oumi-ai/oumi项目语言：Python历史star数：1416今日star数：205项目维护者：xrdaukar,oelachqar,taenin,wizeng23,kaisopos项目简介：构建最先进基础模型所需的一切，从头到尾。项目名称：Qwen2.5-VL项目地址url：https://github.com/Qw
Shell基础：中括号的使用 vortex5 bash shell linux 运维
在Shell脚本中，中括号（[...]和[[...]]）是一种常见的条件测试结构。它们用于进行文件类型检查、值比较以及逻辑判断。通过了解它们的不同特点和用法，能够帮助你编写更加高效、安全且易读的脚本。本文将详细介绍Shell中单中括号和双中括号的区别、语法、常见用法及一些注意事项。单中括号单中括号（[...]）也叫做test命令，它是Shell中最基本的条件判断工具之一。这个结构用于测试文件属性、
MySQL 插入数据指南 wjs2024 开发语言
MySQL插入数据指南引言MySQL是一款广泛使用的开源关系数据库管理系统，被广泛应用于各种规模的组织中。在数据库管理中，数据的插入是基础操作之一。本文将详细介绍如何在MySQL中插入数据，包括插入单条记录和多条记录，以及一些高级插入技术。准备工作在开始之前，请确保您已经：安装并配置了MySQL数据库。创建了一个数据库和一个表。连接到MySQL数据库。插入单条记录插入单条记录是最基本的插入操作。以
机器学习--学习计划 kyle~ 机器学习机器学习学习人工智能
3周机器学习速成计划基于「28原则」，聚焦机器学习20%的核心概念，覆盖80%的常见应用场景。计划分为理论学习+项目实战，每周学习后通过5个递进项目巩固知识。第1周：数据与监督学习基础学习目标：掌握数据预处理、线性模型与分类任务的基础流程。核心概念（20%关键内容）：数据预处理缺失值处理（均值填充、删除）特征缩放（标准化、归一化）分类变量编码（独热编码、标签编码）监督学习基础线性回归（原理、损失函
电控三周速成计划参考 kyle~ 嵌入式单片机嵌入式硬件
第1周：基础搭建与GPIO控制学习目标：建立开发环境，掌握最基础的硬件控制能力每日学习（2-3小时）：环境搭建（2天）安装KeilMDK-ARM+STM32CubeMX使用CubeMX创建第一个工程（选择STM32F103C8T6）生成代码并烧录到开发板（LED点亮验证）GPIO编程（3天）推挽输出/开漏输出模式区别使用HAL_GPIO_WritePin()控制LED按键输入检测（轮询方式）时钟系
机器学习--概览 kyle~ 机器学习机器学习人工智能
一、机器学习基础概念1.定义机器学习（MachineLearning,ML）：通过算法让计算机从数据中自动学习规律，并利用学习到的模型进行预测或决策，而无需显式编程。2.与编程的区别传统编程机器学习输入：规则+数据→输出：结果输入：数据+结果→输出：规则需要人工编写逻辑自动发现数据中的模式3.核心要素数据：模型学习的原材料（结构化/非结构化）特征（Feature）：数据的可量化属性（如房价预测中的
基于BiGRU的预测模型及其Python和MATLAB实现追蜻蜓追累了机器学习深度学习 cnn lstm 神经网络 gru 回归算法
##一、背景在当今快速发展的数据驱动的时代，尤其是在自然语言处理（NLP）、时间序列预测、语音识别等任务中，深度学习技术的应用已经变得越来越普遍。传统的机器学习算法往往无法很好地捕捉数据中的时序信息和上下文关系，因此深度学习中的循环神经网络（RNN）逐渐成为解决这一问题的重要工具。RNN能够处理序列数据，但它们在长序列数据的学习中存在梯度消失和梯度爆炸的问题。为了解决这些问题，长短期记忆网络（LS
Transformer预测模型及其Python和MATLAB实现追蜻蜓追累了 transformer 深度学习人工智能机器学习算法回归算法神经网络
###一、背景在自然语言处理（NLP）领域，传统的序列到序列（Seq2Seq）模型大多依赖于循环神经网络（RNN）和长短期记忆（LSTM）网络。这些模型虽然在许多任务中取得了成功，但由于其计算效率低下以及长距离依赖关系处理的不足，导致模型训练时间漫长，并在处理较长文本时效果不佳。2017年，Vaswani等人提出的Transformer模型在《AttentionisAllYouNeed》一文中引起
学习Python的一些在线资源推荐 eso1983 学习 python 开发语言
任何一门开发语言的学习都需要理论和实践结合起来，有时间的小伙伴可以通过在线课程、官方文档、开源项目来夯实基础。以下是个人认为比较好的学习路径，可以供大家参考学习：在线课程平台Coursera：推荐理由：Coursera上有许多来自知名大学和机构的Python课程。这些课程通常有完整的教学大纲、作业和测试，并且有专业的教师团队进行教学支持。课程内容质量高，经过精心设计，可以系统地学习Python。核
OCR文档识别——数据录入工厂 OCR13512721355 OCR识别
数据录入工厂特色识别核心软件内置文通科技最新研发的高性能文字识别引擎，支持中英日韩四国文字以及对英文的混排，识别率达99.8%以上。Unicode编码采用UNICODE国际编码标准。系统可在一个统一的平台下，同时处理包括中文、日文、韩文、英文在内的多种文字的识别和校对修改。校对方式灵活准确在横向校对的基础上，提供纵向校对进行校对辅助，尽可能的让校对高效率，文字正确率更高导出格式多样灵活，支持PDF
HTML 基础教程:HTML 标题王先生 htnl高级教程笔记 html
HTML标题在HTML文档中，标题很重要。HTML标题标题（Heading）是通过-等标签进行定义的。定义最大的标题。定义最小的标题。实例ThisisaheadingThisisaheading</h2
【历史那些事儿】商朝的文化成就和发明创造 RisunJan 历史那些事儿学习
文字甲骨文：商朝出现了较为成熟的甲骨文，是目前已知的中国最早的成系统的文字符号。甲骨文主要刻写在龟甲和兽骨上，用于占卜和记录重要事件，内容涵盖了政治、经济、军事、文化等诸多方面，为后人研究商朝的历史和社会提供了极为珍贵的第一手资料.金文：也叫钟鼎文，是铸刻在青铜器上的文字。商朝的金文相对简单，字数较少，但为后来周朝金文的发展奠定了基础，在中国文字发展史上具有重要的承上启下作用.青铜铸造种类繁多：商
jEasyUI 创建基础树形网格 lsx202406 开发语言
jEasyUI创建基础树形网格引言jEasyUI是一个基于jQuery的易于使用的界面框架，它提供了丰富的UI组件，帮助开发者快速构建富有交互性的网页应用。树形网格（TreeGrid）是jEasyUI提供的一个特殊网格，它结合了树形结构的层级和表格的列数据展示，非常适合展示具有层级关系的数据。本文将详细介绍如何使用jEasyUI创建一个基础的树形网格。准备工作在开始之前，请确保已经引入了jEasy
第1章-PostgreSQL（PG）介绍我心中有一片海 #PostgreSQL数据库基础 postgresql 数据库 dba
第1章-PostgreSQL（PG）介绍1、简介2、排名3、发展4、应用5、优势6、对比1、简介PostgreSQL是一种特性非常齐全的自由软件的对象-关系型数据库管理系统（ORDBMS），是以加州大学计算机系开发的POSTGRES，4.2版本为基础的对象关系型数据库管理系统。POSTGRES的许多领先概念只是在比较迟的时候才出现在商业网站数据库中。PostgreSQL支持大部分的SQL标准并且提
【自我修炼】大疆技术总监对于大学生学习机器人工程师路线建议 ( 大一篇) 2401_89323952 学习机器人
很多朋友私信问我对机器人和人工智能感兴趣，该怎么展开学习。最近稍微有点空，我写写我的看法。两年前，我在知乎回答如何定义「机器人」？YY硕的回答中试图给机器人做出一个比较仔细的定义，我觉得机器人和人工智能最大的区别在于是否要和物理世界进行交互。今年初在另一篇知乎回答里对机器人或人工智能的研究会帮助我们更好的了解人类自己吗？-YY硕的回答我说到传感器是和物理世界交互的基础。后来，我又在知乎回答有哪些与
HTML 标题 lsx202406 开发语言
HTML标题引言HTML（超文本标记语言）是构建网页的基础，而标题则是网页中不可或缺的元素。标题不仅能够帮助用户快速了解网页内容，还能够对搜索引擎优化（SEO）产生重要影响。本文将详细介绍HTML标题的用法、重要性以及如何优化标题，以提高网页的可读性和搜索引擎排名。HTML标题的用法HTML标题通过至标签实现，其中表示最高级别的标题，表示最低级别的标题。以下是一个简单的HTML标题示例：一级标题二
【C++】C++回调函数基本用法（详细讲解）米码收割机 C/C++c++php 开发语言
博__主：米码收割机技__能：C++/Python语言公众号：测试开发自动化【获取源码+商业合作】荣__誉：阿里云博客专家博主、51CTO技术博主专__注：专注主流机器人、人工智能等相关领域的开发、测试技术。一文详解C++回调函数目录一文详解C++回调函数1.什么是回调函数？2.为什么需要回调函数3.回调函数的应用场合4.举例说明5.高级回调方式1.什么是回调函数？回调函数可以被简单地理解为：A函
MOE模型入门云帆@ AI 人工智能
一、目录定义：MOE架构代表类型如何解决expert平衡的？而不是集中到某一专家。如何训练、微调MOE模型？基础架构优缺点不同MOE模型实现方式、训练方法二、实现定义：MOE架构MOE:混合专家模型，多个专家共同决策的模型。实现：将transformer模型中的每个前馈网络(FFN)层替换为MoE层，其中MoE层由两个核心部分组成:一个路由器（或者叫门控网络）和若干数量的专家。代表类型谷歌MOE，
DeepSeek 详细使用教程神探阿航计算机产业科普与思考大模型人工智能
1.简介DeepSeek是一款基于人工智能技术的多功能工具，旨在帮助用户高效处理和分析数据、生成内容、解答问题、进行语言翻译等。无论是学术研究、商业分析还是日常使用，DeepSeek都能提供强大的支持。本教程将详细介绍DeepSeek的各项功能及使用方法。2.注册与登录注册：访问DeepSeek官网（https://www.deepseek.com）。点击“注册”按钮。填写邮箱地址、设置密码，并完
高阶开发基础——在WSL中快速部署一个极简的C++开发环境 charlie114514191 高阶开发公共基础部分 c++C语言环境配置 WSL 项目构建
前言笔者最近打算深入的整理一份基于ArchWSL的最简单纯粹的C++配置。使用的方案是使用GCC作为编译器，CMake作为项目构建脚本，VSCode作为代码编辑器，使用clangd作为强大的语言服务器和检查器，使用clang-format整理格式化我自己的代码。如果你愿意跟我一起，请跟随我的步伐一一配置。概念理解和澄清环境配置部分笔者在学习的时候，常常发现一些人根本不理解下面的这些概念。甚至到了上
人工智能第2章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
结合教材2.1节，阐述什么是知识、知识的特性,以及知识的表示。人工智能最早应用的两种逻辑是什么？阐述你对这两种逻辑表示的内涵理解。什么谓词，什么是谓词逻辑，什么是谓词公式。谈谈你对谓词逻辑中的量词的理解。阐述谓词公式的解释的含义。介绍谓词公式表示知识的一般步骤，阐述谓词逻辑表示知识的优点与局限性。什么是知识表示的产生式，请详细阐释产生式和谓词逻辑蕴涵式的差异。什么是产生式系统，请详细阐述产生式系统
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S