gqqnb

精确解释Unicode

我决心了解一下编码知识——主要是Unicode——及相关概念，搜索阅读了网上的很多文章，明白了一些，另一些却很模糊，而且有一些不同文章的描述是冲突的！我因此查阅了很多网上的资料，主要有中英文维基百科和Unicode.org，终于明白了其中的奥妙。

独乐乐不如众乐乐，我因此撰此文帮助大家最大程度地厘清Unicode、UCS、UTF-8、UTF-16、UCS-2、UCS-4之间的关系。对于网上随手可得的资料，如ASCII码表、UTF-16算法的程序代码，则不是本文重点。

网上其他文章概念模糊、说法冲突，我觉得一是上述词语本身就具有多重含义，很难把握；二可能是作者本身理解不到位，含糊了过去；三可能是那些文章缺少精确的表达方式，很容易使人误解。于是，我选择了用数学及程序代码相结合的方式，试图给予最清晰的定义。

我水平亦有限，哪里理解不到位或表达不清楚，希望读者不吝赐教。

这里格式我不修改了，嫌格式不漂亮的朋友可去https://docs.google.com/viewer?a=v&pid=explorer&chrome=true&srcid=0B92-FAjNvVzGNGQxNGI2MzctZGJlMC00YzhmLTg3MWItMGI0MWVhOTM4M2I4&hl=zh_CN 获取PDF版。

基本概念

字符是文字与符号的总称，包括文字、图形符号、数学符号等。字符集是字符的集合。

（字符）编码当名词用，是一个从一指定字符集到一指定集合的函数，如果用程序代码¹来表示，可以写作Encoding 。

编码当动词用，是建立一个从一指定字符集到一指定集合的函数。例如将汉字对应到整数（Encoding ），将英文字母对应到可在电线中传输的电脉冲（Encoding 电脉冲模式>）。

如果字符编码特化为Encoding ，即字符转换为整数，则成为编码字符集（函数是特殊的集合）。很多文章上说的字符集其实是编码字符集。

码点是编码字符集的上域²中的一个元素。

为了本文的叙述方便，额外定义几条表达方式。

编码字符集有以下属性：

字库³：ASCII的字库是英文字母+数字+其他一些符号 1
编码长度⁴：ASCII的编码长度是7个二进制位。编码长度≤表示长度 2
表示长度⁵：ASCII的表示长度是8个二进制位（最高位为0） 3

编码字符集ASCII中字符A的编码数字是65。⁶ 4

编码字符集ASCII中字符A的二进制流是01000001。相应地，十六进制流是41，十进制流是65。与编码数字不同，N进制流要开头补0，以达到表示长度。 5

常见的编码字符集

GB2312是简体字集，全称为GB2312(80)字集，共包括国标简体汉字6763个。

BIG5大五码是台湾繁体字集，共包括国标繁体汉字13053个。

GBK是简繁字集，包括了GB字集、BIG5字集和一些符号，共包括21003个字符。

GB18030是国家制定的一个强制性大字集标准，全称为GB18030-2000，它的推出使汉字集有了一个“大一统”的标准。

ASCII

我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制位有0和1两种状态，因此八个二进制位就可以组合出 256种状态，这被称为一个字节。也就是说，一个字节一共可以用来表示256种不同的状态，每一个状态对应一个符号，就是256个符号，从 0000000到11111111。

上个世纪60年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统一规定。这被称为ASCII码，一直沿用至今。

ASCII的字库包括128个字符，比如空格（SPACE）的编码数字是32，二进制流是00100000。这128个字符（包括32个不能打印出来的控制符号），只占用了一个字节的后面7位，最前面的1位统一规定为0。

在电线里传输被ASCII编码的二进制流时，为了检验错误，会修改最高位，用来做奇偶校验。这利用了ASCII本身的性质（最高位都是0）。

UCS

ISO10646标准所定义的通用字符集（Universal Character Set），编码长度可达32位。

Unicode

Unicode是一种正在发展的编码字符集，由统一码联盟制定，希望将全世界常用文字都函括进去。Unicode兼容ASCII。⁷即ASCII中有的字符Unicode中都有，并且对应相同的编码数字。

Unicode编码长度可达到32位，即4字节。第一字节称为组，第二字节称为面，第三字节称为行，第四字节称为点。第0组第0面里的字符可以只用2个字节表示，且涵盖了绝大部分的常用字，所以备受青睐。为了方便称呼，Unicode给它了一个名称——基本多文种平面（BMP）。基本多文种平面值域和上域都是0到FFFF，共计65535个码点。⁸ ⁹基本多文种平面是Unicode的子集。

虽然Unicode的表示长度是32位，但因为通常表示的是常用字，且常用字在BMP的字库里，所以表示长度往往缩减为16位。

Unicode与UCS的关系

ISO与统一码联盟是两个不同的组织，最初制定了不同的标准；但后来两个组织制定的编码字符集相互兼容。¹⁰现在往往只说Unicode，UCS这个名词不常见。

转换格式

以上说的都只是编码字符集——字符到整数的函数。虽然表示长度往往是8的倍数，却没有规定二进制流应该如何放入到几个字节里去。

比如，Unicode中字符“严”的十六进制流是4E25（缩减了的表示长度），是直接保存为两个字节4E和25呢，还是经过一些运算再保存呢？

读者可能觉得这个问题很无聊。我们已经知道，英文字母只用一个字节表示就够了，如果每个符号用两个或四个字节表示，那么每个英文字母前都必然有二到四个字节是0，这对于存储来说是极大的浪费，文本文件的大小会因此大出二三倍，这是无法接受的。

UTF正是为了解决这个问题而诞生的。UTF全称为Unicode Translation Format（Unicode转换格式）。

转换格式是一个从二进制流集合到字节数组的集合的函数，可以写作Encoding 。又二进制流可以计算为数字，转换格式可以写作Encoding 。

UTF-8

UTF-8是一种变长转换格式。它使用1~4个字节表示一个符号，根据不同的二进制流而改变字节长度。

UTF-8的规则很简单，只有二条：

对于单字节的符号，字节的第一位设为0，后面7位为这个符号的Unicode码。因此对于同一个英语字母在UTF-8下和在ASCII码下的像¹¹是相同的。
对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的二进制位用来从后往前放置这个符号的二进制流。

下表总结了编码规则，字母x表示用来放置二进制码的位置。

Unicode码点	像（二进制）
0000 0000 - 0000 007F	0xxxxxxx
0000 0080 - 0000 07FF	110xxxxx 10xxxxxx
0000 0800 - 0000 FFFF	1110xxxx 10xxxxxx 10xxxxxx
0001 0000 - 0010 FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

UTF-16

UTF-16的编码方法¹²是：

如果二进制流b小于0x10000，也就是十进制的0到65535之内，则直接使用两字节表示。
如果二进制流b大于等于0x10000，将b-0x10000的结果中的前 10 位作为高位和0xD800进行逻辑或操作，将后10 bit作为低位和0xDC00做逻辑或操作，这样组成的4个字节就构成了b的编码。

举个例子。假设要算（U+2A6A5，四个繁体字龙）¹³在UTF-16下的像，因为它超过 U+FFFF，所以 2A6A5-10000=0x1A6A5=。

前10位0001 1010 01 | 0xD800 = 0xD896。

后10位10 1010 0101 | 0xDC00 = 0xDEA5。

所以U+ 2A6A5 在UTF-16中的像是D8 96 DE A5。

UCS-2

UCS-2是ISO制定的，用来转换UCS的。但既然Unicode和UCS相互兼容，便也可以用来转换Unicode。

UCS-2是基本多文种平面的值域到两个成员的字节数组的集合的函数，即每个BMP码点都通过前面补0的方式固定地用两个字节表示。记得因为代理区的存在，一个码点并不代表一个字符。

UCS-2是UTF-16的子集，因为UTF-16额外规定了BMP以外的字节表示。

UCS-4

UCS-4是ISO制定的，用来转换UCS的。但既然Unicode和UCS相互兼容，便也可以用来转换Unicode。

UCS-4是Unicode中的头128组的值域到四个成员的字节数组的集合的函数，即每个码点都通过前面补0的方式固定地用四个字节表示。四个字节的范围是0到7FFFFFFF，即31个二进制位。

UTF-32

但是，ISO/IEC 10646已经宣布，今后所有的字符都将分配在10FFFF （即第0组头17个平面）以内，所以UCS-4的7FFFFFFF上限没有意义。¹⁴所以制定了UTF-32。

UTF-32是Unicode中第0组头17个平面的值域到四个成员的字节数组的集合的函数，即每个Unicode码点都通过前面补0的方式固定地用四个字节表示。

可见，UTF-32是UCS-4的子集，UCS-4包含UTF-32。¹⁵UCS-4已经没有使用的意义。

小结

转换格式	定义域	值域
UTF-8	0-10 FFFF 第0组头17平面的值域	1-4字节
UTF-16	0-10FFFF 第0组头17平面的值域	2或4字节
UCS-2	0-FFFF 基本多文种平面的值域	2字节
~~UCS-4~~	~~0-7FFFFFFF~~ ~~头 128 组的值域~~	~~4 字节~~
UTF-32	0-10 FFFF 第0组头17平面的值域	4字节

* 缩进代表包含关系。

现在若有软件声称自己支持UCS-2，那其实是暗指它不能支持在UTF-16中超过2字节的符号。¹⁶

字节存储的顺序

一个字符，通过Unicode，得到了二进制流；二进制流通过转换格式，得到了几个字节。那么这几个字节是由低位到高位（即低位在前）写入硬盘呢，还是由高位到低位（即高位在前）写入硬盘呢？这就是字节存储的顺序问题，即字节序问题。

为什么不统一地都由低位到高位或由高位到低位呢？因为设备执行不同的任务时，这两种方式的性能有差别。为了最大地提升性能，设备的硬件实现根据其最常做的任务决定了字节序。

Unicode规范中用字节序标记字符（BOM）来标识字节序，它的编码是FEFF。这样如果接收者收到FEFF，就表明这个字节流是高位在前的；如果收到FFFE，就表明这个字节流是低位在前的。

这里相当于有一个从byte[]和BOM到byte[]的字节序函数（b(byte[],bom):byte[]），给定几个字节和字节序，该函数就能算出这几个字节存往硬盘的顺序。

至此，计算机屏幕上显示的字符保存到硬盘上的过程已经清晰了：

对该字符c应用编码字符集，结果为n。	Encoding (c) → n
对整数n应用转换格式，结果为。	Encoding (n) → bytes
对应用字节序函数，结果为硬盘上的字节数组。	b(bytes,bom) → bytesInDisk

UTF-8有严格的字节顺序，不需要BOM。但如果在字节流前面加上BOM在UTF-8下的像EF BB BF，接收者一收到就知道这是UTF-8编码。所以用UTF-8格式存储，仍然会往文件头写EF BB BF，以表明其转换方法。

UTF-16、UCS-2、UCS-4、UTF-32都没有严格的顺序，所以需要借助BOM。

复合函数

数学上的复合函数是一个函数。若g(x)、f(x)是函数，则g(f(x))是复合函数。

编码字符集ASCII因为不需要转换格式¹⁷、没有字节序的问题，所以ASCII又是：

编码字符集ASCII与转换格式的复合函数（转换格式不作任何事）
编码字符集ASCII、转换格式与字节序函数的复合函数（转换格式和字节序函数不作任何事）

UTF-8第一条规则用的就是上面的第一个含义。

UTF-16BE和UTF-16LE，是转换格式UTF-16与高位在前或低位在前的复合。UTF-16BE有时缩写为UTF-16，注意，这与转换格式UTF-16是不同的！¹⁸

UCS-2BE和UCS-2LE，是转换格式UCS-2与高位在前或低位在前的复合。UCS-2BE有时缩写为UCS-2。注意，这与转换格式UCS-2是不同的！³

UCS-4BE和UCS-4LE，是转换格式UCS-4与高位在前或低位在前的复合。UCS-4BE有时缩写为UCS-4。注意，这与转换格式UCS-4是不同的！³

UTF-32BE和UTF-32LE，是转换格式UTF-32与高位在前或低位在前的复合。UTF-32BE有时缩写为UTF-32。注意，这与转换格式UTF-32是不同的！¹⁹

名称	编码次序	字节存储顺序
名称	编码次序	BOM	朱	，	聿
UTF-16LE	低位在前	无	31 67	2C 00	7F 80	69 D8 A5 DE
UTF-16BE	高位在前	无	67 31	00 2C	80 7F	D8 69 DE A5
UTF-16	低位在前，包含BOM	FF FE	31 67	2C 00	7F 80	69 D8 A5 DE
UTF-16	高位在前，包含BOM	FE FF	67 31	00 2C	80 7F	D8 69 DE A5

Windows记事本中的编码

我们在Windows系统中保存文本文件时通常可以选择编码为ANSI、Unicode、Unicode big endian和UTF-8。已知Unicode是编码字符集，big endian是一种字节序，UTF-8是转换格式。这三种不同的东西放在一起，是什么意思呢？答案是复合函数。

请看实验！我将字符用这四种选项分别保存，然后查看其16进制代码。记得这个字的二进制流是2A6A5，在UTF-16中的像是D8 96 DE A5。读者可以练习一下计算2A6A5在UTF-8下的像。

选项	编码字符集	转换格式	字节存储的顺序
ANSI	英文文件：ASCII	直接表示	直接存储
	简体中文系统：GB2312
	繁体中文系统：Big5
Unicode	Unicode	UTF-16	低位在前
Unicode big endian	Unicode	UTF-16	高位在前
UTF-8	Unicode	UTF-8	直接存储

所以，以上四项都是复合函数，复合了编码字符集、二进制的字节表示和字节存储的顺序。

很多软件和文章中提到的Unicode、UTF-8之类的，都是这种复合。

爱让一切都对了

2011 年3月213月21日月21日星期21日星期一日星期一

本文依照知识共享- 署名-相同方式共享3.0协议发表

四个繁体字龙

1C#语法，依据.Net Framework 4.0

2编码字符集是函数，函数有值域。值域是上域的子集。Unicode中有些位置是保留区域，没有字符来对应，所以不属于值域，但属于上域。

3即函数的定义域。

4即值域的基数的二进制表示的位数。

5即上域的基数的二进制表示的位数。

6即字符A在编码字符集ASCII中的像是01000001。

7http://www.unicode.org/charts/PDF/U0000.pdf

8基本多文种平面里有个代理区，仅该区就可表达1048576个字符。

9http://blog.csdn.net/fcc_ecjtu/archive/2006/09/21/1261273.aspx

10对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解

11将UTF-16看成函数。设有函数f，则x在f下的是f(x)。若f(x)=2x+1，则3在f下的像是。

12http://zh.wikipedia.org/zh-cn/UTF-16

13文末有该字的图片。

14http://en.wikipedia.org/wiki/Universal_Character_Set#Encoding_forms_of_the_Universal_Character_Set。但正在请求来源。

15http://en.wikipedia.org/wiki/UTF-32/UCS-4

16http://codex.wordpress.org.cn/UTF-16

17作动词用。不同于上文的名词转换格式。

18根据Vim FencView插件。

19这是我的推理。

C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
Redis系列：Geo 类型赋能亿级地图位置计算 Ly768768 redis bootstrap 数据库
1前言我们在篇深刻理解高性能Redis的本质的时候就介绍过Redis的几种基本数据结构，它是基于不同业务场景而设计的：动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)双端列表(REDIS_ENCODING_LINKEDLIST)压缩列表(REDIS_ENCODING_ZIPLIST)跳跃表(REDIS_ENCODI
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
如何用matlab灵活控制feko的求解 NingrLi matlab 开发语言
https://bbs.rfeda.cn/read.php?tid=3778Feko中的模型和求解设置等都可以通过editfeko进行设置，其文件存储为.pre文件，该文件可以用文本打开，因此，我们可以通过VB、VC、matlab等工具对.pre文件进行读写操作，以达到更灵活的使用feko。同样，对于.out文件，我们也可以进行读操作。熟练使用对.pre文件和.out文件的操作后，我们可以方便的计
利用python实现图片格式之间的相互转换难得北窗高卧 python 开发语言
一、概要图片一般有多种格式，常见的图片格式包括：JPEG（.jpg或.jpeg）：一种广泛使用的有损压缩格式，适用于摄影图像和网页上的图片。PNG（.png）：一种无损压缩格式，支持透明度和更好的图像质量，常用于图标、图形和需要透明背景的图片。该图片是4通道的，外加一个透明通道。如截屏GIF（.gif）：一种支持动画和透明度的格式，常用于简单的动画和图标。BMP（.bmp）：一种无损格式，存储图像
TextFiled 中输入金额宁梓茞
要求:输入的金额不能超过六位,小数点后面只能输入两位小数如果textFIled中第一位输入的是0,后面必须输入小数点,否则禁止输入用到textfiled代理方法#pragmamark----textFiledDelegate-----(BOOL)textField:(UITextField*)textFieldshouldChangeCharactersInRange:(NSRange)range
Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
2023最详细的Python安装教程（Windows版本）程序员林哥 Python python windows 开发语言
python安装是学习pyhon第一步，很多刚入门小白不清楚如何安装python，今天我来带大家完成python安装与配置，跟着我一步步来，很简单，你肯定能完成。第一部分：python安装（一）准备工作1、下载和安装python(认准官方网站)当然你不想去下载的话也可以分享给你，还有入门学习教程，点击下方卡片跳转进群领取（二）开始安装对于Windows操作系统，可以下载“executableins
iPhone怎么删除重复照片，可以尝试这几种方法 2401_85240355 iphone ios
在数字化时代，智能手机尤其是iPhone成为我们日常生活中不可或缺的一部分。随着我们不断使用iPhone拍照，重复照片的积累逐渐成为一个普遍问题。这不仅占用了大量的存储空间，也使得照片库变得杂乱无章。本文将介绍几种有效的iPhone怎么删除重复照片方法，并介绍如何利用CleanMyPhone来简化这一过程。iPhone怎么删除重复照片方法一：人工筛查人工筛查是最直接的方法，尽管它可能比较耗时。这种
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
python获取子进程返回值_Python对进程Multiprocessing子进程返回值 weixin_39752157 python获取子进程返回值
在实际使用多进程的时候，可能需要获取到子进程运行的返回值。如果只是用来存储，则可以将返回值保存到一个数据结构中；如果需要判断此返回值，从而决定是否继续执行所有子进程，则会相对比较复杂。另外在Multiprocessing中，可以利用Process与Pool创建子进程，这两种用法在获取子进程返回值上的写法上也不相同。这篇中，我们直接上代码，分析多进程中获取子进程返回值的不同用法，以及优缺点。初级用法
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
JavaScript `Map` 和 `WeakMap`详细解释跳房子的前端 JavaScript 原生方法 javascript 前端开发语言
在JavaScript中，Map和WeakMap都是用于存储键值对的数据结构，但它们有一些关键的不同之处。MapMap是一种可以存储任意类型的键值对的集合。它保持了键值对的插入顺序，并且可以通过键快速查找对应的值。Map提供了一些非常有用的方法和属性来操作这些数据对：set(key,value):将一个键值对添加到Map中。如果键已经存在，则更新其对应的值。get(key):获取指定键的值。如果键
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
信息系统安全相关概念(上) YuanDaima2048 课程笔记基础概念安全信息安全笔记
文章总览：YuanDaiMa2048博客文章总览下篇:信息系统安全相关概念(下)信息系统安全相关概念[上]信息系统概述信息系统信息系统架构信息系统发展趋势：信息系统日趋大型化、复杂化信息系统面临的安全威胁信息系统安全架构设计--以云计算为例信息系统安全需求及安全策略自主访问控制策略DAC强制访问控制策略MAC信息系统概述信息系统用于收集、存储和处理数据以及传递信息、知识和数字产品的一组集成组件。几
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key