上路的末班车

（转载）Unicode字符集和编码格式详解

字符集的概念实际上包含两个方面，一个是字符的集合，一个是编码方案。通常来说，一个字符集不仅仅定义字符集合，它还为每个符号定义一个二进制编码。例如当我们提到GB2312或者ASCII的时候，它隐式地指明了编码方案是GB2312或者ASCII。

但是Unicode字符集例外，它存在着几种不同的编码方式，例如:

UTF-8
UTF-16
UTF-32;

其中UTF-8和UTF-16采用可变长度编码，UTF-32固定采用固定长度编码；

维基百科对Unicode的描述如下
Unicode的编码空间从U+0000到U+10FFFF,共有1,112,064个码位可以用来映射字符；Unicode的编码空间可划分为17个平面，每个平面包括65,536(即2^16) 个码位。17个平面的码位可表示为U+xx0000到U+xxFFFF,其中xx表示平面，从0x00到0x10。第一个平面称为基本多语言平面，其它平面称为辅助平面.基本多语言平面内的U+D800到U+DFFF之间的码位是永久保留的，不会映射到任何Unicode字符。

UTF-8

UTF-8使用1至4个字节为每个字符编码：

0x00-0x7F:表示US-ASCII字符,共128个码位，占用1个字节；
0x80-0x7FF:第一个字节由110开始，接着单字节由10开始,共1920个码位,占用2个字节；
0x900-0xD7FF,0xE000-0xFFFF:第一个字节由1110开始，接着的字节由10开始;占用3个字节；
0x10000-0x10FFFF:第一个字节由11110开始，接着的字节由10开始,占用4个字节。

对于UTF-8编码中的任意字节B，

如果B的第一位为0，则B独立的表示一个字符(ASCII码)；

如果B的第一位为1，第二位为0，则B为一个多字节字符中的一个字节(非ASCII字符)；
如果B的前两位为1，第三位为0，则B为两个字节表示的字符中的第一个字节；
如果B的前三位为1，第四位为0，则B为三个字节表示的字符中的第一个字节；
如果B的前四位为1，第五位为0，则B为四个字节表示的字符中的第一个字节；
因此，对UTF-8编码中的任意字节，根据第一位，可判断是否为ASCII字符；根据前二位，可判断该字节是否为一个字符编码的第一个字节；根据前四位（如果前两位均为1），可确定该字节为字符编码的第一个字节，并且可判断对应的字符由几个字节表示；根据前五位（如果前四位为1），可判断编码是否有错误或数据传输过程中是否有错误。

例如，希伯来语字母aleph（א）的Unicode代码是U+05D0，按照以下方法改成UTF-8：

它属于U+0080到U+07FF区域，说明它使用双字节，110yyyyy 10zzzzzz.
十六进制的0x05D0换算成二进制就是101-1101-0000.
这11位数按顺序放入"y"部分和"z"部分：11010111 10010000.
最后结果就是双字节，用十六进制写起来就是0xD7 0x90，这就是这个字符aleph（א）的UTF-8编码。

UTF-16

基本多语言平面

码位范围为U+0000到U+FFFF,包含了最常见的字符，UTF-16将这个范围内的码位编码为2个字节，数值等于对应的Unicode码位即0x0000至0xFFFF。

辅助平面

码位范围为U+10000到U+10FFFF，UTF-16将这个范围内的码位编码为4个字节，称为代理对(surrogate pair)。
具体的编码方式如下:

码位减去0x10000,得到的值的范围为0x00000至0xFFFFF,长度为20个比特；
高位的10比特的值（0至0x3FF）加上0xD800得到第一个码元或称作高位代理（high surrogate），值的范围是0xD800至0xDBFF；由于高位代理比低位代理的值要小，所以为了避免混淆使用，Unicode标准现在称高位代理为前导代理（lead surrogates）;
低位的10比特的值（0至0x3FF）加上0xDC00得到第二个码元或称作低位代理（low surrogate），值的范围是0xDC00至0xDFFF;由于低位代理比高位代理的值要大，所以为了避免混淆使用，Unicode标准现在称低位代理为后尾代理（trail surrogates）。

综上所述，前导代理、后尾代理和基本语言平面的码位，三者互不重叠，因此可以通过检查一个码元就可以判定给定字符的下一个字符的起始码元，这意味着UTF-16是自同步的。

例如U+10437编码:

大于0xFFFF,采用4个字节进行编码；
0x10437减去0x10000,结果为0x00437,二进制为0000 0000 0100 0011 0111。
分区它的上10位值和下10位值（使用二进制）:0000000001 and 0000110111。
添加0xD800到上值，以形成高位：0xD800 + 0x0001 = 0xD801。
添加0xDC00到下值，以形成低位：0xDC00 + 0x0037 = 0xDC37。

UTF-16编码存在三种编码格式：

UTF-16BE:

Big Endian,最低位地址存放高位字节
UTF-16LE:

Little Endian,最高位地址存放高位字节
UTF-16:

高字节在前还是低字节在前有流中的前两个字节确定,FEFF表示Big Endian,FFFE表示Little Endian;

public class TestUTF {
    public static void main(String[] args) throws Exception {
        String str = "中";

        //------------编码

        //Java里使用的是UTF-16BE方式来存储数据的
        System.out.println(Integer.toHexString(str.charAt(0)).toUpperCase());//4E2D

        /*
         * 进行编码时，因为 UTF-16 编码方式本身未指定字节顺序标记，所以默认使用 Big Endian 字节
         * 顺序编码，并将 Big Endian 字节顺序标记写入到流中，所以流前面多了 FE FF 二字节的高字节
         * 顺序标记
         */
        System.out.println(byteToHex(str.getBytes("utf-16")));//FE FF 4E 2D

        /*
         * 进行编码时，UTF-16BE 和 UTF-16LE charset 不会将字节顺序标记写入到流中
         * 即它们所编出的码每个字符只占二个字节，要注意的是解码时要使用同样的编码
         * 方式，不然会出现问题乱码
         */
        System.out.println(byteToHex(str.getBytes("utf-16BE")));//4E 2D
        System.out.println(byteToHex(str.getBytes("utf-16LE")));//2D 4E

        //使用 utf-16BE 对高字节序进行解码，忽略字节顺序标记，即不会将流前二字节内容看作字节序标记
        System.out.println(new String(new byte[]{0x4E, 0x2D}, "utf-16BE"));// 中
        //使用 utf-16LE 对低字节序进行解码，忽略字节顺序标记，即不会将流前二字节内容看作字节序标记
        System.out.println(new String(new byte[]{0x2D, 0x4E}, "utf-16LE"));// 中

        //------------解码

        /*
         * 使用 utf-16 进行解码时，会根据流前两字节内部来确定是低还是高字节顺序，如果流的前两字节
         * 内部不是 高字节序 FE FF，也不是低字节序 FF FE时，则默认使用 高字节序 方式来解码
         */

        //因为0x4E,0x2D为“中”字的高字节表示，所以前面需要加上 FE FF 字节顺序标记来指示它
        System.out.println(new String(new byte[]{(byte) 0xFE, (byte) 0xFF, 0x4E, 0x2D}, "utf-16"));//中

        //因为0x2D,0x4E为“中”字的低字节表示，所以前面需要加上 FF FE 字节顺序标记来指示它
        System.out.println(new String(new byte[]{(byte) 0xFF, (byte) 0xFE, 0x2D, 0x4E,}, "utf-16"));//中


        //使用默认 高字节顺序 方式来解码，
        System.out.println(new String(new byte[]{0x4E, 0x2D}, "utf-16"));//中

        //因为 0x2D,0x4E 为“中”的低字节序，但 utf-16 默认却是以 高字节序来解的，所以出现乱码
        System.out.println(new String(new byte[]{0x2D, 0x4E,}, "utf-16"));//?
    }

    public static String byteToHex(byte[] bt) {
        StringBuilder sb = new StringBuilder(4);
        for (int b : bt) {
            sb.append(Integer.toHexString(b&0xff).toUpperCase());
            sb.append(" ");
        }
        return sb.toString();
    }
}

Windows平台，在UTF-8文件的开首，很多时候都放置一个U+FEFF字符（UTF-8以EF,BB,BF代表），以表明这个文本文件是以UTF-8编码

UTF-32

采用4个字节进行编码，就空间而已，其效率最差；另外其不像UTF-16,可以很容易的判断出下一个字符的开始位置，因此并不如其它Unicode编码用得广泛；

Java字符编码

Java虚拟机规范中明确说明了java的char类型使用的编码方案是UTF-16,而我们知道char类型由2个字节存储，这两个字节实际上存储的就是UTF-16编码下的码元；而通过前文可以知道，对于辅助平面字符，需要由4个字节来进行表述；因此我们通过charAt或length方法返回的码元或码元数量只是对于基本语言平面字符正确；正确的处理方式如下：

public int codePointAt(int index) {
        if ((index < 0) || (index >= value.length)) {
            throw new StringIndexOutOfBoundsException(index);
        }
        return Character.codePointAtImpl(value, index, value.length);
    }
    
public int codePointCount(int beginIndex, int endIndex) {
        if (beginIndex < 0 || endIndex > value.length || beginIndex > endIndex) {
            throw new IndexOutOfBoundsException();
        }
        return Character.codePointCountImpl(value, beginIndex, endIndex - beginIndex);
    }

可以看到，此时返回结果为int类型，而不是char,因为char由2个字节表示，而辅助平面字符需要4个字节才能表示。因此Java中如果参数是char,则说明不支持辅助平面字符；如果为int，则支持基本平面和辅助平面字符；具体的方法可以参加Character类;

跨平台（语言）调用

如果所述，我们知道Java是采用UTF-16 BigEndian存储字符的，那么如果跨语言调用，比如JNI对字符是如何处理的呢？
JNI中提供了函数GetStringUTFChars函数，将字符从UTF-16转化为UTF-8：

JNI_ENTRY(const char*, jni_GetStringUTFChars(JNIEnv *env, jstring string, jboolean *isCopy))
  JNIWrapper("GetStringUTFChars");
#ifndef USDT2
  DTRACE_PROBE3(hotspot_jni, GetStringUTFChars__entry, env, string, isCopy);
#else /* USDT2 */
 HOTSPOT_JNI_GETSTRINGUTFCHARS_ENTRY(
                                     env, string, (uintptr_t *) isCopy);
#endif /* USDT2 */
  oop java_string = JNIHandles::resolve_non_null(string);
  size_t length = java_lang_String::utf8_length(java_string);
  char* result = AllocateHeap(length + 1, "GetStringUTFChars");
  java_lang_String::as_utf8_string(java_string, result, (int) length + 1);
  if (isCopy != NULL) *isCopy = JNI_TRUE;
#ifndef USDT2
  DTRACE_PROBE1(hotspot_jni, GetStringUTFChars__return, result);
#else /* USDT2 */
 HOTSPOT_JNI_GETSTRINGUTFCHARS_RETURN(
                                      result);
#endif /* USDT2 */
  return result;
JNI_END

可以看到它是通过java_lang_String::as_utf8_string方法进行转换的：

char* java_lang_String::as_utf8_string(oop java_string, char* buf, int buflen) {
  typeArrayOop value  = java_lang_String::value(java_string);
  int          offset = java_lang_String::offset(java_string);
  int          length = java_lang_String::length(java_string);
  jchar* position = (length == 0) ? NULL : value->char_at_addr(offset);
  return UNICODE::as_utf8(position, length, buf, buflen);
}

char* UNICODE::as_utf8(jchar* base, int length, char* buf, int buflen) {
  u_char* p = (u_char*)buf;
  u_char* end = (u_char*)buf + buflen;
  for (int index = 0; index < length; index++) {
    jchar c = base[index];
    if (p + utf8_size(c) >= end) break;      // string is truncated
    p = utf8_write(p, base[index]);
  }
  *p = '\0';
  return buf;
}

static u_char* utf8_write(u_char* base, jchar ch) {
  if ((ch != 0) && (ch <=0x7f)) {//对于基本语言平面字符，UTF-16编码的数值和UTF-8相同，比如字符"a",UTF-16 BE编码为"0x0061",UTF-8为0x61
    base[0] = (u_char) ch;
    return base + 1;
  }

//对于UTF-16编码，0xFFFF范围内的编码和Unicode编码相同；对于UTF-8,0x80-0x7FF范围内第一个字节由110开始，接着单字节由10开始,共1920个码位,占用2个字节
  if (ch <= 0x7FF) {
    /* 11 bits or less. */
    unsigned char high_five = ch >> 6;
    unsigned char low_six = ch & 0x3F;
    base[0] = high_five | 0xC0; /* 110xxxxx */
    base[1] = low_six | 0x80;   /* 10xxxxxx */
    return base + 2;
  }
//对于UTF-8,0x900-0xD7FF,0xE000-0xFFFF范围内第一个字节由1110开始，接着的字节由10开始;占用3个字节；可以看到，此处并不支持辅助平面字符；
  /* possibly full 16 bits. */
  char high_four = ch >> 12;
  char mid_six = (ch >> 6) & 0x3F;
  char low_six = ch & 0x3f;
  base[0] = high_four | 0xE0; /* 1110xxxx */
  base[1] = mid_six | 0x80;   /* 10xxxxxx */
  base[2] = low_six | 0x80;   /* 10xxxxxx */
  return base + 3;
}

int UNICODE::utf8_size(jchar c) {
  if ((0x0001 <= c) && (c <= 0x007F)) return 1;//US-ASCII, UTF-8占用一个字节
  if (c <= 0x07FF) return 2;//UTF-8编码占用两个字节
  return 3;//UTF-8编码占用三个字节
}

--------------------------------------------------------------------------

转载地址：https://www.jianshu.com/p/7ae9005e0671

四、idea环境配置，项目jar包上传nexus 鹏哥哥啊Aaaa 我的轮子 intellij-idea jar java
目录一、基础环境配置1.设置maven的setting.xml2.设置字符编码3.注解生效激活4.编译版本5.FileType过滤6.安装插件lombok二、common的项目结构和pom.xml三、common项目的代码四、上传jar包到nexus一、基础环境配置1.设置maven的setting.xmlE:\mavenSou
Unity WebView 中 LaTeX 渲染问题解决方案
UnityWebView中LaTeX渲染问题解决方案问题概述在UnityWebView节点信息面板中，LaTeX公式无法正确渲染，主要表现为：LaTeX公式显示为原始代码，没有被渲染特殊字符（如反斜杠\）被显示为特殊符号（如♦）公式渲染出现“Mathinputerror”错误提示问题原因分析1.字符编码与转义问题Unity向WebView传递数据时，存在字符编码和转义问题：双重转义：Unity中的
浙大版PTA Python程序设计题目与知识点整理（综合版）
目录第一章一、高级语言程序的执行方式二、变量赋值与内存地址三、字符编码3.1Unicode3.2ASCII（AmericanStandardCodeforInformationInterchange）四、编程语言分类按照编程范式分类4.1面向过程语言4.2面向对象语言五、原码、反码和补码5.1原码5.2反码5.3补码六、基本的计算机概念6.1二进制和数据表示6.2内存和存储6.3变量和常量6.4运
ASCII 码表 IMPYLH 笔记
ASCII（AmericanStandardCodeforInformationInterchange，美国信息交换标准代码）是一种字符编码标准，用于表示一组特定的95个（英语）可打印字符和33个控制字符（共128个代码点）。二进制八进制十进制十六进制字符01000000403220space(novisibleglyph)01000010413321!01000100423422"0100011
Python基础知识（IO编程） yuxxto56 python python
目录1.文件读写1.1.读文件1.2.字符编码1.3.二进制文件1.4.写文件2.操作文件和目录2.1.环境变量2.2.操作文件、目录1.文件读写读写文件是Python语言最常见的IO操作。通过数据盘读写文件的功能都是由操作系统提供的，读写文件就是请求操作系统打开一个文件对象（通常称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）
ESP FOURCC 编码介绍乐鑫科技 Espressif 乐鑫科技多媒体编码
FOURCC（FourCharacterCode，四字符编码）是一种在多媒体领域被广泛使用的标识符，常用于快速识别音视频编码格式、封装格式、像素格式等。乐鑫科技定义了一套完整的FOURCC编码标准，称为ESPFOURCC，该标准可在开源项目ESP-GMF中的esp_fourcc.h头文件中找到，涵盖了音视频编解码、图像、封装格式和各种像素格式。本文将深入介绍ESPFOURCC的背景意义、定义原则、
ASCII Unicode UTF-8 字符集字符编码土豆Coder 字符及编码前端
ASCIIUnicodeUTF-8字符集字符编码基本概念字符字符集字符编码字符集和字符编码ASCII字符集Unicode字符集UTF-8测试题基本概念字符集为每个字符分配了一个唯一的编号，通过这个编号就能找到对应的字符。在编码过程中我们经常会使用字符，而使用字符的前提就是把字符放入内存中，而放入内存中的仅仅是字符的编号，而不是真正的字符实体。这就引出一个问题，如何将这些字符编号存入内存中，还能让计
ASCII、Unicode、GBK和UTF-8字符编码的区别联系 vivian_wanjin computer ascii unicode gbk
ASCII、Unicode、GBK和UTF-8字符编码的区别联系很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为”字节“。再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很多状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为”计算机“。开始计算机只在美国用。八位的字节
字符编码：ASCII，GBK，Unicode 和 UTF-8 末日在做什么呢面经编程语言编码学
文章目录前言一、ASCII码二、非ASCII编码三、GBK四、ANSI编码五、UnicodeUnicode的问题六、UTF-8前言大家写程序时肯定有被编码问题困扰过，稍不注意，程序输出就可能是一堆乱码，目前世界上有UTF-8、GBK、Unicode等等编码方式，但你真的了解其中的原理吗？一、ASCII码我们知道，计算机内部，所有信息最终都是一个二进制值。每一个二进制位（bit）有0和1两种状态，因
NodeJS缓冲区是什么东西穗余全栈 node.js
在Node.js中，缓冲区（Buffer）是一种专门用于处理二进制数据流的结构，特别适用于处理像TCP流、文件I/O、加密、图像处理等需要处理原始字节数据的场景。一句话理解：Buffer就是Node.js提供的用于存储二进制数据的容器，不依赖于字符编码，直接操作内存。为什么需要Buffer？在浏览器中，我们操作的大多是字符串（文本数据），而Node.js是为服务端设计的，需要高效处理来自文件、网络
Java 中的 FileInputStream 和 FileOutputStream 是用于文件读写的字节流类，直接操作文件的二进制字节数据光年像素 java 开发语言
一、核心概念：字节流vs字符流字节流：以字节（byte，8位）为单位读写数据，不涉及字符编码，直接操作文件的二进制内容。适合处理所有类型的文件（包括二进制和文本）。字符流：以字符（char，16位）为单位读写数据，依赖字符编码（如UTF-8、GBK），适合处理纯文本文件的高级操作（如自动转换换行符）。FileInputStream（输入流）和FileOutputStream（输出流）是字节流的典型
【C】ASCII为计算机系统和设备之间的信息交换提供了基本标准我不是程序猿儿 C c++c#C++java
ASCII（AmericanStandardCodeforInformationInterchange，美国信息交换标准代码）是一种用于表示文本的字符编码标准，广泛应用于计算机和通信设备中。它最初设计用于在计算机系统和其他设备之间交换文本信息。ASCII字符的基本概念ASCII编码使用7位二进制数来表示字符，因此它可以表示128个字符（从0到127）。这些字符包括字母、数字、标点符号、控制字符（如
HTML5 教程第2节：HTML 基础语法全栈前端老曹 HTML5教程 html html5 前端学习
HTML5教程第2节：HTML基础语法一、学习目标掌握HTML的基本语法结构与书写规范。理解HTML元素的分类：块级元素、行内元素、自闭合元素。学会使用HTML属性和注释。理解字符编码设置方法。了解W3C验证工具的使用。二、HTML元素结构1.什么是HTML元素？HTML文档由多个标签（tag）组成，这些标签构成了网页的结构。示例：这是一个段落。是开始标签（openingtag）是结束标签（clo
Docker部署平台服务（Java后端和vue前端） chevysky.cn 服务器和开发工具 docker java 容器
部署Java后端服务这里使用的JDK17镜像为：azul/zulu-openjdk:17mkdir-p/usr/appusr/app>viDockerfileDockerfile内容：FROMazul/zulu-openjdk:17#基础镜像EXPOSE9090#指定服务端口ENVLANGC.UTF-8#设置环境变量LANG指定系统默认的语言和字符编码ENVLOG_HOME/app/logs#设置
【无标题】真香号真香的技术分享计算机语言后端
计算机存储单位换算一个中文字符在计算机中通常使用的编码是UTF-8。在UTF-8编码中，一个中文字符通常占用3个字节（这是因为UTF-8是一种变长字符编码：英文字符通常占用1个字节，而中文字符因Unicode码点较高，通常需要3个字节表示）。一个英文字母在UTF-8编码中通常占用1个字节。“你好啊”这个短语包括三个中文字符。在UTF-8编码中，每个中文字符通常占用3个字节，所以"你好啊"总共占用的
MySQL中text,longtext,mediumtext区别
文章目录一、思维导图二、MySQL文本数据类型概览三、字节限制不同四、I/O不同五、行迁移不同一、思维导图网站分享人工智能学习网站MySQL文本数据类型概览数据类型及存储长度TEXT:65,535字符MEDIUMTEXT:16,777,215字符LONGTEXT:4,294,967,295字符编码及适用场景Unicode字符集UTF-8非Unicode用CHAR或VARCHAR其他区别存储空间:L
HTML中各种标签的作用不争先. html 前端
一、HTML文件主要标签结构及说明1.作用：声明文档类型，告知浏览器这是HTML5文档。必须：是。2..作用：包裹整个网页内容，lang="zh"表示网页主要语言为中文。必须：是。3..作用：网页的“头部”，包含网页设置、资源引入、样式、标题等。必须：是（至少有和）。主要内容：设置网页的字符编码，保证中文、特殊符号正常显示。必须。Coze智能体对话助手设置网页标题，显示在浏览器标签上。必须。控制网
文件字符编码导致的VC多字符乱码解决急速光粒 MFC c++乱码 c++
现在好多的c++源代码都是兼容windows和linux的，由于linux多采用utf-8编码，且文件结尾多采用\n作为换行，而windows则采用本地操作系统编码存储源代码，这样从git上下载的源码在windows编译多字节时就容易出现乱码问题。概括来说就是如果在多字节编码程序中有硬编码字符且文件采用utf-8编码存储的话，则会在多字节编译时会产生字符显示乱码。原因就是输出的字符和当前程序字符集
ord()与chr()：字符与Unicode转换的艺术与科学测试者家园测试开发和测试零基础学Python Python python 测试开发和测试人工智能开发语言零基础学Python Python
在编程语言的世界里，字符与数字之间的转换是一门基础却极富内涵的技术。Python中，ord()与chr()函数作为字符与Unicode码点之间转换的桥梁，不仅承载着文字信息的数字化表达，更承载着信息技术、语言学与计算机科学的交汇与发展。本文将深度剖析ord()与chr()的本质、原理、应用及其背后的Unicode编码体系，带领读者穿透字符背后的“数字密码”，开启对现代字符编码世界的新认知。一、or
深入解析与解决 Oracle 报错：ORA-29275 部分多字节字符20250213 Narutolxy 技术干货分享 oracle 数据库
️深入解析与解决Oracle报错：ORA-29275部分多字节字符引言在与Oracle数据库打交道的日常工作中，你是否遇到过ORA-29275:partialmultibytecharacter这个令人头疼的错误？这个错误通常与字符编码、数据截断有关，看似复杂，实则有章可循。本文将深入剖析ORA-29275错误产生的原因，并结合实际案例（Navicat连接GBK编码的Oracle11g数据库）提供
python动物专家系统_用Python实现一个动物识别专家系统--人工智能作业分享 weixin_39664995 python动物专家系统
考察产生式系统我猜在搜索引擎的茫茫大海中，你能看见我的这篇文章不是缘分，而是你要交作业了(抖机灵)求点赞，给作者一点分享的鼓励代码没写GUI，因为不喜欢这玩意，直接在终端中进行人机交互。使用代码之前，请根据自身情况对字符编码、文件路径进行修改代码写的很烂，以后有能力了再把算法加进去优化代码吧第一问先根据题图，创建规则库(使用了一个文本文件)if有毛发then哺乳动物if有乳then哺乳动物if吃肉
Python的base64 广飞 python base64
python中base64加密解密方法实例分析base64介绍出处：http://blog.csdn.net/morewindows/article/details/11871429在Python中使用base64模块处理字符编码的教程
LaTeX 教程王小玗 javscript html css 编辑器 css3 html5 青少年编程
LaTeX教程LaTeX是一种基于TeX的排版系统，广泛用于学术论文、书籍和技术文档的编写。以下是LaTeX的基础教程：1.基本结构\documentclass{article}%文档类型（article,report,book等）\usepackage[utf8]{inputenc}%字符编码%导言区（用于加载宏包和设置文档格式）\title{文档标题}\author{作者}\date{\tod
Tomcat项目配置袁** 笔记 tomcat java servlet
1、下载tomcat：版本：9.0.65链接：https://tomcat.apache.org/download-90.cgi2、解压tomcat：tomcat直接解压就可以使用：解压后文件夹目录为：3、bin文件夹下startup.bat双击启动虽然启动成功，单控制台出现中文乱码，不方便查看日志：修改配置中的字符编码UTF-8为GBK
SparkSQL-数据提取和保存心碎土豆块 spark中的问题分析大数据 ide
1.建立一个.csv文件，然后添加基本数据。2.在mysql端建立一个数据表准备user.csv文件。在mysql中创建数据表，特别注意字符编码的问题编写spark代码：读入csv文件到dataFramedataFrame做数据筛选dataFrame做数据写入到mysql（三）核心步骤1.在mysql中创建数据表
HTML5关键知识点之＜head＞元素深度剖析奋斗的小羊羊 html5 前端 html
HTML5关键知识点之元素深度剖析在前端开发的学习中，HTML5有着丰富且实用的知识。我写这篇文章，就是想和大家一起深入学习这些内容，共同提升我们的前端开发技能。一、知识点总结字符编码：字符编码是电脑存储和显示文字的关键，它为屏幕显示内容和电脑存储内容提供映射。确定网页字符编码有两种方式，一是通过HTTP头信息Content-Type指定，二是在HTML文件中用标签声明。HTML5中这种更简洁的声
一个批量文件Dos2Unix程序（Microsoft Store，开源）1.1.0 编码检测和预览初级代码游戏文本格式与字符编码 dotnet和C#microsoft C#字符编码字符集 BOM UTF unicode
之前的版本是个意思意思，验证商店发布的（其实是我以前自己用的工具），这次把格式检查和转换都做上了，功能应该差不多了，还有一些需要小改进的地方。因为还没什么用户嘛，还是保持全功能免费试用。（真的是为了交个朋友）目录一、从MicrosoftStore安装二、从github获取源码三、运行四、新增功能4.1预览和编码选择4.2输出格式选择4.3编码保存五、关于文本格式的知识5.1行结束符5.2字符编码5
python中高阶函数和装饰器_Python高阶函数与函数装饰器-day4 Yasuraoka Mugi python中高阶函数和装饰器
上节回顾高阶函数闭包函数函数装饰器模块导入一、上节回顾Python2与Python3字符编码问题，不管你是初学者还是已经对Python的项目了如指掌了，都会犯一些编码上面的错误。我在这里简单归纳Python3和Python2各自的区别。首先是Python3-->代码文件都是用utf-8来解释的。将代码和文件读到内存中就变成了Unicode，这也就是为什么Python只有encode没有decode
HTML5关键知识点之＜head＞元素深度剖析奋斗的小羊羊 html5 前端 html
HTML5关键知识点之元素深度剖析在前端开发的学习中，HTML5有着丰富且实用的知识。我写这篇文章，就是想和大家一起深入学习这些内容，共同提升我们的前端开发技能。一、知识点总结字符编码：字符编码是电脑存储和显示文字的关键，它为屏幕显示内容和电脑存储内容提供映射。确定网页字符编码有两种方式，一是通过HTTP头信息Content-Type指定，二是在HTML文件中用标签声明。HTML5中这种更简洁的声
想造轮子的时候，ctrl+f一下 diandinai8712 测试操作系统 json
Chardet，字符编码探测器，可以自动检测文本、网页、xml的编码。colorama，主要用来给文本添加各种颜色，并且非常简单易用。Prettytable，主要用于在终端或浏览器端构建格式化的输出。difflib，[Python]标准库，计算文本差异Levenshtein，快速计算字符串相似度。fuzzywuzzy,字符串模糊匹配。esmre,正则表达式的加速器。shortuuid,一组简洁UR
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要