茶_壶

字符编码--第3章字符的存储--大五码 JIS Shift_JIS Windows-31J

第7节大五码

Big5，又称为大五码或五大码，是使用繁体中文（正体中文）社群中最常用的电脑汉字字符集标准，共收录13,060个汉字。

中文码分为内码及交换码两类，Big5属中文内码，知名的中文交换码有CCCII、CNS11643。

Big5虽普及于台湾、香港与澳门等繁体中文通行区，但长期以来并非当地的国家标准，而只是业界标准。倚天中文系统、Windows繁体中文版等主要系统的字符集都是以Big5为基准，但厂商又各自增加不同的造字与造字区，衍生成多种不同版本。

2003年，Big5被收录到CNS11643中文标准交换码的附录当中，取得了较正式的地位。这个最新版本被称为Big5-2003。

历史及名称

“大五码”（Big5）是由台湾财团法人资讯工业策进会为五大中文套装软体所设计的中文共通内码，在1983年12月完成公告，隔年3月，资讯工业策进会与台湾13家厂商签定“16位元个人电脑套装软体合作开发（BIG-5）计划(五大中文套装软体)”，因为此中文内码是为台湾自行制作开发之“五大中文套装软体”所设计的，所以就称为Big5中文内码。五大中文套装软体虽然并没有如预期的取代国外的套装软体，但随着采用Big5码的国乔中文系统及倚天中文系统先后在台湾市场获得成功，使得Big5码深远地影响正体中文电脑内码，直至今日。“五大码”的英文名称“Big5”后来被人按英文字序译回中文，以致现在有“五大码”和“大五码”两个中文名称。

Big5码的产生，是因为当时个人电脑没有共通的内码，导致厂商推出的中文应用软体无法推广，并且与IBM 5550、王安码等内码，彼此不能兼容；另一方面，台湾当时尚未推出中文编码标准。在这样的时空背景下，为了使台湾早日进入资讯时代，所采行的一个计划；同时，这个计划对于以台湾为核心的亚洲繁体汉字圈也产生了久远的影响。

Big5产生前，研发中文电脑的朱邦复认为内码字集应该广纳所有的正异体字，以顾及如户政等应用上的需要，故在当时的内码会议中，建议希望采用他的五万多字的字库。工程师认为虽其技术可行，但是三个位元组(超过两个位元组以上)长度的内码却会造成英文萤幕画面映射成中文画面会发生文字无法对齐的问题，因为当时盛行之倚天中文系统画面系以两个位元组文字宽度映射成一个中文字图样，英文软体中只要以两个英文字宽度去显示一个中文字，画面就不会乱掉，造成中文系统业者偏爱二个位元组长度的内码；此外以仓颉输入码压缩成的内码不具排序等功能，因此未被采用。1983年有人诬指朱邦复为共产党，其研究成果更不可能获采用。

在Big5码诞生后，大部分台湾的电脑软体都使用了Big5码，加上后来倚天中文系统的高度普及，使后来的微软Windows 3.x等亦予以采用。虽然后来台湾还有各种想要取代Big5码，像是倚天中文系统所推行的倚天码、台北市电脑公会所推动的公会码等，但是由于Big5字码已沿用多年，因此在习惯不易改变的情况下，始终无法成为主流字码。而台湾后来发展的国家标准CNS 11643中文标准交换码由于非一般的内码系统，是以交换使用为目的，受先天所限，必须使用至少三个位元组来表示一个汉字，所以普及率远远不及Big5码。

在1990年代初期，当中国大陆的电邮和转码软体还未普遍之时，在深圳的港商和台商公司亦曾经使用Big5系统，以方便与总部的文件交流、以及避免为大陆的办公室再写一套不同内码的系统。使用简体中文的社群，最常用的是GB 2312、GBK及其后续的国标码（GB 18030）。

现在，除了台湾外，其他使用繁体汉字的地区，如香港、澳门，及使用繁体汉字的海外华人，都曾普遍使用Big5码做为中文内码及交换码。

中文码相关标准历程

1983年 “通用汉字标准交换码”试用版发行，包括13,053个字与441个符号，分为二个字面，先笔画数，后部首序排列。

12月：Big-5大五码，包括13,053个字与441个符号，字集与字序与交换码试用版完全相同，仅字码定义不同。

1984年 3月：台湾资策会与其国内13家厂商签定“五大中文套装软体‎”开发计划，而“大五码”即是为“五大中文套装软体‎”所设计之中文内码。

1986年国家标准“CNS 11643通用汉字标准交换码”正式版发行，包括13,051个字（删除2个重复字，调整20个字顺序）与441个符号，其余均与试用版相同。

1988年公布“通用汉字标准交换码”－使用者加字区交换码，即第十四字面，共6,148字。

1989年再公布使用者加字区交换码（增编）157字。

1992年国家标准“CNS 11643中文标准交换码”新版发行，扩充第3-7字面并更换名称，总共包括48,027个字与684个符号（增加部首和数字符号）。

1997年 Big-5E大五码扩充，同1984年版，包括13,053个字与441个符号，另于造字区定义3,954个较常使用的造字。

2002年国际标准ISO 10646 / Unicode的中文版“CNS 14649广用多八位元编码字元集”，包括中、日、韩、越等20,902个汉字（现已扩充至十万字左右），及全球使用的字符。

2008年国家标准“CNS 11643中文标准交换码”扩充版发行，增加了户政用字与异体字等。

字节结构

Big5码是一套双位元组字符集，使用了双八码储存方法，以两个字节来安放一个字。第一个字节称为“高位字节”，第二个字节称为“低位字节”。

“高位字节”使用了0x81-0xFE，“低位字节”使用了0x40-0x7E，及0xA1-0xFE。在Big5的分区中：

0x8140-0xA0FE 保留给使用者自定义字元（造字区）

0xA140-0xA3BF 标点符号、希腊字母及特殊符号，

包括在0xA259-0xA261，安放了九个计量用汉字：兙兛兞兝兡兣嗧瓩糎。

0xA3C0-0xA3FE 保留。此区没有开放作造字区用。

0xA440-0xC67E 常用汉字，先按笔划再按部首排序。

0xC6A1-0xC8FE 保留给使用者自定义字元（造字区）

0xC940-0xF9D5 次常用汉字，亦是先按笔划再按部首排序。

0xF9D6-0xFEFE 保留给使用者自定义字元（造字区）

值得留意的是，Big5重复收录了两个相同的字：“兀、兀”（0xA461[U+5140]及0xC94A[U+FA0C]）、“嗀、嗀”（0xDCD1[U+55C0]及0xDDFC[U+FA0D]）。此外“十”、“卅”也在符号区又重复了一次，在检索系统中常会造成查询不到字。

冲码问题

因为低位元字元中包含了程式语言、shell、script中，字串或命令常会用到的特殊字元，例如0x5C“\”、0x7C“|”等。“\”在许多用途的字串中是当作转义符号又称为跳脱字元，例如\n（换行）、\r（归位)、\t（tab）、\\（\本身符号）、\"（引号）等等。而“|”在UNIX作业系统中大多当作命令管线的使用，如"ls -la | more"等等。如果在字串中有这些特殊的转义字元，会被程式或直译器解释为特殊用途。但是因为是中文的原因，故无法正确解释为上面所述的行为，因此程式可能会忽略此转义符号或是中断执行。若此，就违反了使用者本来要当成中文字元一部份使用的本意。

在常用字如“功”（0xA55C）、“許”（0xB35C）、“蓋”（0xBB5C）、“育”（0xA87C）中时常出现，造成了许多软体无法正确处理以Big5编码的字串或文件。这个问题被戏谑性地人名化，称为“許功蓋”或“許蓋功”（这三个字都有这种问题）。

一般的解决方法，是额外增加“\”的字元，因为“\\”会被解释为“\”，所以“成功\因素”这个字串就能无误地被程式当作“成功因素”的字串来处理。但是额外的困扰是，有些输出功能并不会把“\”当作特殊字元看待，所以有些程式或网页就会错误地常常出现在“许功盖”这些字后面多了“\”。

与划线符号相冲

Big5 码字元的首位元组会与 DOS（半形）的划线符号相冲而产生乱码。

私人造字区

在倚天中文系统，以及后来的Windows 3.1、95及98中，定义四个私人造字区范围：0xFA40-0xFEFE、0x8E40-0xA0FE、0x8140-0x8DFE、0xC6A1-0xC8FE。

私人造字区的原意，是供使用者加入本来在编码表中缺少的字元，但当每个使用者都在不同的地方加上不同的字元后，当交换资料时，对方便难以知道某一个编码究竟想表达什么字。

影响

自中文电脑流行后，由于很多日常用字被视为异体字而未收录。很多人，甚至电视台的字幕、报纸的用字习惯都被改变。

例如台湾教育部视“着”为“著”的异体字，故没有收录“着”字。康熙字典中的一些部首用字（如“亠”、“疒”、“辵”、“癶”等）、常见的人名用字（如“堃”（台湾前行政院长游锡堃）、“煊”（台湾监察院院长、前财政部长王建煊）、“栢”（歌手张柏芝）、“峯”（歌手吴青峰）、“喆”（歌手陶喆）等），虽被中文社会广泛采用，也没有收录到Big5之中。

另外像台湾的廍，闽南语指制糖所，常见于乡间地名。但由于大五码未收此字，也被被“廓”、“部”代替。

在互联网上，实在不难看到人们把游锡堃、王建煊、张柏芝、陶喆等名字，写成为“游锡方方土”、“王建火宣”、“张木百芝”和“陶吉吉”等写法。电视上日本动画的中文字幕中也会看到像“木堅”（樫）这样的字。

Big5未收录字举例

在仓颉输入法中却可打之

"邨"与"着"在香港极为常用

Code Page 950

Windows使用的Code Page 950 (系参照IBM Big 5码的编码页号Code Page 950，简称CP950)之中，只添加了上述0xF9D6-0xF9FE的倚天扩充字及表格符号，并没有加入日文假名字母等其他延伸。

在Windows ME之中，微软首度在0xA3E1加入了欧元（€）符号，之后所有Windows版本的Code Page 950也都有这个符号。

香港增补字符集

香港增补字符集（Hong Kong Supplementary Character Set，简称HKSCS）是香港政府基于大五码之上扩展的字符集标准，是现时香港的中文资讯交换内码标准。香港增补字符集以前称为《政府通用字库》，本来只是香港政府内部统一使用的造字档，有三千多字。但由于香港电脑业界不断要求政府迎合本地需要，提出官方的字符集方案，以便与政府进行文件来往，于是香港政府便在1995年把这个内部使用的标准公开。到了1999年，此字集增加到四千多字，并改为现名。

此字符集由中文界面咨询委员会管理，仍在不断扩编之中。字符集主要包括香港地名、人名用汉字、粤语用字（包括粗言秽语在内，这是应警方及法庭需要记录口供的需要）、异体字、小部份简体字、平假名、片假名及俄语西里尔字母。

发展

由于各厂商及政府推出的Big5延伸，彼此互不兼容，造成乱码问题。鉴于Unicode能正确地处理七万多个汉字，近年的作业系统和应用程式（如苹果电脑Mac OS X和以Cocoa API撰写之程式、Microsoft Windows 2000及之后版本、Microsoft Office 2000及之后版本、Mozilla浏览器、Internet Explorer浏览器、Java语言等等），已改用Unicode编码。可惜现时仍有一些旧的软件（如Visual Basic 6、部分Telnet或BBS软件），未能支援Unicode编码，故相信Big5缺字的问题仍会困扰用户一段时间，直至所有程式都能改用Unicode为止。

输入方法

VimIM在Vim环境中，可以直接键入十进制或十六进制Big5码。既不需要启动输入法，也不需要码表。

代码页950

代码页950（Code page 950）是 Microsoft 的繁体中文字元集标准，由Big5码修改而成，是Big5最通行版本，也是Big5码的事实标准。此代码页并无在 IANA[1] 登记，故不能算是正式互联网标准，通常只会以“big5”代表。代码页950 和 Big5 最主要的差别是在 F9D6-F9FE 添加了 7 个倚天中文系统增加的字元“碁銹裏墻恒粧嫺”（俗称“倚天字”）和 34 个画图和制表符号

由 Windows Me 的版本开始在 A3E1 加入欧元符号 (€)，之后所有Windows版本的Code Page 950也都有这个符号。

第8节 JIS

1.JIS X 0201

JIS X 0201（旧称 JIS C 6220），是日本规格协会（另见日本工业规格）订立的8位元编码系统。由于日语可使用片假名表示，故日语可使用类似ISO/IEC 8859的单字节编码系统来表达。

“JIS X 0201”的拉丁字母部分又称“ジスローマ字”（JIS 罗马字），而其假名部分又称“ジスカナ”（JIS 假名）。

清音片假名置于0xA6至0xDD。0xDE及0xDF分别置放浊音和半浊音符号。0xA1-0xA4是句号、引号、顿号（読点，用法同中文逗号）、0xA5则是隔音符号（中黒，用法类似中文顿号和间隔号）。

此标准未有定义0xA0，但多数操作系统都将之用作不换行空格。

日本有另一个标准JIS X 0207定义控制字符，在JIS X 0201标准中未有定义。。

上图浅黄色的是JIS与ASCII不同的地方。JIS以“¥”（日圆符号）替换“\”（反斜线）、以“‾”（上划线）替换“~”（波浪号）。

“JIS X 0201”的片假名，又称“半角片假名”，以别于“JIS X 0208”的“全角片假名”，因为此字集的字符只占用一字节空间，印刷字型的宽度也只有全角片假名的一半。

2.JIS X 0208

JIS X 0208，全称七位元及八位元之双位元组资讯交换用符号化汉字集（日文全称：7ビット及び8ビットの2バイト情報交換用符号化漢字集合，英文全称：7-bit and 8-bit double byte coded KANJI sets for information interchange），通称JIS基本汉字，是日本工业规格协会制订的字节编码字符集，收录6879个图形字符，包括6355汉字和524个非汉字图形符号。最初于1978年制订，名称为 JIS C 6226，其后于1983年、1990年、1997年修订。

编码结构

JIS X 0208是7位或8位的双字节编码，采用行号列号和区位（区点，kuten）的编码方式，分为94区，每区编入94个字符。

01区-09区：非汉字图形字符 01区-02区：一般符号（特殊文字）合计147字符。

03区：10个数字及大小写共52个拉丁字母。

04区：平假名，包括“ゐ”、“ゑ”收录了清音48个、浊音20个、半浊音5个、拗音及促音的小字10个，共83个。

05区：片假名，86个。

06区：希腊字母，大小写共48字。

07区：西里尔字母，大小写共66字。

08区：32个方框绘制字符（制表符）。

16区-84区：汉字 16区-47区，一级汉字（第1水準）2965个。

48区-84区，二级汉字（第2水準）3390个。

85区-94区：私人造字区（空き領域，unassigned code-points）

出处不明的汉字

主条目：幽灵汉字

第1次规格制定1年后，田嶋一夫报告了63个在《新字源》、《大汉和辞典》中都找不到的汉字，这些汉字被称为“幽灵文字”或“幽灵汉字”。

第9节 Shift_JIS

Shift_JIS是日本电脑系统常用的编码表。它能容纳全形及半形拉丁字母、平假名、片假名、符号及日语汉字。

命名为Shift_JIS的原因，是因为在放置全形字符时，要避开原本在0xA1-0xDF放置的半角假名字符。

微软及IBM的日语电脑系统即使用了这个编码表。这个编码表称为CP932。

字节结构

以下字元在Shift_JIS使用一个字节来表示。

ASCII字符（0x20-0x7E），但“\”被“¥”取代。ASCII控制字符（0x00-0x1F、0x7F）。JIS X 0201标准内的半角标点及片假名（0xA1-0xDF）。在部分操作系统中，0xA0用来放置“不换行空格”。

以下字元在Shift_JIS使用两个字节来表示。

JIS X 0208字集的所有字符 “第一位字节”使用0x81-0x9F、0xE0-0xEF（共47个）“第二位字节”使用0x40-0x7E、0x80-0xFC（共188个）。使用者定义区 “第一位字节”使用0xF0-0xFC（共13个）“第二位字节”使用0x40-0x7E、0x80-0xFC（共188个）。

在Shift_JIS编码表中，并未使用0xFD、0xFE及0xFF。

在微软及IBM的日语电脑系统中，在0xFA、0xFB及0xFC的两字节区域，加入了388个JIS X 0208没有收录的符号和汉字。

第10节 Windows-31J

Windows 标准字符集不是Shift_JIS，而是Windows-31J

Shift_JIS是日文的一种字符集，Microsoft的MS-DOS采用Shift_JIS

作为日语标准编码，并命名为CP932(同理GBK相应为CP936，可以在Windows的cmd.exe中输入chcp查看)

开始，Microsoft允许各OEM厂商在CP932的基础上进行扩展，所以造成了各个OEM厂商的字符集都不一样。

后来，截止到Windows3.1日语版，Microsoft限制了各OEM厂商对字符集的扩展。而当时，

日本计算机市场基本被IBM和NEC占领，他们都是在CP932的基础上进行的扩展，所以日语的标准

字符集就变成了CP932了，IANA(The Internet Assigned Numbers Authority，互联网数字分配机构)

把它命名为Windows-31J.

在Java中，为了区分IBM的CP932和Windows-31J，所以用MS932来表示了。

CP932

在日本Windows环境中使用的“SHIFT JIS”是Microsoft对Shift_JIS的Microsoft扩展，它的准确名字是Microsoft Windows Codepage: 932或cp932。除由Shift_JIS支持的字符之外，cp932支持扩展字符，如NEC选择的IBM扩展字符和IBM扩展字符。

cp932字符集与sjis存在以下不同点：

· cp932支持NEC特殊字符、NEC选择的IBM扩展字符和IBM选择的字符。

· 一些cp932字符有两个不同的编码点，这两种编码点转换为相同Unicode编码点。因此，当从Unicode转换回到cp932时，必须选择一个编码点。对于这种“相互转换”，使用由Microsoft推荐的转换规则。（见 http：//support.microsoft.com/kb/170559/EN-US/。）

转换规则如下：

o 如果字符在JIS X 0208 和NEC特殊字符中同时存在，使用JIS X 0208 的编码点。

o 如果字符在NEC特殊字符和IBM选择的字符中同时存在，使用NEC特殊字符的编码点。

o 如果字符在IBM选择的字符和NEC选择的IBM扩展字符中同时存在，使用IBM扩展字符的编码点。

#include <stdio.h>

int main(int argc, char * argv) {

FILE * fp;

short idx, idy;

char ch;

size_t res;

fp = fopen(".\\sjis.txt", "wb+");

if (fp == NULL) {

return -1;

}

// ASCII

for (idx = 0; idx <= 255; idx++) {

ch = (char)(0x0FF & idx);

res = fwrite(&ch, sizeof(char), 1, fp);

if (res != 1) {

return -2;

}

// Shift_JIS

for (idx = 0x81; idx <= 255; idx++) {

for (idy = 0x40; idy <= 255; idy ++) {

// Height

ch = (char)(0x0FF & idx);

res = fwrite(&ch, sizeof(char), 1, fp);

if (res != 1) {

return -2;

}

// Lower

ch = (char)(0x0FF & idy);

res = fwrite(&ch, sizeof(char), 1, fp);

if (res != 1) {

return -2;

}

} // idy

} // idx

if (fp != NULL) {

fclose(fp);

fp = NULL;

}

return 0;

}

Spring MVC 拦截器教程我不是少爷. Java基础 spring mvc java
一、拦截器核心概念1.1拦截器vs过滤器特性过滤器(Filter)拦截器(Interceptor)依赖关系Servlet容器SpringMVC框架作用范围所有Web请求Controller请求实现机制JavaEE标准Java反射+AOP生命周期服务器启动时初始化随Spring容器初始化功能场景字符编码、安全过滤权限校验、日志记录、性能监控1.2核心接口HandlerInterceptorpubli
ASCII字符编码表简介阿让啊 C语言 c语言算法开发语言单片机 stm32
ASCII（AmericanStandardCodeforInformationInterchange，美国信息交换标准代码）是一种字符编码标准，用于表示文本字符。ASCII使用7位二进制数（0-127）来表示字符，包括英文字母、数字、标点符号以及一些控制字符。ASCII表的结构ASCII表分为两部分：可打印字符（32-126）：包括字母、数字、标点符号等。控制字符（0-31和127）：用于控制设
如何解决POST请求中文乱码问题，GET的又如何处理呢？思维导图代码示例（java 架构）用心去追梦 java 架构开发语言
解决POST和GET请求中文乱码问题在Web开发中，处理请求时遇到的中文乱码问题是比较常见的。这类问题通常发生在字符编码不一致的情况下，即客户端和服务器端对字符的编码方式不同步。为了确保POST和GET请求中的中文能够正确显示，我们需要采取适当的措施来保证整个请求-响应链上的字符编码一致性。1.解决POST请求中文乱码对于POST请求，乱码问题通常出现在表单提交的数据上。要解决这个问题，可以采取以
python字符串转成0x字节组_python高级（四）—— 文本和字节序列（编码问题） weixin_39831567
本文主要内容字符字节结构体和内存视图字符和字节之间的转换——编解码器BOM鬼符标准化Unicode字符串Unicode文本排序字符'''字符编码问题是经常困扰python编程人员的问题，我在编写爬虫的过程中也经常遇到这个头疼的事。从python3开始，明确区分了人类语言(文本字符串)和机器语言(二进制字节)，咱们先说文本字符串开始之前，得对"字符"进行定义：字符：Unicode字符，从python
中文乱码问题解析与解决方案 ·云扬· Java #JavaSE java 开发语言笔记学习
在计算机系统或软件中，中文乱码是指由于字符编码不一致或处理不当，导致中文字符无法正常显示，出现乱码现象。这种现象通常表现为中文字符被替换成其他不相关的字符、符号或乱码。本文将探讨中文乱码的成因、常见的字符编码方式，以及如何快速解决乱码问题。1什么是中文乱码？中文乱码是指在计算机系统或软件中，由于字符编码不一致或处理不当，导致中文字符无法正常显示，出现乱码现象。这种现象通常表现为中文字符被替换成其他
Python（17）Python字符编码完全指南：从存储原理到乱码终结实战一个天蝎座白勺程序猿 python 开发语言
目录背景介绍一、字符编码核心原理1.计算机存储本质2.Python3的编码革命3.主流编码格式对比二、编码转换核心方法1.编码（Encode）过程2.解码（Decode）过程3.错误处理策略三、文件操作编码实战1.文本文件读写2.二进制模式转换编码四、网络通信编码处理1.HTTP请求响应处理2.Socket通信协议五、高级编码技巧1.编码自动检测2.混合编码处理六、总结与最佳实践1.黄金准则2.配
树·哈夫曼树实现哈夫曼编码进击的圆儿算法数据结构
算法步骤：1.分配存储n个字符编码的编码表空间HC，长度为n+1(为何长度为n+1？各字符的哈夫曼编码存储在有HuffmanCode定义的动态分配的数组HC中，为了实现方便，数组的0号单元不使用，从1号单元开始使用)；分配临时存储每个字符编码的动态数组空间cd，cd[n-1]置为‘\0’（存放字符串结束标志）。2.逐个求解n个字符的编码，循环n次，执行下列操作a.设置变量start用于记录编码在c
字符编码详解 Zebul博
字符编码涉及到很多概念如ASCII、Unicode、GBK、GB2312、UTF-8等，是在编程过程中经常遇到的问题，同时也是困扰很多新手程序员的难题，正如随处可见的乱码问题。但字符编码又是计算机的重要基础之一，正确处理字符的输入输出、存储显示问题，是进行下一步软件开发或网站建设的必要前提。本文将从字符集和字符编码等基础概念出发，详细介绍字符编码所涉及到的点点滴滴，力求以后再遇到相关的问题可以清楚
SQL语句简单整理 avo50465
目录SQL语句简单整理常用数据类型创建数据库第一章第二章第三章第四章SQL语句简单整理参考https://blog.csdn.net/weixin_43947974/article/details/848558561.数据库操作：1）创建数据库：createdatabasedatabase_name；创建并设置字符编码createdatabasedatabase_namecharactersetu
21天Python计划：零障碍学语法（更新完毕）互联网搬砖工老肖 python
目录序号标题链接day1Python下载和开发工具介绍https://blog.csdn.net/XiaoRungen/article/details/146583769?spm=1001.2014.3001.5501day2数据类型、字符编码、文件处理https://blog.csdn.net/XiaoRungen/article/details/146603325?spm=1011.2415.
Java 读取 csv 文件 HarrisHaword java 开发语言
1、引入maven依赖org.apache.commonscommons-csv1.9.02、java代码/***csv内容解析**@paramfilePath文件路径*@paramcharsetName字符编码*@returnList>*/publicList>resolveData(StringfilePath,StringcharsetName){try{FileInputStreamfil
HTML 头部介绍小黑蛋学java html html
HTML头部是网页中最重要的部分之一，它包含了一些必要的信息，如文档类型、字符编码、样式表和脚本等。本文将详细介绍HTML头部的作用及其代码演示。一、HTML头部的作用HTML头部是网页的入口，它包含了一些必要的信息，如文档类型、字符编码、样式表和脚本等。以下是HTML头部的主要作用：1.指定文档类型声明指定了HTML文档的版本和类型。这个声明必须位于HTML文档的第一行，告诉浏览器文档使用哪个H
常见的 HTML 标签 2303_79975149 前端
HTML拥有众多标签，它们依据功能和用途可大致分为以下几类：1.文档结构标签这类标签用于构建HTML文档的基本框架。：代表HTML文档的根元素，所有其他HTML元素都应包含在该标签内。：包含关于HTML文档的元数据，像文档标题、字符编码、样式表和脚本引用等。：定义HTML文档的标题，会显示在浏览器的标题栏或标签页上。：包含了在网页上可见的内容，例如文本、图像、链接等。2.文本格式化标签这些标签用来
解决Linux下文本文件中文乱码问题算法
操作系统是Linux(OEL8.10)，所有文件是打了一个压缩包上传的，上传解压后发现其中的文本文件中文乱码。类似现象如下：[oracle@dbtestAIDIR]$catyy.txtʵa)(b)֪Ʒb)a)ʵ0;这通常是文本文件的字符编码导致。举个例子。现在有两个文件：xx.txt是我自己vi编辑新建的yy.txt这里代表的是同事发我的一些测试文件两个测试文本文件xx.txt,yy.txt[or
Python基础全解析：从输入输出到字符编码的深度探索 Python×CATIA工业智造 python 开发语言 pycharm
一、Python程序交互的基石：Print函数详解1.1基础输出功能#输出数字print(20.5)#输出浮点数：20.5print(0b0010)#输出二进制数：10#输出字符串print('HelloWorld!')#经典输出示例#表达式计算print(4+4*(2-1))#输出计算结果：81.2文件输出实战#文件路径处理技巧file_path='output/log.txt'#推荐相对路径w
深入理解Unicode及其技术报告薛迟 Unicode版本技术报告编码空间结构稳定性政策规范化形式
背景简介Unicode是一个全球性的字符编码标准，旨在为世界上所有的书写系统提供一个唯一的数字表示。本文基于Unicode的各个版本和技术报告，深入分析了Unicode的编码原理、结构组织、以及其稳定性和未来发展趋势。Unicode版本和标准化形式Unicode的不同版本定义了不同的字符集和规范。例如，Unicode标准化形式描述了将Unicode文本转换为规范化形式的规则，以确保字符的一致表示。
python深度评测：5大中文长度计算方案终极对决（你的选择可能一直是错的）梦幻精灵_cq 笔记 python 学习
好的！我将按照技术博客的风格为您创作这篇评测文章。以下是完整内容，您可以直接复制到CSDN博客编辑器发布：【深度评测】5大中文长度计算方案终极对决：你的选择可能一直是错的！本文质量分：⭐️⭐️⭐️⭐️⭐️（基于实测数据的技术分析）关键词：Python中文处理wcwidth性能优化字符编码前言：一个被忽视的"坑"最近在优化终端中文对齐时，我发现一个诡异现象：同样的文本，用不同方法计算出的显示长度竟相
HTML/CSS笔记可能是小李吧学习笔记 css html
思维导图HTML网页的基本结构文档声明，声明当前文档版本迭代网页的版本HTML4XHTML2.0HTML5...文档说明文档说明用来告诉浏览器当前的版本进制二进制十进制八进制十六进制字符编码所有的数据在计算机中储存时都是以二进制形式存储的，文字也不例外。所以一段文字在存储到内存时，都需要转换为二进制编码当我们读取这段文字时，计算机会将编码转换为字符，供我们阅读解码将二进制码转换为字符的过程称为解码
MySQL字符集详解：编码原理与常见问题解析 shark094 课程设计
在MySQL数据库管理系统中，字符集是基石般的存在，它不仅掌控着数据如何存储，更决定了数据在各种操作中的表现。深入了解MySQL字符集的编码原理，有效解决常见问题，对开发者和数据库管理员至关重要。一、MySQL字符集编码原理（一）字符编码的本质计算机只能处理二进制数据，字符编码就是将人类可读的字符映射为二进制数字的规则。以简单的ASCII编码为例，它用7位二进制数来表示128个字符，比如字母'A'
编写简单的小程序又熟了 Python入门学习 python flask
编写简单的小程序文章目录编写简单的小程序1.turtle的认识与使用1.1turtle常用的函数1.2用turtle画小蛇1.3begin_fill和end_fill绘制太阳花2.变量2.1变量的创建2.2命名规则2.3保留字及查看方法3.运算符3.1算数运算符3.2关系运算符3.3逻辑运算符4.注释与缩进5.赋值语句6.输出与输入7.数据类型7.1字符串的索引7.2列表8.字符编码8.2乱码问题
Python 中的特殊注释及字符存储机制 svtvtvt python 开发语言 pycharm 数据结构
目录一、Python特殊注释及其作用1.'#!/usr/bin/python'（Shebang2.'#-*-coding:utf-8-*-'（字符编码声明）3.其他特殊注释二、Python中字符的存储机制1.计算机的最小存储单元2.常见字符编码方案3.Python中字符的存储三、中文乱码的原因及解决方法1.源文件的编码与Python的编码不一致2.编码与解码不一致3.终端或控制台编码问题4.操作系
Xshell7连接Debian12系统，中文显示乱码，解决办法一览！ linuxdebian
在使用Xshell7远程连接Debian12时出现中文显示乱码问题，通常是由于字符编码或字体设置不匹配导致的。以下是详细的解决方法：解决方案1：设置Xshell编码为UTF-8打开Xshell会话配置：连接Debian12系统后，点击左侧面板的会话树状结构（如SessionList），右键点击当前会话，选择Properties（属性）。修改字符编码：进入Terminal选项卡。在Character
处理文本的原则 the only KIrsTEN 语音和文本处理(Python)
没有字符编码方案本身就是目的：它是一种启用计算机上有用的文本处理。•计算机预期支持的基本低级文本处理包括：使字符可见（包括连字、上下文形式等）渲染时断线（包括断字）修改外观，例如点大小、字距、下划线、倾斜和重量（轻，半，粗体等）确定“单词”和“句子”等单位在选择和突出显示文本等过程中与用户交互通过插入和删除接受键盘输入和编辑存储的文本比较操作中的文本，例如排序或确定排序顺序两串分析文本内容，例如拼
MySQL 5.7 vs MySQL 8.0 高频面试题解析 dblens 数据库管理和开发工具 mysql 数据库
一、基础概念与核心差异1.默认字符集的变化问：MySQL5.7和8.0的默认字符集有何不同？为什么要修改？答：MySQL5.7默认字符集为latin1，可能导致中文乱码。MySQL8.0默认改为utf8mb4（支持4字节编码，如表情符号），且默认排序规则为utf8mb4_0900_ai_ci。意义：彻底解决字符编码问题，兼容国际化需求。2.用户认证方式的演进问：从5.7到8.0，用户密码认证方式有
字符流在处理不同编码文件时的工作原理啊sen丶 java 开发语言
在Java中，字符流是专门用于处理文本数据的IO流，它基于字符（char）操作，能够自动处理字符编码的转换。字符流的核心在于它可以根据指定的字符集（如UTF-8、GBK、ISO-8859-1等）将字节数据解码为字符数据，或者将字符数据编码为字节数据。这种机制使得字符流在处理不同编码的文件时非常灵活，能够有效避免因编码不一致导致的乱码问题。一、字符流的工作原理字符流在内部使用Charset（字符集）
《恐龙餐厅菜单页面代码说明文档》欣然～ html5
一、整体概述此HTML文件构建了一个恐龙餐厅的菜单页面，用户能够浏览菜品、将菜品添加到购物车，并进行支付操作。页面运用HTML搭建结构，CSS进行样式设计，JavaScript实现交互功能。二、HTML结构1.文档头部（）html恐龙餐厅菜单/*CSS样式代码*/：声明文档类型为HTML5。：指定文档语言为中文（中国大陆）。：设置字符编码为UTF-8，确保中文等字符能正确显示。：让页面在不同设备上
php中文乱码问号,如何解决PHP中文乱码问题？ Helios-Yang php中文乱码问号
作为该国家/区域内信息处理的基础，字符编码集起着统一编码的重要作用。字符编码集按长度分为SBCS(单字节字符集)，DBCS(双字节字符集)两大类。早期的软件(尤其是操作系统)，为了解决本地字符信息的计算机处理，出现了各种本地化版本(L10N)，为了区分，引进了LANG，Codepage等概念。但是由于各个本地字符集代码范围重叠，相互间信息交换困难;软件各个本地化版本独立维护成本较高。因此有必要将本
解决PHP中文乱码问题 UqConstruction php android oracle
在PHP开发中，中文乱码是一个常见的问题。当我们在处理中文字符时，有时会遇到显示不正常的情况，这就是中文乱码。本文将介绍一些常见的方法来解决PHP中文乱码问题。设置字符编码PHP中文乱码问题的根本原因是字符编码不匹配。为了正确显示中文字符，我们需要确保在所有的环节中使用相同的字符编码。常见的字符编码包括UTF-8、GBK等。首先，在PHP文件的开头添加以下代码，将文件的字符编码设置为UTF-8：h
如何处理PHP中的编码问题奥顺互联V php php android 开发语言
如何处理PHP中的编码问题在PHP开发过程中，编码问题是一个常见且棘手的问题。无论是处理用户输入、数据库交互，还是与外部API通信，编码问题都可能导致数据乱码、解析错误甚至安全漏洞。本文将深入探讨PHP中的编码问题，并提供一些实用的解决方案。1.理解字符编码字符编码是计算机中表示字符的方式。常见的字符编码包括ASCII、UTF-8、GBK等。UTF-8是一种变长的Unicode编码，能够表示世界上
计算机系统04 - Unicode 和 UTF-8 是小崔啊 #计算机组成原理计算机组成原理
Unicode和UTF-8文章目录Unicode和UTF-8什么是字符编码什么是字符？什么是字符集认识Unicode字符集为什么要使用Unicode字符集Unicode编码标准Unicode编码格式UTF-8编码UTF的字节序问题总结什么是字符编码什么是字符？字符（Character）是对文字和符号的总称，例如汉字、拉丁字母、emoji都是字符。在计算机中，一个字符由2部分组成：1、字符的编码：字
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

字符编码--第3章 字符的存储--大五码 JIS Shift_JIS Windows-31J

你可能感兴趣的:(字符编码,Shift_JIS,大五码,JIS,Windows-31J)

字符编码--第3章字符的存储--大五码 JIS Shift_JIS Windows-31J