haohetao

字符处理基础知识

首先，我们来明确一些概念：

字符： 它是抽象的最小文本单位。字符就是对某种意义的图画表示，或者说形状表示。 “ A” 是一个字符， “￥” 也是一个字符。

字符集： 字符的集合。比如汉字字符集，拉丁字符集，全人类所有的字符的集合。

编码字符集： 也就是一个字符集的编码形式，它为每一个字符分配一个唯一数字。

代码点： 就是在编码字符集中为字符分配的那个数字，在 Java 中称为 codepoint 。

字符编码方案： 是从一个或多个编码字符集到一个或多个固定宽度代码单元序列的映射。最常用的代码单元是字节，但是 16 位或 32 位整数也可用于内部处理。 UTF-32 、 UTF-16 和 UTF-8 是 Unicode 标准的编码字符集的字符编码方案， GB2312 ， GBK ， GB18030 ， Big5 是中文编码字符集的字符编码方案， Latin （拉丁语的意思）是西方字符集的编码方案，还有 ASCII 这个是美国的，我想每个人都不默生。

ASCII

ASCII 码是 7 位编码，编码范围是 0x00-0x7F 。 ASCII 字符集包括英文字母、阿拉伯数字和标点符号等字符。其中 0x00-0x20 和 0x7F 共 33 个控制字符。

只支持 ASCII 码的系统会忽略每个字节的最高位，只认为低 7 位是有效位。 HZ 字符编码就是早期为了在只支持 7 位 ASCII 系统中传输中文而设计的编码。早期很多邮件系统也只支持 ASCII 编码，为了传输中文邮件必须使用 BASE64 或者其他编码方式。

ISO 8859-1 或 Latin-1

正式编号为 ISO/IEC 8859-1:1998 ，又称 Latin-1 或“西欧语言”，是国际标准化组织内 ISO/IEC8859 的第一个 8 位字符集。它以 ASCII 为基础，在空置的 0xA0-0xFF 的范围内，加入 96 个字母及符号，藉以供使用附加符号的拉丁字母语言使用。曾推出过 ISO 8859-1:1987 版。

此字符集支援部分于欧洲使用的语言，包括阿尔巴尼亚语、巴斯克语、布列塔尼语、加泰罗尼亚语、丹麦语、荷兰语、法罗语、弗里西语、加利西亚语、德语、格陵兰语、冰岛语、爱尔兰盖尔语、意大利语、拉丁语、卢森堡语、挪威语、葡萄牙语、里托罗曼斯语、苏格兰盖尔语、西班牙语及瑞典语。

英语虽然没有重音字母，但仍会标明为 ISO/IEC8859-1 编码。除此之外，欧洲以外的部分语言，如南非荷兰语、斯瓦希里语、印尼语及马来语、菲律宾他加洛语等也可使用 ISO/IEC8859-1 编码。

法语及芬兰语本来也使用 ISO/IEC8859-1 来表示。但因它没有法语使用的 œ 、 Œ 、 Ÿ 三个字母及芬兰语使用的 Š 、 š 、 Ž 、 ž ，故于 1998 年被 ISO/IEC8859-15 所取代。（ ISO8859-15 同时加入了欧元符号）

ISO 8859-15 或 Latin-0

正式编号为 ISO/IEC 8859-15:1999 ，又称 Latin-9 ，俗称 Latin-0 ，是国际标准化组织内 ISO/IEC8859 的其中一个 8 位字符集。

这个字符集于 1998 年制定，藉以加入在 ISO/IEC8859-1 字符集缺少的法语 Œ œ 字母和 Ÿ 字母，及芬兰语 Š š , Ž ž 字母。同时，它亦把 ¤ （通用货币符号）换成 €（欧元符号）。

GB2312

GB2312 编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持 GB 2312 。

GB 2312 标准共收录 6763 个汉字，其中一级汉字 3755 个，二级汉字 3008 个；同时， GB 2312 收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的 682 个全角字符。

GB 2312 的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆 99.75% 的使用频率。

对于人名、古汉语等方面出现的罕用字， GB 2312 不能处理，这导致了后来 GBK 及 GB 18030 汉字字符集的出现。

GB 2312 中对所收汉字进行了“ 分区 ” 处理，每区含有 94 个汉字／符号。这种表示方式也称为区位码，相当于编码字符集。

· 01-09 区为特殊符号。

· 16-55 区为一级汉字，按拼音排序。

· 56-87 区为二级汉字，按部首／笔画排序。

10-15 区及 88-94 区则未有编码。

举例来说，“啊”字是 GB2312 之中的第一个汉字，它的区位码就是 1601 。

字节结构

在使用 GB2312 的程序中，通常采用 EUC 储存方法，以便兼容于 ASCII 。浏览器编码表上的“ GB2312 ” ，通常都是指“ EUC-CN ” 表示法。

每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”，第二个字节称为“低位字节”。

“高位字节”使用了 0xA1-0xF7 （把 01-87 区的区号加上 0xA0 ），“低位字节”使用了 0xA1-0xFE （把 01-94 加上 0xA0 ）。由于一级汉字从 16 区起始，汉字区的“高位字节”的范围是 0xB0-0xF7 ，“低位字节”的范围是 0xA1-0xFE ，占用的码位是 72*94=6768 。其中有 5 个空位是 D7FA-D7FE 。

例如“啊”字在大多数程序中，会以两个字节， 0xB0 （第一个字节） 0xA1 （第二个字节）储存。（与区位码对比： 0xB0=0xA0+16,0xA1=0xA0+1 ）。

EUC-CN （网上下到的编码表就是这个）（ gb2312 的字符串截取也是按照该表截取的）

EUC-CN 是 GB 2312 最常用的表示方法。浏览器编码表上的“ GB2312lang="EN-US"” ，通常都是指“ EUC-CN ” 表示法。

GB 2312 字符使用两个字节来表示。

“ 第一位字节”使用 0xA1-0xF7

“ 第二位字节”使用 0xA1-0xFE

举例来说，“啊”字是 GB 2312 之中的第一个汉字，它的区位码是 1601 。

在 EUC-CN 之中，它把 0xA0+16=0xB0,0xA0+1=0xA1 ，得出 0xB0A1

GBK

GBK 向下与 GB2312 完全兼容，向上支持 ISO 10646 国际标准，在前者向后者过渡过程中起到的承上启下的作用。

字节结构

GBK 亦采用双字节表示，总体编码范围为 8140-FEFE 之间，

首字节在 81-FE 之间，

尾字节在 40-FE 之间（不包括 7F ，相对 GB2312 有扩充）。

GBK 共收入 21886 个汉字和图形符号，包括：

* GB2312 中的全部汉字、非汉字符号。

* BIG5 中的全部汉字。

* 与 ISO 10646 相应的国家标准 GB13000 中的其它 CJK 汉字，以上合计 20902 个汉字。

* 其它汉字、部首、符号，共计 984 个。

微软公司自 Windows 95 简体中文版开始支持 GBK 代码，但目前的多数搜索引擎都不能很好地支持 GBK 汉字。

GBK 编码区分三部分：

* 汉字区，包括：

GBK/2 ： OXBOA1-F7FE, 收录 GB2312 汉字 6763 个，按原序排列；

GBK/3 ： OX8140-AOFE ，收录 CJK 汉字 6080 个；

GBK/4 ： OXAA40-FEAO ，收录 CJK 汉字和增补的汉字 8160 个。

* 图形符号区，包括：

GBK/1 ： OXA1A1-A9FE ，除 GB2312 的符号外，还增补了其它符号

GBK/5 ： OXA840-A9AO ，扩除非汉字区。

* 用户自定义区：即 GBK 区域中的空白区，用户可以自己定义字符。

另外在 Windows 系统操作系统上默认使用的就是 GBK 编码， GBK 是事实上的中文件编码方案标准。

GB18030

与 GB 2312-1980 完全兼容，与 GBK 基本兼容，支持 GB 13000 及 Unicode 的全部统一汉字，共收录汉字 70244 个。

GB 18030 主要有以下特点：

· 采用多字节编码，每个字可以由 1 个、 2 个或 4 个字节组成。（变长编码）

· 编码空间庞大，最多可定义 161 万个字符。

· 支持中国国内少数民族的文字，不需要动用造字区。

字节结构

· 单字节，其值从 0 到 0x7F 。

· 双字节，第一个字节的值从 0x81 到 0xFE ，第二个字节的值从 0x40 到 0xFE （不包括 0x7F ，与 GBK 一致）。

· 四字节，第一个字节的值从 0x81 到 0xFE ，第二个字节的值从 0x30 到 0x39 ，第三个字节从 0x81 到 0xFE ，第四个字节从 0x30 到 0x39

四字节部分覆盖了从 0x0080 开始 , 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说 , GB18030 编码在码位空间上做到了与 Unicode 标准一一对应 , 这一点与 UTF-8 编码类似。

目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换 , 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。下面问题的关键就是怎样让 XFree86 窗口系统也支持 GB18030 标准。

BIG5

BIG5 是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵，但广泛应用于电脑行业，尤其是互联网中，从而成为一种事实上的行业标准。

1983 年 10 月，台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》，后经修订于 1992 年 5 月公布，更名为《中文标准交换码》， BIG5 是台湾资讯工业策进会根据以上标准制定的编码方案。

字节结构

BIG5 码是双字节编码方案，其中

第一个字节的值在 OXAO-OXFE 之间，

第二个字节在 OX40-OX7E 和 OXA1-OXFE 之间。

BIG5 收录 13461 个汉字和符号，包括：

符号 408 个，编码位置 A140-A3BE
* 常用字 5401 个，编码位置 A440-C67E ，包括台湾教育部颁布的《常用国字标准字体表》的全部汉字 4808 个，台湾教科书常用字 587 个，异体字 6 个。
* 次常用字 7652 个，编码位置 C940-F9D5 ，包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字 6341 个，《罕用国字标准字体表》中使用频率较高的字 1311 个。

上面说的都是按语言和地区分别编码方式，下面说说 Unicode 系列

为容纳全世界各种语言的字符和符号， ISO 的一些会员国于 1984 年发起制定新的国际字符集编码标准。新标准由工作小组 ISO/IEC JTC1/SC2/WG2 （注 1 ）负责拟订（以下简称 WG2 ），最后定案的标准命名为“ Universal Multiple-Octet Coded Character Set” （简称 UCS ），其编号则订为 ISO/IEC 10646 。依 WG2 原来的规划， ISO10646 的编码结构系沿袭 ISO2022 八位延伸编码结构以避开 C0 和 C1 两个句柄区（注 2 ），但打破每个字符码里的所有字节的 bit-8 （即最左边的位，其值为 28=128 ）必须都设为 0 或是都设为 1 的限制，以提高编码空间的使用率。同时，为了能有足够位置以容纳全世界各种语言的字符和符号，以及为了配合微处理器以 8 、 16 、 32 甚或 64 个位为一个运算处理单位的趋势， ISO10646 的字符码长度被规定为定长的 4 个八位（ octet ）。

ISO10646 草案初稿一经公布，其编码结构立即遭到美国部份计算机业者的反对。1988 年初，美国Xerox 公司的Joe Becker 倡议以新的编码结构，另外编订世界性字符编码标准：将计算机字符集编码的基本单位由现行的7 或8 个位一举扩充为16 个位，并且充分利用 65,536 个编码位置以容纳全世界各种语言的字符和常用符号。新的字符集编码标准被命名为“Unicode” （注3 ）。一群来自Xerox 公司和 Apple 公司的工程师组成工作小组，负责Unicode 的原始设计工作。1991 年元月，十多家计算机硬软件、网络和信息服务业者，包括：IBM 、 DEC 、Sun 、Xerox 、Apple 、MicroSoft 、Novell 名公司，共同出资成立Unicode 协会（The Unicode Consortium ），并由协会设立非营利的Unicode 公司。Unicode 协会成立之后，将原先的工作小组扩编为Unicode 技术委员会（Unicode Technical Committee ），专责Unicode 的字符搜集、整理、编码等工作。推动Unicode 成为国际标准的工作，则由Unicode 公司负责。 Unicode 草案第一版于1989 年9 月发表，历经多次修订后，分别于1991 、92 年出版了Unicode 标准第一版（The Unicode Standard, version 1.0 ）的第一、第二册。

由于Unicode 协会持续的游说和施压，WG2 终于放弃原先选择的ISO2022 八位延伸编码结构，改采Unicode 的编码方式，亦即连续编码不再避开C0 和C1 句柄区。1991 年10 月，历经几个月的协商之后，WG2 和Unicode 协会达成协议，将Unicode 并入ISO10646 成为第 0 字面。之后各国语言字元的搜集、整理和编码等工作转由WG2 主导，而Unicode 协会则积极协助WG2 ，但双方仍然各自出版自己的编码标准。由于双方标准的整合是在Unicode 标准第一版第一册出版之后才展开的，因此该版次标准的第二册非凡在第一章里说明了为因应合并工作所做的编码区和字符集修订项目。ISO 于1993 年出版ISO10646-1 （注4 ）的第一版，而第二版则经过多年修订之后于2000 年出版。介于ISO10646-1 第一、二版之间的 Unicode3.0 于1999 年9 月出版，而对应于ISO10646-2 （注5 ）的Unicode3.1 于2001 年出版。

二、编码结构与字符集

ISO10646 字符码的正规形式（可简称为UCS-4 ）为32 个位，划分成4 个八位，如【图一】所示。这4 个八位，由左而右命名为群八位（G- octet ）、面八位（P-octet ）、列八位（R-octet ）和格八位（C-octet ），分别代表编码结构中的群组（group ）、字面（plane ）、列（row ）与格（cell ）。ISO10646 规定其字符码的b32 必须为0 ，因而整个编码空间可区分为128 个群组（群八位的值为 00 ～7Fh （注6 ）），每一群组由256 个字面所组成（面八位元为00 ～FFh ），每一个字面由256 列所组成（列八位为00 ～FFh ），每一列则包含 256 格（格八位为00 ～FFh ），为一个编码位置。除此之外，ISO10646 还规定每一个字面的最后两个编码位置FFFEh 和FFFFh ，保留不用。所以，ISO10646 整个编码空间总共256×128 ＝32,768 个字面，每个字面为256×256 －2 ＝65,534 个编码位置，合计 65534×32768 ＝2,147,418,112 个编码位置。

ISO10646 的第0 群组第0 字面（群八位和面八位的值都为00h ）称为「基本多语文字面」（Basic Multi-lingual Plane, BMP ），其编码

MateChat（AI组件库、Chat、智能化、前端）：智能化组件赋能前端聊天体验 DevUI团队前端
在当今互联网应用中，聊天功能已成为不可或缺的一部分。从社交平台到电商客服，流畅、高效的聊天体验直接影响用户留存和转化。而随着前端技术的不断发展，借助智能化组件，我们可以打造更强大、更便捷的聊天应用。本文将介绍如何利用MateChat这一智能化组件，快速构建功能丰富的前端聊天应用。一、MateChat：开箱即用的聊天解决方案MateChat是一款基于前端开发的智能化聊天组件，它提供了丰富的API和可
Scala语言的移动应用开发闻瑾萱包罗万象 golang 开发语言后端
Scala语言在移动应用开发中的应用探讨引言随着移动互联网的迅猛发展，移动应用已成为现代生活的重要组成部分。在众多编程语言中，Scala因其简洁的语法、强大的功能以及与Java的高度兼容性，逐渐受到开发者的关注。虽然Scala最初主要应用于后端开发，但近年来，越来越多的开发者开始尝试将其应用于移动应用开发中。本文将探讨Scala在移动应用开发中的优势、技术栈、实践案例以及未来的发展潜力。1.Sca
科拓全智能停车收费系统T_SellFrom.aspx存在SQL注入漏洞(DVB-2025-9011) Byp0ss403 漏洞复现集合 SQL注入 web安全
免责声明仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。一：产品介绍科拓全智能停车收费系统是一款集车牌识别、电子支付、车位引导等功能于一体的智能化停车管理平台，通过物联网技术和云计算实现无人值守停车管理，支持微信/支付宝等移动支付方式，
个人博客Blog建设系统详细设计与具体代码实现 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
个人博客Blog建设系统详细设计与具体代码实现1.背景介绍在当今互联网时代,个人博客已经成为一种流行的表达自我、分享知识和经验的方式。越来越多的人希望拥有自己的个人博客网站,但是对于非技术背景的人来说,从零开始搭建一个博客系统可能是一个不小的挑战。本文将详细介绍如何从零开始设计并实现一个完整的个人博客系统,包括前端界面设计、后端服务开发以及数据库设计等方面。通过本文的学习,读者可以掌握博客系统的核
计算机就业看过来，16家宝藏外企分享计算机就业
对于计算机专业就业方向，除了国内互联网大厂，也可以将目光投向外企机会——这类企业不仅在薪资福利、工作平衡等方面具备显著优势，而且大多数在北上广等一线城市设立研发中心或分部，为我们码农提供了更多的岗位选择。最近也有一些小伙伴在咨询我相关问题，所以我整理了这篇文章分享出来，都是一些比较出名的外企，下面一个一个介绍：微软（Microsoft）企业简介：全球最大软件服务商，Windows/Office/A
**深度剖析与体验：钓鱼网站URL检测神器** 平奇群Derek
深度剖析与体验：钓鱼网站URL检测神器去发现同类优质开源项目:https://gitcode.com/互联网早已融入我们生活的每一个角落，然而随之而来的网络威胁也日渐增多，尤其是那些试图通过伪装网站进行信息盗取的钓鱼行为。在这个背景下，PhishingURLDetection——一个集数据科学与机器学习之力打造的反钓鱼利器应运而生。项目介绍：守护网络安全的第一道防线在当今数字化时代，个人信息安全成
基于Python爬虫的垃圾信息检测与识别技术：实现与优化 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化人工智能
引言在互联网时代，社交媒体、在线评论、论坛讨论等平台生成了海量的数据。虽然这些数据包含了许多有用的信息，但也充斥着大量的垃圾信息（Spam），这些垃圾信息不仅降低了数据的质量，还影响了用户体验，甚至可能引发网络安全问题。垃圾信息包括但不限于广告、恶意评论、垃圾邮件、钓鱼链接等。为了有效应对垃圾信息的问题，开发垃圾信息检测和识别系统显得尤为重要。本文将通过Python爬虫技术，结合自然语言处理（NL
内网穿透是什么，有哪些软件工具推荐，对比汇总10款选择搬码临时工网络物联网信息与通信开源软件服务器
在现代信息化网络环境中，内网穿透技术成为了很多开发者、系统管理员、远程办公员工以及网络人员解决内网与外网互通问题的重要手段。尤其对于无公网IP网络下，搭建本地服务器提供互联网上连接访问，及需要跨网远程访问的应用场景，如远程桌面连接、Web服务、FTP文件共享、打印机异地用、以及数据库连接等，内网穿透工具提供了一种简单通用且便捷的解决方案。本文整理汇总介绍10个常见的内网穿透软件，有体验版本，有开源
木瓜移动每日资讯0520：字节跳动创始人张一鸣宣布卸任CEO 木瓜出海快讯
❄出海相关：（1）5月20日，字节跳动创始人张一鸣发布内部全员信，宣布卸任CEO一职。字节跳动联合创始人梁汝波将接任成为新CEO。（2）HolyCorn，俄罗斯的一个初创快消品牌，通过在短视频平台Likee上的整合营销，将ROI做到1400%，一举拿下了今年俄罗斯地区艾菲奖“品效合一”银奖和“高性价比品宣”铜奖两座奖杯。❄游戏行业：（1）SensorTower商店情报数据显示，2021年Q1美国手
HTTP 1.0和2.0 有什么区别？秋名RG 计算机网络 http 网络协议网络
HTTP1.0和HTTP2.0是互联网中用于数据传输的重要协议，两者在功能和性能上有显著差异。以下是它们的主要区别：HTTP1.0的特点：单一连接：每个请求需要独立连接，导致高延迟和资源浪费。文本传输：使用文本格式，解析复杂且效率较低。无头部压缩：每次请求都重复发送头部信息，增加带宽使用。无多路复用：无法同时发送多个请求，影响加载速度。安全性不足：常使用明文传输，容易被窃听或篡改。HTTP2.0的
WordPress万能视频解析Mine Video Player视频播放器嵌入式视界网站运维音视频
一、插件介绍MineVideoPlayer是一款强大的WordPress视频播放器插件，支持多种视频源解析，包括本地视频、外链视频、M3U8、MP4、FLV、YouTube、Bilibili等主流平台的视频播放。该插件适用于影视站、教育网站、个人博客等需要嵌入和解析视频的WordPress站点。二、插件主要功能1.多格式支持兼容MP4、M3U8、FLV、WebM等多种格式。支持YouTube、Bi
企业官网SSL证书推荐 https
企业官网是企业在互联网上的官方网站，通常由企业自己创建和管理，是企业展示自身形象、业务、产品和服务的主要平台之一。企业官网在选择SSL证书的时候应该慎重考虑，下面是具体的一些推荐一、验证级别推荐企业官网在选择SSL证书时，应优先选择OV类型证书，OV类型证书不仅仅验证域名管理权限，还额外验证公司的真实性，所以在证书详情中，组织信息为：公司的名称。更具权威性二、类型推荐如果企业的官网只有一个域名，则
天气预警API：守护安全的数字防线 api
引言在当今这个气候变化日益显著的时代，极端天气事件频繁发生，给人们的生命财产安全带来了巨大威胁。如何提前获取准确的天气预警信息，以便及时采取应对措施，成为了一个至关重要的问题。而天气预警API的出现，为解决这一问题提供了一个高效且便捷的途径。天气预警API的定义与工作原理天气预警API是一种通过互联网提供天气信息和预警服务的接口，它允许开发者将实时天气数据集成到他们的应用程序、网站或其他服务中。其
前端模块化开发加贝力口贝 web前端 Vue.js 前端 javascript vue.js
文章目录一、模块化1、模块化简介1.1模块化产生的背景1.2模块化规范2、ES6模块化规范2.1导出模块2.2导入模块2.3运行程序3、使用Babel转码3.1安装3.2初始化项目3.3配置.babelrc3.4安装转码器3.5转码3.6运行程序4、更多的方式一、模块化1、模块化简介1.1模块化产生的背景随着网站逐渐变成"互联网应用程序"，嵌入网页的Javascript代码越来越庞大，越来越复杂。
【Flutter入门】1. 从零开始的flutter跨平台开发之旅（概述、环境搭建、第一个Flutter应用）鹅肝手握高V五色 http udp https websocket 网络安全网络协议 tcp/ip
前言随着移动互联网的发展，跨平台开发已经成为一个不可忽视的技术方向。本文将带领读者从零开始学习Flutter，循序渐进地掌握这个强大的跨平台开发框架。截至2024年12月，Flutter已经发展到了3.27版本。在学习和使用的过程中，我发现国内现在网上可以找到的Flutter相关文章教程等并不多，且很多都是比较过时的。因此，我计划从2025年开始，分享自己平时做的笔记以及工作上积累的经验，希望能对
Python 爬虫实战：外语学习资源终极指南西攻城狮北 python 爬虫学习
一、引言在全球化的今天，掌握一门外语已成为许多人追求的目标。无论是为了学术研究、职业发展还是文化交流，丰富的外语学习资源都是不可或缺的。互联网为我们提供了海量的外语学习材料，但如何高效地获取和整理这些资源却是一个挑战。Python爬虫技术为我们提供了解决方案，通过编写爬虫程序，我们可以自动抓取网络上的外语学习资源，为学习者打造一个专属的资源库。本文将带领读者深入探索Python爬虫在外语学习资源获
VR/AR 中的空间感知与交互技术创新算法探索者 vr ar
一、引言虚拟现实（VR）和增强现实（AR）技术近年来取得了显著进展，正逐步渗透到多个领域，从娱乐、教育到医疗、工业设计等。这些技术的核心在于创造沉浸式体验，而实现这一目标的关键是精确的空间感知以及自然、高效的交互技术。空间感知让用户能够在虚拟或增强的环境中准确理解自身位置和周围空间布局，交互技术则赋予用户与这些环境进行互动的能力，两者的结合极大地提升了用户体验的真实感和沉浸感。二、VR/AR中的空
6G 通信技术的关键特性与潜在应用场景算法探索者信息与通信
一、引言自20世纪80年代第一代模拟通信系统问世以来，移动通信技术每隔约10年就迎来一次重大变革，从1G的模拟语音通信到2G的数字语音与短信，再到3G开启移动互联网时代，4G推动高清视频与社交网络蓬勃发展，以及当下5G在工业互联网、智能交通等领域的初步应用，每一代技术的更迭都深刻改变了人类的生活与社会发展模式。如今，随着5G技术的逐渐普及，通信行业的目光已聚焦于下一代——6G通信技术的探索与研发。
您的数据是如何出现在暗网上的？网络研究观网络研究观网络数据隐私安全信息暗网
暗网是互联网上的一个隐秘角落，人们可以在那里保持匿名。暗网经常与深网混淆，但它们并不完全相同。深网是指网络上所有未被搜索引擎索引的内容。这包括电子邮件帐户、私人数据库和付费服务等。这并不违法，只是无法通过简单的Google搜索找到。然而，暗网是深网中一个特定的、隐藏的部分。要访问它，你需要像Tor这样的特殊软件。虽然暗网主要以非法活动而闻名，但它也是注重隐私的个人和组织的平台，例如压迫政权下的记者
基于微信小程序的图书馆座位预约系统设计与实现 lxl12138 java windows 后端小程序微信小程序
一、选题依据1.1研究背景随着移动互联网技术的不断进步，智能手机已成为人们日常生活中不可或缺的工具。微信小程序，作为微信生态内的重要应用形式，凭借其无需下载安装、即用即走的特性，在教育、医疗、餐饮等多个领域得到了广泛应用。图书馆作为知识传播与学习的重要场所，其座位资源的合理分配与高效利用一直是管理者和用户共同关注的难题。传统的座位管理方式，如人工登记、纸质预约等，存在信息不透明、预约流程繁琐、座位
弱网测试：全链路实战、高阶策略与自动化落地 jingling1007 测试自动化运维网络协议 python 开发语言 nginx
在移动互联网时代，网络环境的不确定性成为用户体验的“隐形杀手”。弱网测试不仅是质量保障的必备环节，更是提升用户留存率和业务转化率的战略手段。本文将从工具链深度配置、复杂场景模拟、性能优化底层逻辑和自动化流水线集成四个维度，彻底解析弱网测试的完整方法论，并给出可直接复用的代码、配置脚本和实战案例。一、弱网环境模拟：工具链深度配置与参数调优1.工具链选择与对比工具类型代表工具核心能力适用场景配置复杂度
vue项目初始化CSS样式晕fufufu vue知识点 css vue.js 前端
html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,big,cite,code,del,dfn,em,img,ins,kbd,q,s,samp,small,strike,strong,sub,sup,tt,var,b,u,i,center,dl,dt,dd
理解HTTP、HTTPS、TCP、UDP与OSI七层模型：网络访问的基础 Bro_cat JavaWeb开发 http 网络 https
在现代互联网中，HTTP（超文本传输协议）和HTTPS（安全超文本传输协议）是数据传输的核心协议，而TCP（传输控制协议）和UDP（用户数据报协议）则是实现这些协议的传输层协议。此外，OSI七层模型为网络通信提供了结构化的框架。今天我们将详细探讨这四个协议的特性、它们之间的关系，以及整个网络访问的原理，并介绍OSI七层模型。HTTP与HTTPS概述1.HTTP（超文本传输协议）定义：HTTP是一种
计算机三级信息安全技术核心知识点详细定义解析，按章节分类并重点阐述关键概念定义文or野大数据密码学
计算机三级信息安全技术核心知识点详细定义解析，按章节分类并重点阐述关键概念定义：第一章信息安全保障概述信息技术发展阶段电讯技术阶段（19世纪中后期）：以电报、电话发明为标志，实现远距离信息传输，奠定现代通信基础。计算机技术阶段（20世纪60-70年代）：操作系统与数据库技术发展，推动数据处理能力（如UNIX系统、关系型数据库）。互联网阶段（1990s至今）：TCP/IP协议普及，形成全球化信息网络
CDN节点对网络安全扫描的影响：挑战与应对策略网络小白不怕黑网络安全网络安全
引言在当今互联网环境中，内容分发网络(CDN)已成为提升网站性能和用户体验的关键技术。然而，CDN的广泛应用也为网络安全扫描带来了新的挑战。本文将深入探讨CDN节点如何影响各类安全扫描工作，分析由此产生的安全风险，并提供有效的应对策略。CDN技术概述CDN(内容分发网络)通过在全球范围内部署边缘节点服务器，将网站内容缓存到离用户更近的位置，从而显著提升访问速度。主要特点包括：分布式节点架构动态内容
学Python爬虫的第一天没事玩Python Python 爬虫
一、什么是爬虫？通过编写程序，模拟浏览器上网，让后让其去互联网抓取数据的过程。二、爬虫有什么用？-实际应用-就业三、爬虫究竟是合法还是违法的？法律中是不被禁止的，但是具有违法的风险，因此要合理利用爬虫，及时优化自己的程序，适可而止。
算力网络战略布局与数字未来演进智能计算研究中心其他
内容概要算力网络作为数字经济发展的核心基础设施，正通过技术融合与场景创新重构全球竞争格局。当前，算力网络战略布局聚焦三大维度：异构计算架构优化、边缘-云端协同调度以及量子计算前瞻部署，形成覆盖“云-边-端”的全域算力资源池。以“东数西算”工程为例，通过构建八大枢纽节点与十大数据中心集群，实现算力资源跨区域动态调配，支撑工业互联网、智慧医疗等高实时性场景需求。关键维度技术特征典型应用场景异构计算架构
两个手机IP地址一样说明什么？ hgdlip 手机 ip 智能手机 tcp/ip 服务器
在当今数字化时代，IP地址作为设备在网络中的唯一标识，其重要性不言而喻。然而，当两部手机的IP地址相同时，这背后可能隐藏着多种原因和潜在影响。本文将深入探讨两部手机IP地址相同的含义、可能的原因及其对网络通信和隐私安全的影响，帮助读者更好地理解这一现象并采取相应的应对措施‌。一、两部手机IP地址相同的含义IP地址是互联网协议地址的简称，用于在网络中唯一标识设备。当两部手机的IP地址相同时，意味着它
嵌入式是什么？arm是什么？华清远见成都中心学霸笔记嵌入式
ARM是什么？ARM是微处理器行业的一家知名企业，设计了大量高性能、廉价、耗能低的RISC处理器、相关技术及软件。技术具有性能高、成本低和能耗省的特点。适用于多种领域，比如嵌入控制、消费/教育类多媒体、DSP和移动式应用等。1991年ARM公司成立于英国剑桥，主要出售芯片设计技术的授权。采用ARM技术知识产权（IP）核微处理器，即我们通常所说的ARM微处理器，已遍及工业控制、消费类电子产品、通信系
打造面向时代的“云中广科”，广科牵手华为探索校企合作新范式 sunnywell111 华为
日前，国家统计局数据显示，16-24岁城镇青年人失业率为19.9%。这一历史罕见的数据一方面反映出当下经济环境和青年就业的实际困难，另一方面也从侧面证明青年求职者的能力构成与用工企业的需求之间存在较大断层。要从根本上解决这一复杂问题，一场与职业教育有关的“供给侧改革”势在必行。而其目标就是要力促职业教育系统的全面进化，以社会和企业需求为依托，用新型教育教学手段培养学有所用的新一代青年人才。01、革
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

字符处理基础知识

字符处理基础知识

ASCII

GB2312

GBK

GB18030

BIG5

你可能感兴趣的:(apple,互联网,教育,资讯,出版)