计科1905 王晓豪
1.简述位、字节的关系
位:bit
位是最小的存储单位,简写为b,每一个位存储一个1位的二进制码。例如:1000 0001这串二进制的字码是由8个位组成,其中每个逻辑0或1便是1个位。
字节:byte
字节是常见的存储单位,简写为B,一个字节相当于八个位。例如:在ASCII码中,一个字母(不分大小写)占1个字节的空间,不同的编码存在差异。
2.简述ASCII,Unicode,utf-8,gbk的关系
一、ASCII编码
**ASCII**(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今最通用的单字节编码系统,并等同于国际标准ISO/IEC 646。
ASCII 码使用指定的7 位或8 位二进制数组合来表示128 或256 种可能的字符。标准ASCII 码也叫基础ASCII码,使用7 位二进制数(剩下的1位二进制为0)来表示所有的大写和小写字母,数字0 到9、标点符号, 以及在美式英语中使用的特殊控制字符。
其中:
0~31及127(共33个)是控制字符或通信专用字符(其余为可显示字符),如控制符:LF(换行)、CR(回车)、FF(换页)、DEL(删除)、BS(退格)、BEL(响铃)等;通信专用字符:SOH(文头)、EOT(文尾)、ACK(确认)等;ASCII值为8、9、10 和13 分别转换为退格、制表、换行和回车字符。它们并没有特定的图形显示,但会依不同的应用程序,而对文本显示有不同的影响。
32~126(共95个)是字符(32是空格),其中48~57为0到9十个阿拉伯数字。
65~90为26个大写英文字母,97~122号为26个小写英文字母,其余为一些标点符号、运算符号等。
后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展(或“高”)ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号
下面为ASCII码表
二、GBK编码
**由于**ASCII编码不支持中文,因此,当中国人用到计算机时,就需要寻求一种编码方式来支持中文。
于是,国人就定义了一套编码规则:当字符小于127位时,与ASCII的字符相同,但当两个大于127的字符连接在一起时,就代表一个汉字,第一个字节称为高字节(从0xA1-0xF7),第二个字节为低字节(从0xA1-0xFE),这样大约可以组合7000多个简体汉字。这个规则叫做GB2312。
但是由于中国汉字很多,有些字无法表示,于是重新定义了规则:不在要求低字节一定是127之后的编码,只要第一个字节是大于127,就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。这种扩展之后的编码方案称之为GBK标,包括了GB2312的所有内容,同时新增了近20000个新的汉字(包括繁体字)和符号。
但是,中国有56个民族,所以,我们再次对编码规则进行了扩展,又加了近几千个少数民族的字符,于是再次扩展后得编码叫做GB18030。中国的程序员觉得这一系列编码的标准是非常的好,于是统统称他们叫做"DBCS"(Double Byte Charecter Set 双字节字符集)。
三、Unicode字符集
因为世界国家很多,每个国家都定义一套自己的编码标准,结果相互之间谁也不懂谁的编码,就无法进行很好的沟通交流,所以及时的出现了一个组织ISO(国际标准化组织)决定定义一套编码方案来解决所有国家的编码问题,这个新的编码方案就叫做Unicode。注意Unicode不是一个新的编码规则,二是一套字符集(为每一个「字符」分配一个唯一的 ID(学名为码位 / 码点 / Code Point)),可以将Unicode理解为一本世界编码的字典。
ISO规定:每个字符必须使用俩个字节,即用16位二进制来表示所有的字符,对于ASCII编码表里的字符,保持其编码不变,只是将长度扩展到了16位,其他国家的字符全部统一重新编码。由于传输ASCII表里的字符时,实际上可以只用一个字节就可以表示,所以,这种编码方案在传输数据比较浪费带宽,存储数据比较浪费硬盘。
四、UTF-8编码
由于Unicode比较浪费网络带宽和硬盘,因此为了解决这个问题,就在Unicode的基础上,定义了一套编码规则(将「码位」转换为字节序列的规则(编码/解码 可以理解为 加密/解密 的过程)),这个新的编码规则就是UTF-8,采用1-4个字符进行传输和存储数据。
编码规则:使用下面的模板进行转换
| Unicode符号范围(十六进制) | UTF-8编码方式(二进制)
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx |
utf-8区分每个字符的开始是根据字符的高位字节来区分的,比如用一个字节表示的字符,第一个字节高位以“0”开头;用两个字节表示的字符,第一个字节的高位为以“110”开头,后面一个字节以“10开头”;用三个字节表示的字符,第一个字节以“1110”开头,后面俩字节以“10”开头;用四个字节表示的字符,第一个字节以“11110”开头,后面的三个字节以“10”开头。
3.请写出“李杰”分别用utf-8和gbk编码所占的位数
utf-8:
共占6位 因为在utf-8中 每个中文字符占3位 每个英文占一位
gbk:
共占4位 在gbk中,每个中文字符占2位 每个英文占1位
4.Python单行注释和多行注释分别用什么表示
单行注释
Python 使用井号#作为单行注释的符号,语法格式为:
#I am batman.
从井号#开始,直到这行结束为止的所有内容都是注释。Python 解释器遇到#时,会忽略它后面的整行内容。
说明多行代码的功能时一般将注释放在代码的上一行,例如:
#使用print输出字符串
print("Hello World!")
print("C语言中文网")
print("http://c.biancheng.net/python/")
#使用 print输出数字
print(100)
print( 3 + 100 * 2)
print( (3 + 100) * 2 )
说明单行代码的功能时一般将注释放在代码的右侧,例如:
print("http://c.biancheng.net/python/") #输出Python教程的地址
print( 36.7 * 14.5 ) #输出乘积
print( 100 % 7 ) #输出余数
多行注释
多行注释指的是一次性注释程序中多行的内容(包含一行)。
多行注释通常用来为 Python 文件、模块、类或者函数等添加版权或者功能描述信息。
Python 使用三个连续的单引号'''或者三个连续的双引号"""注释多行内容,具体格式如下:
'''
使用 3 个单引号分别作为注释的开头和结尾
可以一次性注释多行内容
这里面的内容全部是注释内容
'''
或者
"""
使用 3 个双引号分别作为注释的开头和结尾
可以一次性注释多行内容
这里面的内容全部是注释内容
"""
5.声明变量注意事项有哪些
1 . 变量名的使用只能包括字母、数字和下划线。
变量名可以用字母或下划线打头,但不能以数字在前头。例:
2.变量名不能包含有空格。
3.不要将Python关键字和函数名作为变量名。
但可在关键字或者函数名旁加字符串、数字等。
注意事项:
变量名的命名应既简短又具有描述性。
慎用小写字母l和大写字母o,因为它们很可能被人看错成数字1和0
变量名不能使用中文
6.Python常见去除空格的方法
1:strip()方法,去除字符串开头或者结尾的空格
a = " a b c "
a.strip()
'a b c'
2:lstrip()方法,去除字符串开头的空格
a = " a b c "
a.lstrip()
'a b c '
3:rstrip()方法,去除字符串结尾的空格
a = " a b c "
a.rstrip()
' a b c'
4:replace()方法,可以去除全部空格
replace主要用于字符串的替换replace(old, new, count)
a = " a b c "
a.replace(" ", "")
'abc'
5: join()方法+split()方法,可以去除全部空格
join为字符字符串合成传入一个字符串列表,split用于字符串分割可以按规则进行分割
a = " a b c "
b = a.split() # 字符串按空格分割成列表
b ['a', 'b', 'c']
c = "".join(b) # 使用一个空字符串合成列表内容生成新的字符串
c='abc'
快捷用法
a = " a b c "
"".join(a.split())
'abc'
7题
def delspace(name):
x = name.strip()
print(x)
def start_as_al(name):
x = name.strip()
a = list(x)
start = a[0]+a[1]
if start == 'al':
print(name)
else:
print("该字符串不是以 al 开头")
def end_as_X(name):
if name.endswith("X"):
print("以X结尾")
else:
print("不是以X结尾")
def replace_X_as_p(name):
x = name.replace("X","p",1)
print(x)
def split_by_l(name):
x = name.split("l",1)
print(x)
def name_upper(name):
x = name.upper()
print(x)
def name_lower(name):
x = name.lower()
print(x)
def name_2(name):
x = list(name)
print(x[1])
def name_123(name):
x = list(name)
print(x[0]+x[1]+x[2])
def reverse_12(name):
x = list(name)
x.reverse()
print(x[0]+x[1])
'''
a = list(reversed(x))
print(a[0]+a[1])
'''
def index_e(name):
b = name.index('e')
print(b)
def cut_without_X(name):
x = list(name)
length = len(x)
y = []
for i in range(length-1):
y.append(x[i])
z = ''.join(y)
print(z)
while True:
name = " aleX"
x = input("请输入题目对应字母:")
if x == 'a':
delspace(name)
elif x == 'b':
start_as_al(name)
elif x == 'c':
end_as_X(name)
elif x == 'd':
replace_X_as_p(name)
elif x == 'e':
split_by_l(name)
elif x == 'g':
name_upper(name)
elif x == 'h':
name_lower(name)
elif x == 'i':
name_2(name)
elif x == 'j':
name_123(name)
elif x == 'k':
reverse_12(name)
elif x == 'l':
index_e(name)
elif x == 'm':
cut_without_X(name)
else:
print("请输入正确的题号!")
y = input("输入yes继续,输入quit退出:\n")
if y == 'yes':
continue
elif y == 'quit':
break