超超xc

python基础-常用内建模块

一、collections ：内建集合模块.

　　1、namedtuple:创建一个自定义的tuple对象

　　2、deque：为了高效实现插入和删除操作的双向列表，适合用于队列和栈

　　3、defaultdict:Key不存在时返回默认值

　　4、OrderedDict：保持Key的顺序

　　5、Counter：一个简单的计数器

二、base64 ：一种用64个字符来表示任意二进制数据的方法

三、struct : str和其他二进制数据类型的转换

四、hashlib ：提供常见的摘要算法，如MD5，SHA1

五、itertools ：提供非常有用的用于操作迭代对象的函数

六、XML ： XML虽然比JSON复杂，在Web中应用也不如以前多了，不过仍有很多地方在用，所以，有必要了解如何操作XML。

七、HTMLParser

------------------------------------------------------------------------------------------------------------------------------------------------

一、collections ：内建集合模块.

　　1、namedtuple:创建一个自定义的tuple对象，并且规定了tuple元素的个数，并可以用属性而不是索引来引用tuple的某个元素.

　　　　表示一个坐标:

>>> from collections import namedtuple
>>> Point = namedtuple('Point',['x','y'])
>>> p = Point(1,2)
>>> p.x
1
>>> p.y
2

　　　　namedtuple是一个函数，它用来创建一个自定义的tuple对象，并且规定了tuple元素的个数，并可以用属性而不是索引来引用tuple的某个元素。

　　　　用namedtuple可以很方便地定义一种数据类型，它具备tuple的不变性，又可以根据属性来引用，使用十分方便。

>>> isinstance(p,Point)
True
>>> isinstance(p,tuple)
True

　　　　类似的，如果要用坐标和半径表示一个圆，也可以用namedtuple定义：

# namedtuple('名称', [属性list]):
Circle = namedtuple('Circle', ['x', 'y', 'r'])

　　2、deque：为了高效实现插入和删除操作的双向列表，适合用于队列和栈

　　　　使用list存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，因为list是线性存储，数据量大的时候，插入和删除效率很低。

　　　　deque是为了高效实现插入和删除操作的双向列表，适合用于队列和栈：

>>> from collections import deque
>>> q = deque(['a','b','c'])
>>> q.append('x')
>>> q.appendleft('y')
>>> q
deque(['y', 'a', 'b', 'c', 'x'])

　　3、defaultdict:Key不存在时返回默认值

　　　　使用dict时，如果引用的Key不存在，就会抛出KeyError。如果希望key不存在时，返回一个默认值，就可以用defaultdict：

>>> from collections import defaultdict
>>> dd = defaultdict(lambda:'N/A')
>>> dd['key1'] = 'abc'
>>> dd['key1']
'abc'
>>> dd['key2']
'N/A'
>>> dd['key3']
'N/A'

　　　　注意默认值是调用函数返回的，而函数在创建defaultdict对象时传入。

　　　　除了在Key不存在时返回默认值，defaultdict的其他行为跟dict是完全一样的。

　　4、OrderedDict ：保持Key的顺序

　　　　使用dict时，Key是无序的。在对dict做迭代时，我们无法确定Key的顺序。

　　　　如果要保持Key的顺序，可以用OrderedDict：

>>> from collections import OrderedDict
>>> d = dict([('a',1),('f',9),('b',3),('c',4)])
>>> d    # dict的Key是无序的
{'a': 1, 'c': 4, 'b': 3, 'f': 9}
>>> d = OrderedDict([('a',1),('f',9),('b',3),('c',4)])
>>> d    # OrderedDict的Key是有序的
OrderedDict([('a', 1), ('f', 9), ('b', 3), ('c', 4)])

　　　　注意，OrderedDict的Key会按照插入的顺序排列，不是Key本身排序：参考这里

>>> od = OrderedDict()
>>> od['z'] = 1
>>> od['y'] = 2
>>> od['x'] = 3
>>> od.keys() # 按照插入的Key的顺序返回
['z', 'y', 'x']

　　　　OrderedDict可以实现一个FIFO（先进先出）的dict，当容量超出限制时，先删除最早添加的Key：

from collections import OrderedDict

class LastUpdatedOrderedDict(OrderedDict):

    def __init__(self, capacity):
        super(LastUpdatedOrderedDict, self).__init__()
        self._capacity = capacity        #集合大小

    def __setitem__(self, key, value):
        containsKey = 1 if key in self else 0
        if len(self) - containsKey >= self._capacity:        #当前集合大小
            last = self.popitem(last=False)        #弹出前面的key-value,last=true 采用LIFI，last=false采用FIFO
            print 'remove:', last
        if containsKey:        #有当前key
            del self[key]        #删除存在的key
            print 'set:', (key, value)
        else:
            print 'add:', (key, value)
        OrderedDict.__setitem__(self, key, value)        #设置值

　　5、Counter：一个简单的计数器

　　　　Counter是一个简单的计数器，例如，统计字符出现的个数：

>>> from collections import Counter
>>> c = Counter()
>>> for ch in 'applications':
...   c[ch] = c[ch]+1
...
>>> c
Counter({'a': 2, 'i': 2, 'p': 2, 'c': 1, 'l': 1, 'o': 1, 'n': 1, 's': 1, 't': 1})

　　　　Counter实际上也是dict的一个子类，上面的结果可以看出，字符'a'、'i'、'p'各出现了两次，其他字符各出现了一次。

二、base64 ：一种用64个字符来表示任意二进制数据的方法

　　用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法

    Base64编码要求把3个8位字节（3*8=24）转化为4个6位的字节（4*6=24），之后在6位的前面补两个0，形成8位一个字节的形式。 如果剩下的字符不足3个字节，则用0填充，输出字符使用'='，因此编码后输出的文本末尾可能会出现1或2个'='。
    为了保证所输出的编码位可读字符，Base64制定了一个编码表，以便进行统一转换。编码表的大小为2^6=64，这也是Base64名称的由来。

　　Base64编码表

码值	字符	码值	字符	码值	字符	码值	字符
0	A	16	Q	32	g	48	w
1	B	17	R	33	h	49	x
2	C	18	S	34	i	50	y
3	D	19	T	35	j	51	z
4	E	20	U	36	k	52	0
5	F	21	V	37	l	53	1
6	G	22	W	38	m	54	2
7	H	23	X	39	n	55	3
8	I	24	Y	40	o	56	4
9	J	25	Z	41	p	57	5
10	K	26	a	42	q	58	6
11	L	27	b	43	r	59	7
12	M	28	c	44	s	60	8
13	N	29	d	45	t	61	9
14	O	30	e	46	u	62	+
15	P	31	f	47	v	63	/

　　长度增加33%，好处是编码后的文本数据可以在邮件正文、网页等直接显示。

　　Python内置的base64可以直接进行base64的编解码：

>>> import base64
>>> base64.b64encode('binary\x00base64')
'YmluYXJ5AGJhc2U2NA=='
>>> base64.b64decode('YmluYXJ5AGJhc2U2NA==')
'binary\x00base64'

三、struct : str和其他二进制数据类型的转换

　　Python没有专门处理字节的数据类型。但由于str既是字符串，又可以表示字节，所以，字节数组＝str。而在C语言中，可以很方便地用struct、union来处理字节，以及字节和int，float的转换

　　在Python中，比方说要把一个32位无符号整数变成字节，也就是4个长度的str，得配合位运算符这么写：

>>> n = 10240023
>>> b1 = chr((n & 0xff000000) >> 24)
>>> b2 = chr((n & 0xff0000) >> 16)
>>> b3 = chr((n & 0xff00) >> 8)
>>> b4 = chr(n & 0xff)
>>> s = b1 + b2 + b3 + b4
>>> s
'\x00\x9c@\x17'

　　Python提供了一个struct模块来解决str和其他二进制数据类型的转换:

　　　　struct.pack()函数把任意数据类型变成字符串：

>>> import struct
>>> struct.pack('>I',10240023)
'\x00\x9c@\x17'

　　pack的第一个参数是处理指令，其中 '>I'的意思是：> 表示字节顺序是big-endian，也就是网络序，I 表示4字节无符号整数。

　　后面的参数个数要和处理指令一致。

　　unpack把str变成相应的数据类型：

>>> struct.unpack('>IH','\xf0\xf0\xf0\xf0\x80\x80')
(4042322160L, 32896)

　　根据>IH的说明，后面的str依次变为I：4字节无符号整数和H：2字节无符号整数。

　　尽管Python不适合编写底层操作字节流的代码，但在对性能要求不高的地方，利用struct就方便多了

　　官方文档参考：这里，其他参考：这里

　　Windows的位图文件（.bmp）是一种非常简单的文件格式，可以用struct来分析一下。

　　首先找一个bmp文件，没有的话用“画图”画一个。

　　读入前30个字节来分析：

s = '\x42\x4d\x38\x8c\x0a\x00\x00\x00\x00\x00\x36\x00\x00\x00\x28\x00\x00\x00\x80\x02\x00\x00\x68\x01\x00\x00\x01\x00\x18\x00'

#!/usr/bin/python
#coding:utf-8

import struct

def main():
    fb = open('./structtest.bmp','rb')
    s = fb.read(30)
    h = struct.unpack('<ccIIIIIIHH',s)
    print h
    pass

if __name__ == '__main__':
    main()

('B', 'M', 2239542, 0, 54, 40, 1152, 648, 1, 24)
[Finished in 0.1s]

　　BMP格式采用小端方式存储数据，文件头的结构按顺序如下：

　　两个字节：

　　　　'BM'表示Windows位图，'BA'表示OS/2位图；　　　　　--BM

　　　　一个4字节整数：表示位图大小；　　　　　　　　　　　 --2239542

　　　　一个4字节整数：保留位，始终为0；　　　　　　　　　 --0

　　　　一个4字节整数：实际图像的偏移量；　　　　　　　　　 --54

　　　　一个4字节整数：Header的字节数；　　　　　　　　　 --40

　　　　一个4字节整数：图像宽度；　　　　　　　　　　　　　 --1152

　　　　一个4字节整数：图像高度；　　　　　　　　　　　　　 --648

　　　　一个2字节整数：始终为1；　　　　　　　　　　　　　--1

　　　　一个2字节整数：颜色数。　　　　　　　　　　　　　 --24

　　所以，组合起来用unpack读取：

　　结果显示，'B'、'M'说明是Windows位图，位图大小为1152x648，颜色数为24。

　　那么我们就可以编写一个bmpinfo.py，可以检查任意文件是否是位图文件，如果是，打印出图片大小和颜色数。

四、hashlib ：提供常见的摘要算法，如MD5，SHA1

　　摘要算法又称哈希算法、散列算法。它通过一个函数，把任意长度的数据转换为一个长度固定的数据串（通常用16进制的字符串表示）。

　　举个例子，写了一篇文章，内容是一个字符串'how to use python hashlib - by Michael'，并附上这篇文章的摘要是'2d73d4f15c0db7f5ecb321b6a65e5d6d'。如果有人篡改了文章，并发表为'how to use python hashlib - by Bob'，可以一下子看出Bob篡改了文章，因为根据'how to use python hashlib - by Bob'计算出的摘要不同于原始文章的摘要。

　　摘要算法就是通过摘要函数f()对任意长度的数据data计算出固定长度的摘要digest，目的是为了发现原始数据是否被人篡改过。

　　摘要算法之所以能指出数据是否被篡改过，就是因为摘要函数是一个单向函数，计算f(data)很容易，但通过digest反推data却非常困难。而且，对原始数据做一个bit的修改，都会导致计算出的摘要完全不同。

　　以常见的摘要算法MD5为例，计算出一个字符串的MD5值：

import hashlib

md5 = hashlib.md5()
md5.update('how to use md5 in python hashlib?')
print md5.hexdigest()

d26a53750bc40b38b65a520292f69306
[Finished in 0.1s]

　　MD5是最常见的摘要算法，速度很快，生成结果是固定的128 bit字节，通常用一个32位的16进制字符串表示。

　　另一种常见的摘要算法是SHA1，调用SHA1和调用MD5完全类似：

import hashlib

sha1 = hashlib.sha1()
sha1.update('how to use sha1 in ')
sha1.update('python hashlib?')
print sha1.hexdigest()

2c76b57293ce30acef38d98f6046927161b46a44
[Finished in 0.1s]

　　SHA1的结果是160 bit字节，通常用一个40位的16进制字符串表示。

　　比SHA1更安全的算法是SHA256和SHA512，不过越安全的算法越慢，而且摘要长度更长。

　　有没有可能两个不同的数据通过某个摘要算法得到了相同的摘要？完全有可能，因为任何摘要算法都是把无限多的数据集合映射到一个有限的集合中。这种情况称为碰撞，比如Bob试图根据摘要反推出一篇文章'how to learn hashlib in python - by Bob'，并且这篇文章的摘要恰好和之前的文章完全一致，这种情况也并非不可能出现，但是非常非常困难。

　　1、摘要算法应用

　　　　常用例子：

　　　　　　任何允许用户登录的网站都会存储用户登录的用户名和口令。如何存储用户名和口令呢？方法是存到数据库表中：

name    | password
--------+----------
michael | 123456
bob     | abc999
alice   | alice2008

　　　　如果以明文保存用户口令，如果数据库泄露，所有用户的口令就落入黑客的手里。此外，网站运维人员是可以访问数据库的，也就是能获取到所有用户的口令。

　　　　正确的保存口令的方式是不存储用户的明文口令，而是存储用户口令的摘要，比如MD5：

username | password
---------+---------------------------------
michael  | e10adc3949ba59abbe56e057f20f883e
bob      | 878ef96e86145580c38c87f0410ad153
alice    | 99b1c2188db85afee403b1536010c2c9

　　　　当用户登录时，首先计算用户输入的明文口令的MD5，然后和数据库存储的MD5对比，如果一致，说明口令输入正确，如果不一致，口令肯定错误。

　　　　练习：根据用户输入的口令，计算出存储在数据库中的MD5口令：

def calc_md5(password):
    pwd_md5 = hashlib.md5()
    pwd_md5.update(password)
    return pwd_md5.hexdigest()

　　　　存储MD5的好处是即使运维人员能访问数据库，也无法获知用户的明文口令。

　　　　练习：设计一个验证用户登录的函数，根据用户输入的口令是否正确，返回True或False：

db = {
    'michael': 'e10adc3949ba59abbe56e057f20f883e',
    'bob': '878ef96e86145580c38c87f0410ad153',
    'alice': '99b1c2188db85afee403b1536010c2c9'
}
def login(user, password):
    pwd_md5 = hashlib.md5()
    pwd_md5.update(password)
    return True if db[user] == pwd_md5.hexdigest() else False

　　　　采用MD5存储口令是否就一定安全呢？也不一定。假设你是一个黑客，已经拿到了存储MD5口令的数据库，如何通过MD5反推用户的明文口令呢？暴力破解费事费力，真正的黑客不会这么干。

　　　　考虑这么个情况，很多用户喜欢用123456，888888，password这些简单的口令，于是，黑客可以事先计算出这些常用口令的MD5值，得到一个反推表：

'e10adc3949ba59abbe56e057f20f883e': '123456'
'21218cca77804d2ba1922c33e0151105': '888888'
'5f4dcc3b5aa765d61d8327deb882cf99': 'password'

　　　　这样，无需破解，只需要对比数据库的MD5，黑客就获得了使用常用口令的用户账号。

　　　　对于用户来讲，当然不要使用过于简单的口令。但是，能否在程序设计上对简单口令加强保护呢？

　　　　由于常用口令的MD5值很容易被计算出来，所以，要确保存储的用户口令不是那些已经被计算出来的常用口令的MD5，这一方法通过对原始口令加一个复杂字符串来实现，俗称“加盐”：

def calc_md5(password):
    return get_md5(password + 'the-Salt')

　　　　经过Salt处理的MD5口令，只要Salt不被黑客知道，即使用户输入简单口令，也很难通过MD5反推明文口令。

　　　　但是如果有两个用户都使用了相同的简单口令比如123456，在数据库中，将存储两条相同的MD5值，这说明这两个用户的口令是一样的。有没有办法让使用相同口令的用户存储不同的MD5呢？

　　　　如果假定用户无法修改登录名，就可以通过把登录名作为Salt的一部分来计算MD5，从而实现相同口令的用户也存储不同的MD5。

　　　　练习：根据用户输入的登录名和口令模拟用户注册，计算更安全的MD5：

db = {}

def register(username, password):
    db[username] = get_md5(password + username + 'the-Salt')

　　　　然后，根据修改后的MD5算法实现用户登录的验证：

def login(username, password):
    pass

　　　注意：摘要算法在很多地方都有广泛的应用。要注意摘要算法不是加密算法，不能用于加密（因为无法通过摘要反推明文），只能用于防篡改，但是它的单向计算特性决定了可以在不存储明文口令的情况下验证用户口令。

五、itertools ：提供非常有用的用于操作迭代对象的函数

　　　　Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。

　　　　首先，看看itertools提供的几个“无限”迭代器：

>>> import itertools
>>> natuals = itertools.count(1)
>>> for n in natuals:
...     print n
...
1
2
3
...

　　　　因为count()会创建一个无限的迭代器，所以上述代码会打印出自然数序列，根本停不下来，只能按Ctrl+C退出。

　　　　cycle()会把传入的一个序列无限重复下去：

>>> import itertools
>>> cs = itertools.cycle('ABC') # 注意字符串也是序列的一种
>>> for c in cs:
...     print c
...
'A'
'B'
'C'
'A'
'B'
'C'
...

　　　同样停不下来。

　　　　repeat()负责把一个元素无限重复下去，不过如果提供第二个参数就可以限定重复次数：

>>> ns = itertools.repeat('A', 10)
>>> for n in ns:
...     print n
...
打印10次'A'

　　　　无限序列只有在for迭代时才会无限地迭代下去，如果只是创建了一个迭代对象，它不会事先把无限个元素生成出来，事实上也不可能在内存中创建无限多个元素。

　　　　无限序列虽然可以无限迭代下去，但是通常我们会通过takewhile()等函数根据条件判断来截取出一个有限的序列：

>>> natuals = itertools.count(1)
>>> ns = itertools.takewhile(lambda x: x <= 10, natuals)
>>> for n in ns:
...     print n
...
打印出1到10

　　　　itertools提供的几个迭代器操作函数更加有用：

　　　　chain()　　　　groupby()　　　　imap()　　　　ifilter()

　　　　chain()可以把一组迭代对象串联起来，形成一个更大的迭代器：

for c in chain('ABC', 'XYZ'):
    print c
# 迭代效果：'A' 'B' 'C' 'X' 'Y' 'Z'

　　　　groupby()把迭代器中相邻的重复元素挑出来放在一起：

>>> for key, group in itertools.groupby('AAABBBCCAAA'):
...     print key, list(group) # 为什么这里要用list()函数呢？
...
A ['A', 'A', 'A']
B ['B', 'B', 'B']
C ['C', 'C']
A ['A', 'A', 'A']

　　　　实际上挑选规则是通过函数完成的，只要作用于函数的两个元素返回的值相等，这两个元素就被认为是在一组的，而函数返回值作为组的key。如果我们要忽略大小写分组，就可以让元素'A'和'a'都返回相同的key：

>>> for key, group in itertools.groupby('AaaBBbcCAAa', lambda c: c.upper()):
...     print key, list(group)
...
A ['A', 'a', 'a']
B ['B', 'B', 'b']
C ['c', 'C']
A ['A', 'A', 'a']

　　　　imap()和map()的区别在于，imap()可以作用于无穷序列，并且，如果两个序列的长度不一致，以短的那个为准。

>>> for x in itertools.imap(lambda x, y: x * y, [10, 20, 30], itertools.count(1)):
...     print x
...
10
40
90

　　　　注意： imap()返回一个迭代对象，而map()返回list。当你调用map()时，已经计算完毕：

>>> r = map(lambda x: x*x, [1, 2, 3])
>>> r # r已经计算出来了
[1, 4, 9]

　　　由于map()返回的是一个list，所以当用它去处理无限序列的时候，它会尝试计算完之后才返回，但是序列是无限的，所以它会一直计算下去，致使其占用的系统的内存越来越高。

　　　　当你调用imap()时，并没有进行任何计算：

>>> r = itertools.imap(lambda x: x*x, [1, 2, 3])
>>> r
<itertools.imap object at 0x103d3ff90>
# r只是一个迭代对象

　　　　必须用for循环对r进行迭代，才会在每次循环过程中计算出下一个元素：

>>> for x in r:
...     print x
...
1
4
9

　　　　这说明imap()实现了“惰性计算”，也就是在需要获得结果的时候才计算。类似imap()这样能够实现惰性计算的函数就可以处理无限序列：

>>> r = itertools.imap(lambda x: x*x, itertools.count(1))
>>> for n in itertools.takewhile(lambda x: x<100, r):
...     print n
...
结果是什么?

>>> r = itertools.imap(lambda x: x*x , itertools.count(1))
>>> for n in itertools.takewhile(lambda x: x < 100,r):
...   print n
...
1
4
9
16
25
36
49
64
81
>>>

　　　　ifilter()就是filter()的惰性实现。

　　　　itertools模块提供的全部是处理迭代功能的函数，它们的返回值不是list，而是迭代对象，只有用for循环迭代的时候才真正计算。

六、XML ： XML虽然比JSON复杂，在Web中应用也不如以前多了，不过仍有很多地方在用，所以，有必要了解如何操作XML。

　　　DOM vs SAX

　　　　　　操作XML有两种方法：DOM和SAX。DOM会把整个XML读入内存，解析为树，因此占用内存大，解析慢，优点是可以任意遍历树的节点。SAX是流模式，边读边解析，占用内存小，解析快，缺点是我们需要自己处理事件。

　　　　　　正常情况下，优先考虑SAX，因为DOM实在太占内存。

　　　　　　在Python中使用SAX解析XML非常简洁，通常我们关心的事件是start_element，end_element和char_data，准备好这3个函数，然后就可以解析xml了。

　　　　　　举个例子，当SAX解析器读到一个节点时：

<a href="/">python</a>

　　　　　　会产生3个事件：

start_element事件，在读取<a href="/">时；
char_data事件，在读取python时；
end_element事件，在读取</a>时。

　　　　用代码实验一下：

from xml.parsers.expat import ParserCreate

class DefaultSaxHandler(object):
    def start_element(self, name, attrs):
        print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))

    def end_element(self, name):
        print('sax:end_element: %s' % name)

    def char_data(self, text):
        print('sax:char_data: %s' % text)

xml = r'''<?xml version="1.0"?>
<ol>
    <li><a href="/python">Python</a></li>
    <li><a href="/ruby">Ruby</a></li>
</ol>
'''
handler = DefaultSaxHandler()
parser = ParserCreate()
parser.returns_unicode = True
parser.StartElementHandler = handler.start_element
parser.EndElementHandler = handler.end_element
parser.CharacterDataHandler = handler.char_data
parser.Parse(xml)

　　　　当设置returns_unicode为True时，返回的所有element名称和char_data都是unicode，处理国际化更方便。

　　　　需要注意的是读取一大段字符串时，CharacterDataHandler可能被多次调用，所以需要自己保存起来，在EndElementHandler里面再合并。

　　　　除了解析XML外，如何生成XML呢？99%的情况下需要生成的XML结构都是非常简单的，因此，最简单也是最有效的生成XML的方法是拼接字符串：

L = []
L.append(r'<?xml version="1.0"?>')
L.append(r'<root>')
L.append(encode('some & data'))
L.append(r'</root>')
return ''.join(L)

　　　　如果要生成复杂的XML呢？建议你不要用XML，改成JSON。

　　　　解析XML时，注意找出自己感兴趣的节点，响应事件时，把节点数据保存起来。解析完毕后，就可以处理数据。

　　　　练习一下解析Yahoo的XML格式的天气预报，获取当天和最近几天的天气：

http://weather.yahooapis.com/forecastrss?u=c&w=2151330

　　　　参数w是城市代码，要查询某个城市代码，可以在weather.yahoo.com搜索城市，浏览器地址栏的URL就包含城市代码。

七、HTMLParser ：解析HTML

　　　　如果要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。

　　　　假设第一步已经完成了，第二步应该如何解析HTML呢？

　　　　HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。

　　　　好在Python提供了HTMLParser来非常方便地解析HTML，只需简单几行代码：

from HTMLParser import HTMLParser
from htmlentitydefs import name2codepoint

class MyHTMLParser(HTMLParser):

    def handle_starttag(self, tag, attrs):
        print('<%s>' % tag)

    def handle_endtag(self, tag):
        print('</%s>' % tag)

    def handle_startendtag(self, tag, attrs):
        print('<%s/>' % tag)

    def handle_data(self, data):
        print('data')

    def handle_comment(self, data):
        print('<!-- -->')

    def handle_entityref(self, name):
        print('&%s;' % name)

    def handle_charref(self, name):
        print('&#%s;' % name)

parser = MyHTMLParser()
parser.feed('<html><head></head><body><p>Some <a href=\"#\">html</a> tutorial...<br>END</p></body></html>')

　　feed()方法可以多次调用，也就是不一定一次把整个HTML字符串都塞进去，可以一部分一部分塞进去。

　　特殊字符有两种，一种是英文表示的 ，一种是数字表示的Ӓ，这两种字符都可以通过Parser解析出来。

　　当然，解析HTML的还有很多其他框架，比如：PyQuery，BeautifulSoup.

asdf

你可能感兴趣的:(python基础-常用内建模块)

C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
C语言回调函数 812503533 c语言 java 开发语言
前文函数指针中说到了，函数指针的一个重要作用就是实现回调函数，那么什么是回调函数，回调函数有什么作用，在那些场景下使用，具体应该怎么使用，本文就分享下这块的知识。1、回调函数简介回调函数（CallbackFunction）是指将一个函数作为参数传递给另一个函数，然后在适当的时候由被调用的函数执行该回调函数。回调函数是实现事件驱动编程、异步编程和灵活接口设计的核心工具。回调函数通常用于实现高阶函数，
异地收款被拦截？一文读懂聚合二维码风控解决方案畅联支付大数据支付经验分享笔记
随着移动支付的普及，许多商家使用聚合二维码实现多平台收款。但近期不少用户反馈"人在外地扫自家二维码付款却被风控拦截"，这不仅影响经营效率，还可能引发资金冻结风险。今天我们就来解析这个问题的成因和应对策略。一、为什么会触发风控？1.地理位置异常：支付系统发现收款设备与常用地址存在跨省变动（如北京商家突然在上海收款）2.交易行为突变：短期内出现远超日常交易量的资金流动3.信息不匹配：营业执照注册地与收
autoreconf --install的作用 812503533 git
autoreconf--install是在使用GNUAutotools构建系统的项目中常用的一条命令，下面为你详细解释其含义以及使用--install选项的原因。autoreconf命令概述autoreconf是一个用于自动重新生成Autotools项目所需配置脚本的工具。Autotools是一组用于创建可移植构建系统的工具集合，主要包括autoconf、automake和libtool。在开发或
QT显示网页控件QAxWidget、QWebEngineView及区别 AI+程序员在路上 QT&C++实战系列 qt 开发语言
一.QT种显示网页控件QAxWidget1.介绍QAxWidget属于QtAxContainer模块，ActiveX是微软提出的一种组件对象模型（COM）技术，允许不同的软件组件在Windows操作系统上进行交互和集成。QAxWidget为开发者提供了在Qt应用程序中使用ActiveX控件的能力，通过它可以将各种ActiveX控件嵌入到应用程序界面中。2.使用引入必要的模块在.pro文件中添加QT
新导则下的防洪评价报告编制方法及洪水建模实践技术吹翻书页的风水文水利地质地下水环境科学 arcgis 防洪评价报告编制 HEC-RAS软件二维水动力模型计算
目录1、《防洪评价报告编制导则解读河道管理范围内建设项目编制导则》（SL/T808-2021）解读2、防洪评价相关制度与解析3、防洪评价地形获取及常用计算4、HEC-RAS软件原理及特点5、HEC-RAS地形导入6、一维数学模型计算7、基于数学模型软件的一维构筑物的水动力模型计算及本章内容在报告中编写方法8、数值模型软件概述及数据基础处理9、基于数学模型软件的二维水动力模型计算析及结果输出及评价章
java面试题框架篇老汤姆. 面试 java spring boot 开发语言
文章目录1.Spring框架1.1Spring两大核心：IOC与AOPIOCDIAOP切面=切入点表达式+通知方法关于JDK代理和CGlib代理总结(高程/架构)!!!AOP常用注解1.2BeanFactory(懒加载初始bean)和ApplicationContext(立即初始bean)有什么区别1.3Spring框架用到了哪些设计模式1.4spring框架的优缺点1.5Spring常用注解2.
R+VIC 模型融合实践技术应用及未来气候变化模型预测 weixin_贾水文模型集合水文水资源防洪评价风险评估滑坡泥石流数学建模经验分享
目前，无论是工程实践或是科学研究中都存在很多著名的水文模型如SWAT/HSPF/HEC-HMS等。虽然，这些软件有各自的优点；但是，由于适用的尺度主要的是中小流域，所以在预测气候变化对水文过程影响等方面都有所不足。VIC模型是一个大尺度的半分布式水文模型，其设计之初就是为了模拟大流域的水文过程；它能够计算陆地－大气的能量通量，考虑土壤性质和土地利用的影响，自带有简化的湖泊/湿地模块，也能够将植被状
【Hugging Face】transformers 库中 model 的常用方法和属性彬彬侠 Hugging Face model 模型的属性和方法 transformers Hugging Face python
HuggingFacetransformers库中model的常用方法和属性在transformers库中，model代表预训练的Transformer模型，可用于文本分类、问答、文本生成等任务。不同任务的model可能会有不同的方法和属性，但它们共享许多常见功能。1.model的常见属性在加载AutoModel或AutoModelForXXX后，可以使用以下属性：fromtransformers
使用Java对接StockTV印度股票数据源API实战指南 java爬虫
关键词：JavaAPI开发、SpringBoot、WebSocket、ApacheHttpClient一、项目概述本指南将使用Java实现StockTV金融数据API的完整对接方案，包含以下核心模块：✅RESTAPI客户端：支持同步/异步调用✅WebSocket实时订阅：基于SpringWebSocket✅企业级特性：连接池管理、熔断降级✅生产就绪：完整的异常处理和监控二、环境准备1.技术栈要求J
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
HSPF模型有哪些优势？可以进行哪些模拟？HSPF模型的原理与组成；前处理、后处理与参数率定；水质与泥沙模块等 WangYan2022 水文水资源 HSPF模型水文水质模拟泥沙模拟
HSPF模型与SWAT模型一样都是著名的水文模型软件，在世界各地的水文模拟中得到广泛的应用。由于种种原因，HSPF模型在国内的影响力不如SWAT；但是，HSPF模型也有其自身的优势，比如：1.它有很高集成度的前后处理软件，减轻建模的负担；2.它可以自主调节水文响应单元的大小，模型有更好的灵活性；3.它可以输出最小为小时的结果，比SWAT更方便；4.它可以与EFDC等水动力模型相耦合等。HSPF（H
scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
合并HEX文件 boringhex.top MCU 嵌入式
在上一篇文章深入解析IntelHEX文件格式中，我们详细介绍了IntelHEX文件的格式和记录类型。在嵌入式系统开发中，IntelHEX文件是一种常见的二进制数据表示格式，通常用于存储和传输固件。在某些情况下，我们可能需要将多个HEX文件合并为一个文件，例如将多个模块的代码合并为一个完整的固件。本文将详细介绍如何合并IntelHEX文件，并提供一个基于Rust的简单实现。合并HEX文件的场景在某些
R语言学习实例：使用R进行数据可视化 PixelCoder 信息可视化 r语言学习 R语言
R语言学习实例：使用R进行数据可视化R语言是一种功能强大且广泛使用的统计分析和数据可视化工具。在本实例中，我们将使用R语言来创建一些常见的数据可视化图表，包括散点图、柱状图和折线图。我们将展示如何使用R的基本绘图功能和一些常用的绘图库来生成这些图表。散点图是一种用于显示两个变量之间关系的图表。我们可以使用R的基本绘图功能来创建散点图。下面是一个示例代码，展示如何使用R创建散点图：#创建示例数据x<
PyTorch实现CNN：CIFAR-10图像分类实战教程吴师兄大模型 PyTorch pytorch cnn CIFAR-10图像分类人工智能 python 卷积神经网络开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
内容中台的核心架构是什么？清风徐徐de来其他
模块化架构设计解析内容中台的模块化架构通过分层解耦实现灵活扩展，其核心由基础资源层、能力服务层与业务应用层构成。基础层以统一数据治理体系为支撑，通过标准化接口实现结构化与非结构化数据的统一存储，例如Baklib采用分布式存储架构保障数据安全性与访问效率。服务层整合智能分发引擎与API协同策略，支持动态编排内容处理流程，如自动标签生成与多版本管理。应用层通过可配置化组件对接多终端场景，确保知识库构建
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
QT之QComboBox详细介绍小小怪同学の qt 开发语言
此篇文章来源于自己在使用QComboBox类的时候相对其重写而总结的其成员函数知识点，本人能力有限，欢迎大家评论区评论，共同学习一、QComboBox介绍QComboBox是QtGUI库中的一个核心组件，它是一个复合型图形用户界面控件，常用于提供一种紧凑的方式来展示可选项列表。QComboBox通常表现为一个下拉列表框，包含一个文本标签区域和一个下拉箭头按钮，点击箭头时会显示出可供选择的项目列表。
JavaScript-闭包 tuoluoo JavaScript学习 javascript
闭包概念在JS中，变量的作用域属于函数作用域，在函数执行后作用域就会被清理、内存也随之回收，但是由于闭包是建立在一个函数内部的子函数，由于其可访问上级作用域的原因，即使上级函数执行完，作用域也不会随之销毁，这时的子函数——也就是闭包形成：函数中嵌套函数作用：函数内部调用外部变量、构造函数的私有属性、延长变量生命周期优点：希望一个变量长期存在内存中、模块化代码避免全局变量的污染、私有属性缺点：无法回
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
C#零基础入门篇（13.List＜T＞的基本特性） think__deeply c#list 开发语言 visualstudio
在C#中，`List`是一个非常常用且功能强大的泛型集合类，属于`System.Collections.Generic`命名空间。它提供了动态数组的功能，允许开发者存储、管理和操作一组相同类型的元素。以下是关于`List`的详细讲解，包括其特性、常用方法和使用场景。---###1.**`List`的基本特性**-**泛型集合**：`List`是一个泛型类，使用类型参数`T`来指定存储的元素类型。这
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
架构生命周期（演进史）技术应服务于业务 Limbo1213 java架构生命周期演进史
架构生命周期简介本篇幅主要讲述架构的各阶段出现的需求问题、业务问题、性能问题以及相应的解决方案。1、web1.0时代（1996年左右）2、web2.0时代（2006年左右）3、互联网时代（2012年左右）–》互联网±-》智慧城市。滴滴打车。饿了么（工商局）4、大数据+云计算5、AI未来以来时代…第一时期单一应用架构allinone。所有的模块和代码都在一起。技术也不分层。(2000年左右)网站的初
【UI自动化】Selenium库中使用By类元素定位方法搞不来测试的摄影狮软件测试 python selenium 自动化
使用By类，首先需要在Python中导入该模块：fromselenium.webdriver.common.byimportBy1.通过元素的ID属性来定位driver.find_element(By.ID,'kw')如下图，我们需要定位百度的输入框。首先选中定位工具，然后选中输入框。我们可以看到该元素id的值为："kw"2.通过元素的NAME属性来定位driver.find_element(By
如何画架构图 qq_17335305
什么是架构方法软件架构，是有关软件结构与组件的抽象描述，用户指导大型软件系统各个方面的设计对于架构的组成部分架构元素、元素间关系、架构、系统、架构文档、架构视图、相关方、关注点关系描述，一个系统应该有个架构，架构是架构元素和元素间关系组成的；元素就是服务器、组件、模块、子系统、类等元素；元素之间有两种关系，静态关系和动态关系，静态关系就是组合、聚合、关联、依赖、继承、泛化；动态关系，表示的它们是如
Apache Doris中都用了哪些开发语言，编译过程中用到了哪些编译器，以及用到了哪些成熟的技术框架 fzip Doris apache 开发语言
ApacheDoris作为一款高性能的实时分析型数据库，其技术栈涉及多语言开发、多种编译器支持以及多个成熟技术框架的集成。以下是综合多个来源的详细分析：一、开发语言Java•应用场景：主要用于开发Frontend（FE），负责元数据管理、查询解析、集群管理等模块。•关键模块：◦FE的元数据持久化通过BDBJE（BerkeleyDBJavaEdition）实现。◦MySQL协议兼容和HTTP服务分别
Infor CloudSuite软件二次开发：InforCloudSuite移动应用开发 kkchenjj 工业软件二次开发全集架构工业软件 ERP 开发语言
InforCloudSuite软件二次开发：InforCloudSuite移动应用开发InforCloudSuite简介InforCloudSuite平台概述InforCloudSuite是一个集成的企业资源规划(ERP)解决方案，专为特定行业设计，提供了一系列的云应用，旨在优化业务流程，提升运营效率。该平台涵盖了供应链管理、财务、人力资源、客户关系管理等多个领域，通过其先进的功能和模块，企业可以
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><