python3爬虫之入门基础和正则表达式

前面的python3入门系列基本上也对python入了门，从这章起就开始介绍下python的爬虫教程，拿出来给大家分享；爬虫说的简单，就是去抓取网路的数据进行分析处理；这章主要入门，了解几个爬虫的小测试，以及对爬虫用到的工具介绍，比如集合，队列，正则表达式；

用python抓取指定页面：

代码如下：

import urllib.request
url= "http://www.baidu.com"
data = urllib.request.urlopen(url).read()#
data = data.decode('UTF-8')
print(data)

urllib.request.urlopen(url) 官方文档返回一个 http.client.HTTPResponse 对象, 这个对象又用到的read()方法;返回数据；这个函数返回一个 http.client.HTTPResponse 对象, 这个对象又有各种方法, 比如我们用到的read()方法；

查找可变网址：

import urllib
import urllib.request
data={}
data['word']='one peace'
url_values=urllib.parse.urlencode(data)
url="http://www.baidu.com/s?"
full_url=url+url_values
a = urllib.request.urlopen(full_url)
data=a.read()
data=data.decode('UTF-8')
print(data)
##打印出网址：
a.geturl()

data是一个字典, 然后通过urllib.parse.urlencode()来将data转换为 ‘word=one+peace'的字符串, 最后和url合并为full_url

python正则表达式介绍：

队列介绍

在爬虫的程序中用到了广度优先级算法，该算法用到了数据结构，当然你用list也可以实现队列，但是效率不高。现在在此处介绍下：在容器中有队列：collection.deque

#队列简单测试：
from collections import deque
queue=deque(["peace","rong","sisi"])
queue.append("nick")
queue.append("pishi")
print(queue.popleft())
print(queue.popleft())
print(queue)

集合介绍：

在爬虫程序中, 为了不重复爬那些已经爬过的网站, 我们需要把爬过的页面的url放进集合中, 在每一次要爬某一个url之前, 先看看集合里面是否已经存在. 如果已经存在, 我们就跳过这个url; 如果不存在, 我们先把url放入集合中, 然后再去爬这个页面.

Python 还包含了一个数据类型―― set ( 集合 ) 。集合是一个无序不重复元素的集。基本功能包括关系测试和消除重复元素。集合对象还支持 union( 联合),intersection(交),difference(差)和 sysmmetric difference(对称差集)等数学运算。

大括号或 set() 函数可以用来创建集合。注意:想要创建空集合,你必须使用set() 而不是 {} 。{}用于创建空字典；

集合的创建演示如下：

a={"peace","peace","rong","rong","nick"}
print(a)
"peace" in a
b=set(["peace","peace","rong","rong"])
print(b)
#演示联合
print(a|b)
#演示交
print(a&b)
#演示差
print(a-b)
#对称差集
print(a^b)
#输出：
{'peace', 'rong', 'nick'}
{'peace', 'rong'}
{'peace', 'rong', 'nick'}
{'peace', 'rong'}
{'nick'}
{'nick'}

正则表达式

在爬虫时收集回来的一般是字符流，我们要从中挑选出url就要求有简单的字符串处理能力，而用正则表达式可以轻松的完成这一任务；

正则表达式的步骤：1，正则表达式的编译 2，正则表达式匹配字符串 3，结果的处理

下图列出了正则表达式的语法：

在pytho中使用正则表达式，需要引入re模块；下面介绍下该模块中的一些方法；

1.compile和match

re模块中compile用于生成pattern的对象，再通过调用pattern实例的match方法处理文本最终获得match实例；通过使用match获得信息；

import re

# 将正则表达式编译成Pattern对象
pattern = re.compile(r'rlovep')
# 使用Pattern匹配文本，获得匹配结果，无法匹配时将返回None
m = pattern.match('rlovep.com')
if m:
# 使用Match获得分组信息
  print(m.group())
### 输出 ###
# rlovep
re.compile(strPattern[, flag]):

这个方法是Pattern类的工厂方法，用于将字符串形式的正则表达式编译为Pattern对象。第二个参数flag是匹配模式，取值可以使用按位或运算符'|'表示同时生效，比如re.I | re.M。另外，你也可以在regex字符串中指定模式，比如re.compile('pattern', re.I | re.M)与re.compile('(?im)pattern')是等价的。

可选值有：

re.I(re.IGNORECASE): 忽略大小写（括号内是完整写法，下同）

M(MULTILINE): 多行模式，改变'^'和'$'的行为（参见上图）

S(DOTALL): 点任意匹配模式，改变'.'的行为

L(LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定

U(UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性

X(VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。

Match:Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

属性：

string: 匹配时使用的文本。
re: 匹配时使用的Pattern对象。
pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。
lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。

方法：

group([group1, …]):
获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。
groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。
groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。
start([group]):
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。
end([group]):
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
span([group]):
返回(start(group), end(group))。
expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g、 \g引用分组，但不能使用编号0。\id与\g是等价的；但\10将被认为是第10个分组，如果你想表达 \1之后是字符'0'，只能使用\g<1>0。
pattern:Pattern对象是一个编译好的正则表达式，通过Pattern提供的一系列方法可以对文本进行匹配查找。

Pattern不能直接实例化，必须使用re.compile()进行构造。

Pattern提供了几个可读属性用于获取表达式的相关信息：

pattern: 编译时用的表达式字符串。
flags: 编译时用的匹配模式。数字形式。
groups: 表达式中分组的数量。
groupindex: 以表达式中有别名的组的别名为键、以该组对应的编号为值的字典，没有别名的组不包含在内。
实例方法[ | re模块方法]：

match(string[, pos[, endpos]]) | re.match(pattern, string[, flags]):
这个方法将从string的pos下标处起尝试匹配pattern；如果pattern结束时仍可匹配，则返回一个Match对象；如果匹配过程中pattern无法匹配，或者匹配未结束就已到达endpos，则返回None。
pos和endpos的默认值分别为0和len(string)；re.match()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。
注意：这个方法并不是完全匹配。当pattern结束时若string还有剩余字符，仍然视为成功。想要完全匹配，可以在表达式末尾加上边界匹配符'$'。
search(string[, pos[, endpos]]) | re.search(pattern, string[, flags]):
这个方法用于查找字符串中可以匹配成功的子串。从string的pos下标处起尝试匹配pattern，如果pattern结束时仍可匹配，则返回一个Match对象；若无法匹配，则将pos加1重新尝试匹配；直到pos=endpos时仍无法匹配则返回None。 pos和endpos的默认值分别为0和len(string))；re.search()无法指定这两个参数，参数flags用于编译pattern时指定匹配模式。
split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。
findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags]):
搜索string，以列表形式返回全部能匹配的子串。
finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):
搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。
sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):
使用repl替换string中每一个匹配的子串后返回替换后的字符串。当repl是一个字符串时，可以使用\id或\g、\g引用分组，但不能使用编号0。当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。 count用于指定最多替换次数，不指定时全部替换。
subn(repl, string[, count]) |re.sub(pattern, repl, string[, count]):
返回 (sub(repl, string[, count]), 替换次数)。

2.re.match(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串， group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

演示如下：

#re.match.
import re
print(re.match("rlovep","rlovep.com"))##匹配rlovep
print(re.match("rlovep","rlovep.com").span())##从开头匹配rlovep
print(re.match("com","http://rlovep.com"))##不再起始位置不能匹配成功
##输出：
<_sre.SRE_Match object; span=(0, 6), match='rlovep'>
(0, 6)
None

实例二：使用group

import re
line = "This is my blog"
#匹配含有is的字符串
matchObj = re.match( r'(.*) is (.*?) .*', line, re.M|re.I)
#使用了组输出：当group不带参数是将整个匹配成功的输出
#当带参数为1时匹配的是最外层左边包括的第一个括号，一次类推；
if matchObj:
 print ("matchObj.group() : ", matchObj.group())#匹配整个
 print ("matchObj.group(1) : ", matchObj.group(1))#匹配的第一个括号
 print ("matchObj.group(2) : ", matchObj.group(2))#匹配的第二个括号
else:
 print ("No match!!")
#输出：
matchObj.group() : This is my blog
matchObj.group(1) : This
matchObj.group(2) : my

3.re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

re.search(pattern, string, flags=0)

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串， group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

实例一：

import re
print(re.search("rlovep","rlovep.com").span())
print(re.search("com","http://rlovep.com").span())
#输出：
import re
print(re.search("rlovep","rlovep.com").span())
print(re.search("com","http://rlovep.com").span())

实例二：

import re
line = "This is my blog"
#匹配含有is的字符串
matchObj = re.search( r'(.*) is (.*?) .*', line, re.M|re.I)
#使用了组输出：当group不带参数是将整个匹配成功的输出
#当带参数为1时匹配的是最外层左边包括的第一个括号，一次类推；
if matchObj:
 print ("matchObj.group() : ", matchObj.group())#匹配整个
 print ("matchObj.group(1) : ", matchObj.group(1))#匹配的第一个括号
 print ("matchObj.group(2) : ", matchObj.group(2))#匹配的第二个括号
else:
 print ("No match!!")
#输出：
matchObj.group() : This is my blog
matchObj.group(1) : This
matchObj.group(2) : my

search和match区别：re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

python爬虫小试牛刀

利用python抓取页面中所有的http协议的链接，并递归抓取子页面的链接。使用了集合和队列；此去爬的是我的网站，第一版很多bug；代码如下：

import re
import urllib.request
import urllib
from collections import deque
#使用队列存放url 
queue = deque()
>前面的python3入门系列基本上也对python入了门，从这章起就开始介绍下python的爬虫教程，拿出来给大家分享；爬虫说的简单，就是去抓取网路的数据进行分析处理；这章主要入门，了解几个爬虫的小测试，以及对爬虫用到的工具介绍，比如集合，队列，正则表达式；

#使用visited防止重复爬同一页面
visited = set()
url = 'http://rlovep.com' # 入口页面, 可以换成别的
 #入队最初的页面
queue.append(url)
cnt = 0
while queue:
 url = queue.popleft() # 队首元素出队
 visited |= {url} # 标记为已访问
 print('已经抓取: ' + str(cnt) + '  正在抓取 <--- ' + url)
 cnt += 1
 #抓取页面
 urlop = urllib.request.urlopen(url)
 #判断是否为html页面
 if 'html' not in urlop.getheader('Content-Type'):
  continue
 # 避免程序异常中止, 用try..catch处理异常
 try:
  #转换为utf-8码
  data = urlop.read().decode('utf-8')
 except:
  continue
 # 正则表达式提取页面中所有队列, 并判断是否已经访问过, 然后加入待爬队列
 linkre = re.compile("href=['\"]([^\"'>]*?)['\"].*?")
 for x in linkre.findall(data):##返回所有有匹配的列表
  if 'http' in x and x not in visited:##判断是否为http协议链接，并判断是否抓取过
   queue.append(x)
   print('加入队列 ---> ' + x)

结果如下：

画童八周年，生日快乐！（草稿）孙晓梅
今天刚好是画童成立8周年的日子，非常感谢各位家长朋友们给予画童的周年祝福，群里满屏都是家长朋友们的爱与祝福。画童走过8年风雨历程，可谓是有喜有忧！从蹒跚学步到稳步前进，再到阔步昂扬，离不开我们这么多智慧优秀的家长朋友们，有你们相伴，再难的路走着也有希望，再难的路走着一路也有你们的鲜花和掌声，也使我们有了前行的动力！我们相伴走到今天，更多的是互相理解着，互相支持着，互相配合着，我们彼此都感觉被爱包围
道德经原成·德经五一章·奠道贵德篇随便阁主
德经五一章·奠道贵德篇此文章为非儒家思想的道德经专研文章，强调专业性，不具备娱乐性，观者慎入！一、原文：道生之而德畜之，物形之而器成之，是以万物尊道而贵德。道之尊也，德之贵也，夫莫之爵也，而恒自然也。故道，生之，畜之。长之，遂之。亭之，毒之。养之，復之。生而弗有也，为而弗志也，长而弗宰也。是谓玄德。二、译文：道衍生万物而德约束万物，万物复现外观形制而能成就器物，所以万物都尊崇道而重视德。道所以受到
基于STM32无线WIFI智能家居实时控制系统设计
**单片机设计介绍，基于STM32无线WIFI智能家居实时控制系统设计文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于STM32无线WiFi智能家居实时控制系统设计概要如下：一、项目概述本项目旨在设计一个基于STM32微控制器和无线WiFi技术的智能家居实时控制系统。该系统能够连接并控制各种智能家居设备，如灯光、窗帘、安防监控设备等，同时支持远程控制、环境监测
1.16，77 知行思合一
七项重要的感知力和技能1、对个人能力的感知力--我能行；2、对自己在重要关系中的价值的感知力--我的贡献有价值，大家确实需要我。3、对自己在生活中的力量或影响的感知力--我能够影响发生在自己身上的事情。4、内省能力强：有能力理解个人的情绪，并能利用这种理解做到自律以及自我控制。5、人际沟通能力强：善于与他人合作，并在沟通、协作、协商、分享、共情和倾听的基础上建立友谊。6、整体把握能力强：以有责任感
C++ NUMA-Aware Allocators：针对非统一内存访问架构的分配器海派程序猿 C++封神之路高阶技术系列讲座 c++架构 java
好的，让我们来一场关于C++NUMA感知分配器的技术讲座！准备好，我们要深入到内存分配的奇妙世界，特别是那些让多核处理器“心跳加速”的NUMA系统。大家好！欢迎来到NUMA大冒险！今天，我们不讲“Hello,World!”，我们要讲“Hello,NUMA!”。如果你觉得内存分配只是new和delete的简单游戏，那你就大错特错了。尤其是在NUMA(Non-UniformMemoryAccess)系
2021-01-13 糖水wow
好久没来了WelcomebackSyrup！2020年遭受太多的打击了，但也顺利干成了一些事情。不想在微博和微信分享太多私人的东西了，所以，会成为我的小树洞吗哈哈哈？写写对的设想吧，虽然可能三分钟热度，但。。。betterlatethannever？每天记录一点小美好、小进展，以及看到一些想要记录分享的小知识？？？（其实就是知识的搬运工。。。冲鸭，我的小天地，随心~所欲~终有一天会为自己的魅力而感
坚持发布的意义戴之易
我在想持之以恒观察我的人每天不会细看我的圈不会细看我的内容但她们都有个印象这个憨女生风雨无改且持之以恒的努力着跟这样的人买任何东西不会怕我收了钱玩消失跟这样的人一起创业不怕我单删她甚至拉黑他跟这样的人一起努力不怕我消极且唠叨她这就是我每天发圈的意义――郭丹峰（小甜甜不拦你/戴之易）
冬吃萝卜夏吃姜，你现在吃姜了吗？如花小李
“冬吃萝卜夏吃姜，不劳医生开药方”这句话从小就耳濡目染，不知道家里有没有备好姜块？打算怎么吃？熬姜汤？还是熬姜汤？中国饮食文化博大精深，单单是这姜也有不同的吃法，除了熬姜汤，这几种做法也可以抽空学一下，简单有效不费时。可以和红枣泡在一起。把姜和红枣泡在一起主要是为了去湿热，泡的时候可不要把整个红枣直接扔进去，用刀子把红枣划开几道枣肉，这样再和姜一起泡的时候才能够充分发挥自己的功效，疏散外寒侵蚀，随
【有没有快速好记的方法记全五十音啊】日语自学达人
1、学习日语的开始是学五十个音节。大多数学生不太熟悉五十音图。所谓五十音图相当于在我们的汉语拼音字母表中，记忆五十音图是学习日语的前提。因此，学生在学习和训练50音图的过程中不能放松。如果你想能够流利地背诵50音图，我将带大家详细了解什么是50音图！2.学会五十音图尽可能早地实现日语快速入门1.清音：日本学生发音过程中声带振动的是清音，又称“浊音”；不振动的浊音是浊音，又称“非浊音”。3、日语中的
银行从业资格证的作用但眉上风止i
当前银行业求职竞争不断之大，持证应聘成功率增1倍。在近年来的银行招聘中，通过银行从业资格考试的人员的应聘成功率与其他求职者相比也高出近1倍。根据统计，历年成功拿到银行offer的学员中，71%的人持有银行从业、会计从业、证券从业等金融行业相关资格证书。证书在求职大军中是绝对的加分项，对刚毕业没什么专项技能的大学生而言，这是一个非常好的机会。业内人士称，大学毕业生的专业知识和实践能力并不能完全满足银
怀旧故事之一，电子管狼的传人说事
这是一套电子管收音机的心脏，六个电子管。分别是6A2，担任接收振荡和混频，6K4担任中放，6N2担任检波和前置音频放大，6P1担任末级功率放大。6E2担任调谐指示，当接收到的信号十分准确时，它会眯成一条细线，十分美丽。6Z4担任整流，即把交流电变成直流电供电子管的屏极和其它几个极使用。本来我们的电子管收音机可以做到灵敏度十分高，不仅仅是六个管子，可以做到七个八个甚至十个。而六管机实际上起处理信号作
春节时间煮鱼片
新年要快乐，恐怕很难吧！更多的是疲惫吧…本来计划的是准备出去玩，可是跟父母沟通过以后，计划被取消了。他们认为这是传统习俗，不能不过。老表们又闹活着要给我家出门，只好在家里过了一个扎扎实实的"中国年"…我们家族比较大，要是真的挨家挨户出门的话，真的是七天假都不够，通过这几天出门和待客的情况来看，跟往年区别不大，对我来说确实感觉没什么意思，我这次能不出去还有一个主要的原因是，我想让小孩能体验一下过年的
颠覆性的货币时代来了！千城攻略“主权资产货币系统”面世笔记侠
2020年7月7日，深圳千城攻略算法云技术有限公司与重塑布雷顿森林体系委员会云签约，成为面向央行提供服务的主权货币技术核心成员。重塑布雷顿森林委员会执行董事MarcUzan先生、千城攻略首席算法官郑志军先生出席签约仪式。与比特币、Libra完全不一样，千城攻略颠覆了长期以来根深蒂固的“主权信用货币”体制观念，推出了“主权资产货币”，由于其有着非常严谨科学的全新经济学理论和货币理论系统支撑，并且解决
【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
神经网络：从模式组合到多层神经网络的进化 MoonlitHan 人工智能
这两张图展示了神经网络如何从“简单判断”进化到“复杂识别”：1.模式组合：让神经网络“拆分任务”第一张图的核心是“模式组合”：比如识别数字3时，网络会把任务拆成“识别左半部分”和“识别右半部分”；中间的神经元专门负责提取局部特征（比如左半部分的曲线、右半部分的直线）；最终输出层的y₃和y₈会综合这些局部特征，判断图片是不是数字3或8。2.多层神经网络：让AI学会“分层思考”第二张图展示了多层神经网
46. 携带研究材料（01背包二维数组） 46. 携带研究材料（01背包一维数组）LeetCode 416. 分割等和子集 Leetcode 1049. 最后一块石头的重量II Tiny番茄算法动态规划
46.携带研究材料（01背包二维数组）题目是给定一个物品的重量数组weight，和物品对应的价值数组value。另外给了背包需要装多少种物品，和背包的容量（即输入两个数组+背包所考虑的物品种类category和背包的容量bagweight）dp数组的定义，下标表示什么含义。dp[i][j]表示容量为j的背包从编号[0,i]之间选取物品进行存放所能达到的最大价值。其中，横轴上的坐标可以考虑为是背包的
21天趁早手账学习之旅 Sugar_沫沫
结缘趁早，是因为朋友推荐使用趁早日程记录本，18年入手后，只是作为日程安排的记录，还有重点工作的梳理和记录。新的一年目标中有一个是要完成Eva老师视觉基础课程，学习和实践视觉记录。无意中看到了趁早发起的活动内容，觉得很有助于新年视觉学习的目标，带着好奇和怀疑报名了（怀疑自己可能无法打满卡，再之后就满怀期待的等着开营，把这作为新年第一个Flag。一晃眼，21天过去了，与其他小伙伴们一起坚持学习和打卡
有什么好看的电视剧推荐一下2024,2024最火的几部电视剧高省张导师
对于现在的影视圈，就小编来说，是比较不喜欢的，总觉得演技不够好，没有以前的味道，但还是有不少新鲜血液值得称赞。本期小编要分享给大家的是2024十部熬夜也要看的电视剧和熬夜必看的十部电视剧。大家好，我是高省APP最大团队，【高省】是一个可省钱佣金高，能赚钱有收益的平台，百度有几百万篇报道，也期待你的加入。高省邀请码520888，注册送2皇冠会员，送万元推广大礼包。给大家推荐一个公主号《张十五笔记》分
Synchronized和ReentrantLock的区别 lzwglory
概述这是一个比较经典的问题，在面试和工作中也是常常会涉及到，所以今天我把它们的区别和相应的应用场景说明一下。介绍Synchronized是Java语言的关键字，可以在方法、代码块、对象等进行加锁，当它锁定的时候，同一时刻最多只有一个线程执行这段代码。ReentrantLock实现了JUC中的Lock，Lock框架是锁定的一个抽象，它允许把锁定的实现作为Java类，而不是作为语言的特性来实现。两者对
IDP-L5-学习心得 swag_ae02
进入进阶课，我们的好朋友林菠萝也开启了职业生涯的新的阶段。在回顾她的成长经历时，她有一句话让我印象特别深刻，“我要给工作赋予意义。”而在这当中牵扯到的一个概念就是内驱目标。与之相对应的就是外驱目标。自我决定理论当中提到过我们做一件事情是因为我们自己想做，而不是被迫或者受到强迫而不得不做。因为我们想，我们就会有更强的目标认同感，更敏捷的行动，这样，我们才能实现真正的改变。当我们突然收到上级的紧急任务
财富教练第十五次沙盘吕莉
2021.5.9pm14:30-17:30教练：吕莉玩家：郑金珊，肖香才，夏志坚，陈丽华，刘为兴今天是个美好的日子“母亲节”，源于财富流沙盘，我和任洁从鹰潭到南昌，与一群朋友共度节日。源于财富流沙盘，原本的好友沟通得更加深刻，原本的同事多年未见又再度连接，原本的陌生人一下子就成为了朋友，这或许是冥冥中的安排，也或许是沙盘的魅力！一下午时光，在温暖欢乐的气氛中度过了感谢肖香才细心准备了水果茶水！感谢
服务器采购和选型中兔西维亚实用工具服务器运维网络
1.CPU双路CPU，0号位和1号位，只要0号位CPU正常，服务器就能工作，若1号位CPU故障，服务器会报警。若0号位CPU故障，1号位CPU正常，服务器不能启动，需要将1号位的CPU换到0号位上才可以启动服务器。双路CPU，坏一个，另一个能正常工作吗？还是都不能用了，懂得告知，万谢cpu主频和最大睿频都是什么意思？CPU的主频，即CPU内核工作的时钟频率。睿频是指当启动一个运行程序后，处理器会自
《父母的语言》读书笔记艾利斯顿教育
通过麻醉(所解决的事情能被看得到——解决了患者疼痛的痛苦)和消毒(所解决的事情看不到，视觉里没有——表面上看不到取得的效果)两件事情被重视的程度，引出不可见的东西，被人忽略的，叫做思想的停滞。父母的语言，就是免费的，被忽略店的重要的资源！实际上在3岁以前，父母传递给孩子的语言信息量，就已经拉开了孩子与孩子之间的距离！对孩子最大的教养差距不是在于态度，物质条件，而在乎父母的词汇量！如果能意识到父母的
《酒狂》 4182204ab311
侯明明国画《松下语》《酒狂》————古琴曲《酒狂》之诗歌形象化文/廖又蓉荆棘遍地到处悬崖!四野噤声好黑啊！门闩都到哪儿去啦？胸揣火履薄冰哭喊着往回走吧！就这样一日复一夕吧！就这样一夕复一朝吧！阴沟里哪里会有路啊！玉石与灰烬没分别啊！深一脚浅一脚踏雾走哇！混沌里畅饮醉舞吧！就这样一日复一朝吧！就这样一昏复一晨吧！我痛哭我哀叹我笑傲我跌跌我撞撞独闯吧！哦！——我没醉只是黑白颠倒了我没醉只是灵肉分开了就
本地webrtc应用，本来是http协议，在安卓手机上浏览器不支持使用麦克风，现在用了ngixn用了改成https协议安卓手机上浏览器支持麦克风了，但是又没有视频图像了玩人工智能的辣条哥疑难杂症专题 http webrtc 智能手机
环境：WSL2Ubuntu22.04本地部署webrtc应用视频聊天应用问题描述：本地webrtc应用，本来是http协议，在安卓手机上浏览器不支持使用麦克风，现在用了ngixn用了改成https协议安卓手机上浏览器支持麦克风了，但是又没有视频图像了，这怎么解决？解决方案：在WebRTC应用中，从HTTP切换到HTTPS是一个重要的步骤，因为它提供了加密和安全的数据传输，这对于浏览器访问麦克风和摄
Python100个库分享第36个—python-pptx(办公篇) 小庄-Python办公 Python100个库分享 python 开发语言 python办公 python-pptx python读取ppt python操作ppt
目录专栏导读库简介主要特点️安装方法基础使用1.导入库和创建演示文稿2.基本幻灯片操作3.常用布局类型文本和格式设置1.文本框和段落2.文本对齐和样式表格操作1.创建基本表格2.高级表格格式️图片和形状1.插入图片2.添加形状图表功能1.创建柱状图2.创建饼图办公实用功能1.创建项目汇报PPT2.创建培训课件3.创建产品介绍PPT高级功能1.母版和主题2.动画和过渡效果3.批量生成幻灯片性能优化和
SAP错题集 HainesFreeman AWS 服务器网络运维
1、一家软件公司在AWS上托管一个应用程序，其资源分布在多个AWS帐户和地区.应用程序在位于us—east—1区域的应用程序VPC中的一组AmazonEC2实例上运行，IPv4CIDR块为10.10.0.0/16.在不同的AWS帐户中，共享服务VPC位于us-east-2区域，IPv4CIDR块为10.10.10.0/24.当云工程师使用AWSCloudFormation尝试将应用程序VPC与共享
ec2-user 1234 0.1 0.2 123456 7890 pts/0 S+ 12:34 0:00 java -jar my-java-service.jar HainesFreeman java java jar 开发语言
ec2-user12340.10.21234567890pts/0S+12:340:00java-jarmy-java-service.jar这里的1234，123456，7890分别代表什么？psaux|grepjava在Linux系统中，psaux命令的输出包含多个字段，每个字段都有特定的含义。以下是对psaux输出中常见字段的解释，特别是你提到的1234、123456和7890这三个数字的含
人生就是不公平的墨羽翰
我在家中排行老二，有一个姐姐和一个弟弟，邻居总是说，三个孩子真幸福！可他们不知道，我感觉我好无助。图片发自App我和姐姐从小打到大，因为我的脾气中带着一股倔强，而她不同，温柔（除了打我到时候）因为身高差的优势，我便是那个受欺负的。渐渐的我长大了，甚至我比她高了，但是，那时候打架也不存在了，甚至，她上高中一个月回来一次，我便会欣喜若狂，对于她，我会掩饰自己的倔强，会听话，可是，面对自己的母亲，就不会
【每日一词】D23 characterize 宠辱不惊的中年少女
1）翻译：三里屯以大量的潮牌和西餐厅著称。Sanlitunischaracterized/markedbynumerousfashionbrandsandWesternfoodrestaurants.2）场景：明亮的色彩和大胆的笔触是他早期绘画作品的特征。Brightcoloursandboldstrokescharacterizehisearlypaintings.
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

python3爬虫之入门基础和正则表达式

你可能感兴趣的:(python3爬虫之入门基础和正则表达式)