诸神黄昏EX

Python爬虫初窥

1 预备知识

2 数据请求

2.1 urllib

2.2 requests

2.3 requests-html

2.4 Selenium+PhantomJS

2.5 pyppeteer+chromium

2.6 反爬虫策略

3 数据解析

3.1 BeautifulSoup

3.1.1 BeautifulSoup概要

3.1.2 Tag对象

3.1.3 BeautifulSoup对象

3.1.4 find_all搜索文档树

3.2 字符串

3.2.1 正则表达

3.2.2 常用操作

4 数据存储

5 并行抓取

5.1 进程

5.2 线程

5.3 协程

如果编程是魔术，那么网页抓取就是巫术，很多人更加倾向的把网页抓取称作为网络爬虫。引自《Python网络爬虫权威指南》

我们都知道通过浏览器可以很方面的浏览妇联网上的海量信息，通过浏览器打开一个链接，其实浏览器干了很多事情，首先通过http/https协议根据url统一资源定位符获取到该资源的数据，这些数据其实就是html文本，浏览器将这些数据解析并显示出来。当然我们可以不使用浏览器，网络爬虫就是这样一个模仿了浏览器的程序，并批量获取你想获取的信息。因此网络爬虫概括起来其实也只有两个步骤：网页数据的抓取、网页数据的解析处理。

Python全栈工程师学习笔记

1 预备知识

2 数据请求

网页数据请求，其实就是模仿浏览器像web服务器发起访问，主要使用的协议有http/https等，访问方式主要有get/post等方式。python能访问网络资源的有内置库urllib，还有三方库requests。

2.1 urllib

urllib是Python内置的HTTP请求的标准库。虽然可以使用urllib标准库就可以应对网页表单，但是它的API非常差劲，它是为了当时的web创建的，即便是为了完成最简单的任务也需要大量的工作。详情了解请点击

2.2 requests

requests就是一个擅长处理复杂的HTTP请求、cookie、header等内容的第三方库。和任何Python第三方库一样，可以使用pip对其进行安装与管理。它提供的API功能比较强大且比较简洁，让初学者能够很快速的对其进行各种请求，但是有一个显著的缺点，即不支持js。详情了解请点击

2.3 requests-html

requests作者为了解决不支持js的弊端，特意推出了equests-html模块，除此之外还可以直接对其网页数据进行解析。详情了解请点击

在使用requests-html的时候可以通过函数render()进行对js的渲染，遇到如下错误，根据错误应该是解析js的时候超时了，可以对render进行参数设置

2.4 Selenium+PhantomJS

selenium库的基本使用

PhantomJS从入门到放弃

用Python做爬虫的各位，不要再用PhantomJS了

设置无头浏览器

2.5 pyppeteer+chromium

网络爬虫之使用pyppeteer替代selenium完美绕过webdriver检测

爬虫神器pyppeteer，对 js 加密降维打击

pyppeteer之launch参数详情

2.6 反爬虫策略

初次抓取JavLib主页的时候，就遇上了一个很棘手的防爬策略。都一次请求进入等待提示网页，等待5秒后浏览器解析js代码进行第二次请求，然后进入有效网页。如下：

经过F12调试跟踪发现第一次请求返回的body数据中有参数__cf_chl_captcha_tk__，其中有js计算5秒超时后进行第二次请求，并将token参数拼接到url的后面，这次请求成功获取到数据，后分析经过该逻辑进行两次请求并拼接url然而打印出来的链接浏览器就能够访问，但是程序第二次还是无法获取到有效数据，后又分析发现第一次请求服务器返回了cookie，第二次请求的时候传递cookie。如下：

更改代码，在第二次请求之前获取cookie并重新设置。代码如下：

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
#设置无头浏览器
chrome_options = Options()
chrome_options.add_argument('--headless')
driver = webdriver.Chrome(options=chrome_options, executable_path="G:\SDT\Python\chromedriver_win32\chromedriver.exe")
#第一次请求
driver.get("http://www.p42u.com/cn/vl_star.php?s=afjdi")
#获取第一次请求返回的cookie
cookie = driver.get_cookies()[0]
#获取第一次请求返回的token
soup = BeautifulSoup(driver.page_source, "html.parser")
token = soup.find("form",id="challenge-form")["action"]
#拼接第二次请求的url
url = "http://www.p42u.com{}".format(token)
print(cookie)
print(url)
#第二次请求先添加cookie在请求token
if "expiry" in cookie:del cookie["expiry"]
driver.add_cookie(cookie)
driver.get(url)
print(driver.page_source)
driver.close()

上面的结果然并卵，后仔细分析了其中js代码块部分，如下：

看来还是破解防爬的终极手段还是讲一切事物全部交给浏览器来处理，自己只需要等待就行了。后使用selenium+Chrome的方式，代码如下：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
options = Options()
options.add_argument('--headless')
#driver = webdriver.Chrome(options=options, executable_path="G:\SDT\Python\chromedriver_win32\chromedriver.exe")
driver = webdriver.Chrome(executable_path="G:\SDT\Python\chromedriver_win32\chromedriver.exe")
driver.get("http://www.p42u.com/cn/")
time.sleep(5)
print(driver.page_source)
driver.get("http://www.p42u.com/cn/vl_star.php?s=afjdi")
print(driver.page_source)
driver.close()

惊奇的发现，在使用无头浏览器模式的时候，上面代码是无法访问到，后经过查询发现js中已经做了无头浏览器判断，也给出了一些方法。参考如下：

关于selenium被检测问题
如何用JavaScript检测出当前浏览器是否是无头浏览器(headless browser)？

总结防爬策略如下：

对于频繁发送请求的，直接限制IP地址
后端服务器js检测如果爬虫发起请求直接拒绝，因为python有些工具能够留下痕迹
使用token和cookie来进行双重验证，对于这种情况个人建议使用终极手段全权把控制权交给无头浏览器处理

各大前端巨头反爬虫策略

反爬虫策略及破解方法

反爬机制和破解方法汇总

3 数据解析

解析上面抓取下来的网页数据，从庞大的网页数据里面提取到你需要的信息，离不开对网页源码进行分析，可以使用浏览器的F12查看网页源码，然后总结他们的关系跳转流程，使用BeautifulSoup对网页数据进行解析，配合正则表达式进行过滤，最终提取出你需要的信息。

3.1 BeautifulSoup

3.1.1 BeautifulSoup概要

BeautifulSoup库主要功能对抓取下来的网页或者字符串进行解析。官方文档解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度

由于BeautifulSoup库并不是python标准库，因此需要单独安装。安装教程请点击我

BeautifulSoup将复杂HTML文档转换成一个复杂的树形结构，每个节点都是Python对象,所有对象可以归纳如下四种：

BeautifulSoup对象：表示的是一个文档的全部内容。它支持遍历文档树和搜索文档树中描述的大部分的方法。
Tag对象：表示一个xml节点或者html的标签。它页支持遍历文档树和搜索文档树中描述的大部分的方法。
NavigableString对象：表示一个标签的文本内容，可以通过tag.string获取得到
Comment对象：表示一个特殊类型的NavigableString对象，例如文档的注释部分就是一个Comment对象

3.1.2 Tag对象

Tag对象与XML或HTML原生文档中的标签（节点）相同。一个标签中可以有很多属性和文本内容，也可以有很多子标签。其格式如下：<标签名称属性1="属性值" 属性2="属性2">内容





我是如来佛祖

我是观音菩萨


    我是玉皇大帝的头
    我是玉皇大帝的身体

成员变量name：表示标签的名称，即可以通过tag.name得到标签名称
成员变量attrs：表示标签的属性，即tag.attrs返回的是一个存储了所有属性的字典，也可以直接通过类似字典的方式即tag[属性名]来获取属性值
成员变量string：表示标签的内容，即tag.string返回的是标签的内容，也是一个NavigableString对象
访问子标签：可以通过tag.子标签名的方式直接获取一个字标签tag对象

from bs4 import BeautifulSoup
html_doc="""

    迈腾
    A6

"""
soup = BeautifulSoup(html_doc, 'html.parser')
tagList=soup.list
#tag.子标签名：直接获取子标签tag对象
car1=tagList.car1
car2=tagList.car2
print("car1: type({})".format(type(car1)))
print("car2: type({})".format(type(car2)))
# car1: type()
# car2: type()
#tag.name：直接获取标签名称
print("car1 name: type({}) [{}]".format(type(car1.name),car1.name))
print("car2 name: type({}) [{}]".format(type(car2.name),car2.name))
# car1 name: type() [car1]
# car2 name: type() [car2]
#tag.string：直接获取标签内容
print("car1 string: type({}) [{}]".format(type(car1.string),car1.string))
print("car2 string: type({}) [{}]".format(type(car2.string),car2.string))
# car1 string: type() [迈腾]
# car2 string: type() [A6]
#tag.attrs：直接获取所有属性
print("car1 attrs: type({}) [{}]".format(type(car1.attrs),car1.attrs))
print("car2 attrs: type({}) [{}]".format(type(car2.attrs),car2.attrs))
# car1 attrs: type() [{'brand': '大众', 'type': 'B级轿车'}]
# car2 attrs: type() [{'brand': '奥迪', 'type': 'C级轿车'}]
#tag[属性名]：直接通过字典方式获取属性值
print("car1[xxx]: {} {}".format(car1["brand"],car1["type"]))
print("car2[xxx]: {} {}".format(car2["brand"],car2["type"]))
# car1[xxx]: 大众 B级轿车
# car2[xxx]: 奥迪 C级轿车

成员变量children：表示标签的所有子节点，即tag.children返回一个列表，列表是该标签的所有成员。注意包括Comment
遍历标签：遍历tag其实跟遍历tag.children没有任何区别
成员函数find_all()：返回该标签所有的子标签，即不包括Comment对象

from bs4 import BeautifulSoup
html_doc="""

    迈腾
    A6

"""
soup = BeautifulSoup(html_doc, 'html.parser')
tagList=soup.list
print("%%%tagList type({}):{}%%%".format(type(tagList),"..."))
#%%%tagList type():...%%%
#遍历tagList
for car in tagList:
    print("%%%type({}):{}%%%".format(type(car),car))
#%%%type():
#%%%
#%%%type():迈腾%%%
#%%%type():
#%%%
#%%%type():A6%%%
#%%%type():
#%%%
#遍历tagList.children
for car in tagList.children:
    print("%%%type({}):{}%%%".format(type(car),car))
#%%%type():
#%%%
#%%%type():迈腾%%%
#%%%type():
#%%%
#%%%type():A6%%%
#%%%type():
#%%%
#遍历tagList.find_all()
for car in tagList.find_all():
    print("%%%type({}):{}%%%".format(type(car),car))
#%%%type():迈腾%%%
#%%%type():A6%%%

注意：在遍历Tag对象的时候，往往会把回车换行等特殊符当成一个子对象处理，例如上面示例，直接遍历标签对象tagList，除了有Tag类型的对象之外还有NavigableString对象。

3.1.3 BeautifulSoup对象

BeautifulSoup对象表示一个文档的全部内容，即BeautifulSoup对象往往能够描述本地的一个html/xml文件，或者是一次http请求的返回内容。

1）构建BeautifulSoup

在抓取到一个网页数据之后，或者是已经下载了一个需要解析的网页文件，我们可以通过这些数据构建一个BeautifulSoup对象。该对象解析了文档的全部内容并以树形结构重新存储，这样就能方便我们后续的数据分析和提取。构建BeautifulSoup对象通过函数BeautifulSoup(markup, type)返回

其中参数markup可以是文件路径，也可以是html/xml字符串，也可以是http请求返回内容。如下：

#解析requests请求返回内容
response = requests.get("http://www.p42u.com/cn/")
soup = BeautifulSoup(response.text,"html.parser")
#解析urlopen请求返回内容
response = urlopen("http://www.p42u.com/cn/")
soup = BeautifulSoup(response .read,"html.parser")
#解析本地文件
soup = BeautifulSoup(open("index.html"),"html.parser")
#解析字符串
html="""

    迈腾
    A6

"""
soup = BeautifulSoup(html, 'html.parser')

其中参数type表示解析采用的解析器的名称，他们各有优缺点。有如下几种解析器：

Python标准库解析器：Python的内置标准库，执行速度适中，文档容错能力强。一般不是特殊情况都会选择这种方式。只需要传递"html.parser"作为参数
lxml HTML解析器：执行速度快，文档容错能力强，但是需要安装C语言库。虽然其执行速度比较快，但是考虑到网络本身的速度将宗师你最大的瓶颈，所以网页抓取速度并不是一个必备的优势。只需要传递"lxml"作为参数
lxml XML解析器：执行速度快，唯一支持XML的解析器，但是也需要安装C语言库。跟上面的一样，只不过它可以解析xml。传递"xml"作为参数
html5lib解析器：以浏览器的方式解析文档，生成HTML5格式的文档，容错性最好，但是速度慢不。如果你处理的是一些杂乱的或者手写的html网址可用选择它。传递"html5lib"作为参数。

2）特殊的Tag对象

因为html或者xml文件格式所致，一个文档往往可以被描述成一个根标签，因此BeautifulSoup对象也可以看成是一个特殊的Tag对象。因此Tag对象具备的使用方式，其实BeautifulSoup对象也具备。例如通过BeautifulSoup.子标签名的方式来得到一个子tag对象，如下：

from bs4 import BeautifulSoup
html_doc = """

    
        The Dormouse's story
    
    
        The Dormouse's story
        
            Once upon a time there were three little sisters; and their names were
            Elsie
            ,
            Lacie
             and
            Tillie
            and they lived at the bottom of a well.
        
        ...
    

"""
soup = BeautifulSoup(html_doc, 'html.parser')
print(type(soup.head.title),soup.head.title) #输出结果： The Dormouse's story
print(type(soup.body.p),soup.body.p)         #输出结果： The Dormouse's story
#注意 如果某个节点下面有多个相同名字的标签，那么该方式永远获取的是第一个tag对象
print(soup.body.p.b) #因为body下面第一个p标签有子标签b     输出结果：The Dormouse's story  
print(soup.body.p.a) #因为body下面第一个p标签没有子标签a   输出结果：None

3）区别Tag对象

BeautifulSoup是一个特殊的Tag，即他们还是有区别的。tag对象作为一个标签，有很重要的两个属性即name和属性，然而BeautifulSoup对象表示一个文档，因此他没有一个名字，也不可能拥有属性。如下：

from bs4 import BeautifulSoup
html_doc1 = """

    The Dormouse's story
    
        The Dormouse's story
    
  
"""
soup = BeautifulSoup(html_doc1, 'html.parser')
print(type(soup))   #输出结果：
print(soup.name)    #输出结果：[document]
print(soup.attrs)   #输出结果：{}

html_doc2 = """

    The Dormouse's story


    The Dormouse's story

"""
soup = BeautifulSoup(html_doc2, 'html.parser')
print(type(soup))   #输出结果：
print(soup.name)    #输出结果：[document]
print(soup.attrs)   #输出结果：{}

3.1.4 find_all搜索文档树

当得到一个BeautifulSoup对象后，通常的做法是使用find_all来对其进行搜索，定位到需要抓取信息的标签tag对象，然后在对该tag标签对象进行一系列处理。因此对BeautifulSoup对象或者tag对象进行搜索使用find_all函数尤其重要。find_all定义如下：

find_all( name , attrs , recursive , string , **kwargs )

返回值是一个tag对象组成的列表，即字符串NavigableString对象会被自动忽略掉。
参数name：返回所有名字为name的标签tag对象组成的列表。即可匹配过滤tag的名称。
参数recursive：可以指定一个布尔值，如果为false表示不进行递归查找，即只查找自己的一级子标签。
参数string：返回所有含有或者匹配的NavigableString对象的tag标签。即可以匹配过滤tag的内容。
参数attrs：可以指定一个字典，来返回所有具有该键值对属性的标签tag对象组。即可通过字典来匹配过滤tag的属性。
参数kwargs：直接将属性名作为参数进行指定，来返回所有具有该属性的标签tag对象。即可通过动态参数来匹配tag的属性。



星球大战



    恒星
    太阳
    织女一
    参宿七


    行星
    地球
    水星
    火星
    木星
    土星


    其他
    四大洲

    
亚洲
欧洲
非洲
美洲
    五大洋
    大西洋
太平洋
北冰洋
印度洋
    地貌
    chengdu plain
huabei plain
yamaxun plain

1）过滤name

过滤标签tag对象的名称有如下几种方式：

传递字符串
传递字符串列表
传递正则表达式
传递True
传递方法名

import re
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
#传递字符串
listx=soup.find_all("h1")
print(listx)    #   [恒星
, 行星
, 其他]
#传递字符串列表
listx=soup.find_all(["title","h1"])
print(listx)    #   [星球大战, 恒星
, 行星
, 其他]
#传递正则表达式
listx=soup.find_all(re.compile("h[1-9]"))
print(listx)    #   打印所有h数字的tag
#传递true
listx=soup.find_all(True)
print(listx)    #   打印所有的tag对象

2）过滤string

可以传递string参数，匹配过滤所有的NavigableString对象。其中string参数可接受字符串 , 正则表达式 , 列表, True 。注意的是返回的不再是tag对象了，而是NavigableString对象。如下：

soup = BeautifulSoup(html,"html.parser")
#指定string为字符串 全名匹配
listx = soup.find_all(string="洲")
print(listx)    #   []
listx = soup.find_all(string="非洲")
print(listx)    #   ['非洲']
#指定string参数 返回值不再是tag对象而是NavigableString对象
print(type(listx[0]))   #   
#指定string为正则表达式 非全名匹配
listx = soup.find_all(string=re.compile("plain$"))
print(listx)    #   ['chengdu plain', 'huabei plain', 'yamaxun plain']

3）过滤attrs

可以传递attrs参数，给其赋值一个字典进行过滤，将返回所有与该字典中的键值对匹配的tag对象，如下：

soup = BeautifulSoup(html,"html.parser")
#传递单个键值对
listx = soup.find_all(attrs={"class":"fixed"})
print(listx)    #   [太阳
, 织女一
, 参宿七]
#传递多个键值对
listx = soup.find_all(attrs={"class":"fixed","id":"zhinv"})
print(listx)    #   [织女一]
#name与attrs结合使用
listx = soup.find_all("p",attrs={"id":"mu"})
print(listx)    #   [木星
]

4）过滤kwargs

可以传递kwargs，即传递字典作为关键字参数来进行对属性的过滤，如下：

import re
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,"html.parser")
#关键字参数赋值字符串 全名匹配
listx = soup.find_all(id="mu")
print(listx)    #   [木星]
#关键字参数赋值正则表达式 非全名匹配
listx = soup.find_all(id=re.compile("^t"))
print(listx)    #   [太阳
, 土星]
#关键字参数赋值True 匹配拥有该属性任何值即有该属性就匹配
listx = soup.find_all(href=True)
print(listx)    #   [地球]
#多个关键字参数 多个条件满足才匹配
listx = soup.find_all(href=True, id="tu")
print(listx)    #   []

5）过滤class

按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class在Python中是保留字，使用class做参数会导致语法错误。但从Beautiful Soup的4.1.1版本开始，可以通过 class_参数搜索有指定CSS类名的标签。即可以通过class_关键字参数来指定所有具有class属性的标签。如下：

soup = BeautifulSoup(html,"html.parser")
#class关键字导致语法错误 可以通过参数attrs
listx = soup.find_all(attrs={"class":"fixed"})
print(listx)    #   [太阳
, 织女一
, 参宿七]
#class关键字导致语法错误 可以通过class_代替
listx = soup.find_all(class_="fixed")
print(listx)    #   [太阳
, 织女一
, 参宿七]
#与其他方式和正则表达式结合
listx = soup.find_all("div",class_=re.compile("^fixeds"))
print(listx)
# [
# 恒星
# 太阳
# 织女一
# 参宿七
# 
]

6）禁止递归recursive

默认情况find_all函数将查找BeautifulSoup或Tag对象所有的子节点，如果深度比较大，而且不需要那么多信息，可以使用参数recursive禁止递归查找。如下：

soup = BeautifulSoup(html,"html.parser")
#禁止递归查找 即只查找直属子节点
listx = soup.find_all("p",recursive=False)
print(listx)    #   []
#使能递归查找 即查找整个文档或者整个标签
listx = soup.find_all("p",recursive=True)
print(listx)    #   所有p标签
#recursive是布尔类型 即指定1,2,3效果都一样
listx = soup.find_all("p",recursive=2)
print(listx)    #   所有P标签
#recursive默认为True
listx = soup.find_all("p")
print(listx)    #   所有P标签

7）限制数量limit

find_all方法返回全部的搜索结构，如果文档树很大那么搜索会很慢。如果我们不需要全部结果，可以使用limit参数限制返回结果的数量。效果与SQL中的limit关键字类似，当搜索到的结果数量达到limit的限制时，就停止搜索返回结果。如下：

soup = BeautifulSoup(html,"html.parser")
listx = soup.find_all("p",limit=2)
print(listx)    #   [太阳
, 织女一]
listx = soup.find_all("p",limit=3)
print(listx)    #   [太阳
, 织女一
, 参宿七]
#参数limit如果没有给则无限制
listx = soup.find_all("p")
print(listx)    #   所有P标签

find方法直接返回一个结果，而不像find_all方法返回一个列表。其实find方法等价于find_all(limit=1)

3.2 字符串

对数据的处理往往离不开字符串解析，例如字符串替换，切割，正则匹配等操作。

3.2.1 正则表达

正则表达式是可匹配文本片段的模式。最简单的正则表达式为普通字符串，与它自己匹配。换而言之，正则表达式 'python' 与字符串 'python' 匹配。你可使用这种匹配行为来完成如下工作：在文本中查找模式，将特定的模式替换为计算得到的值，以及将文本分割成片段。正则表达式由一些普通字符和一些元字符（metacharacters）组成。普通字符包括大小写的字母和数字，而元字符则具有特殊的含义。

1）元字符

转义符：反斜杠\能够对某些字符进行转义，例如\n，如果要匹配换行符，可能再添加一个反斜杠进行取消转义，如下：

import re
#字符串ZhouSi后面有一个\n换行符
string = """I am ZhouSi
I am God"""
print(re.sub("ZhouSi\\n","AoDing and ",string))
#输出结果：I am AoDing and I am God

通配符：句点.能够匹配所有字符（不包括换行符），但是只能匹配一个。例如正则表达式 '.ython' 与字符串 'python' 和和'jython' 都匹配，但是无法与字符串'xpython'匹配。
字符集：中括号[]能够匹配中括号中指定范围的一个字符，注意与通配符区别。例如正则表达式'h[0-9]'能与字符串'h1'到'h9'的字符串都匹配，正则表达式'[^py]'表示匹配除了字符p和字符y的其他所有字符。
字行首：^能够匹配字符串行首，注意其写法应该位于表达式首位，注意与反字符集区分。例如正则表达式'^http:'能够匹配所有以http:开头的链接。
字行尾： $ 能够匹配字符串行尾，注意其写法应该位于表达式尾部。例如正则表达式'$'能够陪陪所有以结尾的字符串。
二选一：|能够指定两个正则表达式，只要满足其中之一就表示匹配成功。例如‘xyc|.ng’只要满足|左右两边任一表达式都匹配成功。如下：

import re
# 切割了空格和ing和eng几处地方
string = "I am DingPengCheng, I want to Sun."
temp = re.split(" |.ng",string)
print(temp) #输出结果：['I', 'am', 'D', 'P', 'Ch', ',', 'I', 'want', 'to', 'Sun.']

其他元字符

2） re.compile方法：创建模式对象（用于正则表达式匹配查询等操作）

正则表达式其实也是一些奇奇怪怪的字符串，因此re模块在进行正则表达式相关的查找匹配搜索截取等操作的时候，其实分为了两个过程：

将正则表达式字符串编译成一个模式对象
模式对象可以与字符串进行匹配过滤等操作

因此通过使用re.compile对正则表达式字符串转换成一个模式对象，后续就无需再对其进行转换，通过这个模式对象你可以进行匹配查询切割等操作。如下：

import re
string = "I am DingPengCheng, I want to Sun."
patter1 = re.compile(".ng")
patter2 = re.compile(" ")
temp = patter1.findall(string)
print(temp)  #输出结果：['ing', 'eng', 'eng']
temp = patter2.sub("-+",string)
print(temp)  #输出结果：I-+am-+DingPengCheng,-+I-+want-+to-+Sun.

3） re.findall方法：返回能够匹配的所有字符串组成的列表

import re
# def findall(pattern, string, flags=0)
# 查找字符串string中能够匹配pattern正则表达式字符串组成的集合
string = "I am DingPengCheng, I want to Sun."
temp = re.findall(".ng",string)
print(temp) #输出结果：['ing', 'eng', 'eng']

4） re.search方法：查找是否具有与正则表达式匹配的子串

该函数在给定字符串中查找第一个与指定正则表达式匹配的子串。如果找到这样的子串，将返回MatchObject（结果为真），否则返回 None （结果为假）。基于该特性，可以通过下面语句进行判断：

import re
# def search(pattern, string, flags=0)
string = "I am DingPengCheng, I want to Sun."
temp = re.search(".ng",string)
print(temp) #输出结果：<_sre.SRE_Match object; span=(6, 9), match='ing'>
temp = re.search("xng",string)
if re.search("xng",string): #输出结果：没找到xng
    print("找到xng")
else:
    print("没找到xng")

5） re.match方法：字符串开头查找是否匹配指定正则表达式

函数re.match尝试在给定字符串开头查找与正则表达式匹配的子串，因此 re.match('p','python') 返回真（MatchObject），而 re.match('p', 'www.python.org') 返回假（ None ）。同search一样，该函数返回的也是MatchObject对象，这种对象包含与模式匹配的子串的信息，还包含模式的哪部分与子串的哪部分匹配的信息。这些子串部分称为编组（group）。

import re
# def match(pattern, string, flags=0)
m = re.match(r'www\.(.*)\..{3}', 'www.python.org')
print(m.group(1))   #输出结果：'python'
print(m.start(1))   #输出结果：4
print(m.end(1))     #输出结果：10
print(m.span(1))    #输出结果：(4, 10)

6）模式对象

从上面的例子可以发现，我们在使用re模块对正则表达式进行过滤匹配等操作的时候，可以使用两种方式：

通过re.compile得到一个模式对象，然后对该模式对象进行对应操作
直接re.操作方法指定一个正则表达式

通过他们方法的源码实现发现，其实第二种方式内部其实也调用了compile方法来将正则表达式字符串编译生成一个模式对象，最后通过该模式对象完成的。详情参考《Python中请不要再用re.compile了》。个人觉得这篇文章其实也不是呼吁我们不要使用re.compile函数，而是提醒我们不要乱用。

3.2.2 常用操作

1）拼接

运算符+：通过+将两个字符串相加
str.format方法：通过字符串自身的fomat进行格式化操作

# def format(self, *args, **kwargs)
temp="YangJian"
print("I am {} and I am {},I have {} eye".format(temp,"God",3))
# 输出结果：I am YangJian and I am God,I have 3 eye

str.join方法：与split相反，将序列的所有元素以指定的字符串链接起来

listx = "I am DingPengCheng".split(" ")
print(listx)            #输出结果：['I', 'am', 'DingPengCheng']
print("".join(listx))   #输出结果：IamDingPengCheng
print("###".join(listx))    #输出结果：I###am###DingPengCheng
print("###".join({"name":"dpc","age":18})) #输出结果：name###age

操作符%：该方式与format基本一致
F-strings：f指定字符串中的{变量名}能够直接替换成变量的值。其速度比format方式快的多

def power(x):
    return x*x
x=4
print(f'{x} * {x} = {power(x)}')
s1='Hello'
s2='World'
print(f'{s1} {s2}!')

2）查找

str.find/rfind方法：字符串自身提供的find和rfind查找方法

# def find(self, sub, start=None, end=None)
# def rfind(self, sub, start=None, end=None)
# 返回字符串sub第一次出现的索引，其中start和end可以用来指定范围
# 如果没有查询到则返回-1
# find函数从左到右查找，rfind函数从右到左查找
temp = "I am DingPengCheng".find("ng")
print(temp) #输出结果：7
temp = "I am DingPengCheng".rfind("ng")
print(temp) #输出结果：16
temp = "I am DingPengCheng".find(" ",2,10)
print(temp) #输出结果：4
temp = "I am DingPengCheng".rfind("g",5,10)
print(temp) #输出结果：8
temp = "I am DingPengCheng".find("dpc")
print(temp) #输出结果：-1

str.index/rindex方法：字符串自身提供的index和rindex返回索引方法

# def index(self, sub, start=None, end=None)
# def rindex(self, sub, start=None, end=None)
# 返回字符串sub第一次出现的索引，其中start和end可以用来指定范围
# 与find/rfind不一样的是如果没有查询直接抛出异常
temp = "I am DingPengCheng".index("ng")
print(temp) #输出结果：7
temp = "I am DingPengCheng".rindex("ng")
print(temp) #输出结果：16
temp = "I am DingPengCheng".index("*")
print(temp) #输出结果：ValueError: substring not found

3）替换

str.replace方法：字符串自身提供的replace替换方法

# def replace(self, old, new, count=None)
# 将字符串的中的old替换成new，参数count为替换次数，默认无限制
# 注意：结果并不保存而是返回，即如果该函数调用后返回新的字符串并不会改变原来字符串
temp =  "I am DingPengCheng".replace(' ', '_')
print(temp)     #输出结果：I_am_DingPengCheng
temp = "I am DingPengCheng".replace('eng', '*')
print(temp)     #输出结果：I am DingP*Ch*
temp = "I am DingPengCheng".replace('eng', '*', 1)
print(temp)     #输出结果：I am DingP*Cheng

re.sub方法：通过正则表达式方式进行替换

import re
# def pattern.sub(self, repl, string, count=0):
# def re.sub(pattern, repl, string, count=0, flags=0)
# 将编译正则表达式字符串生成模式对象patern，并将string字符串能够匹配的全部替换成repl
# 注意：结果并不保存而是返回，即如果该函数调用后返回新的字符串并不会改变原来字符串
# 通过模式对象调用sub函数
pattern = re.compile('eng')
temp = pattern.sub('*',"I am DingPengCheng")
print(temp) #输出结果：I am DingP*Ch*
#直接调用re.sub函数
temp = re.sub("eng","*","I am DingPengCheng",count=1)
print(temp) #输出结果：I am DingP*Cheng

4）切割

str.split方法：字符串自身提供的split切割方法

# def split(self, sep=None, maxsplit=-1)
# 以sep切割字符串，其中maxsplit指定切割次数
# 返回被切割后的所有子集列表，注意被切割的字符串已经被去掉了
string = "I am DingPengCheng"
temp = string.split(" ")
print(temp)  #输出结果：['I', 'am', 'DingPengCheng']
temp = string.split("en", 1)
print(temp)  #输出结果：['I am DingP', 'gCheng']

re.split方法：以匹配正则表达式方式进行字符串切割

import re
# def pattern.split(self, string, maxsplit=0):
# def re.split(pattern, string, maxsplit=0, flags=0)
# 以pattern切割字符串，其中maxsplit指定切割次数
# 返回被切割后的所有子集列表，注意被切割的字符串已经被去掉了
patter = re.compile(" ")
temp = patter.split("I am DingPengCheng", 1)
print(temp)  #输出结果：['I', 'am DingPengCheng']
temp = re.split(".ng","I am DingPengCheng")
print(temp)  #输出结果：['I am D', 'P', 'Ch', '']

4 数据存储

参考：Python下载图片并保存本地的两种方式

参考：python读写、创建文件、文件夹等等

参考：python文件操作SyntaxError异常

5 并行抓取

网络爬虫程序往往限制于网络的状态，例如在遍历整个网站的时候，需要下载上面所有内链的图片，如果等网站遍历完后再进行图片下载，这个时候可能要等疯，最合理的方法是一边遍历一边进行图片下载。因此这里就需要并行任务处理。

5.1 进程

5.2 线程

参考：Python 线程

参考：Python queue (队列)

参考：Python process (进程)

参考：python 多线程queue导致的死锁问题【但是源码发现方法内部已经加了锁】

5.3 协程

python多任务—协程（一）

6 Scrapy框架

Scrapy框架继承了上面所有操作，详情请点击

你可能感兴趣的:(Python)

机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&