曹博Blog

Python爬虫学习

1.1搭建爬虫程序开发环境

爬取未来七天天气预报

from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import urllib.request
url="http://www.weather.com.cn/weather/101120901.shtml"
try:
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36"}
    req=urllib.request.Request(url,headers=headers)
    data=urllib.request.urlopen(req)
    data=data.read()
    dammit=UnicodeDammit(data,["utf-8","gbk"])
    data=dammit.unicode_markup
    soup=BeautifulSoup(data,"lxml")
    lis=soup.select("ul[class='t clearfix'] li")
    for li in lis:
        try:
            date=li.select('h1')[0].text
            weather=li.select('p[class="wea"]')[0].text
            s=li.select_one('p[class="tem"] span')
            i=li.select_one('p[class="tem"] i')
            temp=""
            if s:
                temp+=s.text
            if i:
                temp+="/"+i.text
            print(date,weather,temp)
        except Exception as err:
            print(err)
except Exception as err:
    print(err)

1.2创建Flask Web 服务器

安装Flask

Python清华源： https://pypi.tuna.tsinghua.edu.cn/simple

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple flask
#更新flask版本
pip install -U flask

Web服务器

import flask
##初始化一个Flask对象，参数__name__是程序的名称
#也可以给这个app起个别的名字app=flask.Flask("web")
app=flask.Flask(__name__)
#路由，映射到服务器的跟地址，如果用跟地址访问此Web服务器则执行hello函数
@app.route("/")
def hello():
    html="大家好
"
    html+="sai hi"
    return html
@app.route("/hi")
def hi():
    html="Hi
"
    html+="说你好"
    return html
#如果这是一个主程序，则执行app.run
if __name__=="__main__":
    # 打开服务器的调试模式，使用Run Without debugging
    app.debug=True
#默认端口号为5000
    app.run(port=5000)

web服务器返回HTML文件

import flask
##初始化一个Flask对象，参数__name__是程序的名称
app=flask.Flask(__name__)
#路由，映射到服务器的跟地址，如果用跟地址访问此Web服务器则执行index函数
@app.route("/")
def index():
    try:
        fobj=open("index.html","rb")
        data=fobj.read()
        fobj.close()
        return data
    except Exception as err:
        return str(err)
if __name__=="__main__":
    app.run()

使用python请求自己的服务器

import urllib.request
url="http://127.0.0.1:5000"
#打开此网址，获取这个网址的一个响应，数据
html=urllib.request.urlopen(url)
#打开这个网址后读取他的数据，注意此时读取出来的为二进制数据
html=html.read()
#将读取出来的二进制数据转换成字符串
#decode默认编码为utf-8编码，即默认为decode("utf-8")
#若转换不同可以考虑gbk编码decode("gbk")
html=html.decode()
print(html)

web图像文件显示

import flask
##初始化一个Flask对象，参数__name__是程序的名称
#也可以给这个app起个别的名字app=flask.Flask("web")
app=flask.Flask(__name__)
…………
@app.route("/img")
def retimg():
    fobj=open("html/images/erha.jpg","rb")
    data=fobj.read()
    fobj.close()
#告诉浏览器返回的文件类型，浏览器应该怎样解析
#默认解析为“text/html”
#"plain/text"的话会默认下载该文件
    response=flask.make_response(data)
    response.headers["content-type"]="image/jpeg"
    return response
if __name__=="__main__":
    # 打开服务器的调试模式
    app.debug=True
    app.run()

静态文件显示

#创建一个静态文件夹static
import flask
##初始化一个Flask对象，参数__name__是程序的名称
#也可以给这个app起个别的名字app=flask.Flask("web")
app=flask.Flask(__name__)
####----------------------------------------------------------
@app.route("/imgTag")
def imgTag():
    #经测试，文件路径应为当前文件夹下的static中的文件
    #也可以在创建app时进行指定
    html="Image
"
    return html
if __name__=="__main__":
    # 打开服务器的调试模式
    app.debug=True
    app.run()

指定静态文件夹

import flask
##初始化一个Flask对象，参数__name__是程序的名称
#也可以给这个app起个别的名字app=flask.Flask("web")
#指定默认静态文件夹
app=flask.Flask(__name__,static_folder="../html")
#路由，映射到服务器的跟地址，如果用跟地址访问此Web服务器则执行index函数
……
@app.route("/imgTag")
def imgTag():
    html="Image
"
    return html
if __name__=="__main__":
    # 打开服务器的调试模式
    app.debug=True
    app.run()

客户端访问服务器

………
@app.route("/plates")
def plates():
    return flask.render_template("index.html")
…………

自己爬取自己服务器

import urllib.request
url="http://127.0.0.1:5000"
resp=urllib.request.urlopen(url)
data=resp.read()
print(data)
html=data.decode()
print(html)

1.3使用GET方法访问网站

格式：url+?名称1+值1&名称2=值2&名称3=值3

urllib.resquest.urlopen("http://127.0.0.1:5000?province=GD&city=SZ")
#若传递的数据中有汉字，则需要编码
province=urllib.parse.quote("广东")
city=urllib.parse.quote("深圳")
urllib.resquest.urlopen("http://127.0.0.1:5000?province="+province+"&city="+city)
#这样传递过去汉字就不会出现乱码
#相反的unquote()

GET方法访问网站 & 服务器端获取数据

import urllib.parse
import urllib.request
url="http://127.0.0.1:5000/getM"
try:
    province=urllib.parse.quote("广东")
    city=urllib.parse.quote("深圳")
    data="province="+province+"&city="+city
    html=urllib.request.urlopen(url+"?"+data)
    html=html.read()
    html=html.decode()
    print(html)
except Exception as err:
    print(err)
-----------------------------------------------------------
import flask
app=flask.Flask(__name__,static_folder="html")
@app.route("/getM")
def getM():
    #province=flask.request.args.get("province") if "province" in flask.request.args else ""
    #city=flask.request.args.get("city") if "city" in flask.request.args else ""
    #若没有值则返回赋值为空
    province=flask.request.values.get("province","")
    city=flask.request.values.get("city","")
    return province+","+city
if __name__=="__main__":
    # 打开服务器的调试模式
    app.debug=True
    app.run(port=5000)

中英文调整

import flask
app=flask.Flask(__name__,static_folder="html")
@app.route("/english")
def english():
    language=flask.request.values.get("language","english")
    if language=="chinese":
        html="你好"
    else:
        html="hello"
    return html

import urllib.parse
import urllib.request
url="http://127.0.0.1:5000/english"
try:
    data="?language=chinese"
    html=urllib.request.urlopen(url+data)
    html=html.read()
    html=html.decode()
    print(html)
except Exception as err:
    print(err)

翻译

import flask
app=flask.Flask("web")
@app.route("/")
def index():
    dict={"苹果":"apple","桃子":"peach","梨子":"pear"}
    word=flask.request.values.get("word","")
    s=""
    if word in dict.keys():
        s=dict[word]
    elif word:
        s="对不起，字典里面没有"
    return s
app.debug=True
app.run()


import urllib.request
import urllib.parse
url="http://127.0.0.1:5000"
word=input("请输入中文：")
#不能直接向浏览器发送中文
#quote将中文转换成十六进制编码
word=urllib.parse.quote(word)
print(word)
#unquote将十六进制编码转换成汉字
unword=urllib.parse.unquote(word)
print(unword)
resp=urllib.request.urlopen(url+"?word="+word)
data=resp.read()
html=data.decode()
print(html)

使用requests进行GET访问

import flask
app=flask.Flask("web")
@app.route("/")
def getM():
    #province=flask.request.args.get("province") if "province" in flask.request.args else ""
    #city=flask.request.args.get("city") if "city" in flask.request.args else ""
    #若没有值则返回赋值为空
    province=flask.request.values.get("province","")
    city=flask.request.values.get("city","")
    return province+","+city
app.debug=True
app.run()

----------------------------------------------------------
#import urllib.request
import requests
url="http://127.0.0.1:5000"
try:
    resp=requests.get(url,params={"province":"广东","city":"深圳"})
    #打印返回的二进制
    print(resp.content)
    #打印返回的文本
    print(resp.text)
except Exception as err:
    print(err)

1.4POST方法访问网站

POST基本使用方法

格式：名称1+值1&名称2=值2&名称3=值3

必须将其使用.encode()转换成二进制数据

import flask
app=flask.Flask("web")
#不写methods则默认为GET方法访问，可以同时允许两种方法访问
#methods=["GET","POST"]
@app.route("/",methods=["POST"])
#访问结果与GET方法完全一致，但是原理已经不一样了
def index():
    try:
        #province=flask.request.form.get("province") if "province" in flask.request.form else ""
        #city=flask.request.form.get("city") if "city" in flask.request.form else ""
        province=flask.request.values.get("province","")
        city=flask.request.values.get("city","")
        return province+","+city
    except Exception as err:
        return str(err)
if __name__=="__main__":
    app.debug=True
    app.run()
    
-------------------------------------------------------------------- 
import urllib.parse,urllib.request
url="http://127.0.0.1:5000"
try:
    province=urllib.parse.quote("广东")
    city=urllib.parse.quote("深圳")
    data="province="+province+"&city="+city
    #转换成二进制数据
    data=data.encode()
    html=urllib.request.urlopen(url,data=data)
    html=html.read()
    html=html.decode()
    print(html)
except Exception as err:
    print(err)

允许get和post同时访问同一个路由

import flask
app=flask.Flask("web")
#不写methods则默认为GET方法访问，可以同时允许两种方法访问
#methods=["GET","POST"]
@app.route("/",methods=["GET","POST"])
#访问结果与GET方法完全一致，但是原理已经不一样了
def index():
    try:
        #province=flask.request.args.get("province") if "province" in flask.request.form else ""
        #city=flask.request.args.get("city") if "city" in flask.request.form else ""
        #note = flask.request.form.get("note") if "note" in flask.request.form else ""
        province=flask.request.values.get("province","")
        city=flask.request.values.get("city","")
        note=flask.request.values.get("note","")
        return province+","+city+"\n"+note
    except Exception as err:
        return str(err)
if __name__=="__main__":
    app.debug=True
    app.run()
    
-----------------------------------------------------------------------
import urllib.parse,urllib.request
url="http://127.0.0.1:5000"
note="深圳依山傍海，气候宜人"
try:
    province=urllib.parse.quote("广东")
    city=urllib.parse.quote("深圳")
    note="note="+urllib.parse.quote(note)
    param="?province="+province+"&city="+city
    html=urllib.request.urlopen(url+param,data=note.encode())
    html=html.read()
    html=html.decode()
    print(html)
except Exception as err:
    print(err)

将翻译改成POST方法

import flask
app=flask.Flask("web")
@app.route("/",methods=["GET","POST"])
def index():
    dict={"苹果":"apple","桃子":"peach","梨子":"pear"}
    word=flask.request.values.get("word","")
    s=""
    if word in dict.keys():
        s=dict[word]
    elif word:
        s="对不起，字典里面没有"
    return s
app.debug=True
app.run()

-------------------------------------------
import urllib.request
import urllib.parse
url="http://127.0.0.1:5000"
word=input("请输入中文：")
#不能直接向浏览器发送中文
#quote将中文转换成十六进制编码
word="word="+urllib.parse.quote(word)
print(word)
#unquote将十六进制编码转换成汉字
unword=urllib.parse.unquote(word)
print(unword)
resp=urllib.request.urlopen(url,data=word.encode())
data=resp.read()
html=data.decode()
print(html)

Form表单中的POST，提交机密数据

<form action="" method="post">
    用户：<input type="text" name="user"><br>
    密码：<input type="password" name="pwd"><br>
    <input type="submit" value="Login">
</form>
<div>{{msg}}</div>
--------------------------------------------------
import flask
app=flask.Flask("web")
@app.route("/",methods=["GET","POST"])
def index():
    msg=""
    user=flask.request.values.get("user","")
    pwd=flask.request.values.get("pwd","")
    if user=="xxx" and pwd=="123":
        msg="登陆成功"
    elif user or pwd:
        msg="登陆失败"
    return flask.render_template("login.html",msg=msg)
app.debug=True
app.run()

requests的POST方法

import flask
app=flask.Flask("web")
@app.route("/",methods=["GET","POST"])
def index():
    try:
        method=flask.request.method
        province=flask.request.values.get("province","")
        city=flask.request.values.get("city","")
        return method+","+province+","+city
    except Exception as err:
        return str(err)
app.debug=True
app.run()
---------------------------------------------
#import urllib.request
import requests
url="http://127.0.0.1:5000"
try:
    resp=requests.post(url,data={"province":"广东","city":"深圳"})
    #打印返回的二进制
    print(resp.content)
    #打印返回的文本
    print(resp.text)
except Exception as err:
    print(err)

1.5Web在下载文件

import flask
import os
app=flask.Flask("web")
@app.route("/")
def index():
    if "fileName" not in flask.request.values:
        return "图像.jpg"
    else:
        data=b""
        try:
            fileName = flask.request.values.get("fileName")
            if fileName!="" and os.path.exists(fileName):
                fobj=open(fileName,'rb')
                data=fobj.read()
                fobj.close()
        except Exception as err:
            data=str(err).encode()
        return data
app.debug=True
app.run()
---------------------------------------------
import urllib.parse
import urllib.request
#urlretrieve()直接将远程数据下载到本地
#urllib.request.urlretrieve(url,localFile)
url="http://127.0.0.1:5000"
try:
    html=urllib.request.urlopen(url)
    html=html.read()
    fileName=html.decode()
    print("准备下载："+fileName)
    #data=urllib.request.urlopen(url+"?fileName="+urllib.parse.quote(fileName))
    #data=data.read()
    #fobj=open("download"+fileName,"wb")
    #fobj.write(data)
    #fobj.close()
    urllib.request.urlretrieve(url+"?fileName="+urllib.parse.quote(fileName),"download"+fileName)
    #print("下载完毕：",len(data),"字节")
    print("下载完毕")
except Exception as err:
    print(err)

静态文件夹文件下载

import urllib.parse
import urllib.request
url="http://127.0.0.1:5000/WebOfFlask/html/images/erha.jpg"
try:
    resp=urllib.request.urlopen(url)
    data=resp.read()
    fobj=open("download img.jpg","wb")
    fobj.write(data)
    fobj.close()
    print("下载完毕",len(data),'bytes')
except Exception as err:
    print(err)

1.6Web上传文件

往往先创建一个header，告诉服务器当前传递的一个数据是二进制的数据流

#urllib.request.Request(purl,data,headers)
headers={'content-type':'application/octet-stream'}
req=urllib.request.Request(url,data,headers)

import flask
app=flask.Flask(__name__)
@app.route("/upload",methods=["POST"])
def uploadFile():
    msg=""
    try:
        if "fileName" in flask.request.values:
            fileName=flask.request.values.get("fileName")
            #获取二进制的数据
            data=flask.request.get_data()
            fobj=open("upload"+fileName,"wb")
            fobj.write(data)
            fobj.close()
            msg="OK"
        else:
            msg="没有按要求上传文件"
    except Exception as err:
        print(err)
        msg=str(err)
    return msg
if __name__=="__main__":
    app.debug=True
    app.run()
------------------------------------------------------
import urllib.request
import urllib.parse
import os
url="http://127.0.0.1:5000/upload"
fileName=input("Enter the file:")
if os.path.exists(fileName):
    fobj=open(fileName,"rb")
    data=fobj.read()
    fobj.close()
    #包含路径的话截取最后一个反斜杠直到最后当作文件名称
    p=fileName.rfind("\\")
    fileName=fileName[p+1:]
    print("准备上传："+fileName)
    #通过headers告诉服务器上传的是一个二进制文件流
    headers={'content-type':'application/octet-stream'}
    purl=url+"?fileName="+urllib.parse.quote(fileName)
    #创建一个request对象
    req=urllib.request.Request(purl,data,headers)
    #urlopen可以接受一个url或一个request对象
    msg=urllib.request.urlopen(req)
    msg=msg.read().decode()
    if msg=="OK":
        print("成功上传：",len(data),"字节")
    else:
        print(msg)
else:
    print("文件不存在！")

使用base64字符串上传文件

将文件以文件名，文件二进制流方式传输，需要转换成json字符串，二进制流不能直接转换成json，需要通过base64进行数据格式的转换

import flask
import base64
import io
import json
app=flask.Flask("web")
@app.route("/",methods=["GET","POST"])
def index():
    msg=""
    try:
        data=flask.request.get_data()
        #将接收的二进制数据decode，转成一个字符串，用json的形式装载进来即将json数据还原为字典
        data=json.loads(data.decode())
        #字典中的body就是文件字符串
        body=data["body"]
        outstream=io.BytesIO()
        #将body中的base64的字符串转换为二进制字符串
        base64.decode(io.BytesIO(body.encode()),outstream)
        #此时body就是二进制数据流
        body=outstream.getvalue()
        #打印出现有的文件名和长度
        print(data["fileName"],len(body))
        fobj=open("upload"+data['fileName'],"wb")
        fobj.write(body)
        fobj.close()
        msg="服务器接收"+str(len(body))+"字节"
    except Exception as err:
        print(err)
        msg=str(err)
    return msg
if __name__=="__main__":
    app.debug=True
    app.run()
-----------------------------------------------------
"""
此方式实际上传的是一个字典的json数据，这个字典有两个值，一个是文件名，一个是body,body是一个base64的很长的字符串
"""
import base64
import urllib.request
import io
import json
url="http://127.0.0.1:5000"
try:
    fobj=open("图像.jpg",'rb')
    data=fobj.read()
    fobj.close()
    print("客户端上传",len(data),"字节")
    #输入流，输出流
    instream=io.BytesIO(data)
    outstream=io.BytesIO()
    #使用base64将输入流转换成输出流，就会变成一个base64字符串的输出流
    base64.encode(instream,outstream)
    #将输出流的值变成字符串，即整个图像变成字符串
    body=outstream.getvalue().decode()
    #将这个字符串做成一个字典对象
    data={'fileName':'图像.jpg','body':body}
    #将这个字典对象做成一个json字符串，将json字符串抓换成二进制数据
    data=json.dumps(data).encode()
    #告诉服务器上传的是一个数据流
    headers={'content-type':'application/octet-stream'}
    req=urllib.request.Request(url,data,headers=headers)
    resp=urllib.request.urlopen(req)
    s=resp.read().decode()
    print(s)
except Exception as err:
    print(err)

1.7正则表达式

re模块：e用来引导所需要的正则表达式字符串

各个字符代表的含义

import re
#查找来按需的数字
reg=r"\d+"
m=re.search(reg,"abc123cd")
print(m)
#
#出现的位置起始下标是3，结束下表是6
#若匹配不到则返回None

#字符串"\d"匹配0-9之间的一个数值
reg=r"\d"
m=re.search(reg,"abc123cd")
print(m)
#
#字符"+"重复前一个匹配字符一次或多次
reg=r"b\d+"
#匹配起始字符是b后面连续出现多个数字
m=re.search(reg,"a12b123c")
print(m)
#

#字符"*"重复前一个匹配字符0次或多次
reg=r"ab+"
m=re.search(reg,"acabc")
print(m)
#
reg=r"ab*"
m=re.search(reg,"acabc")
print(m)
#

#字符"?"重复前一个匹配字符零次或一次
reg=r"ab?"
m=re.search(reg,"abbcabc")
print(m)
#

#字符"."代表任何一个字符，并未声明不代表字符"\n"
s="xaxby"
m=re.search(r"a.b",s)
print(m)
#

#"|"代表把左右分成两部分,即要匹配的字符串要么符合|左边的，要么符合右边的，其中一个满足即可
s="xaabababy"
m=re.search(r"ab|ba",s)
print(m)
#

#特殊字符使用反斜线"\"引导如"\r"、"\n"、"\t"、"\\"分别代表回车、换行、制表符号和反斜线自己本身
reg=r"a\nb?"
s="ca\nbcabc"
m=re.search(reg,s)
print(m)
#

#字符"\b"表示单词词尾，包含各种空白字符或字符串结尾
reg=r"car\b"
m=re.search(reg,"The car is black")
print(m)
#

#"[]"中的字符是任选择一个
#SACII中连续的一组可用"-"符号连接
#如[0-9]即匹配0-9中的任意一个数字
#[A-Z]即匹配A-Z其中一个大写字符
#[0-9A-Z]即匹配0-9的其中一个数字或者A-Z的其中一个大写字符

reg=r"x[0-9]y"
m=re.search(reg,"xyx2y")
print(m)
#

#"^"出现在[]第一个字符位置，代表取反，即对后面的含义进行否定
#如[^ab0-9]表示不是a、b，也不是0-9的数字
reg=r"x[^ab0-9]y"
m=re.search(reg,"xayx2yxcy")
print(m)
#

#"\s"匹配任何空白字符，等价"[\r\n\x20\t\f\v]"
s="1a ba\tbxy"
m=re.search(r"a\sb",s)
print(m)
#

#"\w"匹配包括下划线子内单词字符，等价于"[a-zA-Z0-9_]",即字母数字下划线
reg=r"\w+"
m=re.search(reg,"Python is easy")
print(m)
#

#"^"匹配字符串开头位置
reg=r"^ab"
m=re.search(reg,"cabcab")
print(m)
#None

#"$"符号匹配字符串结尾位置
#匹配ab，同时ab要是字符产的结尾
reg=r"ab$"
m=re.search(reg,"abcab")
print(m)
#

#使用(...)把(...)看成整体
#经常与"+"、"*"、"?"连续使用，对(...)部分进行重复
reg=r"(ab)+"
m=re.search(reg,"ababcab")
print(m)
#

re.search()方法

import re
#查找匹配字符串
# m=re.search(reg,s)
# m.start()返回字符串开始的位置
# m.end()返回字符串结束的位置
# 若没匹配上则返回None
s="I am testing search function"
reg=r"[A-Za-z]+\b"
m=re.search(reg,s)
while m!=None:
    start=m.start()
    end=m.end()
    print(s[start:end])
    s=s[end:]
    m=re.search(reg,s)

使用正则表达式爬取图像文件

server

import flask
##初始化一个Flask对象，参数__name__是程序的名称
#也可以给这个app起个别的名字app=flask.Flask("web")
#指定默认静态文件夹
app=flask.Flask(__name__,static_folder="html")
@app.route("/plates")
def plates():
    return flask.render_template("index.html")
if __name__=="__main__":
    # 打开服务器的调试模式
    app.debug=True
    app.run(port=5000)

index

<h1>Imageh1>
<img src='html/images/erha.jpg' width='200'>
<img src='html/images/erha2.jpg' width='200'>
<div>It is very easy to make a web applicationdiv>

spider

import re
import urllib.request
def download(src):
    try:
        resp=urllib.request.urlopen(src)
        data=resp.read()
        p=src.rfind("/")
        fileName=src[p+1:]
        fobj=open('downloadf\\'+fileName,'wb')
        fobj.write(data)
        fobj.close()
        print("downloaded",fileName)
    except Exception as err:
        print(err)
url="http://127.0.0.1:5000/plates"
try:
    resp=urllib.request.urlopen(url)
    data=resp.read()
    html=data.decode()
    reg=r"
    m=re.search(reg,html)
    while m:
        a=m.end()
        s=html[a:]
        #print(s)
        n=re.search(r"\'.+g\'",s)
        b=n.end()
        src=s[1:b-1]
        src=urllib.request.urljoin(url,src)
        print(src)
        download(src)
        #开始查找第二个字符
        html=s[n.end():]
        m=re.search(reg,html)
except Exception as err:
    print(err)

改写正则表达式，修复空格问题，单双引号问题

spider

import re
import urllib.request
def download(src):
    try:
        resp=urllib.request.urlopen(src)
        data=resp.read()
        p=src.rfind("/")
        fileName=src[p+1:]
        fobj=open('downloadf\\'+fileName,'wb')
        fobj.write(data)
        fobj.close()
        print("downloaded",fileName)
    except Exception as err:
        print(err)

url="http://127.0.0.1:5000/plates"
try:
    resp=urllib.request.urlopen(url)
    data=resp.read()
    html=data.decode()
    reg=r"
    m=re.search(reg,html)
    print(m)
    while m:
        a=m.end()
        s=html[a:]
        #这里------------------------------------------------
        n=re.search(r"[\',\"].+g[\',\"]",s)
        b=n.end()
        src=s[1:b-1]
        src=urllib.request.urljoin(url,src)
        print(src) 
        download(src)
        #开始查找第二个字符
        html=s[n.end():]
        m=re.search(reg,html)
except Exception as err:
    print(err)

index

<h1>Imageh1>
<img src   =   'html/images/erha.jpg' width='200'>
<img src="html/images/erha2.jpg" width='200'>
<div>It is very easy to make a web applicationdiv>

下载chinadaily网站中的图片

使用正则表达式爬取学生信息

students.txt

No,Name,Gender,Age
1001,张三,男,20
1002,李四,女,19
1003,王五,男,21

server.py

import flask
import os
app=flask.Flask(__name__)
@app.route("/")
def show():
    if os.path.exists("students.txt"):
        st="学生信息表
"
        st=st+""
        fobj=open("students.txt","rt",encoding="utf-8")whileTrue:#读取一行，去除行尾部"\n"换行符
            s=fobj.readline().strip("\n")print(s)#如果读到文件尾部就退出if s=="":break#按逗号拆分开
            s=s.split(",")
            st=st+""#把各个数据组织在的单元中for i inrange(len(s)):
                st=st+""#完成一行
            st=st+""
        fobj.close()
        st=st+"
         
            
            
            
            
                
            
            ...
             "+s[i]+"
            
"
        return st
if __name__=="__main__":
    app.debug=True
    app.run()

client.py

import urllib.request
import re
try:
    resp=urllib.request.urlopen("http://127.0.0.1:5000")
    data=resp.read()
    html=data.decode()
    print(html)
    #找出这一行的开始与结束，若有开始和结束 则进入循环
    m=re.search(r"",html)
    n=re.search(r"",html)
    while m!=None and n!=None:
        #去掉tr标签取出中间td部分
        #NoNameGenderAge
        row=html[m.end():n.start()]
        print(row)
        #找这一行当中的第一个td标签的开始与结束位置
        a=re.search(r"",row)
        b=re.search(r"",row)
        #找出这一对td标签的开始与结束，若有则进入循环取出td中的内容
        while a!=None and b!=None:
            s=row[a.end():b.start()]
            #将此单元格的数据进行是打印输出
            print(s,end=" ")
            #将行tr进行截取，用于进入下一次循环取出td标签
            row=row[b.end():]
            a=re.search(r"",row)
            b=re.search(r"",row)
        #将一个tr标签中的td取完以后进入下一行（下一个tr），并输出一个换行
        print()
        #将行html进行截取，用于进入下一次循环取出tr标签
        html=html[n.end():]
        m=re.search(r"",html)
        n=re.search(r"",html)
except Exception as err:
    print(err)

常用的正则表达式

#变量
reg=r"[a-zA-Z]\w+"
#手机号:13、15、17、18开头
reg=r"((13[0-9])|(15[0-9])|(17[0-9])|(18[0-9]))\d{8}"
#匹配18位身份证号码
reg=r"\d{17}[0-9Xx]"
#匹配IP地址
reg=r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}"
#匹配YYYY-mm-dd的日期
reg=r"(\d{2}|\d{4})-\d{1,2}-\d{1,2}"
#匹配浮点数
reg=r"-?\d*\.\d*"
#匹配Email地址
reg=r"^[A-Za-z0-9_-]+@[A-Za-z0-9_-]+(\.[A-Za-z0-9_-]+)+$"

1.8爬取外汇网站的数据

本次要爬取的网站：fx.cmbchina.com/hq

首先看一下此网站的关键代码

<div id="realRateInfo">
    <table cellpadding="0" cellspacing="1" width="740" align="center" class="data">
        <tr>
            <td class="head fontbold" width="70">
                交易币
            td>
            <td class="head" width="65">
                交易币单位
            td>
            <td class="head fontbold" width="55">
                基本币
            td>
            <td class="head" width="65">
                现汇卖出价
            td>
            <td class="head" width="65">
                现钞卖出价
            td>
            <td class="head" width="65">
                现汇买入价
            td>
            <td class="head" width="65">
                现钞买入价
            td>
            <td class="head" width="65">
                时间
            td>
            <td class="head">
                汇率走势图
            td>
        tr>

        <tr>
            <td class="fontbold">
                港币
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                89.94
            td>
            <td class="numberright">
                89.94
            td>
            <td class="numberright">
                89.58
            td>
            <td class="numberright">
                88.95
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('港币');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                新西兰元
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                442.00
            td>
            <td class="numberright">
                442.00
            td>
            <td class="numberright">
                438.48
            td>
            <td class="numberright">
                424.61
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('新西兰元');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                澳大利亚元
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                468.49
            td>
            <td class="numberright">
                468.49
            td>
            <td class="numberright">
                464.75
            td>
            <td class="numberright">
                450.05
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('澳大利亚元');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                美元
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                704.04
            td>
            <td class="numberright">
                704.04
            td>
            <td class="numberright">
                699.58
            td>
            <td class="numberright">
                693.86
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('美元');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                欧元
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                761.23
            td>
            <td class="numberright">
                761.23
            td>
            <td class="numberright">
                755.17
            td>
            <td class="numberright">
                731.28
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('欧元');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                加拿大元
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                521.81
            td>
            <td class="numberright">
                521.81
            td>
            <td class="numberright">
                517.65
            td>
            <td class="numberright">
                501.28
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('加拿大元');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                英镑
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                876.82
            td>
            <td class="numberright">
                876.82
            td>
            <td class="numberright">
                869.84
            td>
            <td class="numberright">
                842.33
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('英镑');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                日元
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                5.1061
            td>
            <td class="numberright">
                5.1061
            td>
            <td class="numberright">
                5.0655
            td>
            <td class="numberright">
                4.9053
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('日元');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                新加坡元
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                523.52
            td>
            <td class="numberright">
                523.52
            td>
            <td class="numberright">
                519.34
            td>
            <td class="numberright">
                502.92
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('新加坡元');">查看历史>>a>
            td>
        tr>

        <tr>
            <td class="fontbold">
                瑞士法郎
            td>
            <td align="center">
                100
            td>
            <td align="center" class="fontbold">
                人民币
            td>
            <td class="numberright">
                783.09
            td>
            <td class="numberright">
                783.09
            td>
            <td class="numberright">
                776.85
            td>
            <td class="numberright">
                752.28
            td>
            <td align="center">
                9:10:04
            td>
            <td align="center">
                <a href="javascript:link2History('瑞士法郎');">查看历史>>a>
            td>
        tr>

    table>
    <span class="tip">以上资料仅供参考，以办理业务时的实时汇率为准。span>
div>

分析

获取该网站的HTML字符串
用正则表达式匹配
和
，取出他们的中间部分的字符串HTML
匹配与，取出他们中间的字符串i并命名为tds
再到tds中去匹配与，取出各个…中的数据，并将数据存储到数据库，数据包含在HTML代码的…中，为了爬取各个…中的数据，我们设计一个匹配函数match()

设计存储数据库

字段名称	类型	说明
Currency	varchar(256)	外汇名称（关键字）
TSP	float	现汇卖出价
CSP	float	现钞卖出价
TBP	float	现汇买入价
CBP	float	现钞买入价
Time	varchar(256)	时间

爬虫程序

import urllib.request
import re
import sqlite3
class MySpider:
    def openDB(self):
        #初始化数据库，船建数据库rates.db与一张空表rates
        self.con=sqlite3.connect("rates.db")
        self.cursor=self.con.cursor()
        try:
            self.cursor.execute("drop table rates")
        except Exception as err:
            pass
        sql="create table rates(Currency varchar(256) primary key,TSP float,CSP float,TBP float,CBP float,Time varchar(256))"
        self.cursor.execute(sql)
    def closeDB(self):
        #并关闭数据库
        self.con.commit()
        self.con.close()
    def insertDB(self,Currency,TSP,CSP,TBP,CBP,Time):
        #记录插入数据库
        try:
            sql="insert into rates(Currency,TSP,CSP,TBP,CBP,Time) values(?,?,?,?,?,?)"
            self.cursor.execute(sql,[Currency,TSP,CSP,TBP,CBP,Time])
        except Exception as err:
            print(err)
    def show(self):
        #显示函数
        self.cursor.execute("select Currency,TSP,CSP,TBP,CBP,Time from rates")
        rows=self.cursor.fetchall()
        #规定显示格式
        print("%-18s%-12s%-12s%-12s%-12s%-12s"%("Currency","TSP","CSP","TBP","TBP","Time"))
        for row in rows:
            print("%-18s%-12s%-12s%-12s%-12s%-12s"%(row[0],row[1],row[2],row[3],row[4],row[5]))
    def match(secf,t,s):
        #匹配函数,主要匹配标签的位置
        m=re.search(r"<"+t,s)
        if m:
            a=m.start()
            m=re.search(r">",s[a:])
            if m:
                b=a+m.end()
                return {"start":a,"end":b}
        return None
    def spider(self,url):
        #爬虫函数
        try:
            resp=urllib.request.urlopen(url)
            data=resp.read()
            html=data.decode()
            m=re.search(r'',html)
            html=html[m.end():]
            m=re.search(r"
",html)
            #取出...
部分
            html=html[:m.start()]
            i=0
            while True:
                p=self.match("tr",html)
                q=self.match("/tr",html)
                if p and q:
                    i+=1
                    a=p["end"]
                    b=q["start"]
                    tds=html[a:b]
                    row=[]
                    count=0
                    while True:
                        m=self.match("td",tds)
                        n=self.match("/td",tds)
                        if m and n:
                            u=m["end"]
                            v=n["start"]
                            count+=1
                            if count<=8:
                                row.append(tds[u:v].strip())
                            tds=tds[n["end"]:]
                        else:
                            #匹配不到...，退出内层循环
                            break
                    if i>=2 and len(row)==8:
                        Currency =row[0]
                        TSP=float(row[3])
                        CSP=float(row[4])
                        TBP=float(row[5])
                        CBP=float(row[6])
                        Time=row[7]
                        self.insertDB(Currency,TSP,CSP,TBP,CBP,Time)
                    html=html[q["end"]:]
                else:
                    #匹配不到...
                    break
        except Exception as err:
            print(err)
    def process(self):
        #爬取过程
        self.openDB()
        self.spider("http://fx.cmbchina.com/hq/")
        self.show()
        self.closeDB()
#主程序
spider=MySpider()
spider.process()

你可能感兴趣的:(Python,python,爬虫,学习)

用sklearn库中的算法对数据集进行训练和auc评估（个人学习笔记） ZD困困困 python 机器学习
本文为个人学习笔记，仅供学习参考，欢迎讨论，要是有哪里写的不对或有疑问的欢迎讨论。题目：运用已给数据集进行模型训练，使用逻辑回归、决策树、随机森林和AdaBoost几个算法进行训练，并打印各个算法训练后的auc评价指标。文章目录1.导入数据集①read_csv():读取数据并以某字符分隔。②merge():合并③drop():删除行或列④tolist():将数组或矩阵转换为列表⑤train_tes
【网络编程】EPOLL 事件触发机制的服务器啟明起鸣网络服务器运维
文章目录业务拆解EPOLL机制介绍EPOLL的核心变量和函数EPOLL程序流程图C代码实现准备工作服务器代码代码运行效果总结推荐一个零声教育学习教程，个人觉得老师讲得不错，分享给大家：[Linux，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK等技术内容，点击立即学习:https:/
华为研发岗位面试与暑期实习攻略：C++与Java深入解析丹力
本文还有配套的精品资源，点击获取简介：华为的面试和暑期实习对IT求职者至关重要，涉及技术实力与团队协作。本文深入探讨了华为面试的要点，包括专业技能、项目经验、问题解决能力的考察，以及暑期实习和校招中的C++和Java研发岗位要求。在面试中，求职者需要展示C++11/14/17新特性、内存管理、设计模式，以及Java核心技术、JVM原理等，同时还需关注新技术趋势。积极学习和展现出学习能力与团队精神，
嵌入式开发学习日志Day14（ARM体系架构——RTC及ADC)
一、RTCRTC（实时时钟）：非易失性在IMX6ULL内部SNVS（安全的非易失性存储器）提供RTC功能；原理图：二、ADC2.1基本概念ADC(模拟数字转换器)：用于将连续变化的模拟信号转换为离散的数字信号以便数字系统对它进行处理；模拟信号：一般指连续变化的电压信号，其值在一定范围内变化；数字信号：由一系列离散数字表示仅取有限值，通常以二进制表示；2.2工作原理将模拟信号分割成一系列离散的取样，
从数据抓取到智能分类：用 LangChain + 爬虫构建自动化工作流的实战笔记大模型之路大模型（LLM）人工智能 langchain
一、从人工到自动化的迫切需求在数字化时代，信息的快速获取与处理成为个人和组织高效运转的关键。然而，许多重复性强、耗时长且缺乏创造性的任务，如定期收集和整理网络信息并制作成特定格式的内容，依然占据着人们大量的时间和精力。本文作者就面临这样的困境：每两周需花费数小时访问多个大学网站，提取活动信息，手动将其整理成繁琐的HTML表格，并确保在Outlook中格式正确无误。这一过程不仅涉及大量枯燥的重复劳动
【web安全】远程命令执行(RCE)漏洞深度解析与攻防实践 KPX web安全安全 web安全 windows linux 漏洞
目录摘要1.RCE漏洞概述1.1基本概念1.2漏洞危害等级2.RCE漏洞原理深度分析2.1漏洞产生条件2.2常见危险函数2.2.1PHP环境2.2.2Java环境2.2.3Python环境3.RCE利用技术进阶3.1基础注入技术扩展3.1.1命令分隔技术3.1.2参数注入技术3.2高级绕过技术3.2.1编码混淆3.2.2字符串拼接3.3盲注技术3.3.1时间延迟检测3.3.2DNS外带数据3.3.
SQLmap 使用指南：开启安全测试高效之旅
SQLmap作为一款强大的开源自动化SQL注入工具，在安全测试领域扮演着至关重要的角色，它能够精准检测并有效利用Web应用程序中潜藏的SQL注入漏洞。但请务必牢记，其使用必须严格限定在合法授权的范围内，以确保不触碰法律红线。安装SQLmap在Windows系统中安装SQLmap，首先要确保已成功安装Python环境。因为SQLmap是基于Python开发的，Python环境是其运行的基础。安装好P
学习笔记(28):随机噪声的原理、作用及代码实现详解宁儿数据安全 #机器学习学习笔记 python
学习笔记(28):随机噪声的原理、作用及代码实现详解一、什么是随机噪声？为什么需要添加？在机器学习中，随机噪声是指数据中无法用特征解释的随机波动，通常符合某种概率分布（如正态分布）。在房价模拟中添加噪声的核心原因如下：1.模拟真实世界的不确定性真实房价除了受面积、房龄影响，还受装修情况、学区、交通、政策等未被建模的特征影响，这些因素的综合效应可抽象为“噪声”。示例：两套面积和房龄相同的房子，房价可
sqlmap使用详解 inrese
最近需要使用sqlmap工具，在此将学习记录记录下来。一、参数选项1、选项：-h,--help显示基本帮助信息并退出-hh显示高级帮助信息并退出--version显示程序的版本号并退出-vVERBOSE详细级别：0-6（默认为1）2、目标：必须至少提供这些选项之一来定义-uURL,--url=URL目标URL（例如“http://www.site.com/vuln.php?id=1”）-dDIRE
【k230基础教程之ADC，RTC，TIMER，WDT】
k230基础教程之ADC，RTC，TIMER，WDT一，ADC1.read_u16方法2.read_uv方法示例二，RTC1.init方法2.detatime方法示例三，TIMER（定时器）1.init方法2.deinit方法软件定时器控制LED灯四，WDT（看门狗）1.feed方法示例本教程皆来自立创官方教程，为博主学习使用所记录，使用开发板为立创的庐山派，如有需求可自行访问立创官网关于这些外设
学习笔记(29):训练集与测试集划分详解：train_test_split 函数深度解析宁儿数据安全 #机器学习学习笔记深度学习
学习笔记(29):训练集与测试集划分详解：train_test_split函数深度解析一、为什么需要划分训练集和测试集？在机器学习中，模型需要经历两个核心阶段：训练阶段：用训练集数据学习特征与目标值的映射关系（如线性回归的权重）。测试阶段：用测试集评估模型在未见过的数据上的表现，避免“过拟合”（模型只记住训练数据的噪声，无法泛化到新数据）。类比场景：学生通过“练习题”（训练集）学习知识，再通过“考
Spring Boot + AI，真的有搞头吗？5大步骤带你轻松入门墨瑾轩一起学学Java【一】spring boot 人工智能后端
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣亲爱的小伙伴们，你们是否听说过SpringBoot和AI结合的消息？是不是觉得这两者听起来就像是天作之合？没错，SpringBoot和AI的结合确实能为我们带来许多意想不到的好处！今天，我们就来一起探讨如何在SpringBoot项目中集成AI功能，让你的应用更
Python 3.11.6 Windows 64位版安装程序下载：轻松上手Python最新版本惠凯忱Montague
Python3.11.6Windows64位版安装程序下载：轻松上手Python最新版本去发现同类优质开源项目:https://gitcode.com/项目介绍在编程领域，Python无疑是一种极为流行且强大的编程语言。Python3.11.6Windows64位版安装程序的推出，为Windows用户提供了官方最新版本的安装便利。这个版本不仅包含了许多优化和新特性，而且确保了在64位Windows
【YOLOv11】ultralytics最新作品yolov11 AND 模型的训练、推理、验证、导出以及使用 Jackilina_Stone #Deep Learning 【改进】YOLO系列 YOLO 人工智能 python 计算机视觉深度学习
目录一ultralytics公司的最新作品YOLOV111yolov11的创新2安装YOLOv113PYTHONGuide二训练三验证四推理五导出模型六使用文档：https://docs.ultralytics.com/models/yolo11/代码链接：https://github.com/ultralytics/ultralyticsPerformanceMetrics
python中常用函数表_Python列表中几个常用函数总结 weixin_39934613 python中常用函数表
1、append()方法用于在列表末尾添加新的对象。语法：list.append(obj)参数：list定义的列表obj所要添加到列表的对象例：list=['Microsoft','Amazon','Geogle']list.append('Apple')print(list)显示结果为：['Microsoft','Amazon','Geogle','Apple']2、extend()函数用于在列
Python 与面向对象编程（OOP） lanbing 面向对象（OOP）python 开发语言面向对象
Python是一种支持面向对象编程（OOP）的多范式语言，其OOP实现简洁灵活，但在某些设计选择上与传统OOP语言（如Java、C#）存在显著差异。以下是Python面向对象编程的核心特性、优势和局限性的全面解析：一、Python的OOP核心特性1.万物皆对象Python中所有数据类型（如整数、字符串）均为对象，继承自object基类。函数、模块、异常等也都是对象，可以赋值、传递或动态修改。例如n
【学习】微信小程序开发指南：从零开始的完整实践小程序
前言微信小程序作为腾讯推出的轻量级应用平台，自2017年正式发布以来，已经成为移动互联网生态中不可或缺的一部分。小程序具有"用完即走"的特点，无需下载安装，通过微信即可使用，为用户提供了便捷的服务体验，也为开发者提供了新的应用分发渠道。本文将从零开始，详细介绍微信小程序的开发流程，包括环境搭建、基础语法、核心功能实现、发布上线等各个环节，帮助初学者快速掌握小程序开发技能。一、微信小程序概述（一）什
【Python】Python —— 列表 (文末附思维导图）
Python——列表1定义用于存储任意数目、任意类型的数据集合。List（列表）是Python内置的一种数据类型。标准语法格式：1.a=[10,20,30,40]2.a=[10,20,‘abc’,True]是一种有序的集合，可以随时增加或删除其中的元素。标识是中括号[]。2创建2.1基本语法创建a=[10,20,'yangyaqi','石家庄学院',True]a[10,20,‘yangyaqi’,
RAG实战指南 Day 2：RAG开发环境搭建与工具选择在未来等你 RAG实战指南 RAG 向量检索 LLM AI开发知识库
【RAG实战指南Day2】RAG开发环境搭建与工具选择开篇欢迎来到"RAG实战指南"系列的第2天！今天我们将聚焦RAG系统的开发环境搭建和工具选择，这是构建高效RAG应用的基础。一个合理的开发环境和工具链不仅能提升开发效率，还能确保系统的稳定性和扩展性。通过本文，你将掌握如何从零开始搭建RAG开发环境，了解主流工具的选择策略，并通过实际案例学习如何将这些工具组合起来构建完整的RAG工作流。理论基础
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
python源码编译安装和常见问题解决运维天坑笔记 python 开发语言 linux
python编译安装1、下载源码包wgethttps://www.python.org/ftp/python/3.9.10/Python-3.9.10.tgztar-zxfPython-3.9.10.tgzcdpython39/2、编译安装./configure--prefix=/usr/local/python39--enable-shared--enable-optimizationsmake
Python语法笔记 XiTang1 python 笔记开发语言
Python的基本语法1.计算机相关的名词知识1.1计算机的组成计算机之父：冯.诺依曼，根据冯.诺依曼结构体系，计算机是分为5部分的1.输入设备把信息传递到计算机中，比如键盘、鼠标2.输出设备信息从计算机中传递出来，比如音响、显示器、打印机等等3.存储区计算机被发明出来就是用于数据的存储和计算的计算机上有两个存储数据的设备：内存、硬盘硬盘：电脑上的磁盘分区，存储在硬盘中的数据都是持久化存储【只要不
Python编程：实现文件比对倔强老吕 C++与python交互编程 python 哈希算法
Python提供了多个用于文件比对的库，适用于不同的比较场景。以下是主要的文件比对库及其特点：1.标准库中的比对工具1.1filecmp模块功能：文件和目录比较特点：比较文件内容（浅层和深层比较）比较目录结构内置dircmp类用于目录比较典型用途：importfilecmp#文件比较filecmp.cmp('file1.txt','file2.txt',shallow=False)#目录比较com
Python, C ++,C #开发全球英才阐教版集结令APP Geeker-2025 python c++c语言
以下是为使用**Python、C++和C#**开发**全球英才(阐教版)集结令APP**的深度技术方案，融合三语言优势构建跨平台、高智能的玄门英才聚合系统：---###一、系统架构设计```mermaidgraphTDA[多端客户端]-->B{C#阐道引擎}B-->C[C++玄法核心]C-->D[Python慧识层]D-->E[AI英才匹配]C-->F[天机推演]B-->G[三界通信]G-->H[
Python, Rust 开发教育/医疗/文化资源去中心化分配APP Geeker-2025 python rust
以下是为教育、医疗、文化资源设计的**去中心化分配APP**的完整技术方案，结合Python的灵活性和Rust的高性能与安全性，实现公平透明的资源分配：---###系统架构设计```mermaidgraphTDA[用户终端]-->B[区块链网络]A-->C[分配引擎]B-->D[智能合约]C-->E[资源数据库]D-->F[分配记录]subgraph技术栈C-.Rust.->G[核心分配算法]D-
Python, Go 开发客户服务软件APP Geeker-2025 python golang
以下是一个结合Python和Go开发的**客户服务软件APP**的完整技术方案，充分利用Python的AI能力和Go的高并发特性，构建高性能、智能化的客户服务系统：---###系统架构设计```mermaidgraphTDA[客户端]-->B[GoAPI网关]B-->C[工单管理]B-->D[实时聊天]B-->E[知识库]B-->F[AI引擎]C-->G[工单数据库]D-->H[消息队列]F-->
基于nodejs+vue.js服装商店电子商务管理系统
如果你是一个小白,你不懂得像javaPHP、Python等编程语言，那么Node.js是一个非常好的选择。采用vscode软件开发,配套软件安装.包安装调试部署成功,有视频讲解前端:html+vue+elementui+jQuery、js、css数据库：mysql,Navicatvue框架于Node运行环境的Web框架,随着互联网技术的飞速发展，世界逐渐成了一个地球村，空间的距离也不再是那么重要。
《Effective Python》第十一章性能——延迟加载模块，通过动态导入减少 Python 程序启动时间不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第11章:性能中的Item98：Lazy-LoadModuleswithDynamicImportstoReduceStartupTime。本文旨在总结书中关于延迟加载模块的核心观点，并结合我自己的开发经验，深入探讨其在实际项目中的应用场景与优化价值。Pytho
「日拱一码」010 Python常用库——statistics 胖达不服输「日拱一码」python python常用库 statistics
目录平均值相关mean()：计算算术平均值，即所有数值相加后除以数值的个数fmean()：与mean()类似，但使用浮点运算，速度更快，精度更高geometric_mean()：计算几何平均值，即所有数值相乘后开n次方根（n为数值的个数）harmonic_mean()：计算调和平均值，即数值个数除以每个数值的倒数之和median()：计算中位数，即将一组数值按大小顺序排列后位于中间的数。如果数值个
「日拱一码」013 Python常用库——Numpy 胖达不服输「日拱一码」python numpy 常用库
目录数组创建numpy.array：创建一个ndarray对象numpy.zeros：创建一个指定形状和数据类型的全零数组numpy.ones：创建一个指定形状和数据类型的全1数组numpy.empty：创建一个指定形状和数据类型的未初始化数组。其元素值是随机的，取决于内存中的初始状态numpy.arange：类似于Python内置的range函数，但返回的是ndarraynumpy.linspa
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息