Saltwind

Python爬虫入门学习笔记.md

这是看一个教学视频整理的python爬虫入门笔记，第一次尝试用.md文件来发布博客

Python网络爬虫

网络爬虫，又叫网络数据采集，又叫网络机器人

基本功能：

抓取你看到的网络数据
抓取你看不到的网络数据
代替你发送网络消息
…

思想有多远，爬虫就能走多远，这个笔记只记录了爬去静态页面的方式，来做一个爬虫的简单入门。

第一章网络数据采集的一般流程

通过网站域名获取HTML数据
根据目标信息解析数据
存储目标信息
若有必要，移动到另一个网页重复这个过程

一、通过网站域名获取HTML数据

可以用urllib库或者requests库来获取HTML数据

import requests

url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
html

r.text是一个乱码的字符串（可能是非utf-8编码数据让utf-8编码的pycharm显示了出来）
r.text.encode(r.encoding)是一串b’ ’的字节码数据
html是一串非乱码正常显示的字符串

二、根据目标信息解析数据

1， HTML文件的结构
html文档由html元素组成，html元素包括：标签，属性，内容。标签包括起始标签和结束标签。html元素可以嵌套，如最外层的元素即由
html所定义，次外层通常为head和body。只有在body部分定义的内容才在浏览器中可见

2,利用BeautifulSoup解析html

import requests
from bs4 import BeautifulSoup

url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')
list=[x.text for x in soup.findAll('h2')]
list

['HTML5',
 'HTML 媒体',
 'HTML 参考手册',
 'HTML 实例',
 '实例解析',
 '什么是HTML?',
 'HTML 标签',
 'HTML 元素',
 'Web 浏览器',
 'HTML 网页结构',
 'HTML版本',
 '  声明',
 '通用声明',
 '中文编码',
 'HTML 实例']

三、存储目标信息

'存储目标信息'

# 一般可以把爬取的数据存储到excel，csv，txt文件，或数据库中
import requests
from bs4 import BeautifulSoup
import pandas

url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')
l=[x.text for x in soup.findAll('h2')]
df= pandas.DataFrame(l,columns=[url])
df.to_excel('爬虫.xlsx')

就是利用pandas库，将处理数据存储到了当前目录的：爬虫.xlsx ，文件中去

四、移至其他网页爬取

# import requests
from bs4 import BeautifulSoup
import pandas
import requests

url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')
l=[x.text for x in soup.findAll('h2')]
df= pandas.DataFrame(l,columns=[url])

x=soup.findAll('a')[1]
x.has_attr('href')
x.attrs['href']

links=[i for i in soup.findAll('a') if i.has_attr('href') and i.attrs['href'][0:5]=='/html']
relative_urls=set([i.attrs['href'] for i in links])
absolute_urls={'http://www.runoob.com'+i for i in relative_urls}
absolute_urls.discard(url)

for i in absolute_urls:
    ri=requests.get(i)
    soupi=BeautifulSoup(ri.text.encode(ri.encoding),'lxml')
    li=[x.text for x in soupi.findAll('h2')]
    dfi=pandas.DataFrame(li,columns=[i])
    df=df.join(dfi,how='outer')
df.to_excel('爬虫2.xlsx')

第二章网络采集的常用工具

一、Firefox浏览器

主要功能：

定位网页元素【右键：查看元素】
查看通信记录【F12——>网络——>重新载入标签页】
查看请求headers【F12——>网络——>重新载入标签页——>双击——>消息头——>原始头】
定位HXR动态请求url【F12——>网络——>重新载入标签页——>XHR——>响应】
…

简单地说：找url【抓包】，找元素，找headers

二、requests库

主要功能：

发送请求：get，post…
填写fform表单
身份认证
…

简单地说：和服务器通信相关所有功能
requests库参考教程：http://docs.python-requests.org/zh_CN/latest/

三、BeautifulSoup和re

美丽汤是用正则表达式实现的
许多对正则表达式熟练的开发者直接使用re库解析HTML文档
但BeautifulSoup库更加简单，所以我们平时就用它，必要时配合re使用
re还常常用于对采集的文本数据的清洗，如去除换行符引用标签等

简单地说：解析html，数据清洗
BeautifulSoup教程：https://cuiqingcai.com/1319.html
正则表达式教程：http://www.runoob.com/regexp/regexp-metachar.html
正则表达式教程：https://cuiqingcai.com/977.html

四、Selenium和Phantomjs

requests的困难：无法运行css和JavaScript。
一个动态网页DHTML由html，css和JavaScript组成。
html是主体，装载各种dom元素；css用来装饰dom元素；JavaScript控制dom元素。
用一扇门比喻三者的关系是：html时门的门板，css时门上的油漆或花纹，JavaScript是门的开关；
运行JavaScript之后可以在不改变url的情况下改变页面。
处理动态网页DHTML困难的两种方法：抓包和Selenium

Selenium原本是一个Web自动化测试框架，测试web脚本是否对IE，Chorme，Firefox等多种浏览器兼容
Selenium测试直接运行在浏览器中，就像真正的用户在操作一样
Selenium可以模拟用户点击链接，提交表单，拖动滑块等一系列操作
Phantomjs是一个无头浏览器，可以解析html，css文件，运行JavaScript脚本，但没有图形界面
Selenium+Phantomjs模式构建的爬虫可以很好地采集运行JavaScript脚本的动态网页
Selenium+Phantomjs模式构建的爬虫可以破解网站的各种反爬虫策略，如蜜罐
Selenium+Phantomjs模式构建的爬虫一般速度相对用requests构建的爬虫更慢

简单地说：模拟人类用户，破解反爬虫策略

Selenium教程：https://cuiqingcai.com/2599.html
Selenium操作鼠标键盘：http://blog.csdn.net/huilan_same/article/details/52305176

第三章复杂html的解析

BeautifulSoup里的find()和findAll()可能是最常用的两个函数。
findAll查找满足条件的全部html元素，而find查找满足条件的第一个html元素。
这两个函数非常相似，find可以看做时findAll中limit参数取1的情况

findAll(name=None, attrs={}, recursive=True, text=None, limit=None, **kw)
find(name=None, attrs={}, recursive=True, text=None, **kw)

其中大部分时候是使用前两个参数：即标签和属性，rucursive意思是是否要在各个标签中递归查找

一、使用标签和属性

import requests
from bs4 import BeautifulSoup
url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')

# print(soup.prettify()) # 可以用这个属性进行格式化输出

# 使用标签
soup.findAll(name={'h1','h2','h3','h4'})  # 这里的元素之间是 或 的关系
len(soup.body.findAll('div',recursive=True))
len(soup.body.findAll('div',recursive=False))

# 使用属性
divs=soup.findAll('div',attrs={'class':{'article','container navigation'}})  # 这里字典中的key-value是且的关系
divs[1].findAll('h2')

[HTML 实例,
 实例解析,
 什么是HTML?,
 HTML 标签,
 HTML 元素,
 Web 浏览器,
 HTML 网页结构,
 HTML版本,
  <!DOCTYPE> 声明,
 通用声明,
 中文编码,
 HTML 实例]

二、使用文本和关键字

import requests
from bs4 import BeautifulSoup
url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')

# 使用文本

import re
# 查看文本内容为‘HTML 标签’ 的所有html元素（tag对象）
soup.findAll(re.compile(''), text='HTML 标签')

# 查看文本内容以’HTML‘开头的tag对象
soup.findAll({'h1','h2','h3','h4'}, text=re.compile('^HTML'))

[HTML5,
 HTML 实例,
 HTML 标签,
 HTML 元素,
 HTML 网页结构,
 HTML版本,
 HTML5,
 HTML 4.01,
 HTML 实例]

# 使用关键字
# 因为class时python关键字，而此处也要用class指定html属性名，为避免冲突，需要加下划线
soup.findAll(class_={'article', 'container navigation'}) 
len(soup)

# findAll,find 中，**kwarg参数和attrs参数可以相互替代，功能上存在一定的冗余性
# soup.find('div', id ={'footer'})

三、使用lambda表达式

import requests
from bs4 import BeautifulSoup
url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')

# 使用lambda表达式

# 三者功能相同
soup.findAll(lambda tag:tag.name=='h2' and len(tag.attrs)==0)

[x for x in soup.findAll('h2') if len(x.attrs)==0]

list(filter(lambda tag:len(tag.attrs)==0,soup.findAll('h2')))

[实例解析,
 什么是HTML?,
 HTML 标签,
 HTML 元素,
 Web 浏览器,
 HTML 网页结构,
 HTML版本,
  <!DOCTYPE> 声明,
 通用声明,
 中文编码]

四、使用正则表达式

常用正则表达式元字符：

.    匹配任意单个字符

*    匹配前面的表达式0次或多次  
+    匹配前面的表达式1次或多次

()   表达式编组  
[]   匹配括号中的任意一个字符  
{m,n}匹配前面的模式m至n次

[^]  匹配任意一个不在中括号中的字符  
|    匹配任意一个由竖线分割的表达式

^    表示字符串开始位置  
$    表示字符串结束位置

\    表示转义

import requests
from bs4 import BeautifulSoup
url='http://www.runoob.com/html/html-intro.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')

'使用正则表达式'
import re 

# 查找标签名为h1至h9的tag
soup.findAll(re.compile('h[1-9]'))

# 查找标签名为h1至h9，且文本内容包括'HTML'或'html'的tag
soup.findAll(re.compile('h[1-9]'),text=re.compile('.*(HTML)|(html).*'))

# 查找地址为//www  或  //http:www  开头的链接
soup.find('a',attrs={'href':re.compile('^//(www)|(http\:www).*')}).prettify()

'\n 首页\n'

五、使用导航树

html文档的结构是一种树形结构。这个图形就脑海想一想吧

使用导航树方法利用相对位置查询标签

这种方法使得在找到某个易于定位的标签后，查找与之位置关联的标签十分容易。其只要属性有：

children
descendants
next_siblings
parent

第四章、采集单一网页特定数据训练

一、采集标题和文本

import requests
from bs4 import BeautifulSoup
import re
import os 
import pandas as pd


# 获取诗的题目，作者信息和内容
url='http://www.shicimingju.com/chaxun/list/3710.html'
r=requests.get(url)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')
content=soup.find('div', class_={'shici-content'}).text.strip()
title='《'+soup.find('h1', class_={'shici-title'}).text+'》'
info=soup.find('div', class_={'shici-info'}).text.strip()

'[宋] 苏轼'

# 对获取的信息进行存储,这里的相当于纯文本信息，就存储到.txt
filedir=os.getcwd()+'/苏轼的词'   # os.getcwd  ,current working directory，这里是在拼接一个路径
if not os.path.exists(filedir):
    os.mkdir(filedir)
with open(filedir+'/%s.txt'%title, mode='w',encoding='utf-8') as f:  # 这里是用open()打开这个文件，如果没有就创建它
    f.write(title+'\n'+info+'\n'+content)

二、采集图片数据

import requests
from bs4 import BeautifulSoup
import re
import os
import pandas as pd

# 采集简书博客中的图片
url= 'https://www.jianshu.com/p/1376959c3679'
headers={'User-Agent':
        'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:57.0)'+\
        'Gecko/20100101 Firefox/57.0'}
r=requests.get(url,headers=headers)
html=r.text.encode(r.encoding).decode()

soup=BeautifulSoup(html,'lxml')
imgs=soup.findAll(lambda tag:tag.name=='img' and tag.has_attr('data-original-src'))
srcs=['https:'+i.attrs['data-original-src'] for i in imgs]

filedir=os.getcwd()+'/户外风景独好'
if not os.path.exists(filedir):
    os.mkdir(filedir)
for i in range(len(srcs)):
    rpi=requests.get(srcs[i],headers=headers)
    if rpi.status_code==200:
        with open(filedir+'/%s.jpg'%(i+1),mode='wb') as f:
            f.write(rpi.content)
            print('正在下载第 %d 张图片......'%int(i+1))

正在下载第 1 张图片......
正在下载第 2 张图片......
正在下载第 3 张图片......
正在下载第 4 张图片......
正在下载第 5 张图片......
正在下载第 6 张图片......
正在下载第 7 张图片......
正在下载第 8 张图片......
正在下载第 9 张图片......

三、采集表格形式的数据

import requests
from bs4 import BeautifulSoup
import re
import os
import pandas as pd
import numpy as np

url='http://rl.fx678.com/date/20171229.html'
headers={'User-Agent':
        'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:57.0)'+\
        'Gecko/20100101 Firefox/57.0'}
r=requests.get(url,headers=headers)
html=r.text.encode(r.encoding).decode()
soup=BeautifulSoup(html,'lxml')

# 发现了财经数据表格对应的id为current_data
table=soup.find('table',id='current_data')

# 查看table里有多少行数据
height=len(table.findAll(lambda tag:tag.name=='tr' and len(tag.findAll('td'))>=1))

# 查看有多少列数据,这里显示的结果跟此表格的结构密切相关
for row in table.findAll('tr'):
    print(len(row.findAll('td')),end='\t')

0	0	9	7	7	7	7	9	7	7	9	7	7	9	7	9	7	9	7	7	7	9	9	7	9	9	7	9	7	7	7	9	7

# 收集表头，用来当做最终存储的表格的列名
columns=[x.text for x in table.tr.findAll('th')]
columns=[x.replace('\xa0',' ') for x in columns]
columns

['时间', '区域', '指标', '前值', '预测值', '公布值', '重要性', '利多 利空', '解读']

width=len(columns)
df=pd.DataFrame(data=np.full((height,width),' ',dtype='U'),columns=columns)
rows=[row for row in table.findAll('tr') if row.find('td')!=None]

# 逐行解析表格
for i in range(len(rows)):
    cells=rows[i].findAll('td')
    
    # 若该行单元格数量与dataframe列数相同
    if len(cells)==width:
        df.iloc[i]=[cell.text.replace(' ','').replace('\n','') for cell in cells]  # 去掉空格和换行
        
        # 若单元格跨多行，则进行多行填充
        for j in range(len(cells)):
            if cells[j].has_attr('rowspan'):
                z=int(cells[j].attrs['rowspan'])
                df.iloc[i:i+z,j]=[cells[j].text.replace(' ','').replace('\n','')]*z
    else:
        w=len(cells)
        df.iloc[i,width-w:]=[cell.text.replace(' ','').replace('\n','') for cell in cells]        
df.to_excel('20171229财经日历.xlsx')
df

	时间	指标	前值	预测值	公布值	重要性	利多利空
0	00:00	美国截至12月22日当周EIA原油库存变动(万桶)	-649.5	-384.42	-460.9	高	利多加元石油
1	00:00	美国截至12月22日当周EIA精炼油库存变动(万桶)	76.9	8.56	109	高	利空加元石油
2	00:00	美国截至12月22日当周EIA汽油库存变动(万桶)	123.7	129.03	59.1	高	利多加元石油
3	00:00	美国截至12月22日当周EIA俄克拉荷马州库欣原油库存(万桶)	75.4		-158.4

第五章遍历多个网页进行采集

这里对苏轼所有的诗词进行一个多个网页的下载存储

import requests
from bs4 import BeautifulSoup
import re
import os
import pandas as pd

base='http://www.shicimingju.com'
url='http://www.shicimingju.com/chaxun/zuozhe/9.html'

def gethrefs(url):
    headers={'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
    r=requests.get(url,headers=headers)
    soup=BeautifulSoup(r.text.encode(r.encoding),'lxml')
    div=soup.find('div',class_='www-shadow-card www-main-container')
    href=[x.a.attrs['href'] for x in div.findAll('h3')]
    hrefs=[base+i for i in href]
    
    try:
        nexturl=base+soup.find('div', class_='pagination www-shadow-card').find(lambda tag:tag.name=='a' and tag.span.text=='下一页').attrs['href']
    except Exception as e:
        print('全部下载完毕！！！')
        nexturl=''
    
    ans={}
    ans['hrefs']=hrefs
    ans['nexturl']=nexturl
    return ans

def writetotxt(url):
    headers={'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Gecko/20100101 Firefox/61.0'}
    r=requests.get(url,headers=headers)
    html=r.text.encode(r.encoding).decode()
    soup=BeautifulSoup(html,'lxml')
    content=soup.find('div', class_={'shici-content'}).text.strip()
    title='《'+soup.find('h1', class_={'shici-title'}).text+'》'
    info=soup.find('div', class_={'shici-info'}).text.strip()

    # 对获取的信息进行存储,这里的相当于纯文本信息，就存储到.txt
    filedir=os.getcwd()+'/苏轼的词'   # os.getcwd  ,current working directory，这里是在拼接一个路径
    if not os.path.exists(filedir):
        os.mkdir(filedir)
    with open(filedir+'/%s.txt'%title, mode='w',encoding='utf-8') as f:  # 这里是用open()打开这个文件，如果没有就创建它
        f.write(title+'\n'+info+'\n'+content)

ans=gethrefs(url)
allhrefs=ans['hrefs']
while ans['nexturl']:
    ans=gethrefs(ans['nexturl'])
    allhrefs=allhrefs+ans['hrefs']
    
for i in range(len(allhrefs)//50):
    writetotxt(allhrefs[i])
print('全部存储完毕！！！')

全部下载完毕！！！
全部存储完毕！！！

网络爬虫的初级入门阶段学习就到此结束啦！！！

你可能感兴趣的:(Python爬虫入门学习笔记.md)

Schneider MDI1PRD23B7-EQ程序参数使用教程MDI1FRD34C7-EQ-N技术广州葵璟机器学习人工智能
SchneiderMDI1PRD23B7-EQ，MDI1FRD34C7-EQ-N步进电机。这是一款包括电机+控制器+驱动器集成一起的微步进电机，所以这是为什么需要设置程序参数的重要原因。在更换维修电机之前，先要将原MDI1PRD23B7-EQ，MDI1FRD34C7-EQ-N电机的程序参数进行备份。这里需要用到原厂配套的通讯线MD-CC400-001（如果没有可以自行准备）。下面是MDI1PRD2
Python学习第十九天 Leo来编程 Python学习学习 python
Django-分页后端分页Django提供了Paginator类来实现后端分页。Paginator类可以将一个查询集（QuerySet）分成多个页面，每个页面包含指定数量的对象。fromdjango.shortcutsimportrender,redirect,get_object_or_404from.modelsimportUserfrom.formsimportUserFormfromdja
Python基础语法（一）算法工程师y python 开发语言
一、Python的安装与环境配置在开始编程之前，你需要确保计算机上安装了Python。以下是简单步骤：下载Python：访问Python官网，选择适合你操作系统的版本（推荐Python3.10+）。安装Python：运行安装程序，勾选“AddPythontoPATH”（确保在命令行中可以直接使用Python）。验证安装：打开终端（Windows用户使用CMD/PowerShell，Mac/Linu
eclipse运行问题 hitsz_syl eclipse java ide
你在D:\Personal_Finance_System\eclipse\eclipse\configuration目录下没有发现.log文件：方法：强制Eclipse生成日志如果.log文件不存在，可以尝试让Eclipse以-consoleLog模式运行，查看错误信息：打开Windowscmd终端进入Eclipse安装目录cdD:\Personal_Finance_System\eclipse\
【前端入门】应该了解和知道的几个国内外前端开发资源网站爱上大树的小猪前端
与大家分享一下几个国内外前端开发资源网站国际资源MDNWebDocs(MozillaDeveloperNetwork)用途：MDN是Web技术领域最全面的文档库之一，涵盖了HTML、CSS、JavaScript以及浏览器API等。链接:https://developer.mozilla.orgW3Schools用途：适合初学者学习Web技术，提供从基础到进阶的教程，同时还有在线练习环境。链接:ht
嵌入式SDIO 总线面试题及参考答案大模型大数据攻城狮 fpga开发嵌入式面经 SPI USB接口 SD总线 SDIO总线牛客网
目录SDIO总线与SD总线的核心区别是什么？(附框架图）简述SDIO总线物理接口的组成及其功能（CLK、CMD、DAT0-DAT3）。SDIO总线支持的最大数据传输位宽是多少？如何配置？解释SDIO总线中的主从模式架构及通信流程。SDIO卡的功能类型有哪些（如Wi-Fi、蓝牙、GPS）？SDIO总线时钟信号（CLK）的作用及典型频率范围SDIO协议中的OCR寄存器作用是什么？如何通过CMD5获取卡
kettle ETL 配置云连山数字化 etl
pdi-ce-9.1.0.0-324配置-CSDN博客3、配置中文字符3.1）spoon支持中文字符，spoon.bat启动文件加-Dfile.encoding=utf-8REM%SPOON_START_OPTION%"%_PENTAHO_JAVA%"%JAVA_ADD_OPENS%%OPT%-jarlauncher\launcher.jar-lib..\%LIBSPATH%%_cmdline%%
语音识别后处理代码 hitsz_syl 语音识别后处理
importreimportdifflibimportosfromdatetimeimportdatetime,timedeltadefextract_snippets_no_duplicates(input_file,output_file,window=150):"""从输入文本文件中提取包含目标字符（A、B、C、D、"开始"、"结束"）前后`window`个字符范围的文本。提取时扩展到完整的
mysql创建新表，同步数据 hitsz_syl mysql 数据库
importosimportargparseimportglobimportcv2importnumpyasnpimportonnxruntimeimporttqdmimportpymysqlimporttimeimportjsonfromdatetimeimportdatetimeos.environ[“CUDA_VISIBLE_DEVICES”]=“0”#使用GPU0defget_connec
MDX语言的设备管理穆骊瑶包罗万象 golang 开发语言后端
设备管理中的MDX语言应用引言设备管理是在各行各业中都至关重要的一环，尤其是在制造业、物流业、以及信息技术等领域。设备的正常运行直接关系到企业的生产效率和经济效益。随着信息技术的不断发展，现代企业越来越依赖数据来优化设备管理。而MDX（MultidimensionalExpressions）语言作为多维数据库查询的标准语言，能够有效支持设备管理中的数据分析和决策支持。本文将深入探讨MDX语言在设备
python:内存泄漏测试 weixin_34163741 python
#测试内存泄露#importgc#gc.enable()#gc.set_debug(gc.DEBUG_LEAK)#gc.collect()#start=len(gc.garbage)#printaDict[CMD]self._funcmap[aDict[CMD]](aCur,self,aDict)#gc.collect()#end=len(gc.garbage)#ifstart!=end:#pri
简单工厂模式、工厂方法模式、抽象工厂模式对比学习笔记 idgoodbye 简单工厂模式工厂方法模式抽象工厂模式
工厂模式架构设计原则开闭原则：是指一个软件实体（如类、模块和函数）应该对扩展开放，对修改关闭。依赖倒置原则：是指设计代码结构时，高层模块不应该依赖低层模块，二者都应该依赖其抽象。抽象不应该依赖细节，细节应该依赖抽象。单一职责：是指一个类只负责一个主要任务，避免因一个类负责两个以上任务时，修改其中一个任务代码导致另一个任务代码受到连带影响。接口隔离原则：是指用多个专门的接口，而不使用单一的总接口，客
Spring-Boot学习笔记戴帽子的小熊猫学习笔记学习笔记 spring boot
这个笔记是在自己学习的过程中根据实际用到的和学到的整理出来的，可能会有缺失，错误等，主要是给激励自己学习，遇到写不下去的情况给自己一个参考，请各位大佬发现问题提出问题时能嘴下留情，也希望多提建议，谢谢。本笔记长期更新（更新日期2024年9月21日）目录第1章.固定格式参考1.1application.yml1.2mapper.xml(详细操作见另一个文件[XML数据库操作笔记]())1.3appl
k8s-06-prometheus-stack 多懂一些 kubernetes 实战 nginx linux centos prometheus
安装#下载yaml#[下载](https://github.com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack)#镜像下载dockerlogin--username=xxxx registry.cn-shanghai.aliyuncs.comdockerpullregistry.cn-shangha
JCE cannot authenticate the provider BC 刘登辉 java 报错
mmmmmd，这个报错在linux系统中使用宝塔jdk-17.0.8的环境出现的报错，找了一堆教程，用的ai，各种办法测试都没有解决！！！！！本地windows跑的版本是jdk-17.0.12，服务器是jdk-17.0.8，更换jdk版本后问题解决无语死了！！！！
linux CentOS 7.9 安装 ffmpeg 6.0 教程【亲测成功】刘登辉 ffmpeg linux centos
查看当前系统版本[[email protected]]#lsb_release-aLSBVersion::core-4.1-amd64:core-4.1-noarchDistributorID:CentOSDescription:CentOSLinuxrelease7.9.2009(Core)Release:7.9.2009Codename:Corewgethttp://www.ffm
2025版自动控制流程_工业级连接_智能重连监控系统_增强型工业连接协议 ‘s Vision+Robot EPSON 资深设备全生命周期管理 python
importtimeimporttkinterastkfromtkinterimportmessageboxfromPILimportImage,ImageTkimportsocketimportthreadingfromdatetimeimportdatetimeimportloggingimportsubprocess#确保导入subprocess库importosimportpyautogu
创建数据/采集数据+从PI数据到PC+实时UI+To PLC 资深设备全生命周期管理 ui
Get_Data----------importcsvimportosimportrandomfromdatetimeimportdatetimeimportloggingimporttime#配置日志记录logging.basicConfig(filename='D:/_Study/Case/Great_Data/log.txt',level=logging.INFO,format='%(asc
亲测有用，轻松解决远程链接的“Gtk-WARNING **: cannot open display；”或“Cannot connect to display；”问题柳柳的博客 pyppeteer linux
远程连接服务器或者工作站的时候，通常不能打开一个GUI图形用户，而且在打开过程中会出现诸如：(gedit:46927):Gtk-WARNING**:cannotopendisplay:或者：指令名:Cannotconnecttodisplay的提示。那么如何解决这个问题呢？把它分为两种链接方式：用windows下的cmd链接远程的linux，另一种是用本地的linux系统链接远程的linux（两种
Linux命令学习笔记之 network NetworkManager kfepiza OS操作系统 Windows Linux 等 #Linux CentOS Ubuntu 等 linux 学习 centos
networkNetworkManager前言CentOS7最小安装下的测试220511心得:启动network能打开网络,关闭network能关闭网络启动NetworkManager能打开网络,关闭不会关闭网络在两者都启动的情况下,单停network会断网,单停NetworkManager不会一些摘抄前言这两个东西在centOS7最小安装无勾选附加时就存在Ubuntu20.04中只有Networ
数据库查询优化：提升性能的关键实践
title:数据库查询优化：提升性能的关键实践date:2025/1/30updated:2025/1/30author:cmdragonexcerpt:在当今数据驱动的商业环境中，数据库的性能直接影响着应用程序的响应速度和用户体验。查询优化是性能调优的重要组成部分，通过对SQL查询的分析与改进，减少查询执行时间和资源消耗，从而提升整体系统效率。categories:前端开发tags:查询优化数据
docker 拉取镜像报错 Error response from daemon: Get ‘https://registry-1.docker.io/v2/ ‘: context deadline 江西谢霆锋 docker 容器运维
阿里云服务器：docker拉取镜像报错Errorresponsefromdaemon:Get'https://registry-1.docker.io/v2/':contextdeadline遇到“Errorresponsefromdaemon:Get'https://registry-1.docker.io/v2/':contextdeadlineexceeded”这个错误，通常表示您的网络连接
AI技术学习笔记系列001：FastLanguageModel.get_peft_model 函数各参数的详细解释新说一二人工智能学习笔记
以下是关于代码中FastLanguageModel.get_peft_model函数各参数的详细解释，以及企业实际微调时的选择考量：参数详解及对微调的影响1.r=32（秩）作用：控制LoRA适配器的低秩矩阵的维度（秩），直接影响可训练参数数量。影响：r越大：适配器表达能力更强，能捕捉更复杂的任务特征，但可能导致过拟合（尤其数据量少时），训练时间和显存占用增加。r越小：参数量少，训练更快，显存占用低
Python个人学习笔记（2）：编程入门知识与基础语法介绍 NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
一、注释（一）作用1.对代码进行解释和说明避免自己忘了写的代码是做什么的——写给人看的，机器不运行不要去注释你代码做了什么，而要去注释我的代码为什么要这么做。用于记录思路、实现方法、代码功能注释很重要，大厂很重视，尤其日企2.调试代码报错的一篇代码，从下到上一句一句加#，依次运行，如果某行代码加了#后，程序运行成功，那么就是这行有问题，但这个方法不好。（二）注释方法1.单行注释==句子前加#快捷键
（自用）RocketMQ下载与使用 turncat rocketmq
1、去RocketMQ官网下载压缩包并解压（https://rocketmq.apache.org/zh/download/），添加环境变量。2、启动RocketMQ：进入自己的RocketMQ安装目录下的bin目录，输入下面命令启动nameserver：startmqnamesrv.cmd注：如果端口被占用，可以指定端口文件namesrv.properties文件里面写listenPort=99
Java学习笔记1.1_初识 Java 火车爱上轨道 Java编程语言基础 java 学习
初识Java前言一、Java概述1.什么是程序2.Java语言的产生和发展史3.Java可以做什么4.Java语言的特点二、Java语言环境搭建1.JDK、JRE、JVM关系2.安装JDK3.配置环境变量4.环境测试三、开发第一个Java程序1.开发Java程序的步骤2.用记事本开发Java程序四、Java程序的注释1.单行注释和多行注释2.文档注释五、Java程序的结构六、JavaAPI文档前言
JAVA第一课爱吃苹果的日记本 java
跟日记本一起学JAVA！相信你可以的，加油~本章闯关任务：1.cmd打开的方式（0/2）2.照猫画虎（0/5)3.好习惯（0/3）一.首先打开cmd:方法1.win图标+R图标（win的图标可能是四个小方格在你的键盘上，我的就是四个小方格，它是边摁win边摁R）会出来一个运行程序（名字叫“运行”），上面会显示“打开：”在“：”后输入cmd,就会出来小黑框了，进入的一般是系统所在的地方（大部分人的系
Adobe Premiere Pro2023配置要求小魚資源大雜燴 adobe windows
Windows系统最低配置处理器：Intel®第六代或更新版本的CPU，或AMDRyzen™1000系列或更新版本的CPU，需要支持AdvancedVectorExtensions2（AVX2）。操作系统：Windows10（64位）v20H2或更高版本。内存：8GB的RAM。GPU：2GB的GPU内存。存储：8GB可用硬盘空间用于安装，安装期间所需的额外可用空间，不能安装在可移动闪存存储器上，还
Python 入门『六哥』 Python python 开发语言
Python安装检测许多PC和Mac都已经安装了python。如果需要检查是否已在WindowsPC上安装了python，请在开始栏中寻找Python或在命令行（cmd.exe）上运行以下命令:C:\Users\YourName>python--version如果是检查是否在Linux或Mac上安装了python，请在Linux上打开命令行或在Mac上打开终端并键入:python--version
Adobe Photoshop CC 2025配置要求小魚資源大雜燴 windows
操作系统Windows：Windows10（版本22H2）或Windows11（版本21H2、22H2、23H2）。macOS：macOSMonterey（12.0）或更高版本。处理器：支持AVX2和SSE4.2的多核Intel、AMD或WinARM处理器。推荐使用最新一代的IntelCore或AMDRyzen处理器。内存最低要求：8GBRAM。推荐配置：16GB或更高，特别是对于处理高分辨率图像
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

Python爬虫入门学习笔记.md

Python网络爬虫

第一章 网络数据采集的一般流程

一、通过网站域名获取HTML数据

二、根据目标信息解析数据

三、存储目标信息

四、移至其他网页爬取

第二章 网络采集的常用工具

一、Firefox浏览器

二、requests库

三、BeautifulSoup和re

四、Selenium和Phantomjs

第三章 复杂html的解析

一、使用标签和属性

HTML 实例

实例解析

什么是HTML?

HTML 标签

HTML 元素

Web 浏览器

HTML 网页结构

HTML版本

<!DOCTYPE> 声明

通用声明

中文编码

HTML 实例

二、使用文本和关键字

HTML5

HTML 实例

HTML 标签

HTML 元素

HTML 网页结构

HTML版本

HTML5

HTML 4.01

HTML 实例

三、使用lambda表达式

实例解析

什么是HTML?

HTML 标签

HTML 元素

Web 浏览器

HTML 网页结构

HTML版本

<!DOCTYPE> 声明

通用声明

中文编码

四、使用正则表达式

五、使用导航树

第四章、采集单一网页特定数据训练

一、采集标题和文本

二、采集图片数据

三、采集表格形式的数据

第五章 遍历多个网页进行采集

网络爬虫的初级入门阶段学习就到此结束啦！！！

你可能感兴趣的:(Python爬虫入门学习笔记.md)

第一章网络数据采集的一般流程

第二章网络采集的常用工具

第三章复杂html的解析

第五章遍历多个网页进行采集