阿优乐扬

python爬虫实战之爬取中国农药网

前言：这算是和研究生老师第一次正式的进行项目，虽说开始的有点随便，但是第二战还是挺成功的！自己作为一个本科生，也很幸运可以跟着学点知识，随便帮自己学院的老师出点力。还记得第一次交接任务时是和陈瑞学长，初战《贵州农经网》，还算成功，后来由于需要分类，暂时告一段落。
这次的目标是《中国农药网》，这是一个农药行业门户网站，集信息资讯、农药信息，交易服务于一体的专业化、电子商务平台。我主要就是获取到某类农药的具体信息，如：名称，品牌，生产许可证，预防对象，农药登记号等信息

文章目录

1、分析目标
- 1.1、实现思路
- 1.2、思路解析
2、使用正则匹配商品信息
- 2.1、请求网页源码
- 2.2、分析网页
- 2.3、匹配网页信息
- - 2.3.1、网页预处理
  - 2.3.2、匹配信息测试与方法改进
  - - 2.3.2.1、普通匹配信息测试
    - 2.3.2.2、替换中英文符号的重要性
    - 2.3.2.3、结束标签的选择
    - 2.3.2.4、模糊定位匹配
- 2.4、匹配全部信息源代码汇总
3、使用BS4爬取主页信息
- 3.1、requests请求数据
- 3.2、两次提取数据失败
- 3.3、提取数据成功
- 3.4、构造所有首页路径
- 3.5、随机模拟不同的客户端
4、所有源码汇总

1、分析目标

这个项目初步看起来有点棘手，但也不是很难，主要是它和很多网页不一样的是，它的商品信息介绍不规范，详细信息是由厂家自己写上去的，所有只能使用正则表达式去匹配到关键词，再获取信息。

1.1、实现思路

可以把这个网站分为子页和主页两个先分开进行，分别写好对应的代码后，再把它进行合并。这样会更方便对网页的解析学习，从而提升开发效率。

1.2、思路解析

我需要先从主页面获取到每个商品的具体链接，然后通过这个链接请求到网页源代码，再进行相关信息匹配。
首页如图示：

从这里我们可以看到它信息都是以列表的形式来显现的，并且很规范，对于这样的信息，是非常容易拿到手的。
我从这里获取到一个商品的链接后，就可以进去它的详细页面了，如图：

通过对几个页面的信息进行比较，会发现这些信息的排布并没有规律，标签也不统一，直接就是用户自己描述的，但是它们信息的关键词没有多大的变化，所有可以使用正则表达式来进行匹配到相关信息。

2、使用正则匹配商品信息

2.1、请求网页源码

这个网站没有反爬虫的措施，我直接使用requests请求网页源码，不需要做任何伪装,拿到源码并没有任何难度。

import requests
url = "http://www.agrichem.cn/u850386/2019/02/22/ny1535604683.shtml"
html = requests.get(url).text
print(html)

建议拿到网页源码后，先别忙着去提取信息，最好先检查结果一下是否包含我们需要的信息：

2.2、分析网页

为什么要分析网页？分析网页的目的就是为了选择恰当的方法拿到更准确的信息，特别是对于这种没有规则的网站，非常有必要进行详细的分析。通过Ctrl+F实现查找，有时候可以本身是存在的，但是就没有检索到结果，这时候就有必要检查一下符号是否中英文一致了，或者缺少空格之类的，建议用来查找的关键词字数不要太多！

2.3、匹配网页信息

这个地方最好的方式是选择正则表达式来匹配信息，简单的介绍一下正的用法，比如我截取的这个代码片段来提取信息：

html = """

        品牌: 诺尔特
成分含量: 1%－30%
包装规格: 25毫升+2包
助剂净重: 0.02kg
毒性: 低毒
剂型: 乳油
农药成分: 烯草酮
农药类型: 有机农药
农药登记证号: PD20132201
         
           
                  
        
"""

从上面的信息来看，我们要提取的信息都有很关键的分隔标记，比如：和,我们要的东西正好在这里面，但是该信息中有一些信息是多余的，如，拿到信息后还需要把它去掉，为了程序的重复性，可以先把它去掉，在提取信息

2.3.1、网页预处理

（1） 先去掉干扰标签" "
（2） 把英文:替换为中文：

html.replace(" ","").replace(":","：")

结果如下：

2.3.2、匹配信息测试与方法改进

现在虽然文中还有\n和空格，但是已经不会影响我们匹配信息了，正则表达式的简单运用，掌握.*?就可以要到自己想要的信息了。

2.3.2.1、普通匹配信息测试

使用方法：.*?代替不需要的部分+关键标记+(.*?)需要提取的信息+关键标记，如下例所示：
找到品牌:

import re
re.findall('.*?品牌:(.*?)
.*?',html)#品牌

#运行结果
['诺尔特']

找到毒性:

找到图片链接:

import re
re.findall('.*?src="(.*?)".*?',html)

2.3.2.2、替换中英文符号的重要性

这样爬取信息很方便吧？但是问题来了，你有没有想过关键词的后面符号是中文状态，或者是英文状态，它不就匹配不了了吗？如：

重点： 所以在拿到这个网页源码的时候，必须先它的英文符号:替换为中文的：，统一字符，方便定位信息。

2.3.2.3、结束标签的选择

从上文来看，我们对文字信息选择的结束标签都是,替换掉我们要匹配的关键词，似乎都能完成我们所要匹配的任务，但是如果我们要匹配的信息在该段落后面呢，这样它的结束标签是

,这样的话使用

不就匹配不到了吗？如html中的“农药登记证号：”

import re
html = """
农药登记证号：PD20132201
"""
re.findall('.*?农药登记证号：(.*?)
.*?',html)

#输出结果：
[]

改进方法：

re.findall('.*?农药登记证号：(.*?),html)

重点： 我们选择结束标签时必须要选择所有关键词都共同拥有的结束标记,这样无论是还是

结束，都可以完美解决了！ 
  2.3.2.4、模糊定位匹配 
   
   为什么还要进行模糊定位匹配呢？
 主要是因为用户上传的说明千奇百怪，好在关键词不离其中，或者关键词不在末尾和ming
 案例1：
 如“农药登记证号：”，有些用户写成“产品登记证号”，所有就只能选择“登记证号：”作为关键词 
   
  import re
html = """
**登记证号：PD20132201
"""
re.findall('.*?登记证号：(.*?),html)

#运行结果：
['PD20132201']
 
  案例2：
 如“生产许可证”在有些地方又叫“产品标准号”，所以必须要考虑到，并且不能把：作为关键字符，防止它关键词在中间匹配不到信息，最后匹配到的信息，以：作为定位符切割数据。如图：
 
 提取方式： 
  html = """农药生产许可证/批准文号：HNP32224-D3889
"""
standard = re.findall('.*?生产许可证(.*?),html)#生产许可证号
if len(standard) ==0:
    standard = re.findall('.*?产品标准号(.*?),html)#生产许可证号
if len(standard) !=0:
    standard = str(standard[0]).split('：')[-1]#[-1]表示向右边截取所有数据
print(standard)
 
  输出结果： 
  HNP32224-D3889
 
  2.4、匹配全部信息源代码汇总 
  import requests,re,time
from lxml import etree
start = time.time()

url = "http://www.agrichem.cn/u850386/2019/02/22/ny1535604683.shtml"
html = requests.get(url).text
etrees = etree.HTML(html)

good_type = etrees.xpath('/html/body/div[3]/div[1]/a[last()-1]/text()')#投入品类型
input_name = etrees.xpath('/html/body/div[3]/div[1]/a[last()]/text()')#投入品名称

html = html.replace(" ","").replace(":","：")
brank = re.findall('.*?品牌：(.*?),html)#品牌
if len(brank) == 0:
    brank = re.findall('.*?名称：(.*?),html)#品牌

standard = re.findall('.*?生产许可证(.*?),html)#生产许可证号
if len(standard) ==0:
    standard = re.findall('.*?产品标准号(.*?),html)#生产许可证号
if len(standard) !=0:
    standard = str(standard[0]).split('：')[-1]

prevention = re.findall('.*?防治对象：(.*?),html)#防治对象

toxicity = re.findall('.*?毒性：(.*?),html)#毒性

register = re.findall('.*?登记证号(.*?),html)#农药登记证号
if len(register) != 0:
    register = str(register[0]).split('：')[-1]
    
print (good_type,input_name,brank,standard,prevention,toxicity,register)
end = time.time()
use_time = (end-start)/60
print ("您所获获取的信息一共使用%s分钟"%use_time)
 
  输出结果： 
  ['除草剂'] ['烯草酮'] ['诺尔特'] [] [] ['低毒'] PD20132201
您所获获取的信息一共使用0.14976612329483033分钟
 
  3、使用BS4爬取主页信息 
   
   刚开始我还以为这个页面的信息很容易爬取到，因为它对源码没有反爬措施，但是，它对信息的提取就有了很大的限制，就相当于给你HTML源码，但是不让你筛选信息，否则就隐藏自己的数据，我也是第一次见这种情况，还是花了一点时间才搞定的 
   
  3.1、requests请求数据 
  import requests
index = "http://www.agrichem.cn/nylistpc/%E5%86%9C%E8%B5%84-%E5%86%9C%E8%8D%AF-%E6%9D%80%E8%8F%8C%E5%89%82-----1-.htm?type=&isvip=&personreal=&companyreal="
indexHtml = requests.get(index).text
print(indexHtml)
 
  成功拿到数据：
  
  3.2、两次提取数据失败 
   
   然后我就开始顺手的使用lxml来解析网页提取数据了，但是经过多次测试，居然都失败了，这里就不描述了。。。 
   我开始使用正则表达式来提取信息，先来看看源网页：
  
   总之，干扰项实在是太多，先去掉这些无用的东西吧 
   
  indexHtml = indexHtml.replace("\r\n","").replace("\t","")
 
   
   
   这里也是有点奇怪了，我昨天爬取时，先拿到了源码，主要是使用替换功能，它就把我需要的数据隐藏起来，今天居然可以看到数据了，继续。。。 
   
   
   用正则提取所有数据 
   
  import requests,re
index = "http://www.agrichem.cn/nylistpc/%E5%86%9C%E8%B5%84-%E5%86%9C%E8%8D%AF-%E9%99%A4%E8%8D%89%E5%89%82------.htm?type=&isvip=&personreal=&companyreal="
indexHtml = requests.get(index).text
indexHtml = indexHtml.replace("\r\n","").replace("\t","")
r = re.compile('.*class="first-td">.*?href="(.*?)".*?list-yin-a">.*?src="(.*?)".*?class="small-grey-font">(.*?)*(.*?).*?')
name= re.findall(r,indexHtml)
print (name)
 
   
   运行结果： 
   
  [('http://www.agrichem.cn/u850386/2019/02/21/ny4036860408.shtml', 'http://tradepic.jinnong.cn/userfiles/850386/images/npriceProduct/npriceProduct/2019/02/ys9.jpg', '金农网农药商城', '黑龙江')]
 
   
   它居然就只拿到一条数据就不执行了！！！ 
   
  3.3、提取数据成功 
   
   后来我把目标发放在BS4的上面，结果重要成功了！ 
   
  import requests
from bs4 import BeautifulSoup

def get_html(index):
    indexHtml = requests.get(index).text
    remove(indexHtml)
    
def remove(indexHtml):
    soup = BeautifulSoup(indexHtml, "html.parser")
    for tr in soup.find_all('tr'):
        try:
            company = tr.find(attrs={
     "class":"small-grey-font"}).get_text()#公司名称
            good_link = tr.find_all('a')[0].get('href')#商品链接
            address = tr.find_all('td')[3].get_text()#产地
            good_pic = tr.find_all('img')[0].get('src')#图片路径
            print (company,good_link,address,good_pic)
        except:
            print ("这是标题，没有找到数据")
    
if __name__ == '__main__':
    index = "http://www.agrichem.cn/nylistpc/农资-农药-杀菌剂-----4-.htm?type=&isvip=&personreal=&companyreal="
    get_html(index)
 
   
   提取结果如下： 
   
  这是标题，没有找到数据
潍坊奥丰作物病害防治有限公司 http://www.agrichem.cn/u462913/2018/03/06/ny5758621412.shtml 山东 http://tradepic.jinnong.cn/userfiles/462913/images/npriceProduct/npriceProduct/2018/03/%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20180207123707_%E5%89%AF%E6%9C%AC_%E5%89%AF%E6%9C%AC.jpg
潍坊奥丰作物病害防治有限公司 http://www.agrichem.cn/u462913/2018/03/19/ny2819540869.shtml 山东 http://tradepic.jinnong.cn/userfiles/462913/images/npriceProduct/npriceProduct/2018/11/C3A4BEC77F701DE5AFCC18B2831353B5.jpg
潍坊奥丰作物病害防治有限公司 http://www.agrichem.cn/u832227/2018/10/10/ny1423363037.shtml 山东 http://tradepic.jinnong.cn/userfiles/832227/images/npriceProduct/npriceProduct/2018/10/43b1OOOPICe7%20(1)_%E5%89%AF%E6%9C%AC22.jpg
河南卓美农业科技有限公司 http://www.agrichem.cn/u819902/2018/01/08/ny5108840639.shtml 河南 http://tradepic.jinnong.cn/userfiles/819902/_thumbs/images/npriceProduct/npriceProduct/2018/01/%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20180106183557.jpg
河南卓美农业科技有限公司 http://www.agrichem.cn/u819902/2018/01/03/ny3604101956.shtml 河南 http://tradepic.jinnong.cn/userfiles/819902/_thumbs/images/npriceProduct/npriceProduct/2018/01/1-1G1141J10O48.jpg
潍坊奥丰作物病害防治有限公司 http://www.agrichem.cn/u462913/2018/03/19/ny4721304356.shtml 山东 http://tradepic.jinnong.cn/userfiles/462913/images/npriceProduct/npriceProduct/2018/11/LGICJ9%7B%25S3V%5BO9%40F)7L9%24OA_%E5%89%AF%E6%9C%AC.jpg
河南卓美农业科技有限公司 http://www.agrichem.cn/u819902/2018/01/07/ny4744431710.shtml 河南 http://tradepic.jinnong.cn/userfiles/819902/_thumbs/images/npriceProduct/npriceProduct/2018/01/%E5%BE%AE%E4%BF%A1%E5%9B%BE%E7%89%87_20180106183544.jpg
潍坊奥丰作物病害防治有限公司 http://www.agrichem.cn/u839662/2018/08/18/ny4431648810.shtml 江西 http://tradepic.jinnong.cn/userfiles/839662/images/npriceProduct/npriceProduct/2018/08/%E6%9E%9D%E5%B9%B2%E6%BA%83%E8%85%90%E7%81%B5.jpg
河南卓美农业科技有限公司 http://www.agrichem.cn/u819902/2018/01/03/ny0402204907.shtml 河南 http://tradepic.jinnong.cn/userfiles/819902/images/npriceProduct/npriceProduct/2018/01/1-1G1141J53S19.jpg
河南卓美农业科技有限公司 http://www.agrichem.cn/u819902/2018/01/03/ny4136385189.shtml 河南 http://tradepic.jinnong.cn/userfiles/819902/_thumbs/images/npriceProduct/npriceProduct/2018/01/1-1G1141JAU02.jpg
河南卓美农业科技有限公司 http://www.agrichem.cn/u819902/2018/01/03/ny2515692603.shtml 河南 http://tradepic.jinnong.cn/userfiles/819902/_thumbs/images/npriceProduct/npriceProduct/2018/01/1-1G1141K445D6.jpg
河南卓美农业科技有限公司 http://www.agrichem.cn/u819902/2018/01/03/ny4340308460.shtml 河南 http://tradepic.jinnong.cn/userfiles/819902/_thumbs/images/npriceProduct/npriceProduct/2018/01/1-1G1141K044W7.jpg
 
  注意： 
   
   为什么这里要用 try:?
 一方面来说，是为了防止标签或数据缺失而报错，只要的目的是跳过标题栏的数据，因为它的标签和正文的一样
 
 它们都在tr标签之中，但是标题的内容是th,所有输出的数据为[ ],try:的目的数据跳过这些空值，当然也可以使用条件语句它判断它。 
   
  3.4、构造所有首页路径 
  for page in range(1,5,1):
    index = "http://www.agrichem.cn/nylistpc/农资-农药-除草剂-----%s-.htm?type=&isvip=&personreal=&companyreal="%page
    print ("正在爬取第%s个主页的信息"%page)
    print(index)
 
  运行结果： 
  正在爬取第1个主页的信息
http://www.agrichem.cn/nylistpc/农资-农药-除草剂-----1-.htm?type=&isvip=&personreal=&companyreal=
正在爬取第2个主页的信息
http://www.agrichem.cn/nylistpc/农资-农药-除草剂-----2-.htm?type=&isvip=&personreal=&companyreal=
正在爬取第3个主页的信息
http://www.agrichem.cn/nylistpc/农资-农药-除草剂-----3-.htm?type=&isvip=&personreal=&companyreal=
正在爬取第4个主页的信息
http://www.agrichem.cn/nylistpc/农资-农药-除草剂-----4-.htm?type=&isvip=&personreal=&companyreal=
 
  3.5、随机模拟不同的客户端 
  如果需要使用模拟不同的客户端，可以使用fake_useragent随机生成UserAgent，但是在这里并须需要这个，可以简单的说下这个方法： 
   
   随机生成5个不同浏览器的UserAgent： 
   
  from fake_useragent import UserAgent
for i in range(5):
    print(UserAgent().random)
 
  生成结果： 
  Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.116 Safari/537.36 Mozilla/5.0 (iPad; U; CPU OS 3_2 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Version/4.0.4 Mobile/7B334b Safari/531.21.10
Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 5.2; Trident/4.0; Media Center PC 4.0; SLCC1; .NET CLR 3.0.04320)
Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36
Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20100101 Firefox/19.0
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36
 
   
   随机生成5个谷歌浏览器的UserAgent： 
   
  from fake_useragent import UserAgent
for i in range(5):
    print(UserAgent().chrome)
 
  生成结果： 
  Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1664.3 Safari/537.36
Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.517 Safari/537.36
Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36
Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36
 
  4、所有源码汇总 
  import requests,re,csv,time
from lxml import etree
from bs4 import BeautifulSoup
start = time.time()

#创建CSV文件
fp = open('D:\\中国农药网.csv','a',newline='',encoding='utf-8')
writer = csv.writer(fp)
writer.writerow(('生成厂商','商品链接','投入品类型','投入品名称','品牌','生产许可证','预防对象','毒性','农药登记号','地址','图片链接')) #csv头部

def get_html(index):
    indexHtml = requests.get(index).text
    print ("~"*80)
    soup = BeautifulSoup(indexHtml, "html.parser")
    for tr in soup.find_all('tr'):
        try:
            company = tr.find(attrs={
     "class":"small-grey-font"}).get_text()#公司名称
            address = tr.find_all('td')[3].get_text()#产地
            good_pic = tr.find_all('img')[0].get('src')#图片路径
            good_link = tr.find_all('a')[0].get('href')#商品链接，并请求该链接
            print ("-"*80)
            try:
                html = requests.get(good_link).text
                etrees = etree.HTML(html)
                good_type = etrees.xpath('/html/body/div[3]/div[1]/a[last()-1]/text()')[0]#投入品类型
                input_name = etrees.xpath('/html/body/div[3]/div[1]/a[last()]/text()')[0]#投入品名称
                html = html.replace(" ","").replace(":","：")
                brank = re.findall('.*?品牌：(.*?),html)[0]#品牌
                if len(brank) == 0:
                    brank = re.findall('.*?名称：(.*?),html)[0]#品牌

                standard = re.findall('.*?生产许可证(.*?),html)[0]#生产许可证号
                if len(standard) ==0:
                    standard = re.findall('.*?产品标准号(.*?),html)[0]#生产许可证号
                if len(standard) !=0:
                    standard = str(standard).split('：')[-1]#截取：后面的所有数据

                prevention = re.findall('.*?防治对象：(.*?),html)[0]#防治对象

                toxicity = re.findall('.*?毒性：(.*?),html)[0]#毒性

                register = re.findall('.*?登记证号(.*?),html)[0]#农药登记证号
                if len(register) != 0:
                    register = str(register).split('：')[-1]
            except:
                pass
            position = (company,good_link,good_type,input_name,brank,standard,prevention,toxicity,register,address,good_pic)
            print (position)
            writer.writerow((position))#写入数据 
        except:
            print ("这是标题，没有找到数据")
            pass
    
def main():
    for page in range(1,8,1):
        index = "http://www.agrichem.cn/nylistpc/农资-农药-除草剂-----%s-.htm?type=&isvip=&personreal=&companyreal="%page
        print ("正在爬取第%s个主页的信息"%page)
        get_html(index)

if __name__ == '__main__':
    main()
    end = time.time()
    use_time = (end-start)/60
    fp.close() #关闭文件 
    print ("您所获获取的信息一共使用%s分钟"%use_time)
 
  编辑器运行结果截屏：
 
 csv结果截屏：
  
   
   总结：对于一个刚入门的小白来说，可能在爬某个网站的时候会遇见很多看是简单，但是很复杂的网页，反正先不要怕，试作把它细分，一步一步的来完成，多尝试用不同的库来解析网页，总会找到自己忽略掉的地方，这样才能不断的提升自己的能力！

为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
Maya自定义右键菜单样例教程 holy-pills
本文还有配套的精品资源，点击获取简介：本文详细指导如何在Maya中通过脚本节点自定义右键菜单，增强工作效率和个性化工作环境。自定义右键菜单允许用户根据个人习惯调整菜单项，使之更加便捷。文章介绍了创建脚本节点、编写菜单脚本、关联菜单到视图以及保存和加载自定义菜单的具体步骤。同时提供了实际操作样例，帮助用户更好地理解和应用这一技巧。1.Maya自定义右键菜单的重要性Maya，作为三维动画制作的行业标准
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
android查看so路径
之前遇到过一个问题，apk中有一个so无法确定其路径，是由哪个依赖引入的，网上查询一番后这里记录一下。build.gradle中添加如下任务//列出所有包含有so文件的库信息tasks.whenTaskAdded{task->if(task.name=='mergeDebugNativeLibs'){//如果是有多个flavor，则用mergeFlavorDebugNativeLibs的形式tas
Docker指定网桥和指定网桥IP
$dockernetworklsNETWORKIDNAMEDRIVER7fca4eb8c647bridgebridge9f904ee27bf5nonenullcf03ee007fb4hosthostBridge默认bridge网络,我们可以使用dockernetworkinspect命令查看返回的网络信息，我们使用dockerrun命令是将网络自动应用到新的容器Host如果是hosts模式，启动容
从《哪吒 2》看个人IP的破局之道|创客匠人
《哪吒2》以破竹之势登顶中国影史票房榜，不到9天票房突破62亿，观众自发为其“冲百亿”的热情，揭示了一个朴素却深刻的商业逻辑：IP的真正生命力，不在于短暂曝光，而在于用户愿意用行动投票的长期信任。这种逻辑，同样适用于2025年个人IP的增长突围。流量失效的真相：用户体验断层终结增长如今的IP运营者常陷入一个误区：疯狂追逐流量，却留不住用户。短视频投流成本翻倍，内容越做越多粉丝却不涨，好不容易成交的
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
Windows平台下Android Studio搭建Flutter开发环境的正确姿势（202506）
Flutter作为Google推出的跨平台移动应用开发框架，近年来获得了广泛关注。它允许开发者使用单一代码库构建iOS和Android应用，大大提高了开发效率。本文将带你一步步在Windows系统上搭建完整的Flutter开发环境。第一步：下载并安装FlutterSDK首先，我们需要获取FlutterSDK：访问Flutter官方中文文档的安装页面：https://docs.flutter.cn/
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
javaSE面试题---语法基础、面向对象、常用类、集合、多线程、文件和IO yang_xiao_wu_ java 面试开发语言 javase java基础多线程文件和IO
目录语法基础1.jdkjrejvm区别2.基本数据类型3.引用数据类型4.自动类型转换、强制类型转换5.常见的运算符6.&和&&区别7.++--在前和在后的区别8.+=有什么作用9.switch..case中switch支持哪些数据类型10.break和continue区别11.while和dowhile区别12.如何生成一个取值范围在[min,max]之间的随机数13.数组的长度如何获取？数组下
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

python爬虫实战之爬取中国农药网

文章目录

1、分析目标

1.1、实现思路

1.2、思路解析

2、使用正则匹配商品信息

2.1、请求网页源码

2.2、分析网页

2.3、匹配网页信息

2.3.1、网页预处理

2.3.2、匹配信息测试与方法改进

2.3.2.1、普通匹配信息测试

2.3.2.2、替换中英文符号的重要性

2.3.2.3、结束标签的选择

2.3.2.4、模糊定位匹配

2.4、匹配全部信息源代码汇总

3、使用BS4爬取主页信息

3.1、requests请求数据

3.2、两次提取数据失败

3.3、提取数据成功

3.4、构造所有首页路径

3.5、随机模拟不同的客户端

4、所有源码汇总

你可能感兴趣的:(爬虫项目实战,Python实战,Python项目,python爬虫,爬取中国农药网,获取农药信息,正则匹配信息,爬虫项目开发)