不明真相的板蓝根

一个简单地爬虫教程

功能：爬取目标网站全部主要图片（例子中是美图录网站的全部写真图片，按人名分类）

本示例使用Python3.5，需要额外安装BeautifulSoup 4

BeautifulSoup 4 安装方法：

Linux：
sudo apt-get install python-bs4

Mac:
sudo easy_install pip
pip install beautifulsoup4

Windows:
下载源码后，
python setup.py install
或者：
pip install beautifulsoup4

具体安装方式见：点这里

分析网站结构

目标网站“美图录”（别问我为什么选这个网站。。。百度上“随便”找的）

因为打算下载全部的网页图片，所以从最小的单元开始，也就是图片集（再小就是单一的图片了，也就可以直接下载了）

先打开首页，随便点开一个图片集，发现图片集的地址是这样的
http://www.meitulu.com/item/7487.html
在图片集中检查页面元素，如下所示

<div class="content">
  <center>
    ![[Ugirls尤果网] U181 陈雅漫 写真套图_第1页/第1张图](http://upload-images.jianshu.io/upload_images/2475481-8cdfce535296ab31.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
  center>
  <center>
    ![[Ugirls尤果网] U181 陈雅漫 写真套图_第1页/第3张图](http://upload-images.jianshu.io/upload_images/2475481-43e882deb2d0c0cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
  center>
  <center>
    ![[Ugirls尤果网] U181 陈雅漫 写真套图_第1页/第4张图](http://upload-images.jianshu.io/upload_images/2475481-2d5cb01257ad639e.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)    
  center>
  <center>
    ![[Ugirls尤果网] U181 陈雅漫 写真套图_第1页/第5张图](http://upload-images.jianshu.io/upload_images/2475481-8e773c5ec770c466.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
  center>
div>

发现每一张主要图片资源链接都在center标签中，这样就可以在这个页面上提取图片链接并下载了
继续向下，发现下图所示，图片并不是存放在一个页面中的

而检查这里的html代码可以看到

<div id="pages">
  <a class="a1" href="http://www.meitulu.com/item/7487.html">上一页a>
  <span>1span>
  <a href="http://www.meitulu.com/item/7487_2.html">2a>
  <a href="http://www.meitulu.com/item/7487_4.html">4a>
  <a href="http://www.meitulu.com/item/7487_5.html">5a>
  <a href="http://www.meitulu.com/item/7487_6.html">6a>
  <a href="http://www.meitulu.com/item/7487_7.html">7a>
  <a href="http://www.meitulu.com/item/7487_8.html">8a>
  <a href="http://www.meitulu.com/item/7487_9.html">9a>
  <a href="http://www.meitulu.com/item/7487_10.html">10a>
  ".."
  <a href="http://www.meitulu.com/item/7487_16.html">16a>
  <a class="a1" href="http://www.meitulu.com/item/7487_2.html">下一页a>
div>

这个页面列表在class=”pages”的div标签中，当前页是用span标签装饰的，我们可以通过提取 下一页 按钮的链接来继续下载下一个页面的图片，但是我们怎么知道什么时候会到最后一页呢？点击最后一个页面的按钮，这里就是16页。再次检查这一部分的html代码

<div id="pages">
  <a class="a1" href="http://www.meitulu.com/item/7487_15.html">上一页a>
  <a href="http://www.meitulu.com/item/7487.html">1a>
  ".."
  <a href="http://www.meitulu.com/item/7487_7.html">7a>
  <a href="http://www.meitulu.com/item/7487_8.html">8a>
  <a href="http://www.meitulu.com/item/7487_9.html">9a>
  <a href="http://www.meitulu.com/item/7487_10.html">10a>
  <a href="http://www.meitulu.com/item/7487_11.html">11a>
  <a href="http://www.meitulu.com/item/7487_12.html">12a>
  <a href="http://www.meitulu.com/item/7487_13.html">13a>
  <a href="http://www.meitulu.com/item/7487_14.html">14a>
  <a href="http://www.meitulu.com/item/7487_15.html">15a>
  <span>16span>
  <a class="a1" href="http://www.meitulu.com/item/7487_16.html">下一页a>
div>

从这段代码中可以看到，下一页 按钮的链接指向的是16页，也就是当前页，而前面的页面指向的都是当前页的下一页。所以我们可以利用这一点来判断是否到最后一页。这样我们就有了下载一个完整图片集的思路了。

下面我们看看如何获得所有图片集的链接

发现网站首页有一个图集分类，我们可以认为他把网站上所有的资源都放在这里分好类了，随便点开一个分类，可以看到里面有排列整齐的图集，检查html代码

<div class="boxs">
  <ul class="img">
    <li>
      <a href="http://www.meitulu.com/item/8144.html" target="_blank">
        ![[尤蜜荟] 可乐Vicky 苏梅岛旅拍 第二刊 ~[43]](http://upload-images.jianshu.io/upload_images/2475481-1915763ae66ee8ad.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
      a>
      <p><span>3span>图片： 43 张(1600X2400)p>
      <p>机构：
        <a href="http://www.meitulu.com/t/tgod/" target="_blank" class="tags">推女神a>
      p>
      <p>模特：
        <a href="http://www.meitulu.com/t/kele-vicky/" target="_blank" class="tags">可乐Vickya>
      p>
      <p>标签：
        <a href="http://www.meitulu.com/t/jipin/" target="_blank" class="tags">极品a>
        <a href="http://www.meitulu.com/t/nvshen/" target="_blank" class="tags">女神a>
        <a href="http://www.meitulu.com/t/qingxin/" target="_blank" class="tags">清新a>
        <a href="http://www.meitulu.com/t/qingchun/" target="_blank" class="tags">清纯a>
        <a href="http://www.meitulu.com/t/weimei/" target="_blank" class="tags">唯美a>
        <a href="http://www.meitulu.com/t/huwai/" target="_blank" class="tags">户外a>
        <a href="http://www.meitulu.com/t/yangyan/" target="_blank" class="tags">养眼a>
      p>
      <p class="p_title">
        <a href="http://www.meitulu.com/item/8144.html" target="_blank">[尤蜜荟] 可乐Vicky 苏梅岛旅拍 第二刊 ~a>
      p>
    li>
    "..."
    
  ul>
div>

从这段代码中可以发现，所有的图集被放在了

标签中，每个图集的信息中包含模特名字，发行机构和一系列的标签。每一个信息对应一个链接，链接中是包含对应信息的图集的分类页面，这里我们按照人名分类，所以只要检索模特关键字就可以了。
这段页面的下方也是一个页面列表，检查html元素会发现与图集的列表模式相同。

另外，对于某些只有一个图集的人来说，他没有对应的分类页面，对于这些人要另外处理

小结

根据这些特征，我们遍历分类页面中的所有图集，通过字典记录人名对应的链接，如果遇到没有分类页面的人，则直接创建文件夹，下载图集。这样我们前期的分析工作就完成了，下面

开始写爬虫吧

先初始化几个要用到的全局变量

categaries = {}                        # 分类列表
person = {}                            # 人名列表
PATH = os.getcwd()                     # 根目录路径
forbidchar = r'<|>|/|\\|\||:|"|\*|\?'  # 系统禁止用作文件名的字符，正则表达式

一、图片下载函数

首先，我们要下载网站上所有的图片，所以需要有一个给定图片链接就能下载下来的函数：

def downloadimg(link, name):            # link为图片链接，name为图片名字
    data = urlopen(link, timeout=10)    # 打开连接
    tname = name+".jpg"                 # 给图片命名
    with open(tname, "ab") as code:     # 以追加二进制模式打开文件，并保存数据
        code.write(data.read())
    print(tname+" is done.")            # 打印提示文字

但这还不够，因为经常会碰到链接没有响应的情况，所以加上异常处理

def downloadimg(link, name):
    name = re.split(forbidchar, name)
    name = '.'.join(name)               # 通过re模块的split，将windows不支持的文件名符号，全部换成'.'
    for i in range(10):
        time.sleep(0.5)                 # 照顾别人服务器的带宽，适当加点延时。。。加多少看你心情
        try:
            data = urlopen(link, timeout=10)
            tname = name+".jpg"
            with open(tname, "ab") as code:
                code.write(data.read())
            print(tname+" is done.")
            break
        except Exception:
            time.sleep(3)               # 多数情况下，上面的语句中只有urlopen会出现无响应的异常，这时等待三秒，重新发送请求

二、图集下载函数

更进一步的，我们要处理一个给定链接的图集，首先我们写一个下载当前页面的主要图片的功能

def downloaditem(link, ):
    html = urlopen(link, timeout=100)          # 打开链接
    bsObj = BeautifulSoup(html, "html.parser") # 用bs解析html

    for center in bsObj.findAll("center"):     # 找到所有的center标签
        for img in center.findAll("img"):      # 找到其中包含img标签的
            boola = downloadimg(img.attrs['src'], img.attrs['alt'])
                                               # 下载image，并以图片的alt属性内容给图片命名

但这还没完，记得前面提到的页面列表么，我们还要继续下载 下一页 的图片。于是继续

def downloaditem(link, ):
    html = urlopen(link, timeout=100)
    bsObj = BeautifulSoup(html, "html.parser")

    for center in bsObj.findAll("center"):
        for img in center.findAll("img"):
            boola = downloadimg(img.attrs['src'], img.attrs['alt'])
#---------------------------------------------------------------------------
    page = bsObj.find("div", {"id":"pages"})   # 找到所有id属性为pages的div标签
    for a in page.findAll("a", {"class":"a1"}):
                                               # 找到其中class属性为a1的a标签
        if re.search(re.compile(r'下一页'), a.getText()):
                                               # 如果标签内容包含下一页
            number = re.search(re.compile(r"http://www\.meitulu\.com/.*?_([0-9]*?)\.html"), a.attrs['href'])
                                               #用正则表达式匹配链接中的页码
            if number:                         #如果匹配成功，失败时number为None
                link = number.group(0)         #提取页面链接
                number = number.group(1)       #提取页码
                if number != page.find('span').getText():
                                               #如果链接的页码跟当前页码不同，则不是最后一页，
                    print("download deeper...")#输出提示信息
                    downloaditem(link)         #继续下载下一页

完善一下代码，添加异常捕捉和延时

def downloaditem(link, ):
    for i in range(10):
        time.sleep(1)
        try:
            html = urlopen(link, timeout=100)
            break
        except Exception:
            print("Url Erroe")
            time.sleep(2)

    for i in range(10):
        try:
            bsObj = BeautifulSoup(html, "html.parser")
            break
        except Exception:
            print("Soup Error")

    for center in bsObj.findAll("center"):
        for img in center.findAll("img"):
            boola = downloadimg(img.attrs['src'], img.attrs['alt'])

    time.sleep(2)
    page = bsObj.find("div", {"id":"pages"})
    for a in page.findAll("a", {"class":"a1"}):
        if re.search(re.compile(r'下一页'), a.getText()):
            number = re.search(re.compile(r"http://www\.meitulu\.com/.*?_([0-9]*?)\.html"), a.attrs['href'])
            if number:
                link = number.group(0)
                number = number.group(1)
                if number != page.find('span').getText():
                    print("download deeper...")
                    downloaditem(link)

三、获取人名分类下的所有图集链接

def downloadperson(link, name):
    name = re.split(forbidchar, name)
    name = '.'.join(name)                      # 跟图片文件名原理一样，替换被禁止的字符
    personitems = {}

    if not os.path.exists(name):               # 检查这个人的文件夹之前有没有创建
        os.mkdir(name)                         # 如果没有就创建一个
    os.chdir(name)                             # 进入这个目录

    html = urlopen(link, timeout=100)          # 打开链接
    bsObj = BeautifulSoup(html, "html.parser") # 用bs解析


    for boxs in bsObj.findAll("div", {"class":"boxs"}): # 找到装载图片集的标签
        for li in boxs.findAll("li"):                   # 处理每一个图片集
            for p in li.findAll('p', {"class":"p_title"}): # 找到包含图片链接的p标签
                psn = p.find('a')
                personitems[psn.getText()] = psn.attrs['href'] # 用文件名作为key给字典添加图集链接

    PATHtmp = os.getcwd()                      # PATHtmp是这一层人名文件夹的路径
    for key in personitems:                    # 遍历字典，下载每一个图集
        print('\n', "downloading ", key, '\n')
        if not os.path.exists(key):            # 检验文件夹是否存在
            os.mkdir(key)
        os.chdir(key)                          # 进入文件夹
        downloaditem(personitems[key])         # 下载图集
        os.chdir(PATHtmp)                      # 回到上一层目录，这里用的绝对路径，避免中途被打断导致后面的下载也出现错误

    os.chdir(PATH)                             # 回到根目录

完善代码，添加异常捕捉和延时，这里因为同一个人没有发现有多页的情况，所以没有处理页面列表的代码

def downloadperson(link, name):
    name = re.split(forbidchar, name)
    name = '.'.join(name)
    personitems = {}

    if not os.path.exists(name):
        os.mkdir(name)
    os.chdir(name)

    for i in range(10):
        time.sleep(1)
        try:
            html = urlopen(link, timeout=100)
            break
        except Exception:
            time.sleep(2)
            print("Url Erroe")

    for i in range(10):
        try:
            bsObj = BeautifulSoup(html, "html.parser")
            break
        except Exception:
            print("Soup Error")

    for boxs in bsObj.findAll("div", {"class":"boxs"}):
        for li in boxs.findAll("li"):
            try:
                for p in li.findAll('p', {"class":"p_title"}):
                    print('\n',p,'\n')
                    psn = p.find('a')
                    personitems[psn.getText()] = psn.attrs['href']
            except:
                print("Find Error")

    PATHtmp = os.getcwd()
    for key in personitems:
        print('\n', "downloading ", key, '\n')
        if not os.path.exists(key):
            os.mkdir(key)
        os.chdir(key)
        downloaditem(personitems[key])
        os.chdir(PATHtmp)

    os.chdir(PATH)

四、获得分类下所有人名的分类链接

def getperson(link,):
    for i in range(10):
        time.sleep(1)
        try:
            html = urlopen(link, timeout=100)           # 打开连接
            break
        except Exception:
            time.sleep(2)
            print("Url Erroe")

    for i in range(10):
        try:
            bsObj = BeautifulSoup(html, "html.parser")  # bs解析
            break
        except Exception:
            print("Soup Error")

    for boxs in bsObj.findAll("div", {"class":"boxs"}): # 获取分类下包含图集的标签
        for li in boxs.findAll("li"):                   # 逐个图集处理
            try:
                for a in li.findAll('p'):
                    print(a.getText())                  # 输出图集提示信息
                    name = re.search(re.compile(r'^模特：(.*?)$'), a.getText())
                    if name:
                        psn = a.find('a')               # 尝试查找人名分类页面链接
                        person[psn.getText()] = psn.attrs['href']
            except:                                     # 如果找不到分类页面，则直接下载图集
                print("downloading item..."+name.group(1))
                item = li.find('p', {"class":"p_title"}).find("a")
                print(item.getText())
                if not os.path.exists(name.group(1)):
                    os.mkdir(name.group(1))             # 创建人名文件夹
                os.chdir(name.group(1))                 # 进入人名文件夹
                print(name.group(1))
                name = item.getText()                   # 提取图集
                name = re.split(forbidchar, name)       # 处理图集名（文件夹名）
                name = '.'.join(name)
                if not os.path.exists(name):
                    os.mkdir(name)                      # 创建图集文件夹
                os.chdir(name)                          # 进入图集文件夹
                downloaditem(item.attrs['href'])        # 下载图集
                os.chdir(PATH)                          # 回到根目录


    time.sleep(3)                                       # 延时
    page = bsObj.find("div", {"id":"pages"})            # 处理下一页问题，原理同downloaditem函数
    for a in page.findAll("a", {"class":"a1"}):
        if re.search(re.compile(r'下一页'), a.getText()):
            number = re.search(re.compile(r"http://www\.meitulu\.com/t/.*?([0-9]*?)\.html"), a.attrs['href'])
            link = number.group(0)
            number = number.group(1)
            if number != page.find('span').getText():
                print("scrap deeper...")
                getperson(link)
                break

五、主函数

if __name__ == "__main__":
    for i in range(10):
        time.sleep(1)
        try:
            html = urlopen("http://www.meitulu.com", timeout=100) # 打开首页链接
            break
        except Exception:
            print("Url Erroe")
            time.sleep(2)

    for i in range(10):
        try:
            bsObj = BeautifulSoup(html, "html.parser")            # bs解析
            break
        except Exception:
            print("Soup Error")

    for a in bsObj.find("li", {"id":"tag"}).find("ul", {"id":"tag_ul"}).findAll("a"):
        categaries[a.getText()] = a.attrs['href'] # 获取所有分类首页的链接，以分类名为key

    for key in categaries:
        time.sleep(3)
        print(i,"loading page..."+key)
        getperson(categaries[key])                # 获取每一个分类下的所有人名链接

    for key in person:
        downloadperson(person[key], key)          # 下载每一个人名下的所有图集

总结

完整代码在这里：simplespider.py
我在代码中延时加的比较多，所以运行起来有些慢，但毕竟这只是个练习，照顾一下别人服务器比较好= =。

你可能感兴趣的:(爬虫笔记)

Go分布式爬虫笔记（五）_golang分布式爬虫架构 2401_87198107 golang 分布式爬虫
系统级别优化与架构设计：如何对服务进行拆分如何将服务链接在一起服务调用的关系以及调用频率各种问题：如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到
Python网络爬虫笔记（四）——requests与BeautifulSoup 玄黄问道 Python 爬虫
一、requestsrequest是请求库，用来获取页面信息。首先记得导入库啊，这个是第三方库，py没有自带，没有安装的小伙伴可以移步我上一篇安装第三方库教程importrequests介绍几个常用的函数1>请求命令importrequestsurl='https://www.163.com'resp=requests.get(url)get用途其实跟构造函数差不多，它的参数不少，我们这里主要用到
Go分布式爬虫笔记（五）_golang分布式爬虫架构 X_Pqk golang 分布式爬虫
如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到的数据不是最新写入的数据，那么就一定能设计出比强一致性读取响应延迟更低的系统。服务治理：监控、告警
Go分布式爬虫笔记(八)_golang分布式爬虫 2401_87299701 golang 分布式爬虫
+爬虫引擎为基础的推送系统+提供-快速的热点事件-事件预警用户需求快速了解自己感兴趣的最新新闻事件预警机制帮助快速决策功能需求用户填写或选择自己感兴趣的话题、感兴趣的网站还有消息接受频率用户接收最新热点事件的推送用户通过点击获取与该事件关联的事件，并得到相关的事件预测、预警，甚至可能在网站中进行快速的交易用户可以查看历史记录，可视化呈现某一个事件的来龙去脉，并进行复盘产品需求前端页面设计用户交互设
爬虫笔记21——DrissionPage自动化框架的使用墨菲马爬虫笔记爬虫笔记自动化
DrissionPage自动化框架的使用前言DrissionPage的使用1、准备工具及初步了解2、ChromiumPage的使用（操作浏览器）访问页面初始化配置元素定位iFrame切换元素监听动作链的简单使用3、SessionPage的使用（收发数据包）4、WebPage前言有人说，自动化框架降低了逆向的成本，当遇到不会的逆向，我用自动化解决问题，这其实是有道理的，哈哈哈~。但是，自动化框架其实
爬虫笔记（三）：实战qq登录学不动了躺叭爬虫笔记
咳咳，再这样下去会进橘子叭hhhhhh以及，这个我觉得大概率是成功的，因为测试了太多次，登录并且验证之后，qq提醒我要我修改密码才可以登录捏QAQ1.selenium有关selenium具体是啥，这里就不再赘述了，其他的博客分享的都很清楚，我就大概说一下：selenium是一个模拟用户操作的工具，通过selenium就可以点击网页中某一按钮，或者拖动某一图形（是捏，首先想到的就是滑块验证hhhhh
python爬虫笔记：爬取网页数据存储到excel 御风之 python 网页解析 excel
python抓取网页有效数据存储到excel使用requests从网页上获取得到信息使用BeautifulSoup解析提取并存储有效信息使用xlwt模块创建Excel最后得到Excel数据使用requests从网页上获取得到信息首先导入requests库和beautifulsoup库importrequestsfrombs4importBeautifulSoup然后调用requests.get()
python3的爬虫笔记13——Scrapy初窥 X_xxieRiemann
1、Scrapy安装在windows平台anaconda环境下，在命令窗口输入condainstallscrapy，输入确认的y后，静静等待安装完成即可。安装完成后，在窗口输入scrapyversion，能显示版本号说明能够正常使用。2、Scrapy指令输入scrapy-h可以看到指令，关于命令行，后面会再总结。Scrapy1.3.3-project:quotetutorialUsage:scra
爬虫笔记21：页面等待以及当按钮不能被点击时的处理、selenium操作多个窗口、12306扫码登录进阶的阿牛哥
一、页面等待为什么要等?（1）selenium比较慢网站打开了元素没有加载出来（2）现在的网页越来越多采用了Ajax技术，这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来，但是你的代码直接使用了这个WebElement，那么就会抛出NullPointer的异常。如何解决?（1）time.sleep(10)：Python提供的，importtime，一
爬虫笔记（二）：实战58二手房学不动了躺叭爬虫笔记
第一：给大家推荐一个爬虫的网课哈，码起来第二：今夜主题：通过xpath爬取58二手房的title信息，也就是标红的位置~第三：先分析一波title所在的位置打开按下f12打开抓包工具，即可看到网站的源码，逐步定位至房子信息的部分我们以第一个房子信息为例，找到它的title位置，最终发现它在这个位置~目前，我们就需要在网页的源码上获取到下的里的文本信息第四：想要获取某个标签下的文本信息或是属性信息，
爬虫笔记（一）：实战登录古诗文网站看到我请叫我去学java吖爬虫笔记
需求：登录古诗文网站，账号＋密码＋图形验证码第一：自己注册一个账号＋密码哈第二：图形验证码，需要一个打码平台（充钱，超能力power！）或者tesseract开源包，这两个用于自动识别图形验证码哈~我用的是超级鹰，充了1块，有1000积分，一次10积分，初学者福音hhhhh在软件ID随便填一下软件名称和说明，获取软件key然后点击首页，首页的菜单栏处有个开发文档，来到这个页面，然后找到python
爬虫笔记40之反爬系列三：复杂验证码的处理（12306图片验证码、行为验证：selenium鼠标行为链 + 算法）进阶的阿牛哥爬虫 python
一、12306图片验证码解决方案:selenium（鼠标行为链）+打码平台思路:通过selenium来加载登录页面，获取验证码图片。我就可以把验证码图片交给超级鹰打码平台进行处理。让其给我返回这张验证码正确的坐标值。拿到正确的坐标值之后去点击图片实现步骤第一步使用selenium加载登录页面第二步对页面进行保存第三步截取12306图片验证码第四步交给超级鹰打码平台进行识别返回正确的坐标值第五步根据
python+selenium爬虫笔记张航柯 python selenium 爬虫
本文只是做例子，具体网站路径麻烦你们换下，还有xpath路径也换下一、安装所需要的组件（此处采用谷歌）1、安装驱动查看你的浏览器版本，去安装对应的版本下载驱动下载驱动路径之前版本的输入这个路径下载下来解压2、安装python包pipinstall-Uselenium#-U是指定最新的selenium二、简单基本使用fromselenium.webdriverimportChromefromsele
Python 爬虫笔记1 一（反爬虫伪装） dinglangping
#!/usr/bin/envpython3#coding:utf-8importurllib.requestimportrandom#随机生成User-Agent的时候使用agentsList=["Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1;AcooBrowser;.NETCLR1.1.4322;.NETCLR2.0.50727)","Mozil
python爬虫笔记大橘杂货铺 python 爬虫笔记
文章目录day11.HTTP协议与WEB开发2.UA反爬3.referer反爬4.cookie反爬5.爬虫的请求参数6.爬取图片day2验证码与JS逆向爬虫1.获取验证码2.识别验证码day11.HTTP协议与WEB开发爬虫的根本就是模拟人向浏览器发送请求协议-版本-状态响应码客户端和服务端，都需要遵循请求和响应协议2.UA反爬request请求头中，带上user-agent参数3.referer
爬虫笔记总结（开篇）仲夏那片海爬虫爬虫笔记
服务器反爬的原因爬虫占用PV较高，浪费资源（PV是指页面访问次数）资源被批量抓走，丧失竞争能力法律灰色地带服务器常反什么样的爬虫十分低级的应届毕业生十分低级的创业公司不小心写错没人去停止的失控小爬虫成型的商业竞争对手抽风的搜索引擎反爬领域常见概念爬虫：使用任何手段，批量获取网站信息的一种方式，关键在于批量反爬虫：使用任何技术，阻止别人批量获取自己网站信息的一种方式，关键也在于批量误伤：反爬过程中，
爬虫笔记总结（验证码）仲夏那片海爬虫笔记
学习目的：了解验证码的相关知识掌握图片识别引擎的使用了解常见的打码平台掌握通过打码平台处理验证码的方法1.图片验证码1.1什么是图片验证码验证码（CAPTCHA）是“CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。1.2验证码的
网络爬虫笔记—滑动验证码识别程序汪小陈爬虫 python 开发语言大数据学习职场和发展数据分析
一、什么是滑动验证码点击之前点击之后像这种通过滑动图片，补全缺口的方式，就是滑动验证码。二、识别思路1）使用selenium库操作谷歌浏览器，打开目标网站；2）模拟操作浏览器，对网页截图，先获取全屏截图；3）根据滑动验证码的元素，获取滑动验证码不带缺口的图片和带缺口的图片；4）通过不带缺口验证码图片和带缺口验证码图片的对比，识别滑动验证码缺口的位置；5）模拟移动滑块，完成验证；三、具体实践3.1、
【爬虫笔记】关于 \u200b \xa0 \u3000等特殊字符逸笔1B 爬虫 python python 爬虫
在进行网页爬虫分析时，遇到了一些特殊字符，通过网络搜索找到了解决方法，所以利用这篇博文将遇到的问题以及解决方法记录下来，方便回顾，也希望这篇博文能够帮助到大家。\u200b\xa0\u3000等特殊字符这些特殊字符通常不在ASCII可见字符范围内，因此我们在浏览网页时看不到这些字符，但是在分析网页源码时会遇到。方法一，利用split方法处理这些字符最简单的方法是利用split方法去除。参考博文：h
Python爬虫笔记——多线程（threading）传参 Fo*(Bi) 爬虫笔记 python 多线程
参考文章：Python多线程3多线程的传参与返回值BBJG_001的博客——多线程threading库知识点补充学习网站：莫烦Python学习别人的经验：在主线程用一个变量或者直接输出就能获取或使用函数中return的值。但是在多线程中，可以这么理解，多线程之间的变量空间是互相隔绝的，所以return是不能把值返回到主进程的，只能在所在的线程使用，线程结束，值所在空间也就被释放了。所以，多线程之间
网络爬虫（Python：Selenium、Scrapy框架；爬虫与反爬虫笔记） qq742234984 爬虫 python selenium
网络爬虫（Python：Selenium、Scrapy框架；爬虫与反爬虫笔记）SeleniumWebDriver对象提供的相关方法定位元素ActionChains的基本使用selenium显示等待和隐式等待显示等待隐式等待Scrapy（异步网络爬虫框架）Scrapy框架反爬虫限制手段反爬虫的分类爬虫与反爬虫-功与防基于身份识别反爬和结局思路Headers反爬-通过User-agent字段Heade
【python爬虫】80页md笔记0基础到scrapy高手，第(5)篇：爬虫数据提取练习程序员一诺 python 爬虫 python 爬虫笔记
本文主要学习一下关于爬虫的相关前置知识和一些理论性的知识，通过本文我们能够知道什么是爬虫，都有那些分类，爬虫能干什么等，同时还会站在爬虫的角度复习一下http协议。全套python爬虫笔记地址：请移步这里共8大章，37子模块，总计5.6w字数据提取概要本阶段本文主要学习响应之后如何从响应中提取我们想要的数据，在本阶段本文中我们会讲解一些常用的方法和模块，基本上我们以后遇到的情况在掌握本阶段本文之后
python爬虫笔记_Python 爬虫学习笔记之多线程爬虫 weixin_39854681 python爬虫笔记
likeoneliketwolikethreehateonehatetwohatethree百度一下好123
Python爬虫，使用selenium爬取动态生成的网页数据 - 旧人笔记 - 旧人学习笔记 - 爬虫笔记 - 网络爬虫大白话旧人小表弟网络爬虫 python java selenium html js
什么是AJAXAJAX（AsynchronouseJavaScriptAndXML）异步JavaScript和XML，在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输数据格式方面，使用的是XML语法，因此叫做AJAX，其实现在数据交互
python网络爬虫笔记二肖一二三四
一、搜索淘宝商品名称和价格信息--定向爬虫importrequestsimportrefrombs4importBeautifulSoupimportbs4#获取网页内容defgetHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.tex
Python爬虫笔记——爬虫基础第一课 Fo*(Bi) 爬虫笔记 python
爬虫的四个步骤0.获取数据——爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。1.解析数据——爬虫程序会把服务器返回的数据解析成我们能读懂的格式。2.提取数据——爬虫程序再从中提取出我们需要的数据。3.储存数据——爬虫程序把这些有用的数据保存起来。获取数据——requests库requests库可以帮我们下载网页源代码、文本、图片甚至是音频。“下载”本质上是向服务器发送请求并得到响应
Python 爬虫笔记（3） xxxz_02 python 爬虫 pycharm 1024程序员节
1、引入模块frombs4importBeautifulSoupimportreimporturllibimportsqlite3importxlwt2、定义得到一个指定的URL网页内容的函数#得到一个指定URL的网页内容defaskURL(url):head={#模拟浏览器，向像豆瓣服务器发送消息（伪装）"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)
获取IEEE会议论文的标题和摘要 PD我是你的真爱粉 python 网络爬虫
获取IEEE会议论文的标题和摘要–潘登同学的爬虫笔记文章目录获取IEEE会议论文的标题和摘要--潘登同学的爬虫笔记打开IEEE的高级搜索环境准备完整爬虫过程获取文章地址翻译函数获取文章标题和摘要前几天接到导师的一个任务，要我去找找IEEETransactionsonKnowledgeandDataEngineering期刊中与金融、企业有关的论文。起初我在IEEE官网不知所措，上了知网等很多论文网
Python爬虫笔记2——Requests：让HTTP服务人类 Fatsnake2 笔记 python
虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能，但是它的API使用起来让人感觉不好，而Requests自称“HTTPforHumans”，说明使用更简洁方便。Requests继承了urli2的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定相应内容的编码，支持国际化的URL和POST数据自动编码。Req
python爬虫笔记----爬取中国传统色谱网的色号步月生尘
网站：http://zhongguose.com/目标：爬取所有颜色和颜色的十六进制码网站简介：记录最具有代表性的中国传统颜色及颜色的十六进制码，方便p图取色参考，里面的颜色都是最具代表的中国色。首次看一下网站的源码，发现源码里面没有首页的样式，首页里面每一个色块的样式文件里都有记录颜色的名称和十六进制码，而在代码里是通过js方式呈现的，并不是一个纯静态页面，所以，使用常规的resquest爬虫是
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他