kelvinmao

python网络爬虫学习(六)利用Pyspider+Phantomjs爬取淘宝模特图片

本篇博文在编写时参考了http://cuiqingcai.com/2652.html，向作者表示感谢

一.新的问题与工具

平时在淘宝上剁手的时候，总是会看到各种各样的模特。由于自己就读于一所男女比例三比一的工科院校……写代码之余看看美女也是极好的放松方式。但一张一张点右键–另存为又显得太过麻烦而且不切实际，毕竟图片太多了。于是，我开始考虑用万能的python来解决问题。

我们先看看淘女郎页面的URL，https://mm.taobao.com/json/request_top_list.htm?page=1
page后面的数字代表页码，那么有多少页呢？反正我试着写了个10000发现依然有页面存在。由此可见，右键另存为极不现实。

要用爬虫去爬，就得先分析页面，我们打开第一个淘女郎的页面，如图

看起来好像和我们之前爬过的站没什么不同嘛，直接上urllib和urllib2不就好了？不过，当我打开页面源码时，发现并非如此，源码如图

这个页面的很多内容并没有出现在源码中，很明显，使用js加载出来的。那么，我们常用的urllib2库也就起不了什么作用了，因为这个库只能获取到HTML中的内容。于是，在经过查找资料后，我找到了另外两个好用的工具:Pyspider和Phantomjs

Pyspider是一个爬虫框架，具有webUI,CSS选择器等实用的功能，支持多线程爬取、JS动态解析，提供了可操作界面、出错重试、定时爬取等等的功能，使用非常人性化。

PhantomJS 是一个基于 WebKit 的服务器端 JavaScript API。它全面支持web而不需浏览器支持，其快速、原生支持各种Web标准：DOM 处理、CSS 选择器、JSON、Canvas 和 SVG。 PhantomJS 可以用于页面自动化、网络监测、网页截屏以及无界面测试等。

在介绍完我们的主角之后，我会对我配置开发环境的过程中遇到的问题进行记录。

二.开发环境的配置

系统环境:Ubuntu 14.04 -i386（注意一定要使用32位的Ubuntu，因为经过我的实际测试phantomjs无法在64位系统上运行，另外，也无法再16.04版本的Ubuntu上运行，建议系统环境与我保持一致）

step 1:安装pip

sudo apt-get install python-pip

step 2:安装Phantomjs

sudo apt-get install phantomjs

step 3:安装Pyspider
根据官方文档，在在安装pyspider之前，你需要安装以下类库

sudo apt-get install python python-dev python-distribute python-pip libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml

安装过程完成之后，运行

sudo pyspider all

不报错即为安装成功，如果有错误，请善用google和baidu，都可以找到答案。

之后进入图形界面,打开浏览器在地址栏中输入localhost:5000即可

下面记录一个似乎是只有我遇到的问题，在使用ubuntu自带的firefox时，在之后的一步操作中会出现问题，至于问题是什么待会儿陈述，强烈建议各位使用应用商店中别的浏览器。

之后打开目标网站https://mm.taobao.com/json/request_top_list.htm?page=1
打开第一位模特的页面，如图

注意到个性域名了吗？进去看看~

原来模特的图片都在这里，这样我们大致确定了爬取思路:
1.在某一页中先爬取每位模特的详情页
2.在详情页中取出我们需要的个性域名的url
3.从个性域名中筛选出图片并保存。

三.开始爬取

(1)创建项目

在浏览器中输入 http://localhost:5000，可以看到 PySpider 的主界面，点击的 Create，命名为 taobaomm，名称你可以随意取，点击 Create。

之后进入到一个爬取操作的页面。

我们看到页面被分为两栏，左边是爬取页面预览区域，右边是代码编写区域。
左侧绿色区域：这个请求对应的 JSON 变量，在 PySpider 中，其实每个请求都有与之对应的 JSON 变量，包括回调函数，方法名，请求链接，请求数据等等。

绿色区域右上角Run：点击右上角的 run 按钮，就会执行这个请求，可以在左边的白色区域出现请求的结果。

左侧 enable css selector helper: 抓取页面之后，点击此按钮，可以方便地获取页面中某个元素的 CSS 选择器。

左侧 web: 即抓取的页面的实时预览图。

左侧 html: 抓取页面的 HTML 代码。

左侧 follows: 如果当前抓取方法中又新建了爬取请求，那么接下来的请求就会出现在 follows 里。

左侧 messages: 爬取过程中输出的一些信息。

右侧代码区域: 你可以在右侧区域书写代码，并点击右上角的 Save 按钮保存。

右侧 WebDAV Mode: 打开调试模式，左侧最大化，便于观察调试。

(2)进行简单的爬取操作

我们先对https://mm.taobao.com/json/request_top_list.htm?page=1这个页面进行爬取，我们在’init’ 方法中定义基地址，页码，最大页码。代码如下:

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    def __init__(self):
        self.base_url = 'https://mm.taobao.com/json/request_top_list.htm?page='
        self.page_num = 1
        self.total_num = 30

    @every(minutes=24 * 60)
    def on_start(self):
        while self.page_num <= self.total_num:
            url = self.base_url + str(self.page_num)
            print url
            self.crawl(url, callback=self.index_page)
            self.page_num += 1

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

其实只是在原先的代码中加入了一个初始化的方法，没有做其他改变，保存后运行，我们看到

我们看到控制台中给出了30个url，同时看到follow上的数字为30，这表示之后有30个请求，我们点击某一个URL右侧的绿色三角，继续爬取该页面。

我们点击左下角的web按钮，就可以预览到网页的内容，网页内容被回调给index.page方法处理，由于此时还没有编写index.page的具体方法,所以只是继续构建了链接请求。

(2)获取模特个性域名

在上一步中，我们已经看到了模特的列表，但是该如何进入详情页呢？老方法，分析页面源码

注意高亮部分，模特的详情页的URL是在一个class为”lady-name”的a标签中。那么我们就要对index.page方法加以修改如下:

def index_page(self, response):
    for each in response.doc('.lady-name').items():
        self.crawl(each.attr.href, callback=self.detail_page)

其中的response就是指刚才的模特列表页，调用doc函数其实是用CSS选择器得到每个模特的链接，然后用self.crawl方法继续发起请求。回调函数是 detail_page，爬取的结果会作为 response 变量传过去。detail_page 接到这个变量继续下面的分析。

继续点击小三角爬取下一个页面，得到的页面如下

似乎和我们在浏览器中看到的有点不一样，图片没有被加载出来。什么原因呢？因为这个页面比较特殊，它是用JS动态加载出来的，所以我们看不到任何内容。怎么办呢？我们就要使用神器Phantomjs
了。我们对index.page方法作出如下的修改:

def index_page(self, response):
    for each in response.doc('.lady-name').items():
        self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

只需要在self.crawl方法中加上 fetch=’js’即可，这表示使用phantomjs来加载页面。
请各位注意，在文章开始时，我提到过我遇到一个难以解决的问题，当我使用firefox浏览器打开pyspider的webUI时，这一步即使我加上 fetch=’js’依然没有加载出页面，直到后来我换用了chromeium浏览器才解决这个问题，请各位注意！！我在这个问题上浪费了两天时间，希望各位不要在这个问题上耽误太多时间

现在点击向左的箭头返回到上一页，重新爬取模特的详情页，页面被成功加载，phantomjs名不虚传

看到个性域名了吗？我们离成功只差一步，下面我们解决如何从详情页中获取到模特的个性域名。
老规矩，F12打开chrome的开发者模式，搜索个性域名的URL，找到其所在的标签。

找到后，增加一个domain_page方法用来处理个性域名,并修改detail_page方法如下:

def detail_page(self, response):
    domain = 'https:' + response.doc('.mm-p-domain-info li > span').text()
    print domain
    self.crawl(domain, callback=self.domain_page)

def domain_page(self, response):
    pass

mm-p-domain-info li > span指的是从域名所在的div标签到span标签的路径上的所有祖先节点。再加上”https:”就组成了个性域名的URL。之后使用self.crawl来继续对domain这个页面进行爬取。
再次点击run按钮，我们就可以看到模特的主页了

接下来该怎么办？你懂得~~~~

(3)保存照片和简介

进入了模特的个人页面，我们再次分析源码，寻找简介和照片的位置。

找到模特姓名所在的标签，那么要使用CSS选择器进行解析的话，路径应该是这样的： .mm-p-model-info-left-top dd > a
同样的方法找到简介为: .mm-aixiu-content
图片为: .mm-aixiu-content img
这样我们就定位了我们所需要的信息在页面上的位置。
之后我们完善domain_page方法如下:

def domain_page(self, response):
        name=response.doc('.mm-p-model-info-left-top dd > a').text()
        dir_path=self.deal.mkDIR(name)
        brief=response.doc('.mm-aixiu-content').text()
        if dir_path:
            imgs=response.doc('.mm-aixiu-content img').items()
            count=1
            self.deal.save_brief(brief,name,dir_path)
            for img in imgs:
                url = img.attr.src
                if url:
                    extension=self.deal.getextension(url)
                    file_name=name+str(count)+'.'+extension
                    #self.deal.save_Img(img.attr.src,file_name)
                    count += 1
                    self.crawl(img.attr.src, callback=self.save_img, save={'save_path':dir_path,'file_name':file_name})

def save_img(self,response):
        content=response.content
        dir_path=response.save['save_path']
        file_name=response.save['file_name']
        file_path=dir_path+'/'+file_name
        self.deal.save_Img(content,file_path)

上述代码首先用save_brief方法保存页面所有文字，之后遍历模特所有图片，用save_Img方法保存所有照片，并使用一个自增变量+模特姓名来构造文件名。

(3)保存照片至本地

下面定义文件处理类

class Deal:
    def __init__(self):
        self.dir_path=DIR_PATH
        if not self.dir_path.endswith('/'):
            self.dir_path=self.dir_path+'/'
        if not os.path.exists(self.dir_path):
            os.makedirs(self.dir_path)

    def mkDIR(self,name):
        name=name.strip()
        #dir_name=self.dir_path+'/'+name
        dir_name=self.dir_path+name
        exists=os.path.exists(dir_name)
        if not exists:
            os.makedirs(dir_name)
            return dir_name
        else:
            return dir_name

    def save_Img(self,content,file_name):
        file=open(file_name,'wb')#这个地方将图片以二进制流写入文件
        file.write(content)
        file.close()

    def save_brief(self,brief,name,path):
        file_name=path+'/'+name+'.txt'
        file=open(file_name,'w+')
        file.write(brief.encode('utf-8'))
        file.close()

    def getextension(self,url):
        extension=url.split('.')[-1]
        return extension

文件处理类主要使用os模块的一些方法，都是基础内容，没什么好说的，有不懂的地方请使用搜索引擎或者翻阅python教程。

三.大功告成

到这里，我们就完成了基本的功能，下面贴出完整代码，version 1.0.0就算基本完成。

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2016-06-15 10:48:25
# Project: taobaomm_v1
# Version:1.0.0
# Function:保存模特照片至本地，以模特姓名建立文件夹来分类存储

from pyspider.libs.base_handler import *
import os

PAGE_NUM=1#起始页码
MAX_PAGE=30#终止页码
DIR_PATH='/home/kelvinmao/Music/'#定义保存位置(这三个变量都可以自己填)

class Handler(BaseHandler):
    crawl_config = {
    }
    def __init__(self):
        self.base_url='https://mm.taobao.com/json/request_top_list.htm?page='
        self.page_num=PAGE_NUM
        self.max_page=MAX_PAGE
        self.deal=Deal()

    @every(minutes=24 * 60)
    def on_start(self):
        while self.page_num<=self.max_page:
            url=self.base_url+str(self.page_num)
            print url
            self.crawl(url, callback=self.index_page)
            self.page_num+=1

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('.lady-name').items():
            self.crawl(each.attr.href, callback=self.detail_page, fetch_type='js')

    @config(priority=2)
    def detail_page(self, response):
        domain = response.doc('.mm-p-domain-info li > span').text()
        if domain:
            domain_name = 'https:' + domain
            self.crawl(domain_name, callback=self.domain_page)

    def domain_page(self, response):
        name=response.doc('.mm-p-model-info-left-top dd > a').text()
        dir_path=self.deal.mkDIR(name)
        brief=response.doc('.mm-aixiu-content').text()
        if dir_path:
            imgs=response.doc('.mm-aixiu-content img').items()
            count=1
            self.deal.save_brief(brief,name,dir_path)
            for img in imgs:
                url = img.attr.src
                if url:
                    extension=self.deal.getextension(url)
                    file_name=name+str(count)+'.'+extension
                    #self.deal.save_Img(img.attr.src,file_name)
                    count += 1
                    self.crawl(img.attr.src, callback=self.save_img, save={'save_path':dir_path,'file_name':file_name})

    def save_img(self,response):
        content=response.content
        dir_path=response.save['save_path']
        file_name=response.save['file_name']
        file_path=dir_path+'/'+file_name
        self.deal.save_Img(content,file_path)

class Deal:
    def __init__(self):
        self.dir_path=DIR_PATH
        if not self.dir_path.endswith('/'):
            self.dir_path=self.dir_path+'/'
        if not os.path.exists(self.dir_path):
            os.makedirs(self.dir_path)

    def mkDIR(self,name):
        name=name.strip()
        #dir_name=self.dir_path+'/'+name
        dir_name=self.dir_path+name
        exists=os.path.exists(dir_name)
        if not exists:
            os.makedirs(dir_name)
            return dir_name
        else:
            return dir_name

    def save_Img(self,content,file_name):
        file=open(file_name,'wb')
        file.write(content)
        file.close()

    def save_brief(self,brief,name,path):
        file_name=path+'/'+name+'.txt'
        file=open(file_name,'w+')
        file.write(brief.encode('utf-8'))
        file.close()

    def getextension(self,url):
        extension=url.split('.')[-1]
        return extension

粘贴这些代码到你的pyspider中，保存

点击STOP或者TODO状态，将其切换为RUNNING，点击右侧的run按钮，就可以看到海量的照片奔向你的电脑了。

四.后续

随着学习的深入，打算增添一些更有趣的功能，比如将模特的三围，居住地，身高体重或者风格等数据建立数据库，便于检索，甚至可以建立一个网站。不过一切都依赖于我的继续学习。

python电影评价分析_用 Python 分析豆瓣电影 TOP250 weixin_39806413 python电影评价分析
用Python分析豆瓣电影TOP250既然要分析豆瓣电影TOP250,那么肯定就要把相关的数据采集下来,比如排名,电影名,导演,主演等信息.那就肯定使用一下爬虫咯,如果还不会的话,欢迎看之前的文章:Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib进阶使用Python爬虫学习(四)正则表达式Python爬虫学习(五)爬取电影排行榜及其
Python爬虫学习——爬取小说章节一大块肥皂 Python爬虫 python 爬虫
之前学了Python好久都没有用，感觉再不继续学就要忘了。。。赶紧再挖个坑继续学习。这个部分会用Python去做爬虫来进行学习，巩固python的知识。爬虫的教程看的是Jack-Cui大佬的文章。这一次是跟着大佬学习：Python3网络爬虫（二）：下载小说的正确姿势（2020年最新版）_Jack-Cui-CSDN博客练习-爬取章节前面的爬虫基础部分就看大佬的上一篇博文，讲的非常棒：Python3网
手机Python爬虫教程：利用手机学习Python爬虫的终极指南一只会写程序的猫 Python 智能手机 python 爬虫
【引言】在数字化时代，手机已经成为人们生活中不可或缺的一部分。而Python爬虫作为一种强大的数据获取工具，也受到越来越多人的关注。但是，是否可以利用手机进行Python爬虫学习呢？本文将介绍如何通过手机学习Python爬虫，为你打开一扇全新的学习之门。【一、手机学习资源】1.《Python爬虫入门教程》（手机应用）这款手机应用程序提供了Python爬虫的基础知识和实例讲解，适合初学者使用。你可以
Python爬虫：从入门到实践来恩1003 Python爬虫 python 爬虫开发语言
Python爬虫学习资料Python爬虫学习资料Python爬虫学习资料在当今数字化信息爆炸的时代，数据已成为企业和个人发展的重要资产。Python爬虫作为一种高效获取网络数据的工具，正逐渐被广大开发者所熟知和应用。无论是市场调研、学术研究，还是数据分析，Python爬虫都能发挥巨大作用。本文将带你从基础概念出发，逐步深入到爬虫的实战应用，助你掌握这一强大的数据获取技能。一、爬虫基础：开启数据获取
python爬虫心得_python爬虫学习心得 weixin_39941721 python爬虫心得
爬虫新手一枚，因为工作原因需要学习相关的东西。发表下这段时间学习的心得，有说得不对的地方欢迎指指点点。一.什么是爬虫在学习爬虫之前只对爬虫有个概念性的认识。通过向服务器发送请求获取服务器传回信息，再根据其提取所需的信息。原理虽然简单，但是涉及的细节非常多，从一个坑爬出来又掉进另一个坑。二.post和getpost和get是两种向服务器发送请求的方式，有些http基础的同学应该都清楚他们的用处，在写
Python大数据之Python爬虫学习总结——day16 数据可视化笨小孩124 Python爬虫学习总结信息可视化 python 大数据
数据可视化Map_地图基础地图知识点:基础示例:实战练习:知识点:自定义模块:制作中国地图data1.txt文件内容python代码示例制作区域地图data2.txt文件内容python代码示例Line_折线图基础折线图实战练习:Bar_柱状图基础柱状图反转以及主题设置Json数据python数据转为json数据知识点:示例:json数据转为python数据知识点:json文件:示例:Map_地图
python爬虫要不要学正则_Python爬虫学习（四）正则表达式 weixin_39583751 python爬虫要不要学正则
经过前面的学习之后，大家现在应该可以顺利地得到一个网页源码字符串，对于Python中的字符串，Python提供了很多操作，大家可以其去尝试提取网页源码字符串中想要的信息。在这里，给大家推荐的是正则表达式!文章最后还有爬取糗事百科的实例哦！什么是正则表达式说白了，正则表达式就是描述我们需要提取的那部分信息的规则的工具。举个栗子，比如，我们想要提取'Stayhungry,123stayfoolish!
python爬虫学习小叶丶
Python爬虫(1):基本原理Python爬虫(2):Requests的基本用法Python爬虫(3):Requests的高级用法Python爬虫(4):BeautifulSoup的常用方法Python爬虫(5):豆瓣读书练手爬虫Python爬虫(6):煎蛋网全站妹子图爬虫Python爬虫(7):多进程抓取拉钩网十万数据Python爬虫(8):分析Ajax请求爬取果壳网Python爬虫(9):C
Python爬虫学习曹博Blog Python python 爬虫学习
1.1搭建爬虫程序开发环境爬取未来七天天气预报frombs4importBeautifulSoupfrombs4importUnicodeDammitimporturllib.requesturl="http://www.weather.com.cn/weather/101120901.shtml"try:headers={"User-Agent":"Mozilla/5.0(WindowsNT10
python爬虫学习day2—百度翻译 2401_82964032 爬虫学习 python 百度
##第零步安装requests库以及了解AJAX请求##第一步打开百度翻译网址，随便输入一个英文单词，我们可以发现网页进行了局部刷新，而非整体性的，因此我们可以猜测，这是一个AJAX请求。##第二步F12打开控制台，点击网络(network)，因为我们已经猜测这是一个AJAX请求，因此我们选择XHR(实现网页得局部刷新)或者叫Fetch/XHR。然后输入一个英文单词，例如write。我们挨个点击，
python爬虫学习day3—KFC肯德基餐厅信息查询 2401_82964032 爬虫学习 beautifulsoup
##第零步安装requests库以及了解AJAX请求##第一步打开肯德基餐厅信息查询(kfc.com.cn)随便输入一个地址后发现页面没有整体刷新，并且点击下一页页面也仍然是局部刷新，因此判断是AJAX请求。##第二步F12打开控制台，点击网络(network)，选择XHR(实现网页得局部刷新)或者叫Fetch/XHR。选择一个地址后，我们可以得到点击后我们可以得到：其url为https://ww
python爬虫学习day1—Books to Scrape 2401_82964032 python beautifulsoup
##第零步安装requests库与BeautifulSoup库，以及学习一点点html知识##第一步导入requests库与BeautifulSoup库importrequestsfrombs4importBeautifulSoup##第三步查看网站是否有反爬机制如果有可以选择伪装浏览器headers={"User-Agent":"自己浏览器的标识"}按F12找到网络（network）然后刷新网页
python爬虫beautifulsoup实例-Python爬虫学习（二）使用Beautiful Soup库 weixin_37988176
（一）使用BeautifulSoup库（默认将HTML转换为utf-8编码）1，安装BeautifulSoup库：pipinstallbeautifulsoup42，简单使用：importrequests;from_socketimporttimeoutfrombs4importBeautifulSoup#使用BeautifulSoup库需要导包#fromaifcimportdatadefgetH
python爬虫学习步骤和推荐资料 suoge223 python 爬虫学习
学习Python爬虫是一项非常实用的技能，可以帮助你获取网络上的数据，进行信息抓取和分析。以下是一系列学习步骤和对应的参考资料，帮助你入门和深入学习Python爬虫。###学习步骤：####Step1:基础Python编程在学习爬虫之前，首先要确保你对基础的Python语法有一定的了解。参考资料：-[Python官方文档](https://docs.python.org/3/)-[w3school
Python爬虫学习之scrapy库蜀道之南718 python 爬虫学习笔记 scrapy
一、scrapy库安装pipinstallscrapy-ihttps://pypi.douban.com/simple二、scrapy项目的创建1、创建爬虫项目打开cmd输入scrapystartproject项目的名字注意:项目的名字不允许使用数字开头也不能包含中文2、创建爬虫文件要在spiders文件夹中去创建爬虫文件cd项目的名字\项目的名字\spiderscdscrapy_baidu_09
Python大牛写的爬虫学习路线，分享给大家！ IT青年
今天给大家带来我的python爬虫学习路线，供大家参考！第一步，学会自己安装python、库和你的编辑器并设置好它我们学习python的最终目的是要用它来达到我们的目的，它本身是作为工具的存在，我们一定要掌握自己的工具的各类设置，比如安装、环境配置、库的安装，编辑器的设置等等。当然也可以用比如Anaconda来管理你的版本和各种库！为了帮助大家更轻松的学好Python开发，爬虫技术，Python数
python爬虫学习笔记之数据提取 py爱好者~ 笔记 1024程序员节 python 爬虫
参考博客：python爬虫学习笔记_fdk少东家的博客-CSDN博客1、XPath语法和lxml库1.01、什么是XPath?xpath(XMLPathLanguage)是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。1.02、XPath工具Chrome插件XPathHelper。Firefox插件XPathChecker。1.03、XPath语法
python爬虫学习笔记之数据存储 py爱好者~ 笔记 python 爬虫
参考博客：python爬虫学习笔记_fdk少东家的博客-CSDN博客1、json文件处理：1.01、什么是json：JSON(JavaScriptObjectNotation,JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript（w3c制定的js规范）的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁欸和清晰的层次结构使得JSON成为理想的数据交换语言。易于人阅读和
python爬虫学习笔记之网络请求 py爱好者~ 笔记分类爬虫 python
参考博客：python爬虫学习笔记_fdk少东家的博客-CSDN博客'requests'库安装和文档地址：利用pip进行安装：pipinstallrequests中文文档：Requests:让HTTP服务人类—Requests2.18.1文档发送GET请求：1.最简单的发送get请求就是通过requests.get来调用：response=requests.get('http://www.baid
Python爬虫学习之scrapy库蜀道之南718 python 爬虫笔记学习
一、scrapy库安装pipinstallscrapy-ihttps://pypi.douban.com/simple二、scrapy项目的创建1、创建爬虫项目打开cmd输入scrapystartproject项目的名字注意:项目的名字不允许使用数字开头也不能包含中文2、创建爬虫文件要在spiders文件夹中去创建爬虫文件cd项目的名字\项目的名字\spiderscdscrapy_baidu_09
Python爬虫学习之requests库蜀道之南718 python 爬虫笔记学习
目录一、requests的基本使用二、get请求三、post请求四、代理的使用五、cookie登录以及验证码图片识别一、requests的基本使用importrequestsurl='http://www.baidu.com'response=requests.get(url=url)#一个类型和六个属性#Response类型#print(type(response))#设置响应的编码格式resp
Python爬虫学习之解析_jsonpath 蜀道之南718 python 爬虫笔记
一、jsonpath的基本使用importjsonimportjsonpathobj=json.load(open('json文件','r',encoding='utf-8'))ret=jsonpath.jsonpath(obj,'jsonpath语法')二、jsonpath语法e.g.importjsonimportjsonpathobj=json.load(open('jsonpath.jso
Python爬虫学习之requests库蜀道之南718 爬虫 python 笔记学习
目录一、requests的基本使用二、get请求三、post请求四、代理的使用五、cookie登录以及验证码图片识别一、requests的基本使用importrequestsurl='http://www.baidu.com'response=requests.get(url=url)#一个类型和六个属性#Response类型#print(type(response))#设置响应的编码格式resp
Python爬虫学习之urllib库蜀道之南718 python 爬虫学习
目录一、urllib库的基本使用二、一个类型和六个方法三、用urllib下载1、下载网页2、下载图片3、下载视频四、urllib请求对象的定制1、url的组成https://www.baidu.com/s?wd=参数2、UA反爬五、编解码1、get请求方式之urllib.parse.quote()2、get请求方式之urllib.parse.urlencode()3、post请求方式六、ajax的
Python爬虫学习之解析_xpath 蜀道之南718 python 爬虫开发语言
一、xpath的基本使用（1）导入lxml.etreefromlxmlimportetree（2）etree.parse()解析本地文件tree=etree.parse('xpath的基本使用.html')print(tree)（3）etree.HTML()服务器响应文件html_tree=etree.HTML(content)（4）html_tree.xpath(xpath路径)二、xpath语
python爬虫学习之解析_BeautifulSoup 蜀道之南718 python 爬虫学习
目录一、bs4的基本使用（1）导入（2）创建对象二、节点定位1、根据标签名查找节点2、基本函数使用（1）find（2）find_all（3）select三、节点信息1、获取节点内容2、获取节点属性附：bs4的基本使用.html四、bs4的应用注：Python3.10+，使用BeautifulSoup时出现错误“AttributeError'collections'hasnoattribute'Ca
Python爬虫学习之selenium库蜀道之南718 python 爬虫学习
目录一、selenium库的基本使用二、selenium元素定位三、selenium元素信息四、selenium交互一、selenium库的基本使用#（1）导入seleniumfromseleniumimportwebdriver#（2）创建浏览器操作对象path='chromedriver.exe'browser=webdriver.Chrome(path)#(3)访问网站url='https:
python爬虫学习之selenium_chrome handless的使用蜀道之南718 python 爬虫学习
目录一、Chromehandless简介二、Chromehandless的系统要求三、Chromehandless的基本配置（直接复制放在.py文件开头）四、Chromehandless的应用五、Chromehandless的封装一、Chromehandless简介Chromehandless模式，Google针对Chrome浏览器59版新增的一种模式，可以让你不打开UI界面的情况下使用Chrom
python hack-requests_Python爬虫学习笔记（二）——requests库的使用 weixin_39832628 python hack-requests
准备工作requests库不是python自带的库，可以用pip安装。在使用时导入requests即可。基本用法GET请求r=requests.get(url)print(r.text)其中，网页返回的内容是json格式的字符串类型，所以可以直接调用json()方法得到字典格式的内容print(r.json())此外，如果需要附加额外的信息，可以用params这个参数，示例如下：data={'na
python爬虫学习笔记(一)——requests库梦独吟 python爬虫 python python
一.HTTP基本原理1.URL和URIURL是URI的子集，URI还包括URN，在互联网中，我们一般的网页链接可以被称为URL或者URI，大多数人称为URL。2.超文本我们平常在网站浏览的网页就是超文本解析而成的，这些源代码是一系列的HTML代码，如img：显示图片，p：指定显示段落等。HTML可以被称为超文本。3.http和httpsHTTP，HypertextTransferProtocol，
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p