麻辣灬香蕉

python爬虫之无界面模式操作/scrapy框架

文章目录

前情回顾

cookie模拟登陆
三个池子
selenium+phantomjs/chrome/firefox

今日笔记

chromedriver设置无界面模式
selenium - 键盘操作
selenium - 鼠标操作
selenium - 切换页面

民政部网站案例

selenium - iframe子框架
百度翻译破解案例
scrapy框
执行流程图示:
今日任务

前情回顾

cookie模拟登陆

1、适用网站类型: 爬取网站页面时需要登录后才能访问，否则获取不到页面的实际响应数据
2、方法1（利用cookie）
   1、先登录成功1次,获取到携带登陆信息的Cookie（处理headers） 
   2、利用处理的headers向URL地址发请求
3、方法2(利用requests.get()中cookies参数)
   1、先登录成功1次,获取到cookie,处理为字典
   2、res=requests.get(xxx,cookies=cookies)
4、方法3（利用session会话保持）
   1、实例化session对象
      session = requests.session()
   2、先post : session.post(post_url,data=post_data,headers=headers)
      1、登陆，找到POST地址: form -> action对应地址
      2、定义字典，创建session实例发送请求
         # 字典key ：标签中name的值(email,password)
         # post_data = {'email':'','password':''}
   3、再get : session.get(url,headers=headers)

三个池子

1、User-Agent池
2、代理IP池
3、cookie池(网上购买账号)

selenium+phantomjs/chrome/firefox

特点

1、简单，无需去详细抓取分析网络数据包，使用真实浏览器
2、需要等待页面元素加载，需要时间，效率低

安装

1、下载、解压
2、添加到系统环境变量
   # windows: 拷贝到Python安装目录的Scripts目录中
   # Linux :  拷贝到/usr/bin目录中
3、Linux中修改权限
   # sudo -i
   # cd /usr/bin/
   # chmod +x phantomjs　　加权限
     改权限前: rwxr--r--
     改权限后: rwxr-xr-x

使用流程

from selenium import webdriver
phantomjs chromedriver firefoxdriver
# 1、创建浏览器对象
browser = webdriver.Firefox(executable_path='/xxx/geckodriver')
# 2、输入网址
browser.get('URL')
# 3、查找节点
brower.find_xxxx
# 4、做对应操作
element.send_keys('')
element.click()
# 5、关闭浏览器
browser.quit()

重要知识点

# 页面所有元素
1、browser.page_source
# 获取字符串位置(没有就返回-1)
2、browser.page_source.find('')
3、node.send_keys('')
4、node.click()
5、find_element AND find_elements
6、browser.execute_script('javascript')
#常用的：self.browser.execute_script(
            'window.scrollTo(0,document.body.scrollHeight)'
        )
7、browser.quit()

今日笔记

chromedriver设置无界面模式

from selenium import webdriver

options = webdriver.ChromeOptions()
# 添加无界面参数
options.add_argument('--headless')
browser = webdriver.Chrome(options=options)
browser.get('http://www.baidu.com/')
#保存屏幕截图
browser.save_screenshot('baidu.png')

selenium - 键盘操作

from selenium.webdriver.common.keys import Keys
#构建浏览器对象
browser = webdriver.Chrome()
#打开浏览器
browser.get('http://www.baidu.com/')
# 1、在搜索框中输入"selenium"
browser.find_element_by_id('kw').send_keys('赵丽颖')
# 2、输入空格
browser.find_element_by_id('kw').send_keys(Keys.SPACE)
# 3、Ctrl+a 模拟全选
browser.find_element_by_id('kw').send_keys(Keys.CONTROL, 'a')
# 4、Ctrl+c 模拟复制
browser.find_element_by_id('kw').send_keys(Keys.CONTROL, 'c')
# 5、Ctrl+v 模拟粘贴
browser.find_element_by_id('kw').send_keys(Keys.CONTROL, 'v')
# 6、输入回车,代替 搜索 按钮
browser.find_element_by_id('kw').send_keys(Keys.ENTER)

selenium - 鼠标操作

from selenium import webdriver
# 导入鼠标事件类
from selenium.webdriver import ActionChains

driver = webdriver.Chrome()
driver.get('http://www.baidu.com/')

#移动到 设置，perform()是真正执行操作，必须有
element = driver.find_element_by_xpath('//*[@id="u1"]/a[8]')
ActionChains(driver).move_to_element(element).perform()

#单击，弹出的Ajax元素，根据链接节点的文本内容查找
driver.find_element_by_link_text('高级搜索').click()

selenium - 切换页面

适用网站

页面中点开链接出现新的页面，但是浏览器对象browser还是之前页面的对象

应对方案

# 获取当前所有句柄（窗口）
all_handles = browser.window_handles
# 切换browser到新的窗口，获取新窗口的对象
browser.switch_to.window(all_handles[1])

页面打开顺序:1 2 3 4 5
下标打开顺序:0 4 3 2 1
下表为1为打开的最新页面,下表为0为打开的原始页面

民政部网站案例

目标

将民政区划代码爬取到数据库中，按照层级关系（分表 -- 省表、市表、县表）

数据库中建表

# 建库
create database govdb charset utf8;
use govdb;
create table province(
p_name varchar(20),
p_code varchar(20)
)charset=utf8;
create table city(
c_name varchar(20),
c_code varchar(20),
c_father_code varchar(20)
)charset=utf8;
create table county(
x_name varchar(20),
x_code varchar(20),
x_father_code varchar(20)
)charset=utf8;

思路

1、selenium+Chrome打开一级页面，并提取二级页面最新链接
2、增量爬取: 和数据库version表中进行比对，确定之前是否爬过（是否有更新）
3、如果没有更新，直接提示用户，无须继续爬取
4、如果有更新，则删除之前表中数据，重新爬取并插入数据库表
5、最终完成后: 断开数据库连接，关闭浏览器

代码实现

import pymysql
from selenium import webdriver


class MinZheng:
    def __init__(self):
        self.url = 'http://www.mca.gov.cn/article/sj/xzqh/2019/'

        # 设置无界面模式
        self.options = webdriver.ChromeOptions()
        self.options.add_argument("--headless")
        self.browser = webdriver.Chrome(options=self.options)
        self.db = pymysql.connect(
            "127.0.0.1", "root", "123456",
            "govdb", charset="utf8"
        )
        self.cursor = self.db.cursor()

        # 用于executemany[(),(),()]
        self.province = []
        self.city = []
        self.county = []

    # 提取数据

    def get_data(self):
        self.browser.get(self.url)
        node = self.browser.find_element_by_partial_link_text('县以上行政区划代码')
        # 判断此链接之前是否抓取过
        link = node.get_attribute("href")  # 提取该属性的值
        sel = "select url from version where url=%s"
        result = self.cursor.execute(sel, [link])
        if not result:
            # 1.抓取
            self.get_code(node)
            # 2.将此链接存入数据库version
            ins = "insert into version values(%s)"
            self.cursor.execute(ins, [link])
            self.db.commit()
        else:
            print("链接未更新!")

    # 抓取数据
    def get_code(self, node):
        node.click()
        # 切换句柄
        all = self.browser.window_handles
        self.browser.switch_to_window(all[1])
        # 提取数据  //tr[@height="19"]
        tr_list = self.browser.find_elements_by_xpath('//tr[@height="19"]')
        for tr in tr_list:
            name = tr.text.split()[1]
            code = tr.text.split()[0]
            print(name, code)
            # 上海市  上海市    浦东新区
            if code[-4:] == "0000":
                self.province.append((name, code))
                # 把4个直辖市弄进city表
                if code[:2] in ["11", "12", "31", "50"]:
                    self.city.append((name, code, code))
            elif code[-2:] == "00":
                pcode = code[:2] + "0000"
                self.city.append((name, code, pcode))
                # 记录最近一次的市的编号
                last_city = code
            else:
                if code[:2] in ["11", "12", "31", "50"]:
                    ccode = code[:2] + "0000"
                else:
                    # ccode = code[:4] + "00"
                    ccode=last_city
                self.county.append((name, code, ccode))

        # 存入数据库
        self.insert_mysql()

    def insert_mysql(self):
        # 1.先清除原有数据
        del1 = "delete from province"
        del2 = "delete from city"
        del3 = "delete from county"
        self.cursor.execute(del1)
        self.cursor.execute(del2)
        self.cursor.execute(del3)
        self.db.commit()
        # 2.插入新的数据
        ins1 = "insert into province values(%s,%s)"
        ins2 = "insert into city values(%s,%s,%s)"
        ins3 = "insert into county values(%s,%s,%s)"
        self.cursor.executemany(ins1, self.province)
        self.cursor.executemany(ins2, self.city)
        self.cursor.executemany(ins3, self.county)
        self.db.commit()

    def run(self):
        self.get_data()


if __name__ == '__main__':
    m = MinZheng()
    m.run()

SQL命令练习

 1. 查询所有省市县信息（多表查询实现）
 select province.p_name,city.c_name,county.x_name from province,city,county where province.p_code=city.c_father_code and city.c_code=county.x_father_code; 
 2. 查询所有省市县信息（连接查询实现）
select province.p_name,city.c_name,county.c_name from province inner join city on province.p_code=city.c_father_code inner join county on city.c_code=county.x_father_code

selenium - iframe子框架

特点

网页中嵌套了网页，先切换到iframe子框架，然后再执行其他操作

方法

browser.switch_to.frame(iframe_element)

示例 - 登录qq邮箱

from selenium import webdriver
import time

driver = webdriver.Chrome()
driver.get('https://mail.qq.com/')

# 切换到iframe子框架
login_frame = driver.find_element_by_id('login_frame')
driver.switch_to.frame(login_frame)

# 用户名+密码+登录
driver.find_element_by_id('u').send_keys('qq账号')
driver.find_element_by_id('p').send_keys('qq密码')
driver.find_element_by_id('login_button').click()

百度翻译破解案例

目标

破解百度翻译接口，抓取翻译结果数据

实现步骤

1、F12抓包,找到json的地址,观察查询参数

1、POST地址: https://fanyi.baidu.com/v2transapi
2、Form表单数据（多次抓取在变的字段）
   from: zh
   to: en
   sign: 54706.276099  #这个是如何生成的？
   token: a927248ae7146c842bb4a94457ca35ee # 基本固定,但也想办法获取

2、抓取相关JS文件

右上角 - 搜索 - sign: - 找到具体JS文件(index_c8a141d.js) - 格式化输出

3、在JS中寻找sign的生成代码

1、在格式化输出的JS代码中搜索: sign: 找到如下JS代码：sign: m(a),
2、通过设置断点，找到m(a)函数的位置，即生成sign的具体函数
   # 1. a 为要翻译的单词
   # 2. 鼠标移动到 m(a) 位置处，点击可进入具体m(a)函数代码块

4、生成sign的m(a)函数具体代码如下(在一个大的define中)

function a(r) {
        if (Array.isArray(r)) {
            for (var o = 0, t = Array(r.length); o < r.length; o++)
                t[o] = r[o];
            return t
        }
        return Array.from(r)
    }
function n(r, o) {
    for (var t = 0; t < o.length - 2; t += 3) {
        var a = o.charAt(t + 2);
        a = a >= "a" ? a.charCodeAt(0) - 87 : Number(a),
            a = "+" === o.charAt(t + 1) ? r >>> a : r << a,
            r = "+" === o.charAt(t) ? r + a & 4294967295 : r ^ a
    }
    return r
}
function e(r) {
    var o = r.match(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g);
    if (null === o) {
        var t = r.length;
        t > 30 && (r = "" + r.substr(0, 10) + r.substr(Math.floor(t / 2) - 5, 10) + r.substr(-10, 10))
    } else {
        for (var e = r.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/), C = 0, h = e.length, f = []; h > C; C++)
            "" !== e[C] && f.push.apply(f, a(e[C].split(""))),
                C !== h - 1 && f.push(o[C]);
        var g = f.length;
        g > 30 && (r = f.slice(0, 10).join("") + f.slice(Math.floor(g / 2) - 5, Math.floor(g / 2) + 5).join("") + f.slice(-10).join(""))
    }
//    var u = void 0
//    , l = "" + String.fromCharCode(103) + String.fromCharCode(116) + String.fromCharCode(107);
//    u = null !== i ? i : (i = window[l] || "") || "";
//  断点调试,然后从网页源码中找到 window.gtk的值    
    var u = '320305.131321201'
    
    for (var d = u.split("."), m = Number(d[0]) || 0, s = Number(d[1]) || 0, S = [], c = 0, v = 0; v < r.length; v++) {
        var A = r.charCodeAt(v);
        128 > A ? S[c++] = A : (2048 > A ? S[c++] = A >> 6 | 192 : (55296 === (64512 & A) && v + 1 < r.length && 56320 === (64512 & r.charCodeAt(v + 1)) ? (A = 65536 + ((1023 & A) << 10) + (1023 & r.charCodeAt(++v)),
            S[c++] = A >> 18 | 240,
            S[c++] = A >> 12 & 63 | 128) : S[c++] = A >> 12 | 224,
                                                                    S[c++] = A >> 6 & 63 | 128),
                                S[c++] = 63 & A | 128)
    }
    for (var p = m, F = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(97) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(54)), D = "" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(51) + ("" + String.fromCharCode(94) + String.fromCharCode(43) + String.fromCharCode(98)) + ("" + String.fromCharCode(43) + String.fromCharCode(45) + String.fromCharCode(102)), b = 0; b < S.length; b++)
        p += S[b],
            p = n(p, F);
    return p = n(p, D),
        p ^= s,
        0 > p && (p = (2147483647 & p) + 2147483648),
        p %= 1e6,
        p.toString() + "." + (p ^ m)
}

5、直接将代码写入本地js文件,利用pyexecjs模块执行js代码进行调试

# 安装pyexecjs模块
sudo pip3 install pyexecjs

# 使用
import execjs

with open('translate.js','r') as f:
    js_data = f.read()
    
# 创建对象
exec_object = execjs.compile(js_data)
sign = exec_object.eval('e("hello")')
print(sign)

获取token

# 在js中
token: window.common.token
# 在响应中想办法获取此值
token_url = 'https://fanyi.baidu.com/?aldtype=16047'
#正则:
regex:  "token: '(.*?)'"
    	"gtk":window\.gtk = '(.*?)'

具体代码实现

import requests,execjs,re

class BaiDuTranslate:
    def __init__(self):
        self.post_url='https://fanyi.baidu.com/v2transapi?from=zh&to=en'
        self.get_url='https://fanyi.baidu.com/'
        self.headers={
            # "accept": "*/*",
            # "accept-encoding": "gzip, deflate, br",
            # "accept-language": "zh-CN,zh;q=0.9,en;q=0.8",
            # "content-length": "143",
            # "content-type": "application/x-www-form-urlencoded; charset=UTF-8",
            "cookie": "BAIDUID=8F8E496A0627BCB65155484DA9B08BF6:FG=1; BIDUPSID=8F8E496A0627BCB65155484DA9B08BF6; PSTM=1568717324; REALTIME_TRANS_SWITCH=1; FANYI_WORD_SWITCH=1; HISTORY_SWITCH=1; SOUND_SPD_SWITCH=1; SOUND_PREFER_SWITCH=1; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; BDSFRCVID=P8POJeC629IatZOwmDesb7qSbm20KcrTH6aIwNdayAZxzkHb8Do8EG0Pef8g0Ku-8Uu8ogKKBeOTHn0F_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=fRPD_Dt5f-5_jJ7kqtbSMttfqx6betJyaR33WlTvWJ5TMC_wytQMWx4WhH5Oh4Df-G7aWC_MWbOKShPC-frbX40_2tQzhnTWWIuOKnAy3l02Vb5Ie-t2ynQDebotqPRMW23G0l7mWnu2sxA45J7cM4IseboJLfT-0bc4KKJxbnLWeIJEjjCBj5oBDats-460aK_L3bRVKbk_jR-k-PnVep81qtnZKxtqtJ5A34buB-3VhlOq-6Ja0PDDDG3i5bjnWncKa43k5njBEfc924R1-6kvhN7405OT5CFO0KJcb6CWStK9hPJvyUD8XnO72jOlXbrtXp7_2J0WStbKy4oTjxL1Db3JKjvMtgDtVDI2tCL2MIvGh4rohCuShMr2aK6B5Po2WbCQ5P5O8pcNLTDKefF_5b69--uHMeca_-jRKJCKhhvnKlO1j4_P5PTb5RcCyjbEBhntfpbobh5jDh3qb6ksD-Rte6vPbRby0hvc0J5cShnkDMjrDRLbXU6BK5vPbNcZ0l8K3l02V-bIe-t2XjQheH8Dtj8ff5TXBR78HROSjJOcq46fq4tehHRTqpO9WDTm_D_XWRjMol76hfOqKPjWKJba26DjWK7H-pPKKlTb8Rbp2fQA2bIfyMKO0P4O3mkjbn5Dfn02OPKzehohe-4syPRGKxRnWI_jKfA-b4ncjRcTehoM3xI8LNj405OTbIFO0KJzJCcjqR8Zj5_BjTbP; H_PS_PSSID=; BDRCVFR[VXHUG3ZuJnT]=mk3SLVN4HKm; delPer=0; PSINO=1; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; locale=zh; Hm_lvt_64ecd82404c51e03dc91cb9e8c025574=1571381239,1571381490,1571385429,1571385697; Hm_lpvt_64ecd82404c51e03dc91cb9e8c025574=1571385708; __yjsv5_shitong=1.0_7_dc282fb0b220fe9f8aea1524913c1b55034e_300_1571385707958_123.160.225.97_1b1fb0b7; yjs_js_security_passport=06cc30877a1ec54e66d39dd126f9c2ddb24c2c7f_1571385711_js; to_lang_often=%5B%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%2C%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%5D; from_lang_often=%5B%7B%22value%22%3A%22en%22%2C%22text%22%3A%22%u82F1%u8BED%22%7D%2C%7B%22value%22%3A%22zh%22%2C%22text%22%3A%22%u4E2D%u6587%22%7D%5D",
            # "origin": "https://fanyi.baidu.com",
            # "referer": "https://fanyi.baidu.com/",
            "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.75 Safari/537.36",
            "x-requested-with": "XMLHttpRequest",
        }

    #获取gtk和token
    def get_gtk_token(self):
        html=requests.get(url=self.get_url,headers=self.headers).text
        # print(html)
        # print(88888)
        #正则匹配gtk和token
        token=re.compile("token: '(.*?)'",re.S).findall(html)
        gtk=re.compile("window\.gtk = '(.*?)'",re.S).findall(html)
        print(gtk)
        return gtk,token


    #获取sign
    def get_sign(self,word,gtk):
        with open("translation_js.js","r") as f:
            data=f.read()
        #执行js
        jsobj=execjs.compile(data)
        sign=jsobj.eval('e("{}","{}")'.format(word,gtk))
        return sign

    def run(self):
        word=input("输入要翻译的单词:")
        gtk,token=self.get_gtk_token()
        sign=self.get_sign(word,gtk)
        formdata={
            "from": "auto",
            "to": "auto",
            "query": word,
            "transtype": "enter",
            "simple_means_flag": "3",
            "sign": sign,
            "token": token,
        }
        #携带表单数据发送请求
        html=requests.post(
            url=self.post_url,
            data=formdata,
            headers=self.headers
        ).json()
        print(html)
        result=html['trans_result']['data'][0]['dst']
        print(result)


if __name__ == '__main__':
    b=BaiDuTranslate()
    b.run()

scrapy框

定义

异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架

安装

# Ubuntu安装
1、安装依赖包
	1、sudo apt-get install libffi-dev
	2、sudo apt-get install libssl-dev
	3、sudo apt-get install libxml2-dev
	4、sudo apt-get install python3-dev
	5、sudo apt-get install libxslt1-dev
	6、sudo apt-get install zlib1g-dev
	7、sudo pip3 install -I -U service_identity
2、安装scrapy框架
	1、sudo pip3 install Scrapy

# Windows安装
cmd命令行(管理员): python -m pip install Scrapy
# Error: Microsoft Visual C++ 14.0 is required xxx

Scrapy框架五大组件

1、引擎(Engine)      ：整个框架核心
2、调度器(Scheduler) ：维护请求队列
3、下载器(Downloader)：获取响应对象(基于多线程)
4、爬虫文件(Spider)  ：数据解析提取
5、项目管道(Pipeline)：数据入库处理
***********************************************************
# 下载器中间件(Downloader Middlewares) : 引擎->下载器,包装请求(随机代理等)(token等在此写入)
# 蜘蛛中间件(Spider Middlewares) : 引擎->爬虫文件,可修改响应对象属性(修改响应码等)

scrapy爬虫工作流程

# 爬虫项目启动
1、由引擎向爬虫程序索要第一个要爬取的URL,交给调度器去入队列
2、调度器处理请求后出队列,通过下载器中间件交给下载器去下载
3、下载器得到响应对象后,通过蜘蛛中间件交给爬虫程序
4、爬虫程序进行数据提取：
   1、数据交给管道文件去入库处理
   2、对于需要继续跟进的URL,再次交给调度器入队列，依次循环

常用爬虫命令:
    1.创建项目:
        scrapy startproject 项目名  #首字母大写
    2.创建爬虫文件
    	cd 项目名
        scrapy genspider 爬虫文件名 域名
    3.运行爬虫
    	scrapy crawl

执行流程图示:

今日任务

1、熟练使用 execjs 模块
2、熟记scrapy框架的组件及工作流程 - 要求能口头描述清楚

python分布式爬虫去重_Python分布式爬虫(三) - 爬虫基础知识 weixin_39997311 python分布式爬虫去重
0相关源码1技术选型爬虫能做什么1.1scrapyVSrequests+beautifulsoup做爬虫的时候，经常都会听到scrapyVSrequests+beautifulsoup的组合在本次分布式爬虫实现中只用scrapy而不用后者的原因是：requests和beautifulsoup都是库，scrapy是一个框架框架中可以应用requests等，可以集合很多第三方库基于twisted(异步
Scrapy分布式爬虫系统 ivwdcwso 开发运维 scrapy 分布式爬虫 python 开发
一、概述在这篇博文中,我们将介绍如何使用Docker来部署Scrapy分布式爬虫系统,包括Scrapyd、Logparser和Scrapyweb三个核心组件。这种部署方式适用于Scrapy项目和Scrapy-Redis分布式爬虫项目。需要安装的组件:Scrapyd-服务端,用于运行打包后的爬虫代码,所有爬虫机器都需要安装。Logparser-服务端,用于解析爬虫日志,配合Scrapyweb进行实时
爬虫实践——selenium、bs4 lucky_chaichai Python爬虫 selenium requests 爬虫 selenium python
目录一、浏览器的一般设置二、打开网页并获取网页源码的方式1、基于requests库2、基于urlib库3、基于selenium三、HTML解析1、BeautifulSoup2、Selenium动态渲染爬虫：模拟动态操作网页，加载JS(webdriver)3、scrapy框架四、反爬虫操作五、一些常见的异常处理六、url接口调用问题——get、post操作1、get请求2、post请求fromsel
第一天：爬虫介绍朱剑君 Python爬虫训练营爬虫 python
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
第三天：爬取数据-urllib库. 朱剑君 Python爬虫训练营 python 爬虫
每天上午9点左右更新一到两篇文章到专栏《Python爬虫训练营》中，对于爬虫有兴趣的伙伴可以订阅专栏一起学习，完全免费。键盘为桨，代码作帆。这趟为期30天左右的Python爬虫特训即将启航，每日解锁新海域：从Requests库的浪花到Scrapy框架的深流，从反爬迷雾中的破局到数据清洗的澄澈。我们拆解网页结构如同解读星图，让XPath与正则表达式化作导航罗盘。每个深夜的代码调试，终将凝结成破晓时的
分布式爬虫那些事儿 AI航海家(Ethan) 爬虫 python 分布式爬虫
什么是分布式爬虫？假设你有一群小伙伴，他们每个人都在帮你剥花生壳，然后把剥好的花生仁都丢到你面前的盘子里。分布式爬虫也差不多，许多台电脑一起上阵，各自负责去同一个网站获取数据，这叫建立一个分布式机群。为什么要用分布式？你一个人剥花生，速度自然慢。如果有一大堆人帮你，速度嗖嗖的上升。同理，为了提升爬取数据的效率，我们就用分布式爬虫。怎么实现分布式爬虫？我们用scrapy+redis，具体是通过scr
python爬虫6个经典常用案例（完整代码）小北画画 python 爬虫开发语言人工智能 pycharm
文章目录1.抓取静态网页内容2.抓取多个网页（分页）3.使用正则表达式提取数据4.处理动态内容（使用Selenium）5.抓取带有登录认证的网页6.使用Scrapy框架Python爬虫是一种强大的工具，可以用来从网页中提取数据。以下是六个常用的Python爬虫案例，涵盖了从简单的网页抓取到更复杂的动态内容抓取。1.抓取静态网页内容目标：抓取一个静态网页的内容，并提取其中的特定信息。示例：抓取一个新
scrapyrt 部署到docker 花阴偷移 scrapy docker docker python scrapy
一.背景scrapyrt是实时抓取api框架，我们生产环境一直使用默认的python3.6.8环境，来部署的scrapyrt。但由于自动化抓取playwright至少需要python3.7以上，又因为阿里云centos8默认的python3.6.8升级后带来很多不便，现在需要将scrapyrt部署到docker中,在docker中scrapyrt基于python3.8。1.1scrapyrt官方d
Python爬虫框架Scrapy入门指南健胃消食片片片片 python 爬虫 scrapy
Scrapy是一个高效、灵活、开放的Python爬虫框架，它可以帮助开发者快速地开发出高质量的网络爬虫，而不需要太多的编码工作。以下是对Scrapy的入门指南：一、Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。尽管Scrapy最初是为网络抓取而设计的，但它也可用于使用API提取数据或用作通用网络爬虫。Scra
scrapy爬虫使用undetected_chromedriver登录总是失败叨叨爱码字 scrapy 爬虫
Scrapy是一个优秀的爬虫框架，但是它本身不支持直接使用undetected_chromedriver。undetected_chromedriver是一个Python库，它可以用来绕过网站对SeleniumWebDriver的检测，但是它并不是Scrapy的一部分。如果你想在Scrapy中使用undetected_chromedriver，你需要自己编写中间件来实现这个功能。这可能需要一些额外
python爬虫---MongoDB保存爬取的数据他是只猫学python爬虫与实践 python mongodb 数据库
python爬虫scrapy爬虫博客文章，本文章主要是补充爬虫数据的保存。scrapy爬虫流程可以参考一下博文。https://blog.csdn.net/suwuzs/article/details/118091474以下是对pipelines.py文件写入代码一、对items进行处理MyspiderPipeline这个类是对爬取的数据进行处理，对于较长的数据进行一个缩略。importpymon
python进阶-05-利用Selenium来实现动态爬虫 SEEONTIME python进阶 python selenium 爬虫
python进阶-05-利用Selenium来实现动态爬虫一.说明这是python进阶部分05，我们上一篇文章学习了Scrapy来爬取网站，但是很多网站需要登录才能爬取有用的信息，或者网站的静态部分是一个空壳，内容是js动态加载的,或者人机验证，请求拦截转发等，那么这种情况Scrapy来爬取就很费劲，有人说我们可以分析登录接口，js加载内容实现爬取我们需要的内容，哼哼你想多了，请求内容经过服务器转
淘宝分类详情数据获取：Python爬虫的高效实现小爬虫程序猿 python 爬虫开发语言
在电商领域，淘宝作为中国最大的电商平台之一，其分类详情数据对于市场分析、竞争对手研究以及电商运营优化具有不可估量的价值。通过Python爬虫技术，我们可以高效地获取这些数据，为电商从业者提供强大的数据支持。一、为什么选择Python爬虫获取淘宝分类详情Python因其简洁的语法和强大的库支持，成为爬虫开发的首选语言之一。它拥有丰富的爬虫框架（如Scrapy、Requests等）和解析工具（如Bea
Scrapy 爬虫超时问题的解决方案杨胜增 scrapy 爬虫
Scrapy爬虫超时问题的解决方案在使用Scrapy进行网络爬虫开发时，经常会遇到各种问题，其中超时问题是一个比较常见的问题。超时问题会导致爬虫无法正常抓取数据，影响爬虫的效率和稳定性。本文将详细介绍Scrapy爬虫超时问题的原因及解决方案。问题描述在运行Scrapy爬虫时，可能会遇到以下类似的错误信息：twisted.internet.error.TimeoutError:Usertimeout
Scrapy框架爬虫教程——入门篇杨胜增 scrapy 爬虫
Scrapy框架爬虫教程——入门篇目录大纲：1.什么是Scrapy框架？1.1Scrapy简介爬虫框架的定义与作用为什么选择Scrapy？与其他爬虫框架（如BeautifulSoup、Selenium等）的对比1.2Scrapy的优势高效的网络请求处理灵活的爬取策略强大的数据处理功能内置的分布式爬虫支持2.安装与环境搭建2.1安装Python及相关工具安装Python及版本要求推荐使用的开发环境（
1. 什么是Scrapy框架？杨胜增 scrapy 爬虫
1.什么是Scrapy框架？1.1Scrapy简介爬虫框架的定义与作用在网络数据采集的过程中，爬虫（Spider）是用来从网页上抓取信息的程序。爬虫框架则是一个封装了网络请求、数据提取、存储等功能的工具集，帮助开发者更高效、简便地完成爬虫的开发。Scrapy是一个流行的Python爬虫框架，它以高效、灵活和易扩展的特点，被广泛应用于数据抓取、网页爬取、信息抽取等多个领域。Scrapy作为一个开源框
4. 编写你的第一个Scrapy爬虫杨胜增 scrapy 爬虫 c++
4.编写你的第一个Scrapy爬虫在本篇文章中，我们将开始编写一个简单的Scrapy爬虫，帮助你理解如何从一个网站抓取数据。我们将通过一个实际的例子，演示如何创建一个Scrapy爬虫，从目标网页获取信息，并将其保存到本地。4.1Scrapy爬虫的基本构成Scrapy爬虫的基本构成很简单，通常包含以下几个关键部分：name：爬虫的名字，用于在运行时识别。start_urls：起始的URL列表，爬虫从
Scrapy框架爬虫深入解析：动态网页处理与性能优化杨胜增 scrapy 爬虫
Scrapy框架爬虫深入解析：动态网页处理与性能优化Scrapy-Splash与动态网页处理安装与配置Scrapy-Splash是一个用于处理动态网页的Scrapy组件，它通过使用Splash来渲染动态网页，从而解决JavaScript动态加载的问题。首先，我们需要安装Scrapy-Splash：bash复制pipinstallscrapy-splash接下来，我们需要在settings.py文件
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 web15085096641 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
Python 网络爬虫实战：从基础到高级爬取技术一ge科研小菜鸡编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言网络爬虫（WebScraping）是一种自动化技术，利用程序从网页中提取数据，广泛应用于数据采集、搜索引擎、市场分析、舆情监测等领域。本教程将涵盖requests、BeautifulSoup、Selenium、Scrapy等常用工具，并深入探讨反爬机制突破、动态加载页面、模拟登录、多线程/分布式爬取等高级技巧。2.爬虫基础：request
python爬虫项目（八十二）：爬取旅游攻略网站的用户评论，构建旅游景点推荐系统人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫旅游开发语言金融信息可视化
构建一个旅游景点推荐系统，可以帮助用户根据他们的偏好和其他用户的评论来选择旅行目的地。在这个项目中，我们将通过爬取旅游攻略网站的用户评论数据，分析这些数据，并使用协同过滤等推荐算法来构建一个基本的推荐系统。本文将详细描述整个过程，包括爬虫部分和推荐系统的构建。目录文章大纲一、项目背景与目标项目的目标：二、目标网站分析与数据需求数据需求：目标网站：三、爬虫技术选型安装所需库四、使用Scrapy爬取用
scrapy六 SSSCAESAR
目录设置代理ip设置随机的请求头(u-a)scrapy集成seleniumRedisNoSQL和SQL数据库的比较Redis特性设置代理ip代理的作用：突破自身的IP访问限制隐藏自身真实的ip如何获取ip：付费代理代理ip的匿名度：透明服务器知道这次使用了代理也知道真实的ip匿名服务器知道使用了代理不知道真实的ip高匿不知道使用了代理也不知道真实的ipclassIPProxyDownloaderM
正在更新丨豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask） Want595 Python数据分析 scrapy mysql matplotlib
文章目录豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask）写在前面数据采集0.注意事项1.创建Scrapy项目`douban2025`2.用`PyCharm`打开项目3.创建爬虫脚本`douban.py`4.修改`items.py`的代码5.修改`pipelines.py`代码6.修改`settings.py`代码7.启动`douban2025`项目8
11. Scrapy爬虫的监控与日志管理：确保稳定运行杨胜增 scrapy 爬虫
11.Scrapy爬虫的监控与日志管理：确保稳定运行在进行大规模的爬虫部署时，如何高效地监控爬虫的运行状态，及时发现并解决潜在问题，变得至关重要。Scrapy提供了灵活的日志管理功能，同时也可以与外部工具集成，实现爬虫的实时监控与告警。本篇文章将探讨如何使用Scrapy内置的日志功能来追踪爬虫的状态、调试问题，并通过集成外部监控工具来提高爬虫的稳定性和可维护性。11.1Scrapy内置日志功能Sc
【Python3爬虫】Scrapy入门教程 TM0831 Python3爬虫 Python3 网络爬虫
Python版本：3.5系统：Windows一、准备工作需要先安装几个库（pip，lxml，pywin32，Twisted，pyOpenSSL），这些都比较容易，如果使用的是Pycharm，就可以更方便的安装模块，在settings里可以选择版本进行下载。如果在命令行模式下输入pip-V出现'pip'不是内部或外部命令，也不是可运行的程序或批处理文件，先确保自己在环境变量中配置E:\Python3
python爬虫框架Scrapy简介码农~明哥 python python 爬虫 scrapy
当你写了很多个爬虫程序之后，你会发现每次写爬虫程序时，都需要将页面获取、页面解析、爬虫调度、异常处理、反爬应对这些代码从头至尾实现一遍，这里面有很多工作其实都是简单乏味的重复劳动。那么，有没有什么办法可以提升我们编写爬虫代码的效率呢？答案是肯定的，那就是利用爬虫框架，而在所有的爬虫框架中，Scrapy应该是最流行、最强大的框架。Scrapy概述Scrapy是基于Python的一个非常流行的网络爬虫
Python框架区别是什么？比较常用的框架有哪些？其实还好啦 python 编程语言
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。众所周知，Python开发框架大大减少了开发者不必要的重复劳动，提高了项目开发效率的同时，还使得创建的程序更加稳定。目前比较主流的Python框架都有哪些呢？一般大家用的比较多的是Django、Flask、Scrapy、Diesel、Cubes、Pulsar和Tornado。那
使用Python爬虫抓取与分析航班信息：从数据采集到应用的完整实践 Python爬虫项目 2025年爬虫实战项目 python selenium 自动化爬虫开发语言 php microsoft
目录：前言爬虫基础知识什么是爬虫？爬虫的工作原理爬虫的应用领域航班数据爬取的实际应用航班数据分析的重要性选择爬虫技术栈常见的爬虫框架与工具选择合适的工具：requestsvsSeleniumvsScrapy如何获取航班信息航班数据来源分析航班信息的结构与抓取目标爬虫抓取航班信息的步骤发送HTTP请求并获取航班数据使用Selenium抓取动态数据解析HTML页面并提取航班信息航班数据存储与处理存储抓
Python从入门到进阶教程文章分享汇总~持续更新 Amo Xiang 流畅的Python python 开发语言
目录一、Python语言基础1.1基础语法1.2练习二、web方向2.1flask2.2django2.3fastapi三、爬虫方向3.1爬虫基础3.2Scrapy框架3.3反爬3.5爬虫架构3.6案例四、数据分析和ai4.1数据分析4.2AI五、Python常用模块，内置函数与方法总结5.1内置函数5.2常用模块六、视频讲解七、项目案例一、Python语言基础1.1基础语法2024Python3
90、Python Web抓取与数据爬虫：技巧、实践与道德规范多多的编程笔记 python 前端爬虫
Python开发：学习Web抓取和数据爬虫大家好，今天我将向大家介绍Python的Web抓取和数据爬虫技术，主要包括BeautifulSoup和Scrapy两个库。在此之前，请大家先思考一个问题：为什么我们需要Web抓取和数据爬虫？为什么需要Web抓取和数据爬虫？在互联网时代，数据量呈爆炸式增长，但并不是所有数据都易于获取。很多时候，我们需要从网站上获取数据，这就需要用到Web抓取和数据爬虫技术。
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

python爬虫之无界面模式操作/scrapy框架

文章目录

前情回顾

cookie模拟登陆

三个池子

selenium+phantomjs/chrome/firefox

今日笔记

chromedriver设置无界面模式

selenium - 键盘操作

selenium - 鼠标操作

selenium - 切换页面

民政部网站案例

selenium - iframe子框架

百度翻译破解案例

scrapy框

执行流程图示:

今日任务

你可能感兴趣的:(scrapy)