耿子666

python-scrapy模拟登陆网站--登陆青果教务管理系统（二）

前言：

第一篇，分析青果教务管理系统登陆模块，理清思路

第二篇，使用常规的python常用库 requests来实现模拟登陆

第三篇，使用scrapy来实现模拟登陆

目的在于了解模拟登陆网站的要点和方法，了解http请求的一些知识。

（1）前期工作

该篇最好参考下源码理解查看，源码在文章最后。

上一篇我们说明了模拟登陆青果教务系统需要注意的问题。那么我们就先把，密码验证码的加密，保存验证码图片等先写一下测试一下。

1、密码和验证码加密

上一篇中我们已经找到了加密的算法，通常在登陆的参数有加密的话，加密算法都会在前台写好。我们只需要找到即可。

加密：

function chkpwd(obj) {
    if (obj.value != '') {
        var s = md5(document.all.txt_asmcdefsddsd.value + md5(obj.value).substring(0, 30).toUpperCase() + '10479').substring(0, 30).toUpperCase();
        document.all.dsdsdsdsdxcxdfgfg.value = s;
    } else {
        document.all.dsdsdsdsdxcxdfgfg.value = obj.value;
    }
}
function chkyzm(obj) {
    if (obj.value != '') {
        var s = md5(md5(obj.value.toUpperCase()).substring(0, 30).toUpperCase() + '10479').substring(0, 30).toUpperCase();
        document.all.fgfggfdgtyuuyyuuckjg.value = s;
    } else {
        document.all.fgfggfdgtyuuyyuuckjg.value = obj.value.toUpperCase();
    }
}

（document.all.txt_asmcdefsddsd.value 是用户名）

chkpwd 加密密码的， chkyzm 加密验证码的。

这两个js 方法触发的地方，在form 表单中：

密　码

验证码

根据上面的描述，我们编写 python 代码实现，代码如下：

md5tools.py

# coding:utf-8

import md5


def md5_encrypt(src):
    """
    md5 加密
    :param src: 需要加密的字段
    :return:
    """
    m1 = md5.new()
    m1.update(src.encode(encoding='utf-8'))
    return m1.hexdigest()



# function chkpwd(obj) {
#  if(obj.value!='')
# {    var s=md5(document.all.txt_asmcdefsddsd.value+md5(obj.value).substring(0,30).toUpperCase()+'10479').substring(0,30).toUpperCase();
#     document.all.dsdsdsdsdxcxdfgfg.value=s;} else { document.all.dsdsdsdsdxcxdfgfg.value=obj.value;
# } }


#function chkyzm(obj) {  if(obj.value!='') {  var s=md5(md5(obj.value.toUpperCase()).substring(0,30).toUpperCase()+'10479').substring(0,30).toUpperCase();  document.all.fgfggfdgtyuuyyuuckjg.value=s;} else {    document.all.fgfggfdgtyuuyyuuckjg.value=obj.value.toUpperCase();}}


username = "xxxx"
passwd = "xxx"
yzm = 'gbhg'

#密码加密
passwd_jiami = md5_encrypt((username+md5_encrypt(passwd)[0:30].upper()+'10479'))[0:30].upper()
print passwd_jiami
#验证码加密
yzm_jiami = md5_encrypt((md5_encrypt(yzm.upper())[0:30].upper()+'10479'))[0:30].upper()
print yzm_jiami

我们只是用python的写法重写了一遍加密的过程。

1.2、获取请求的cookie信息

上一篇中已经介绍了，cookie 的用途，就是用来标识用户，来保证同一个用户对应用一个会话。

代码如下：

getCookie.py

# coding:utf-8

import requests

def getCookieByRequestUrl(response):
    """
    根据请求的响应获取cookie信息
    :param response: 请求网站后的响应
    :return:
    """
    cookiejar = response.cookies

    # 8. 将CookieJar转为字典：
    cookiedict = requests.utils.dict_from_cookiejar(cookiejar)

    return cookiedict['ASP.NET_SessionId']

    # print cookiejar
    #
    # print cookiedict

def getCookieByRequestSession(url,headers):
    """
    发送请求获取cookie信息
    :param url: 请求的网站的网址
    :param headers: 请求头
    :return:
    """
    session = requests.session()
    response = session.get(url=url,headers=headers)
    cookiedict = requests.utils.dict_from_cookiejar(response.cookies)
    return cookiedict['ASP.NET_SessionId']


headers ={
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"
}

# print getCookieByRequestUrl("http://jwglxt.aynu.edu.cn/",headers=headers)
#print getCookieByRequestSession("http://jwglxt.aynu.edu.cn/",headers=headers)

1.3、保存验证码图片

上一篇我们已经知道验证码的网址了：http://jwglxt.aynu.edu.cn/sys/ValidateCode.aspx?t=198

我们就按照上一篇说的第一种做法，将验证码下载到本地，我们自己查看后，手动输入。

但是要注意，我们要在同一个cookie 下获取验证码才是有用的，而且在请求验证码的时候请求头中需要Referer 等字段，

我们最直接的做法就是原模原样的将浏览器正常请求验证码网址的请求头拿下拉使用。

代码如下：

getyzm.py

# coding:utf-8

import requests
import time
from getCookie import getCookieByRequestUrl


def getYZMImage(url,cookie):
    """
    请求验证码的网址，下载验证码信息
    :param url: 验证码的链接
    :param cookie: cookie信息
    :return:
    """
    cookievalue =  'ASP.NET_SessionId='+str(cookie)
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
        'Cookie':cookievalue,
        'Referer': 'http://jwglxt.aynu.edu.cn/_data/home_login.aspx',
        'Connection':'keep-alive',
        'Accept-Language':'zh-CN,zh;q=0.9',
        #'Accept-Encoding':' gzip, deflate',
        'Accept':'image/webp,image/apng,image/*,*/*;q=0.8',
        'Host':'jwglxt.aynu.edu.cn',
    }
    response = requests.get(url=url,headers =headers)
    captcha(response.content)



def captcha(data):
    """
    保存验证码图片到本地
    :param data:
    :return:
    """
    with open('captcha.jpg','wb') as fp:
        fp.write(data)
    time.sleep(1)



# headers ={
#     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"
# }
#
# cookie = getCookieByRequestUrl("http://jwglxt.aynu.edu.cn/",headers=headers)
#
# url = "http://jwglxt.aynu.edu.cn/sys/ValidateCode.aspx?t=121"
# getYZMImage(url=url,cookie=cookie)

（2）编写模拟登陆的代码

下面我们会从开始网址到最后获取到登陆数据介绍整个流程。

1，访问教务系统主网页获取cookie信息

 response = requests.get(url="http://jwglxt.aynu.edu.cn/", headers=headers)
    cookie = getCookieByRequestUrl(response)

2，拼装新的请求头，访问登陆的链接，获取到额外的参数和对应的值

获取的值就是上一篇中说的 form 表单额外的参数

loginhomeheaders = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
        'Cookie': cookie,
        'Referer': 'http://jwglxt.aynu.edu.cn/',
        #'Referer': 'http://jwglxt.aynu.edu.cn/default.new.aspx',

    }
    loginhomeurl = 'http://jwglxt.aynu.edu.cn/_data/home_login.aspx'
    response = requests.get(loginhomeurl,headers=loginhomeheaders)

    VIEWSTATE = re.search(r'

 
  这里我们使用了正则来获取该值，本来是想用xpath，但是由于是 隐藏的input 不是很好获取，就采用了正则的方式。 
  这里我们来演示下Referer 的作用，在不加的情况下，我们访问登陆链接。直接系统出错，这就是系统验证了该链接不是从http://jwglxt.aynu.edu.cn/ 发出的，直接响应失败。 
  
 
  如果是加上 Referer 就可以正常访问 
  3、根据cookie信息，访问验证码链接，保存验证码图片到本地 
  
    url = "http://jwglxt.aynu.edu.cn/sys/ValidateCode.aspx?t="+str(random.randint(0,999))
    getYZMImage(url=url, cookie=cookie)当执行到这里，我们就会在该文件夹下，出现一张名为 captcha.jpg,这个就是我们保存的验证码 
  
 
   
    
   
  4、等待用户输入账号，密码，验证码，将密码和验证码进行加密处理 
      username = str(raw_input("请输入账号:"))
    print username
    passwd = str(raw_input("请输入密码:"))
    print passwd
    yzm = str(raw_input("请输入验证码:"))
    print yzm

    # username = "xxx"
    # passwd = "xxx"
    # 密码加密
    passwd_jiami = md5_encrypt((username + md5_encrypt(passwd)[0:30].upper() + '10479'))[0:30].upper()
    # 验证码加密
    yzm_jiami = md5_encrypt((md5_encrypt(yzm.upper())[0:30].upper() + '10479'))[0:30].upper() 
  我们使用raw_input 来接收用户输入的数据 
  5、访问登陆的网址，模拟登陆 
  def login(username,passwd,yzm,cookie,viewstate):
    #组拼 data
    login_data  = {
        '__VIEWSTATE':viewstate,
        'pcInfo':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36undefined5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36 SN:NULL',
        'typeName':'ѧ��',
        'dsdsdsdsdxcxdfgfg': passwd,
        'fgfggfdgtyuuyyuuckjg':yzm,
        'Sel_Type': 'STU',
        'txt_asmcdefsddsd':username,
        'txt_pewerwedsdfsdff':'',
        'txt_sdertfgsadscxcadsads':'',
    }

    cookievalue = 'ASP.NET_SessionId=' + str(cookie)
    login_headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
        'Cookie':cookievalue,
        'Referer': 'http://jwglxt.aynu.edu.cn/_data/home_login.aspx',
        'Origin': 'http://jwglxt.aynu.edu.cn',
    }

    loginurl = "http://jwglxt.aynu.edu.cn/_data/home_login.aspx"

    session = requests.session()
    response = session.post(url=loginurl,data=login_data,headers=login_headers)

    getinfoheaders = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
        'Cookie': cookievalue,
        'Referer': 'http://jwglxt.aynu.edu.cn/xsxj/Stu_MyInfo.aspx',
    }
    response1 = session.get(url="http://jwglxt.aynu.edu.cn/xsxj/Stu_MyInfo_RPT.aspx",headers=getinfoheaders)
    print response1.text 
  解释几点：'typeName':'ѧ��', 这个就是 “学生”，但是在浏览器端登陆的时候，就是将其转码了，所以我们也写成这样。 
  登陆一般都是 post 请求，所以我们构建了一个 login_data 就是登陆的数据，跟使用浏览器登陆一致。 
  请求头也有所变化，我们写的与浏览器登陆一致即可。 
  当登陆成功之后，就可以获取数据了。这里就会使用到session了，其实还是cookie，因为有了cookie，session才能找到。 
  这里使用了 requests.session() 会自动携带一些登陆信息，免去设置cookie 
  自己可以测试使用一下。 
  6、获取登陆后某网页的数据 
    response1 = session.get(url="http://jwglxt.aynu.edu.cn/xsxj/Stu_MyInfo_RPT.aspx",headers=getinfoheaders)
    print response1.text 
  我们可以看下打印的数据。看是否正常获取。 
  （3）测试模拟登陆 
  由于不能直观的看到请求的过程，我们使用fidder来进抓包。关于fidder软件的使用，可以参考很多网站。 
  让我们运行写好的模拟登陆的爬虫：monirequest.py 
  先看下控制台： 
  
 
  爬取成功，我们来分析一下fidder 访问的过程： 
  
 
  所有的请求都在这里了。 
  看第一个请求：http://jwglxt.aynu.edu.cn/  教务系统的主网站 
  
 
  这是第一次请求，没有cookie信息。正常的请求，没啥问题。 
  查看第二个请求，登陆的界面 http://jwglxt.aynu.edu.cn/_data/home_login.aspx  
  
 
  注意查看 cookie 信息 和referer 信息，我们正确的拿到了登陆的界面 
  查看第三个请求，获取验证码图片  http://jwglxt.aynu.edu.cn/sys/ValidateCode.aspx?t=203  
  
 
  注意 cookie 和 referer ，显然 cookie 值是跟上一个请求一致的。 而且我们也看到了验证码的图片。 
  查看第四个请求，模拟登陆，发送登陆请求，http://jwglxt.aynu.edu.cn/_data/home_login.aspx  
  
 
  注意 cookie ，referer 和 origin。cookie没有改变。 
  再来看下请求发送的数据 
  
 
  我们发现和浏览器登陆发送的一致。 
  查看最后发送的请求，获取登陆后才能查看的数据。http://jwglxt.aynu.edu.cn/xsxj/Stu_MyInfo_RPT.aspx  
  
 
  数据正确的拿回来了。 
  （4）总结 
  这一篇中我们使用了python常用库requests 来完成了模拟登陆，只要跟浏览器登陆一致，设置正确的请求头，参数。都是可以登陆的。这一部分的代码也可以换成java代码编写，原理没有区别。如果我在文中暴露了账号密码，请不要使用，谢谢。 
  源码：https://github.com/gengzi/simulatelogin 
  码字不易，给个赞吧。

python-Scrapy爬虫框架介绍（整个数据的流程） onesalatree Scrapy框架爬虫 python 软件框架爬虫 scrapy
python-Scrapy爬虫框架介绍随着在家的线上教育的进行，课程的深入学习，所要学习的内容和作业也在不断的增多，所以没有过多的自己的时间去学习新的爬虫知识，但疫情逐渐的在好转，我也很是期待开学的那一天，毕竟线上教育的效果没有在学校的更为显著，主要是老师们录课很辛苦今天我想和兄弟们分享一下Scrapy爬虫的原理，也是自己最近刚学习的，有什么不足的地方兄弟们可以评论你或者私信喔。Python爬虫的
Python-Scrapy框架基础学习笔记羽丶千落 Python学习 python scrapy 学习
Python-Scrapy框架基础学习笔记1.创建一个Scrapy项目（test_project01）2.settings文件的基础设置3.定义Item4.编写爬取内容Spider5.pipeline.py文件的编写6.爬取1.创建一个Scrapy项目（test_project01）cd进入指定目录：scrapystartprojecttest_project01该命令会创建包含以下内容的test
python—scrapy数据解析、存储郑*杰 python三方库 python
基本操作：python-scrapy爬虫框架基本使用_郑*杰的博客-CSDN博客数据解析当前文件：D:\python_test\scrapyProject\scrapyProject\spiders\first.pyimportscrapyclassFirstSpider(scrapy.Spider):name='first'start_urls=['https://ishuo.cn/duanzi
Python-Scrapy 获取历史双色球开奖号码羽丶千落 Python学习 python scrapy
Python-Scrapy获取历史双色球开奖号码文章目录1-创建项目2-settings文件设置3-Itrm设置4.创建Spider5-爬取规则的编写6-pipeline.py文件的编写7-爬取8-数据统计1-创建项目在终端中输入创建Scrapy项目的命令：scrapystartprojectGetBicolorNumber2-settings文件设置ROBOTSTXT_OBEY=FalseDEF
Python-Scrapy框架（框架学习） Visual code AlCv python学习 python scrapy 学习
一、概述Scrapy是一个用于爬取网站数据的Python框架，可以用来抓取web站点并从页面中提取结构化的数据。基本组件：引擎(Engine)：负责控制整个爬虫的流程，包括调度请求、处理请求和响应等。调度器(Scheduler)：负责接收引擎发送的请求，并将其按照一定的策略进行调度，生成待下载的请求。下载器(Downloader)：负责下载请求对应的网页，可以使用多种下载器，例如基于Twisted
整合:词库操作指南探戈独舞
词库的整理和收集，一方面可以根据关键词获取到精准的、大量的流量，另一方面也可以了解用户的需求，方便第二步的模板设置。关键步骤SEO词库一般有以下几个关键步骤：1、抓取2、扩展3、过滤4、补充字段&入库5、清理&优化第一步关键词抓取:关键词抓取一般有以下几个来源：竞争对手词库第三方工具，如5118PPC或者其他流量渠道的关键词抓取的工具也有很多，比如：火车头Python-scrapy开发支持不过需要
Python-Scrapy库的安装与使用热绪 Python python linux
Python-Scrapy库的安装与使用安装scrapy在Linux下安装scrapy：sudoaptinstallpython3python3-devsudoaptinstallpython3-pippip3installscrapy测试安装是否成功：importscrapy在命令行终端输入：scrapy查看相关信息创建工程scrapystartproject[工程名]创建工程scrapysta
基于python-scrapy框架的爬虫系统（可以做毕业设计）杰克船长_中国 python scrapy 毕业设计
爬虫简单介绍提供毕设指导、代码调试（酌情收费）+需要毕设的同学可以联系我：609997553/wechat:jackwu0521一、爬虫：就是抓取网页数据的程序二、爬虫如何抓取：网页三大特征：网页都有自己唯一的URL（统一资源定位符）来进行定位网页都使用HTML（超文本标记语言）来描述页面信息。网页都使用HTTP/HTTPS（超文本传输协议）协议来传输HTML数据。爬虫的设计思路：首先确定需要爬取
Python-scrapy爬虫 Octong
Python-scrapy爬虫目录Python-scrapy爬虫CHAPTER21.HTTP基本原理2.HTMLHTMLJavaScriptCSS3.使用XPath定位CHAPTER3Scrapy框架安装scrapy项目：起点中文网小说数据CHAPTER4request对象应用：伪装成浏览器使用选择器提取数据Response对象使用CSS定位Item封装数据ItemLoader填充数据Pipeli
python-scrapy框架爬取以“GBK”编码的网页 zhuyan~ 爬虫
网页编码方式的查看方法F12打开开发者工具->在控制台console输入document.charset回车scrapy框架爬取以“GBK”编码的网页方法一：req=requests.get(headers=header,url=url)content=req.contentprint(content.encode('utf-8'))然后将输出流到某一文件中，用utf-8编码打开方法二：req=r
python-scrapy教程（二）：网页跳转穿裤衩的文叔 Python
我们接着上一教程开始讲解scrapy中网页的跳转首先，先看我们要采集的网站：优酷list列表--http://list.youku.com/category/show/c_96_r_2017_s_1_d_1_p_1.html我们所要采集的信息呢在这个详情页这个详情页是通过播放页的节目简介这儿的入口进入的接下来我们看看代码（只需要在教程一中的代码进行修改）：settings设置：记住设置items.
使用CrawlSpider半通用化、框架式、批量请求“链家网”西安100页租房网页（两种方法实现rules的跟进和几个xpath分享） cici_富贵 Scrapy框架爬虫
csdn上已经有很多的关于CrawlSpider框架的讲解，以及其主要的使用方法，其整体的数据流向和Spider框架的数据流向是大体一样的，因为CrawlSpider是继承自Spider的类，Spider框架的介绍我在之前的博文中写过，python-Scrapy爬虫框架介绍（整个数据的流程）CrawlSpider框架的介绍我之后也想写一篇博文来加深自己的理解，这里通过实战来对其整体流程进行理解（半
Python-Scrapy遇到的问题，报错：FileNotFoundError: [Errno 2] No such file or directory: 'scrapy crawl xxx' Ren_ger
问题一：项目中使用到了爬虫（scrapy）框架已经任务调度框架，在调度过程中报错信息如下：Traceback(mostrecentcalllast):File"/usr/local/python3/lib/python3.6/site-packages/apscheduler/executors/base.py",line125,inrun_jobretval=job.func(*job.args
Python-Scrapy创建第一个项目蕾丝凶兆 python
创建项目在开始爬取之前，您必须创建一个新的Scrapy项目。进入您打算存储代码的目录中，运行下列命令：scrapystartprojecttutorial该命令行将会创建包含下列内容的tutorial目录：tutorial/scrapy.cfgtutorial/__init__.pyitems.pypipelines.pysettings.pyspiders/__init__.py...这些文件分
菜鸟写Python-Scrapy：Spider源码分析第一段代码 Python开发
蜘蛛：一，前言：在scrapy中蜘蛛定义了爬取方法（请求＆解析）以及爬取某个（或某些）网页（URL）的一些操作。生成一个蜘蛛项目的方法，执行cmd命令：scrapygenspiderlagouwww.lagou.com（scrapygenspider项目名域名）温馨提示：在生成的蜘蛛时，其实有4中模版，如如果不特指就默认为基本，就像上面的genspider一样没有指定则默认使用基本的，它还有三个模
使用Python-Scrapy框架爬取百度热搜榜，代码无报错，运行之后却爬取不到内容的情况 H—小幸笔记 python
使用python-scrapy框架爬取百度热搜榜，代码无报错，运行之后却爬取不到内容运行结果无报错（截取部分）：2020-05-2819:29:22[scrapy.middleware]INFO:Enableditempipelines:['demo2.pipelines.Demo2Pipeline']2020-05-2819:29:22[scrapy.core.engine]INFO:Spide
python-scrapy爬虫框架爬取王者荣耀英雄皮肤图片和技能信息 zhuyan~
1.创建工程将路径切换到想要保存爬虫项目的文件夹内，运行scrapystartprojectWZRY新建一个名为WZRY的工程。2.产生爬虫将路径切换至新创建的spiders文件夹中，运行scrapygenspiderwzry"https://pvp.qq.com/"，wzry是产生的爬虫名，"https://pvp.qq.com/"是要爬取的域名。3.具体实现3.1item.py列出想要爬取的数
python-scrapy框架实例1--爬取腾讯社招的职位信息 weixin_42162355
爬去腾讯社招的职位信息一、.第一步创建Scrapy项目，在cmd输入scrapystartprojectTencent二、.Scrapy文件介绍首先最顶层的Tencent文件夹就是项目名在第二层中是一个与项目同名的文件夹Tencent和一个文件scrapy.cfg。todayMovie是模块，所有的项目代码都在这个模块内添加。第三层有6个文件和一个文件夹（实际上这也是个模块）。实际上用的也就三个文
python-scrapy安装（win7系统）石头城
前言scrapy是一个流行的爬虫框架。架构分层，适合复杂项目并易于扩展。封装异步包，实现并发请求和分布式部署。框架架构介绍引擎（scrapyengine)处理整个系统的数据流，触发事务。调度器（scheduler）接收引擎发过来的请求，压入队列，去重，决定下一次请求的url。下载器（downloader)根据url请求网页，下载网页原始内容，并将网页内容返回给spiders。（基于twisted,
python-scrapy爬虫框架处理爬取图片的url储存在列表中的问题 zhuyan~
爬虫爬取图片需要从scrapy.pipelines.images模块中调用ImagesPipeline来进行图片的下载和存取。在爬取王者荣耀各英雄皮肤时，我将一个英雄所有皮肤图片的url存在列表中，想要把同一个英雄的皮肤爬取下来放在一个文件夹中。但是每次提交下载请求的返回值不能是列表值，也就意味着一次调用WzryImgPipeline只能下载一次图片。由于图片下载后，还需要进行更名操作，需要获取皮
python-scrapy教程（一）：创建工程，并抓取数据穿裤衩的文叔 Python
首先，做一下简介：Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。1、创建工程：选择一个文件夹，然后：scrapystartprojectyouku2、进入文件夹：cdyouku3、创建py文件，制定采集网址后缀:scrapygenspiderdatayouku.co
python-scrapy爬虫框架爬取拉勾网招聘信息 Alex-GCX
本文实例为爬取拉勾网上的python相关的职位信息,这些信息在职位详情页上,如职位名,薪资,公司名等等.分析思路分析查询结果页在拉勾网搜索框中搜索'python'关键字,在浏览器地址栏可以看到搜索结果页的url为:'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',尝试将?后的参数删除,发现访
爬虫-python-scrapy框架基本命令你好667
爬虫-python-scrapy框架基本命令创建一个项目scrapystartprojectname抓取页面scrapycrawl抓取的模块名网页抓取shellscrapyshell"目标URL"//进入shell,获取响应实体response.bodyresponse.headersXPath（选择器节点）//方法1.text()获取标签中的文字2.extract()获取节点中的文字转换成uni
python-scrapy爬取某招聘网站(二) 不像话
首先要准备python3+scrapy+pycharm一、首先让我们了解一下网站拉勾网https://www.lagou.com/和Boss直聘类似的网址设计方式，与智联招聘不同，它采用普通的页面加载方式我们采用scrapy中的crawlspider爬取二、创建爬虫程序scrapystartprojectlagou创建爬虫文件scrapygenspider-tcrawlzhaopin"www.la
python-scrapy爬取某招聘网站信息(一) 不像话
首先准备python3+scrapy+mysql+pycharm。。。这次我们选择爬取智联招聘网站的企业招聘信息，首先我们有针对的查看网站的html源码，发现其使用的是js异步加载的方式，直接从服务端调取json数据，这就意味着我们用地址栏的网址获取的网站内容是不全的，无法获得想要的数据。那么我们用什么方式获取想要的数据呢，正所谓道高一尺魔高一丈，有反爬虫就有范反爬虫，当然我们不用那么麻烦，通过分
python-scrapy框架爬取某瓣电视剧信息--异步加载页面不像话
前期准备，首先要有python环境+scrapy环境+pycharm环境一、建立爬虫所需的环境，在命令行输入：scrapystartprojectdoubantv#命名自定义就好会生成一个名为doubantv的文件夹，cd进入doubantv文件夹，在进入spiders文件夹，执行命令，新建爬虫文件：scrapygensipdertv"https://movie.douban.com"#注明爬虫文
python-scrapy(2) AlexMercer313
项目名称为ITcast当执行爬虫的yielditem时就会调用图二中的管道文件(不过需要在setting.py中配置，ITEM_PIPELINES这一行中配置，在这个字典中所包含的管道才可以被调用，同理可以在里面加上自定义管道，比如数据库管道什么的，并且后面的数字是优先级，0-1000之间，值越小优先级越高)每个item都会执行这些管道图二中:第一个函数:初始化第二个函数:因为返回的内容存在中文，
python-如何爬取天猫店铺的商品信息过去自己 python scrapy 天猫
**python-如何爬取天猫店铺的商品信息**1.本文使用的是python-scrapy爬取天猫博库图书专营店的数据，登录天猫获取登录之后的cookie通过下面两幅图片elements与网页源码对比不难看出，我们通过代码获取的源码与elements是对不上的,也就是说需要我们自己查找数据所在位置下面重点来了！！！通过network中的对请求进行抓包，查看，获取了如下网址请求该网址可以看到获取了如
scrapy 自学入门demo分享 Warren-Hewitt
目录安装安装python安装scrapy创建项目配置settings.py文件编写items.py文件编写spider执行本文基于python3.7.0，win10平台；2018-08完整项目代码：https://github.com/NameHewei/python-scrapy安装安装python官网下载https://www.python.org/注意环境变量是否配置成功安装scrapy为了
Python-scrapy爬虫江南飘雪的小作坊爬虫
scrapy框架爬虫scrapy框架爬虫简介安装scrapy建立scrapy项目入口函数与入口地址Python的yield语句Scrapy中查找HTML元素Scrapy中查找HTML元素(1)Scrapy中查找HTML元素(2)Scrapy中查找HTML元素(3)Scrapy爬取与存储数据建立Web网站编写数据项目类编写爬虫程序myspider编写数据管道处理类设置scrapy的配置文件运行编写S
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

python-scrapy模拟登陆网站--登陆青果教务管理系统（二）

（1）前期工作

1、密码和验证码加密

1.2、获取请求的cookie信息

1.3、保存验证码图片

（2）编写模拟登陆的代码

（3）测试模拟登陆

（4）总结

你可能感兴趣的:(python-scrapy)