@Yhen

【爬虫】秀才不出门，天下事尽知。你也能做到！Yhen手把手带你打造每日新闻资讯速达小工具。

以下内容为本人原创，欢迎大家观看学习，禁止用于商业用途，转载请说明出处，谢谢合作！
大噶好！我是python练习时长一个月的Yhen.很高兴能在这里和大家分享我的学习经验。作为小白，我在写代码的时候会遇到各种各样的BUG，今天我把我的一些经验分享给大家，希望对大家能有所帮助！

今天要给大家分享的是通过爬取”澎湃新闻网”的新闻资讯来打造自己的新闻资讯小工具！后面会提供源码给大家哦

文章目录

一. 前期准备
二.思路分析
三.代码实现
四.源码
五.【Yhen说】
六.【往期文章回顾】

一. 前期准备

首先先罗列一下今天主要会用到的一些库以在今天的用法：（大家可以先准备一下）
requests    爬虫库，用于对网页发送请求
pyquery     用于数据提取
os               python自带，无需安装。用于创建文件夹
datetime     用于获取当前日期
time            用于设置请求延时

ok。准备好以后就正式开始今天的分享啦！

二.思路分析

我们今天的第一个目标是要把“澎湃新闻网“”里面的时事栏目里面的文章爬取下来

url：
https://www.thepaper.cn/channel_25951

我们先来看看这个网站

这是新闻“财经栏目的详情页”
所以我们要先通过对这个网页进行请求
获取每一个新闻详情页的链接
然后对详情页进行请求

再提取出文章中的文字信息
保存到本地后，再打包成exe可执行文件
就完成我们的爬取任务啦！

好啦，思路分析完了
准备好了么
准备起飞了哦

三.代码实现

首先，还是老套路
按F12打开我们的检查工具
按左上角，然后定位到文章的标题（注意是标题，不要定位到新闻的图片了哦）

可以看到右边控制台是给我们定位到了h2，
而h2里面有个a标签，
a标签里面有个href，对应着有一条链接
我们点击看看

发现进入了新闻的详情页面啦

看来这个href对应的链接就是我们要找新闻详情页的链接啦

接下来我们用代码把这些链接全部提取出来

今天我们要用到的库比较多
我会分步讲解，用到哪个库我再演示导入哪个库

首先，我们要对网页发送请求，用到requests爬虫库，我们要延时请求，用到time 库

然后进行数据提取，用到pyquery库

# 导入爬虫库
import requests
# 导入pyquery（数据提取）
from pyquery import PyQuery as pq
# 用于延时请求
import  time

首先是封装一个获取新闻内容网址和新闻标题的函数

然后带上请求头对网页发送请求，设置一秒的延时。

为什么要设置延时呢？
第一，是不为了给对方服务器带来太大的压力
第二，是避免请求过快被对方服务器识别出为非正常请求，对我们进行f反爬。万一对方封了我们的ip就GG啦！

if name == ‘main’:
index()
这串代码是调用函数的意思，如果不加函数里面的程序就不会被执行啦

# 请求头
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36',
          'Cookie':'aliyungf_tc=AQAAACrtMHyGHA4ARxkbZ27Kgw3kCofh; route=ac205598b1fccbab08a64956374e0f11; JSESSIONID=5B42F8C6E712092B9A963E3F0532AD21; uuid=9065c880-0293-4758-86a8-0a228c6cfb2c; SERVERID=srv-omp-ali-portal10_80; Hm_lvt_94a1e06bbce219d29285cee2e37d1d26=1587280903; Hm_lpvt_94a1e06bbce219d29285cee2e37d1d26=1587280903; UM_distinctid=17191507d62338-03d1defec13f5f-721f3a40-144000-17191507d63400; CNZZDATA1261102524=262517629-1587279306-null%7C1587279306; __ads_session=6NY9VLMBdgmIzmsFHgA=',
          'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
          'Host':'www.thepaper.cn'}

# 封装一个获取新闻内容网址和新闻标题的函数
def index():
    # 新闻网首页的链接
    url = 'https://www.thepaper.cn/channel_25951'
    # 对首页发送请求，并返回文本数据
    respoonse = requests.get(url, headers=headers,).text
    time.sleep(1)
if __name__ == '__main__':
    index()

我们来打印下结果看看，能不能正常得到数据呢

ok，莫得问题，也没有文字的格式问题

那么接下来就要把链接和标题信息提取出来啦

我们再次来观察下控制台的数据
可以看到，我们的链接所在的便签是a
a便签上一级是h2便签
h2便签上一级是类选择器（class）为“news_li”的div便签

那么想要获取链接
只要用pyquery通过类选择器和它的下级标签定位，
然后通过属性“href”取值即可。
再通过取数据里的文本数据就可以获取标题信息啦

那我们来尝试一下

首先数据初始化
然后通过类选择器news_li 下级标签 h2 a 定位数据
注意： “.”代表用类选择器定位再取下级标签直接空格即可

# 数据初始化
    doc = pq(respoonse)
    # 通过类选择器news_li 下级标签 h2 a 定位数据
    a = doc(".news_li h2 a")

我们先来看看获取到的数据

很好，我们的链接和标题都在这了
下面就可以通过他们的属性来提取出来啦

首先要先用.items把这些数据变成可遍历的数据
然后遍历数据
再通过属性href提取出新闻网址，
通过提取数据中的文本获取新闻标题

# 数据初始化
    doc = pq(respoonse)
    # 通过类选择器news_li 下级标签 h2 a 定位数据
    # .itens把数据变成可遍历的数据
    a = doc(".news_li h2 a").items()
    # 遍历数据
    for x in a:
        # 通过属性href提取出新闻网址
        href = "https://www.thepaper.cn/" + x.attr("href")
        # 提取数据中的文本 获取新闻标题
        title = x.text()

我们来打印下，看看能不能成功的得到标题和链接

很好，都得到啦

因为我这份教程制作时的时间间隔比较长，而新闻的时效性是很高的，因此有些新闻更新了。
所以现在看到的标题和一开始在首页看到的标题会不太一样
但是对我们的教程是没有任何影响的哈

好了，得到了我们新闻页面的链接后，就要对他们发送请求，获取数据了

首先封装一个获取新闻内容的函数
传入参数href和title
记得在上一个函数要写上get_news(href, title)哦，不然就调用不了啦

		# 将href,title参数传递到get_news函数
        get_news(href, title)

# 封装一个获取新闻内容的函数
def get_news(href,title):

然后在这个函数里对刚刚获取的新闻网址发送请求

# 对新闻内容网址发送请求
    response = requests.get(href,headers=headers).text

打印一下看看

就可以成功得到新闻数据的

接下来再用一次pyquery把新闻内容提取出来吧
方法和上面是一样的

# 数据初始化
    doc =pq(response)
    # 通过类选择器news_txt提取新闻内容
    news = doc(".news_txt").items()
    # 遍历数据
    for x in news:
        # 取出数据中的文本数据，获取到新闻信息
        new = x.text()
        print(new)

打印看看

没有毛病

接下来就是我们今天的重头戏啦
既然我们要打造的是每日的新闻资讯工具
那么当然是要程序自动生成一个当前日期的文件夹啦
怎么实现呢？
首先，生成文件夹要用到os库，获取当前日期要用到datetime库
先导入吧

import os
# 用于获取当天日期
import datetime

然后通过下面一行代码设置我们要生成的日期文件路径

# 获取今日日期，并转换为字符串的形式。以此日期命名建立文件路径
        date = datetime.datetime.now().strftime('%Y-%m-%d') + "新闻" + "//"

之前没有接触过这个模块的同学可能看不懂

没关系，我把他们拆开一步步给你们看
首先我们通过下面的代码获取当前的时间

# 获取今日日期，并转换为字符串的形式。以此日期命名建立文件路径
date = datetime.datetime.now()
print(date)
print(type(date))

打印下看看

成功得到了现在的年月日时分秒。数据类型是datetime类型的数据
但是我们建立的时间文件夹是不需要这么精准的
我们只要年月日
而且我们想把的格式变成字符串

我之前也和大家一样没接触过呢
怎么办呢？
不会就度娘呗哈哈哈

在一篇csdn博客中，成功找到了解决方法

文中提到可以通过strftime格式化时间的方法
实现提取出日期中的年月日以及把时间格式化成字符串
一举两得

文中还附上了strftime的参数方法
大家有兴趣的可以自行去了解
原文链接
Python新建文件夹并以当前时间命名

date = datetime.datetime.now().strftime('%Y-%m-%d')
print(date)
print(type(date))

我们此时再来打印下时间和类型

此时已经成功提取到年月日
格式也变成字符串啦

我们要新建的是新闻文件夹，所以路径里当然当然要加个“新闻”啦。
并加上//表示文件夹

date = datetime.datetime.now().strftime('%Y-%m-%d') + "新闻" + "//"

接下来就是新建文件夹啦
首先判断是否存在日期文件夹
如果不存在就新建该文件夹

# 判断是否存在此文件夹
        folder = os.path.exists(date)
        # 如果不存在就新建该文件夹
        if not folder:
            os.makedirs(date)

好啦，接下来就是把打开新建的文件夹并把我们的新闻内容保存进去啦

首先打开日期date文件夹，以"a"追加的方式,编码为"utf-8"保存为txt文件.
然后将获取到的新闻数据写入
最后关闭写入
就大功告成啦

# 打开date文件夹.以"a"追加的方式,编码为"utf-8"保存为txt文件.
        with open(date + "{}.txt".format(title), "a", encoding="utf-8") as f:
            # 将获取到的新闻数据写入
            f.write(new)
            # 关闭读写
            f.close()

我们运行整个程序看看效果如何

首先成功给我们生成了一个当前日期的文件夹

新闻内容也成功写入进去了呢

成功保存为txt文件，也没有出现格式问题

我们已经成功90%啦
我们今天是要把他变成一个本地的新闻资讯获取工具
所以当然是要把他打包成exe啦

关于打包的具体操作我就不细说啦
我之前在这篇文章有详细介绍过
Yhen手把手教你把python文件打包成exe可执行程序
大家可以参考参考哦

OK，打包完成后

可以看到exe文件保存在了你pycharm路径下的dist文件夹

我们运行一下看看

程序运行结束后，可以看到也是成功生成了当前日期的文件夹（晚一点点就变成21号的了哈哈哈）

打开后也是没有任何问题的呢


好啦！
成功啦
撒花完结！

四.源码

下面把源码给大家

# 导入爬虫库
import requests
# 导入pyquery（数据提取）
from pyquery import PyQuery as pq
# 用于创建文件夹
import os
# 用于获取当天日期
import datetime
# 用于延时请求
import  time

# 请求头
headers ={
          # 浏览器类型
          'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36',
          # 用户信息
          'Cookie':'aliyungf_tc=AQAAACrtMHyGHA4ARxkbZ27Kgw3kCofh; route=ac205598b1fccbab08a64956374e0f11; JSESSIONID=5B42F8C6E712092B9A963E3F0532AD21; uuid=9065c880-0293-4758-86a8-0a228c6cfb2c; SERVERID=srv-omp-ali-portal10_80; Hm_lvt_94a1e06bbce219d29285cee2e37d1d26=1587280903; Hm_lpvt_94a1e06bbce219d29285cee2e37d1d26=1587280903; UM_distinctid=17191507d62338-03d1defec13f5f-721f3a40-144000-17191507d63400; CNZZDATA1261102524=262517629-1587279306-null%7C1587279306; __ads_session=6NY9VLMBdgmIzmsFHgA=',
          # 请求数据类型
          'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
          }

# 封装一个获取新闻内容网址和新闻名称的函数
def index():
    # 新闻网首页的链接
    url = 'https://www.thepaper.cn/channel_25951'
    # 对首页发送请求，并返回文本数据
    respoonse = requests.get(url, headers=headers,).text
    time.sleep(1)
    # 数据初始化
    doc = pq(respoonse)
    # 通过类选择器news_li 下级标签 h2 a 定位数据
    # .itens把数据变成可遍历的数据
    a = doc(".news_li h2 a").items()
    # 遍历数据
    for x in a:
        # 通过属性href提取出新闻网址
        href = "https://www.thepaper.cn/" + x.attr("href")
        # 提取数据中的文本 获取新闻标题
        title = x.text()
        
        # 将href,name参数传递到get_news函数
        get_news(href, title)

# 封装一个获取新闻内容的函数
def get_news(href,title):
    # 对新闻内容网址发送请求
    response = requests.get(href,headers=headers).text

    # 数据初始化
    doc =pq(response)
    # 通过类选择器news_txt提取新闻内容
    news = doc(".news_txt").items()
    # 遍历数据
    for x in news:
        # 取出数据中的文本数据，获取到新闻信息
        new = x.text()
        print(new)
#
        # 获取今日日期，并转换为字符串的形式。以此日期命名建立文件路径
        date = datetime.datetime.now().strftime('%Y-%m-%d') + "新闻" + "//"
        # 判断是否存在此文件夹
        folder = os.path.exists(date)
        # 如果不存在就新建该文件夹
        if not folder:
            os.makedirs(date)

        # 打开date文件夹.以"a"追加的方式,编码为"utf-8"保存为txt文件.
        with open(date + "{}.txt".format(title), "a", encoding="utf-8") as f:
            # 将获取到的新闻数据写入
            f.write(new)
            # 关闭读写
            f.close()

if __name__ == '__main__':
    index()

下面到我的吹水环节啦

五.【Yhen说】

今天这个项目算是我独立做的第二个项目吧。第一个是用selenium来爬海贼王图片的。说到这篇用selenium的文章，我觉得挺神奇的，前天我看着那篇文章的访问量蹭蹭的往上涨，我隔十几分进去看一下，发现访问量都是每次几十几十的涨的。他的访问量很快就超过了我写的第一篇教程爬千千小说的，现在已经达到七百多的访问量了，因为这篇文章，我的总访问量很快就破千了，我还是很开心的。这点访问量对于大佬们来说是洒洒水的事，但是对于我这个无名小辈来说。我还是挺满意的啦。破了第一次千！也多了一些同学关注我。谢谢大家的支持。大家的支持是我创作的动力。以后也会分享更多的经验给大家。
很开心能在这里给大家分享我的经验。有什么疑惑或者对我有什么建议的欢迎在评论区提出。
如果觉得我写的还可以的，可以给个小赞嘛，点个关注就更好啦！
也算是对我的一个支持啦！

我是Yhen，我们下期见！

六.【往期文章回顾】

【爬虫】Yhen手把手带你用python爬小说网站，全网打尽，想看就看！
（这可能会是你看过最详细的教程）

【爬虫】Yhen手把手带你用python爬取知乎大佬热门文章

【爬虫】Yhen手把手教你爬取表情包，让你成为斗图界最靓的仔

【爬虫】Yhen手把手带你爬取去哪儿网热门旅游信息（并打包成旅游信息查询小工具

【selenium爬虫】Yhen手把手带你用selenium自动化爬虫爬取海贼王动漫图片

Python爬虫笔记汇总大厂_jvS python 爬虫笔记
except:print(“爬取失败”)4.网络图片爬取及存储#实例4：爬取图片‘’‘r.content#表示返回内容的二进制格式’‘’importrequestsimportosroot=‘./Pic/’path=root+url.split(‘/’)[-1].split(‘@’)[0]url=‘http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AW
Python3爬虫笔记 -- urllib Alst0n Python Python3 urllib urllib.request
urllib库是Python内置的HTTP请求库，不需要额外安装。它包含如下4个模块：request：HTTP请求模块error：异常处理模块parse：提供URL处理方法，包括拆分、解析、合并等robotparser：识别网站等robot.txt文件1、urllib.request发送请求连接URL，获取返回页面的源代码；默认请求方式为GETimporturllib.requestrespons
python爬虫selenium和splash_python | 爬虫笔记（七）- 动态渲染页面抓取Selenium Master ji
JavaScript动态渲染的页面不止Ajax这一种另外有的ajax渲染接口含有不少加密参数，难以直接找出其规律经过模拟浏览器运行的方式来实现，Selenium、Splash、PyV八、Ghost等7.1Selenium的使用自动化测试工具，支持多种浏览器。爬虫中主要用来解决js渲染问题用Selenium来驱动浏览器加载网页的话，能够直接拿到JavaScript渲染的结果了，加密不用再担忧。1-声
Python爬虫笔记一（来自MOOC） Requests库入门小灰不停前进 #Python python pycharm 爬虫
Python爬虫笔记一通用代码框架：importrequestsdefgetHTMLText(url):try:r=requests.get(url,timeput=30)r.raise_for_status()#如果状态不是200，引发HTTPError异常r.encoding=r.apparemt_encodingreturnr.textexcept:return"产生异常"if__name_
Go分布式爬虫笔记（五）_golang分布式爬虫架构 2401_87198107 golang 分布式爬虫
系统级别优化与架构设计：如何对服务进行拆分如何将服务链接在一起服务调用的关系以及调用频率各种问题：如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到
Python网络爬虫笔记（四）——requests与BeautifulSoup 玄黄问道 Python 爬虫
一、requestsrequest是请求库，用来获取页面信息。首先记得导入库啊，这个是第三方库，py没有自带，没有安装的小伙伴可以移步我上一篇安装第三方库教程importrequests介绍几个常用的函数1>请求命令importrequestsurl='https://www.163.com'resp=requests.get(url)get用途其实跟构造函数差不多，它的参数不少，我们这里主要用到
Go分布式爬虫笔记（五）_golang分布式爬虫架构 X_Pqk golang 分布式爬虫
如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到的数据不是最新写入的数据，那么就一定能设计出比强一致性读取响应延迟更低的系统。服务治理：监控、告警
Go分布式爬虫笔记(八)_golang分布式爬虫 2401_87299701 golang 分布式爬虫
+爬虫引擎为基础的推送系统+提供-快速的热点事件-事件预警用户需求快速了解自己感兴趣的最新新闻事件预警机制帮助快速决策功能需求用户填写或选择自己感兴趣的话题、感兴趣的网站还有消息接受频率用户接收最新热点事件的推送用户通过点击获取与该事件关联的事件，并得到相关的事件预测、预警，甚至可能在网站中进行快速的交易用户可以查看历史记录，可视化呈现某一个事件的来龙去脉，并进行复盘产品需求前端页面设计用户交互设
爬虫笔记21——DrissionPage自动化框架的使用墨菲马爬虫笔记爬虫笔记自动化
DrissionPage自动化框架的使用前言DrissionPage的使用1、准备工具及初步了解2、ChromiumPage的使用（操作浏览器）访问页面初始化配置元素定位iFrame切换元素监听动作链的简单使用3、SessionPage的使用（收发数据包）4、WebPage前言有人说，自动化框架降低了逆向的成本，当遇到不会的逆向，我用自动化解决问题，这其实是有道理的，哈哈哈~。但是，自动化框架其实
爬虫笔记（三）：实战qq登录学不动了躺叭爬虫笔记
咳咳，再这样下去会进橘子叭hhhhhh以及，这个我觉得大概率是成功的，因为测试了太多次，登录并且验证之后，qq提醒我要我修改密码才可以登录捏QAQ1.selenium有关selenium具体是啥，这里就不再赘述了，其他的博客分享的都很清楚，我就大概说一下：selenium是一个模拟用户操作的工具，通过selenium就可以点击网页中某一按钮，或者拖动某一图形（是捏，首先想到的就是滑块验证hhhhh
python爬虫笔记：爬取网页数据存储到excel 御风之 python 网页解析 excel
python抓取网页有效数据存储到excel使用requests从网页上获取得到信息使用BeautifulSoup解析提取并存储有效信息使用xlwt模块创建Excel最后得到Excel数据使用requests从网页上获取得到信息首先导入requests库和beautifulsoup库importrequestsfrombs4importBeautifulSoup然后调用requests.get()
python3的爬虫笔记13——Scrapy初窥 X_xxieRiemann
1、Scrapy安装在windows平台anaconda环境下，在命令窗口输入condainstallscrapy，输入确认的y后，静静等待安装完成即可。安装完成后，在窗口输入scrapyversion，能显示版本号说明能够正常使用。2、Scrapy指令输入scrapy-h可以看到指令，关于命令行，后面会再总结。Scrapy1.3.3-project:quotetutorialUsage:scra
爬虫笔记21：页面等待以及当按钮不能被点击时的处理、selenium操作多个窗口、12306扫码登录进阶的阿牛哥
一、页面等待为什么要等?（1）selenium比较慢网站打开了元素没有加载出来（2）现在的网页越来越多采用了Ajax技术，这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来，但是你的代码直接使用了这个WebElement，那么就会抛出NullPointer的异常。如何解决?（1）time.sleep(10)：Python提供的，importtime，一
爬虫笔记（二）：实战58二手房学不动了躺叭爬虫笔记
第一：给大家推荐一个爬虫的网课哈，码起来第二：今夜主题：通过xpath爬取58二手房的title信息，也就是标红的位置~第三：先分析一波title所在的位置打开按下f12打开抓包工具，即可看到网站的源码，逐步定位至房子信息的部分我们以第一个房子信息为例，找到它的title位置，最终发现它在这个位置~目前，我们就需要在网页的源码上获取到下的里的文本信息第四：想要获取某个标签下的文本信息或是属性信息，
爬虫笔记（一）：实战登录古诗文网站看到我请叫我去学java吖爬虫笔记
需求：登录古诗文网站，账号＋密码＋图形验证码第一：自己注册一个账号＋密码哈第二：图形验证码，需要一个打码平台（充钱，超能力power！）或者tesseract开源包，这两个用于自动识别图形验证码哈~我用的是超级鹰，充了1块，有1000积分，一次10积分，初学者福音hhhhh在软件ID随便填一下软件名称和说明，获取软件key然后点击首页，首页的菜单栏处有个开发文档，来到这个页面，然后找到python
爬虫笔记40之反爬系列三：复杂验证码的处理（12306图片验证码、行为验证：selenium鼠标行为链 + 算法）进阶的阿牛哥爬虫 python
一、12306图片验证码解决方案:selenium（鼠标行为链）+打码平台思路:通过selenium来加载登录页面，获取验证码图片。我就可以把验证码图片交给超级鹰打码平台进行处理。让其给我返回这张验证码正确的坐标值。拿到正确的坐标值之后去点击图片实现步骤第一步使用selenium加载登录页面第二步对页面进行保存第三步截取12306图片验证码第四步交给超级鹰打码平台进行识别返回正确的坐标值第五步根据
python+selenium爬虫笔记张航柯 python selenium 爬虫
本文只是做例子，具体网站路径麻烦你们换下，还有xpath路径也换下一、安装所需要的组件（此处采用谷歌）1、安装驱动查看你的浏览器版本，去安装对应的版本下载驱动下载驱动路径之前版本的输入这个路径下载下来解压2、安装python包pipinstall-Uselenium#-U是指定最新的selenium二、简单基本使用fromselenium.webdriverimportChromefromsele
Python 爬虫笔记1 一（反爬虫伪装） dinglangping
#!/usr/bin/envpython3#coding:utf-8importurllib.requestimportrandom#随机生成User-Agent的时候使用agentsList=["Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1;AcooBrowser;.NETCLR1.1.4322;.NETCLR2.0.50727)","Mozil
python爬虫笔记大橘杂货铺 python 爬虫笔记
文章目录day11.HTTP协议与WEB开发2.UA反爬3.referer反爬4.cookie反爬5.爬虫的请求参数6.爬取图片day2验证码与JS逆向爬虫1.获取验证码2.识别验证码day11.HTTP协议与WEB开发爬虫的根本就是模拟人向浏览器发送请求协议-版本-状态响应码客户端和服务端，都需要遵循请求和响应协议2.UA反爬request请求头中，带上user-agent参数3.referer
爬虫笔记总结（开篇）仲夏那片海爬虫爬虫笔记
服务器反爬的原因爬虫占用PV较高，浪费资源（PV是指页面访问次数）资源被批量抓走，丧失竞争能力法律灰色地带服务器常反什么样的爬虫十分低级的应届毕业生十分低级的创业公司不小心写错没人去停止的失控小爬虫成型的商业竞争对手抽风的搜索引擎反爬领域常见概念爬虫：使用任何手段，批量获取网站信息的一种方式，关键在于批量反爬虫：使用任何技术，阻止别人批量获取自己网站信息的一种方式，关键也在于批量误伤：反爬过程中，
爬虫笔记总结（验证码）仲夏那片海爬虫笔记
学习目的：了解验证码的相关知识掌握图片识别引擎的使用了解常见的打码平台掌握通过打码平台处理验证码的方法1.图片验证码1.1什么是图片验证码验证码（CAPTCHA）是“CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。1.2验证码的
网络爬虫笔记—滑动验证码识别程序汪小陈爬虫 python 开发语言大数据学习职场和发展数据分析
一、什么是滑动验证码点击之前点击之后像这种通过滑动图片，补全缺口的方式，就是滑动验证码。二、识别思路1）使用selenium库操作谷歌浏览器，打开目标网站；2）模拟操作浏览器，对网页截图，先获取全屏截图；3）根据滑动验证码的元素，获取滑动验证码不带缺口的图片和带缺口的图片；4）通过不带缺口验证码图片和带缺口验证码图片的对比，识别滑动验证码缺口的位置；5）模拟移动滑块，完成验证；三、具体实践3.1、
【爬虫笔记】关于 \u200b \xa0 \u3000等特殊字符逸笔1B 爬虫 python python 爬虫
在进行网页爬虫分析时，遇到了一些特殊字符，通过网络搜索找到了解决方法，所以利用这篇博文将遇到的问题以及解决方法记录下来，方便回顾，也希望这篇博文能够帮助到大家。\u200b\xa0\u3000等特殊字符这些特殊字符通常不在ASCII可见字符范围内，因此我们在浏览网页时看不到这些字符，但是在分析网页源码时会遇到。方法一，利用split方法处理这些字符最简单的方法是利用split方法去除。参考博文：h
Python爬虫笔记——多线程（threading）传参 Fo*(Bi) 爬虫笔记 python 多线程
参考文章：Python多线程3多线程的传参与返回值BBJG_001的博客——多线程threading库知识点补充学习网站：莫烦Python学习别人的经验：在主线程用一个变量或者直接输出就能获取或使用函数中return的值。但是在多线程中，可以这么理解，多线程之间的变量空间是互相隔绝的，所以return是不能把值返回到主进程的，只能在所在的线程使用，线程结束，值所在空间也就被释放了。所以，多线程之间
网络爬虫（Python：Selenium、Scrapy框架；爬虫与反爬虫笔记） qq742234984 爬虫 python selenium
网络爬虫（Python：Selenium、Scrapy框架；爬虫与反爬虫笔记）SeleniumWebDriver对象提供的相关方法定位元素ActionChains的基本使用selenium显示等待和隐式等待显示等待隐式等待Scrapy（异步网络爬虫框架）Scrapy框架反爬虫限制手段反爬虫的分类爬虫与反爬虫-功与防基于身份识别反爬和结局思路Headers反爬-通过User-agent字段Heade
【python爬虫】80页md笔记0基础到scrapy高手，第(5)篇：爬虫数据提取练习程序员一诺 python 爬虫 python 爬虫笔记
本文主要学习一下关于爬虫的相关前置知识和一些理论性的知识，通过本文我们能够知道什么是爬虫，都有那些分类，爬虫能干什么等，同时还会站在爬虫的角度复习一下http协议。全套python爬虫笔记地址：请移步这里共8大章，37子模块，总计5.6w字数据提取概要本阶段本文主要学习响应之后如何从响应中提取我们想要的数据，在本阶段本文中我们会讲解一些常用的方法和模块，基本上我们以后遇到的情况在掌握本阶段本文之后
python爬虫笔记_Python 爬虫学习笔记之多线程爬虫 weixin_39854681 python爬虫笔记
likeoneliketwolikethreehateonehatetwohatethree百度一下好123
Python爬虫，使用selenium爬取动态生成的网页数据 - 旧人笔记 - 旧人学习笔记 - 爬虫笔记 - 网络爬虫大白话旧人小表弟网络爬虫 python java selenium html js
什么是AJAXAJAX（AsynchronouseJavaScriptAndXML）异步JavaScript和XML，在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输数据格式方面，使用的是XML语法，因此叫做AJAX，其实现在数据交互
python网络爬虫笔记二肖一二三四
一、搜索淘宝商品名称和价格信息--定向爬虫importrequestsimportrefrombs4importBeautifulSoupimportbs4#获取网页内容defgetHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.tex
Python爬虫笔记——爬虫基础第一课 Fo*(Bi) 爬虫笔记 python
爬虫的四个步骤0.获取数据——爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。1.解析数据——爬虫程序会把服务器返回的数据解析成我们能读懂的格式。2.提取数据——爬虫程序再从中提取出我们需要的数据。3.储存数据——爬虫程序把这些有用的数据保存起来。获取数据——requests库requests库可以帮我们下载网页源代码、文本、图片甚至是音频。“下载”本质上是向服务器发送请求并得到响应
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l