weixin_30252155

Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

所谓爬虫，就是通过编程的方式自动从网络上获取自己所需的资源，比如文章、图片、音乐、视频等多媒体资源。通过一定的方式获取到html的内容，再通过各种手段分析得到自己所需的内容，比如通过BeautifulSoup对网页内容进行解析提取。

本文通过selenium的webdriver模拟浏览器来浏览网页，通过lxml库解析得到咱所需的内容。下面开始我们的爬虫工作。

本文目录：

1.头条首页内容分析
- ① 视频类型的html内容
- ②③ 纯文本类型的html内容
- ④ 图文类型的html内容
- ⑤ 多图类型的html内容
2.代码编写
- 2.1、编写程序主入口代码
  - 2.1.1初始化火狐浏览器插件
  - 2.1.2获取头条首页html内容
  - 2.1.3分析首页html内容得到新闻所在li布局
- 2.2、编写解析具体新闻的代码
  - 2.2.1、自定义新闻信息
  - 2.2.2、解析新闻内容
    - 2.2.2.1、新闻html内容分类判断
    - 2.2.2.2、解析纯文本类型新闻
    - 2.2.2.3、解析单图文类型新闻
    - 2.2.2.4、解析多图文类型新闻
    - 2.2.2.5、解析纯视频类型新闻
参考资料：

1.头条首页内容分析

我们今天的目标是提取头条中间区域的要闻内容：标题、图片、作者、类型、发布时间

首先，我们分析一下头条新闻页面的内容，用火狐浏览器打开头条首页，查看中间区域的热文内容

如上图所示，我们要抓取首页热文的中间区域新闻，一共有4种类型：

① 视频类型 → 左侧有图片，右侧是标题，点击可播放
②③ 纯文本类型 → 左侧没图片，中间是标题
④ 图文类型 → 左侧有图片，右侧是标题
⑤ 多图类型 → 上面是标题，下面是多张图片罗列
如果要抓取其它类型，原理也是一样的，万变不离其宗~

看上图右侧的dom元素结构，可以看出来，中间区域的每一条热文，都是在li标签包着的，而所有的li标签都是ul的子元素。

① 视频类型的html内容

<li class="">
    <div getuser-info-url="/user/info/" class="bui-box video-mode">
        <div class="bui-left video-mode-lbox">
            <div style="width: 325px; height: 183px;" class="player mini-btn-visible transitionable" oncontextmenu="return false">
                <div class="before"><img lazy="loaded" src="//p3.pstatp.com/list/300x170/pgc-image/1537883970674d7092c5d6d"
                        alt=""> <span class="play-btn"><i style="font-size: 30px; color: rgb(255, 255, 255);" class="bui-icon icon-playvedio">i>span>
                    <span class="duration"><i style="font-size: 8px;" class="bui-icon icon-playvedio">i><em>00:33em>span>div>
                <div class="player-wrap">
                    <div class="player-inner" id="tt_video_17330">div>
                    <div class="action-line"><i style="font-size: 18px;" class="bui-icon icon-close_small">i> <span>按住该区域可拖动小窗span>div>
                div>
                <div style="display: none;" class="next">
                    <div style="display: none;" class="next-one">
                        <p class="info">接下来播放p>
                        <h3 class="title">h3> <i><img alt="" src="" height="78" width="78">i>
                        <div><i class="cancel">取消播放i>div>
                    div>
                    <div style="display: none;" class="next-list">
                        <ul>ul>
                        <div class="replay-wrap"><i class="replay">重播i>div>
                    div>
                div>
            div>
        div>
        <div class="video-mode-rbox">
            <div class="title-box" ga_event="video_title_click"><a class="link" target="_blank" href="/group/6605161411674898947/">「独家V观」***在黑龙江考察
                    首站来到建三江a>div>
            <div class="bui-box footer-bar"><a class="footer-bar-action media-avatar" ga_event="video_avatar_click"
                    target="_blank" href="/c/user/96888584941/"><img lazy="loaded" src="//p3.pstatp.com/large/6ee500006a1b9c777420">a>
                <a class="footer-bar-action source" ga_event="video_name_click" target="_blank" href="/c/user/96888584941/">央视新闻移动网a>
                <span class="footer-bar-action">⋅span> <a class="footer-bar-action source" ga_event="video_frequency_click"
                    target="_blank" href="/group/6605161411674898947/">7238次播放a>div>
            <div class="action-dislike" ga_event="dislike_click"><i style="font-size: 16px; color: rgb(221, 221, 221);"
                    class="bui-icon icon-close_small">i>
                不感兴趣
            div>
        div>
    div>
li>

从dom元素结构可以看到我们所需的标题、图片、类型等内容

②③ 纯文本类型的html内容

<li class="">
    <div class="no-mode" ga_event="article_item_click">
        <div class="title-box" ga_event="article_title_click"><a class="link" target="_blank" href="/group/6605095646191944196/">国家主席***任免驻外大使a>div>
        <div class="bui-box footer-bar">
            <div class="bui-left footer-bar-left"><a class="footer-bar-action tag tag-style-other" ga_event="article_tag_click"
                    target="_blank" href="search/?keyword=%E6%97%B6%E6%94%BF">时政a> <a class="footer-bar-action media-avatar"
                    ga_event="article_avatar_click" target="_blank" href="/c/user/4377795668/"><img lazy="loaded" src="//p2.pstatp.com/large/3658/7378365093">a>
                <a class="footer-bar-action source" ga_event="article_name_click" target="_blank" href="/c/user/4377795668/"> 新华网 ⋅a>
                <a class="footer-bar-action source" ga_event="article_comment_click" target="_blank" href="/group/6605095646191944196//#comment_area"> 52评论 ⋅a>
                <span class="footer-bar-action"> 38分钟前span>
                
                
                
            div>
            <div class="bui-right">
                <div dislikeurl="/api/dislike/" class="action-dislike" ga_event="dislike_click"><i style="font-size: 16px; color: rgb(221, 221, 221);"
                        class="bui-icon icon-close_small">i>
                    不感兴趣
                div>
            div>
        div>
    div>
li>

④ 图文类型的html内容

<li class="">
    <div class="bui-box single-mode" ga_event="article_item_click">
        <div class="bui-left single-mode-lbox" ga_event="article_img_click"><a class="img-wrap" target="_blank" href="/group/6605101139232817678/"><img
                    lazy="loaded" src="//p98.pstatp.com/list/190x124/pgc-image/15378695822600023b5e56b" class="lazy-load-img">
                a>div>
        <div class="single-mode-rbox">
            <div class="single-mode-rbox-inner">
                <div class="title-box" ga_event="article_title_click"><a class="link" target="_blank" href="/group/6605101139232817678/">一旦爆发冲突，美国航母被击沉损失有多大？兰德公司公布答案a>div>
                <div class="bui-box footer-bar">
                    <div class="bui-left footer-bar-left"><a class="footer-bar-action tag tag-style-other" ga_event="article_tag_click"
                            target="_blank" href="news_military">军事a> <a class="footer-bar-action media-avatar"
                            ga_event="article_avatar_click" target="_blank" href="/c/user/6398208487/"><img lazy="loaded"
                                src="//p3.pstatp.com/large/78f000a6e8e1a98cf54">a> <a class="footer-bar-action source"
                            ga_event="article_name_click" target="_blank" href="/c/user/6398208487/"> 全球军事热评 ⋅a>
                        <a class="footer-bar-action source" ga_event="article_comment_click" target="_blank" href="/group/6605101139232817678//#comment_area"> 100评论 ⋅a>
                        <span class="footer-bar-action"> 41分钟前span>
                        
                        
                        
                    div>
                    <div class="bui-right">
                        <div dislikeurl="/api/dislike/" class="action-dislike" ga_event="dislike_click"><i style="font-size: 16px; color: rgb(221, 221, 221);"
                                class="bui-icon icon-close_small">i>
                            不感兴趣
                        div>
                    div>
                div>
            div>
        div>
    div>
li>

⑤ 多图类型的html内容

<li class="">
    <div class="more-mode" ga_event="gallery_item_click">
        <div class="title-box" ga_event="gallery_title_click"><a class="link" target="_blank" href="/group/6604959967424283150/">老人带村民历时36年，系绳索悬崖上开凿9公里水渠，几次差点送命a>div>
        <div class="bui-box img-list" ga_event="gallery_img_click"><a class="img-wrap img-item" target="_blank" href="/group/6604959967424283150/"><img
                    lazy="loaded" src="//p3.pstatp.com/list/190x124/pgc-image/15378317404774aecf17a3c" class="lazy-load-img">a><a
                class="img-wrap img-item" target="_blank" href="/group/6604959967424283150/"><img lazy="loaded" src="//p1.pstatp.com/list/190x124/pgc-image/1537831740473c836263103"
                    class="lazy-load-img">a><a class="img-wrap img-item" target="_blank" href="/group/6604959967424283150/"><img
                    lazy="loaded" src="//p1.pstatp.com/list/190x124/pgc-image/15378326628551660c762d3" class="lazy-load-img">a><a
                class="img-wrap img-item" target="_blank" href="/group/6604959967424283150/"><img lazy="loaded" src="//p9.pstatp.com/list/190x124/pgc-image/1537831741249b93def511b"
                    class="lazy-load-img">a>
             <i class="pic-tip"><span>15图span>i>div>
        <div class="bui-box footer-bar">
            <div class="bui-left footer-bar-left"><a class="footer-bar-action tag tag-style-society" ga_event="article_tag_click"
                    target="_blank" href="news_society">社会a> <a class="footer-bar-action media-avatar" ga_event="gallery_avatar_click"
                    target="_blank" href="/c/user/5921344817/"><img lazy="loaded" src="//p1.pstatp.com/large/249a0015871d8abbdf27">a>
                <a class="footer-bar-action source" ga_event="gallery_name_click" target="_blank" href="/c/user/5921344817/"> 乙图 ⋅a>
                <a class="footer-bar-action source" ga_event="gallery_comment_click" target="_blank" href="/group/6604959967424283150//#comment_area"> 234评论 ⋅a>
                <span class="footer-bar-action"> 2小时前span>
                
                
                
            div>
            <div class="bui-right">
                <div dislikeurl="/api/dislike/" class="action-dislike" ga_event="dislike_click"><i style="font-size: 16px; color: rgb(221, 221, 221);"
                        class="bui-icon icon-close_small">i>
                    不感兴趣
                div>
            div>
        div>
    div>
li>

从上面四种类型新闻的布局可以看出，每个li标签的class属性都是空的，li的子元素就只有一个子元素div，并且这个div有个ga_event属性，我们分析下各种类型新闻的li的直接子元素的div布局：

1：纯文本类型、图文类型，这个ga_event属性值均为article_item_click，但这两种类型的class属性值不一样，图文类型的是bui-box single-mode，纯文本类型的是no-mode
2：视频类型，没有ga_event属性，有个属性值为==/user/info/的 getuser-info-url属性，而class属性值为bui-box video-mode==
3：多图类型，这个ga_event属性值为gallery_item_click，class属性值为more-mode
所以我们可以根据以上分析的各种类型布局的特点，来找出每一条新闻的元素结构，再通过XPATH定位得到我们所需要的标题、图片、类型、作者、时间等内容。

思路有了，那我们就开搞吧~

2.代码编写

2.1、编写程序主入口代码

我们来看主入口部分代码：

# -*- coding: utf-8 -*-

# 引入模拟浏览器框架支持库
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# 引入ActionChains鼠标操作类支持库
from selenium.webdriver.common.action_chains import ActionChains

# xpath解析支持库
from lxml import etree

# 自定义的新闻结构体
from newsInfo import NewsInfo

# 自定义解析html结构的实现类
from parseNews import PaseNews

class ParseTouTiao(object):

    """
    构造函数，初始化资源
    """
    def __init__(self):
        
        self.__firefox_options = webdriver.FirefoxOptions()
        self.__firefox_options.add_argument('--headless')
        self.__firefox_options.add_argument('--disable-gpu')
        self.__browser = webdriver.Firefox(firefox_options=self.__firefox_options)
        
    """
    获取头条首页内容
    """
    def __getTouTiaoHtml(self, url):
        
        # 简单的入参校验
        if url and '' != url and url.startswith("http"):
            
            # 浏览器打开页面
            self.__browser.get(url)

            try:
                # 此处等到我们所需的热文元素加载出来了再进行下一步，避免页面还没加载完成就去解析内容导致内容为空
                element = WebDriverWait(self.__browser, 10).until(
                    EC.presence_of_element_located((By.XPATH, "//ul/li/div[@ga_event=article_item_click]"))
                )
            except Exception as ex:
                print(ex)
            finally:
                pass

            resHtml = self.__browser.page_source
            return resHtml

    """
    提取li标签内容
    """
    def _parseNews(self, url):
        resHtml = self.__getTouTiaoHtml(url)

        if not resHtml:
            print("解析内容出错")
            return

        # 转换为etree解析模式内容
        etree_html = etree.HTML(resHtml)

        # 通过前面对每条新闻dom结构分析，由xpath方式提取所有新闻所在的布局
        li_elements = etree_html.xpath('//ul[@infinite-scroll-immediate-check][@infinite-scroll-immediate-check-count="containerCheckCount"]/li')
        
        # 解析得到的新闻列表
        parseNewsInfo = []

        # 新闻解析类
        parseNew = PaseNews()

        if li_elements and len(li_elements) > 0:
            for li in li_elements:
                newinf = parseNew.parse(li)
                # 省略部分代码......
        else:
            return
   # 省略部分代码......

代码的注释很清楚，简要介绍下几个方法：

2.1.1初始化火狐浏览器插件

__init__ 方法：初始化火狐浏览器插件属性，其中下面三行代码设置火狐浏览器调用时，不显示浏览器的界面，如果你想看到浏览器的自动化操作行为，你可以在实例化browser时不传这个self.__firefox_options 参数即可

self.__firefox_options.add_argument('--headless')
self.__firefox_options.add_argument('--disable-gpu')
self.__browser = webdriver.Firefox(firefox_options=self.__firefox_options)

2.1.2获取头条首页html内容

__getTouTiaoHtml (self, url) 方法：通过selenium的webdriver调用火狐浏览器打开头条首页，并且等到页面加载出来内容后再进行下一步。

def __getTouTiaoHtml(self, url):
        
        # 简单的入参校验
        if url and '' != url and url.startswith("http"):
            
            # 浏览器打开页面
            self.__browser.get(url)

            try:
                # 此处等到我们所需的热文元素加载出来了再进行下一步，避免页面还没加载完成就去解析内容导致内容为空
                element = WebDriverWait(self.__browser, 10).until(
                    EC.presence_of_element_located((By.XPATH, "//ul/li/div[@ga_event=article_item_click]"))
                )
            except Exception as ex:
                print(ex)
            finally:
                pass

            resHtml = self.__browser.page_source
            return resHtml

其中通过 WebDriverWait 同步等待的方法来保证页面加载出来我们所需的内容了，再进行下一步。最后返回的内容self.__browser.page_source就是我们下一步分析新闻所需的HTML内容了，形式如下所示：

<html>
<head>
    <meta charset="utf-8">
    <title>今日头条title>
    <meta http-equiv="x-dns-prefetch-control" content="on">
    <meta name="renderer" content="webkit">
    <meta name="keywords" content="今日头条，头条，头条网，头条新闻，今日头条官网">
    <meta name="description" content="《今日头条》(www.toutiao.com)是一款基于数据挖掘的推荐引擎产品，它为用户推荐有价值的、个性化的信息，提供连接人与信息的新型服务，是国内移动互联网领域成长最快的产品服务之一。">
head>

<body>
    <div>
	......
    div>    
body>

html>

2.1.3分析首页html内容得到新闻所在li布局

def _parseNews(self, url):
        resHtml = self.__getTouTiaoHtml(url)

        if not resHtml:
            print("解析内容出错")
            return

        # 转换为etree解析模式内容
        etree_html = etree.HTML(resHtml)

        # 通过前面对每条新闻dom结构分析，由xpath方式提取所有新闻所在的布局
        li_elements = etree_html.xpath('//ul[@infinite-scroll-immediate-check][@infinite-scroll-immediate-check-count="containerCheckCount"]/li')
        
        # 解析得到的新闻列表
        parseNewsInfo = []

        # 新闻解析类
        parseNew = PaseNews()

        if li_elements and len(li_elements) > 0:
            for li in li_elements:
                newinf = parseNew.parse(li)

                if newinf:
                    parseNewsInfo.append(newinf)
                    print(" 标题：'%s'\n 图片：'%s'\n 作者：'%s'\n 类型：'%s'\n 时间：'%s'\n 布局：'%s'\n" % (newinf.title, newinf.imgurl, newinf.author, newinf.category,newinf.publish_time, newinf.news_type.value))
        else:
            return

函数_parseNews从获取到的整个html页面内容中，根据前面的分析所知我们的目标新闻内容都是在

标签的

里面，根据这个规律，我们先把整个页面格式化为lxml格式：etree_html = etree.HTML(self.resHtml)，然后通过xpath路径选择出我们所有的li元素：

li_elements = etree_html.xpath('//ul[@infinite-scroll-immediate-check][@infinite-scroll-immediate-check-count="containerCheckCount"]/li')

咱好好说道说道这个xpath的用法，后续核心工作都是通过它来帮助我们完成的。

xpath() 的参数，前后用单引号包起来，//双斜杠开头，表示从整个文档任何位置，只要能匹配到就行。根据我们之前对首页元素的分析，只会有一个
元素，所以我们etree_html.xpath('//ul)这么写，只会找到这一个，而不必关系它的父级、祖父级等到底有多少层，每层又是什么标签~

当然这里为了严谨点，还在ul后面加了个限制符：[@infinite-scroll-immediate-check] ，限制符放在中括号[]里面，@后面加标签的属性名，比如[@class="title"]，表示当前元素必须要有class属性，并且属性值等于title，如果我们不关心属性的值，只需要有这个属性就行了，那么直接写[@属性名]。

对属性的限定，除了通过等号=，还可以通过contains（表示属性值必须包含xxx）、starts-with（表示属性值必须以xxx开头），举个例子：

我要查找某个包含title属性，并且title的值包含group的a标签内容，可以这么写：xxx.xpath('//a[contains(@title, "group")]')

我要查找某个包含title属性，并且title的值以item-click开头的div标签内容，可以这么写：xxx.xpath('//div[starts-with(@title, "item-click")]')

记住：xxx.xpath() 返回的要么是None，要么是list，即使只找到一个符合要求的，也是返回一个list（只有一个元素，可以通过==[0]== 下标得到这个元素）

2.2、编写解析具体新闻的代码

2.2.1、自定义新闻信息

我们从主入口的代码可以看到引入了两个自定义的类：

# 自定义的新闻结构体
from newsInfo import NewsInfo

# 自定义解析html结构的实现类
from parseNews import PaseNews

其中NewsInfo是存储我们解析出来的新闻内容结构，具体代码如下

# -*- coding: utf-8 -*-

from enum import Enum, unique

@unique
class NewsType(Enum):
    TextType = '纯文本类型'
    SingleImageType = '图文类型'
    MultipleImageType = '多图类型'
    VideoType = '视频类型'
    
class NewsInfo:

    # 标题
    title = ''

    # 作者
    author = ''

    # 分类
    category = ''

    # 发表时间
    publish_time = ''

    # 图片url
    imgurl = []

    # 详情url
    detail_link = ''

    news_type = NewsType.TextType

2.2.2、解析新闻内容

而另一个PaseNews 类则是我们解析新闻html结构的核心类，具体代码如下：

2.2.2.1、新闻html内容分类判断

def parse(self, li_etree):
        
        newsInfo = None

        # 获取当前新闻类型
        if li_etree.xpath('./div[@class="no-mode"]'):

            # 纯文本类型
            newsInfo = self.__parseTextNew(li_etree)

        elif li_etree.xpath('./div[contains(@class, "single-mode")][contains(@class, "bui-box")]'):

            # 单图片类型
            newsInfo = self.__parseImageNew(li_etree)
        
        elif li_etree.xpath('./div[@class="more-mode"][@ga_event="gallery_item_click"]'):

            # 多图片类型
            newsInfo = self.__parseImageListNew(li_etree)

        elif li_etree.xpath('./div[contains(@class, "video-mode")]'):

            # 视频类型
            newsInfo = self.__parseVideoNew(li_etree)

        return newsInfo

上面的parse函数，接收的参数是前面主入口拿到的整个html页面内容，经过分析得到的每一个li元素结构，针对每一个li元素，通过前面的分析判断出它是哪种类型的新闻，然后单独调用相应的方法解析得到新闻内容

2.2.2.2、解析纯文本类型新闻

我们先看纯文本类型的html元素结构：

<li class="">
    <div class="no-mode" ga_event="article_item_click">
        <div class="title-box" ga_event="article_title_click"><a class="link" target="_blank" href="/group/6605095646191944196/">国家主席***任免驻外大使a>div>
        <div class="bui-box footer-bar">
            <div class="bui-left footer-bar-left"><a class="footer-bar-action tag tag-style-other" ga_event="article_tag_click"
                    target="_blank" href="search/?keyword=%E6%97%B6%E6%94%BF">时政a> <a class="footer-bar-action media-avatar"
                    ga_event="article_avatar_click" target="_blank" href="/c/user/4377795668/"><img lazy="loaded" src="//p2.pstatp.com/large/3658/7378365093">a>
                <a class="footer-bar-action source" ga_event="article_name_click" target="_blank" href="/c/user/4377795668/"> 新华网 ⋅a>
                <a class="footer-bar-action source" ga_event="article_comment_click" target="_blank" href="/group/6605095646191944196//#comment_area"> 52评论 ⋅a>
                <span class="footer-bar-action"> 38分钟前span>
                
                
                
            div>
            <div class="bui-right">
                <div dislikeurl="/api/dislike/" class="action-dislike" ga_event="dislike_click"><i style="font-size: 16px; color: rgb(221, 221, 221);"
                        class="bui-icon icon-close_small">i>
                    不感兴趣
                div>
            div>
        div>
    div>
li>

python解析的代码如下：

 """
    解析纯文本类型新闻
    """
    def __parseTextNew(self, li_etree):
        
        new_info = NewsInfo()

        # 获取标题
        new_info.title = li_etree.xpath('./div[@class="no-mode"]/div[1]/a/text()')[0]

        # 获取详情的相对地址
        new_info.detail_link = li_etree.xpath('./div[@class="no-mode"]/div[1]/a/@href')[0]

        # 获取新闻作者
        new_info.author = li_etree.xpath('./div[@class="no-mode"]/div[2]/div[1]/a[contains(@class, "source")][starts-with(@href, "/c/user/")]/text()')[0].replace("⋅", '').strip()

        # 获取新闻发布时间
        new_info.publish_time = li_etree.xpath('./div[@class="no-mode"]/div[2]/div[1]/span[@class="footer-bar-action"]/text()')[0].strip()

        # 获取新闻类型
        category = li_etree.xpath('./div[@class="no-mode"]/div[2]/div[1]/a[@ga_event="article_tag_click"]/text()')
        
        # 不一定有这个字段
        if category and len(category) > 0:
            new_info.category = category[0]

        # 新闻布局类型
        new_info.news_type = NewsType.TextType

        return new_info

简单说下，获取标题，

new_info.title = li_etree.xpath('./div[@class="no-mode"]/div[1]/a/text()')[0]

传入来的已经是一个单独的li结构了，xpath里面的路径选择以./开头，表示从当前级别开始查找，查找class属性值为no-mode的div，然后紧跟着的/div[1]再继续找刚才定位到的这个div的下一级子元素中的div的第一个，然后继续查找这个传入的li标签下的第二级div下面的a标签，最后获取这个a标签的字符串内容，注意，返回的是一个list，虽然这里最终只能定位到一个元素但仍然返回list形式，所以最后通过[0]下标引用得到这个标题字符串.

2.2.2.3、解析单图文类型新闻

参考上面2.2.2.1的分析思路，再不行就看本文源码，在本文最后那里下载

2.2.2.4、解析多图文类型新闻

参考上面2.2.2.1的分析思路，再不行就看本文源码，在本文最后那里下载

2.2.2.5、解析纯视频类型新闻

参考上面2.2.2.1的分析思路，再不行就看本文源码，在本文最后那里下载

最后，看下咱的成果如何 ↓

本文完整代码 →：下载地址

注意，上面下载的源码，为了测试方便，写死了静态html内容来解析演示的按照下图修改后可以正常解析线上的内容…

全文完结，后续实现用其它框架来爬虫新闻资源。敬请期待~

Python3从零开始爬取今日头条的新闻【一、开发环境搭建】
Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻【四、模拟点击切换tab标签获取内容】
Python3从零开始爬取今日头条的新闻【五、解析头条视频真实播放地址并自动下载】

参考资料：

[1]: XPath语法参考
[2]: 廖雪峰老师的Python3 在线学习手册
[3]: Python3官方文档
[4]: 菜鸟学堂-Python3在线学习
[5]: 其他所有分享过python学习填坑网友的经验

转载于:https://www.cnblogs.com/xiaocy66/p/10589237.html

你可能感兴趣的:(Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found