Eastmount

[Python从零到壹] 十.网络爬虫之Selenium爬取在线百科知识万字详解（NLP语料构造必备技能）

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望我们都能在人生路上开心快乐、共同成长。

前一篇文章讲述了Selenium基础技术，涉及基础入门、元素定位、常用方法和属性、鼠标操作、键盘操作和导航控制。本文将结合具体实例进行深入地分析，通过三个基于Selenium技术的爬虫，爬取Wikipedia、百度百科和互动百科消息盒的例子，从实际应用出发来学习利用。基础性文章，希望对您有所帮助。

在线百科是基于Wiki技术的、动态的、免费的、可自由访问和编辑的多语言百科全书的Web2.0知识库系统。它是互联网中公开的、最大数量的用户生成的知识库，并且具有知识面覆盖度广、结构化程度高、信息更新速度快和开放性好等优势。其中被广泛使用的三大在线百科包括Wikipedia、百度百科和互动百科。

文章目录

一.三大在线百科
- 1.Wikipedia
- 2.百度百科
- 3.互动百科
二.Selenium爬取百度百科知识
- 1.网页分析
- 2.代码实现
三.Selenium爬取Wikipedia
- 1.网页分析
- 2.代码实现
四.Selenium爬取互动百科
- 1.网页分析
- 2.代码实现
五.本章小结

下载地址：

https://github.com/eastmountyxz/Python-zero2one

前文赏析：

第一部分基础语法

[Python从零到壹] 一.为什么我们要学Python及基础语法详解
[Python从零到壹] 二.语法基础之条件语句、循环语句和函数
[Python从零到壹] 三.语法基础之文件操作、CSV文件读写及面向对象

第二部分网络爬虫

[Python从零到壹] 四.网络爬虫之入门基础及正则表达式抓取博客案例
[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解
[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取豆瓣TOP250电影详解
[Python从零到壹] 七.网络爬虫之Requests爬取豆瓣电影TOP250及CSV存储
[Python从零到壹] 八.数据库之MySQL基础知识及操作万字详解
[Python从零到壹] 九.网络爬虫之Selenium基础技术万字详解（定位元素、常用方法、键盘鼠标操作）
[Python从零到壹] 十.Selenium爬取在线百科知识万字详解（NLP语料构造必备技能）

作者新开的“娜璋AI安全之家”将专注于Python和安全技术，主要分享Web渗透、系统安全、人工智能、大数据分析、图像识别、恶意代码检测、CVE复现、威胁情报分析等文章。虽然作者是一名技术小白，但会保证每一篇文章都会很用心地撰写，希望这些基础性文章对你有所帮助，在Python和安全路上与大家一起进步。

一.三大在线百科

随着互联网和大数据的飞速发展，我们需要从海量信息中挖掘出有价值的信息，而在收集这些海量信息过程中，通常都会涉及到底层数据的抓取构建工作，比如多源知识库融合、知识图谱构建、计算引擎建立等。其中具有代表性的知识图谱应用包括谷歌公司的Knowledge Graph、Facebook推出的实体搜索服务（Graph Search）、百度公司的百度知心、搜狗公司的搜狗知立方等。这些应用的技术可能会有所区别，但相同的是它们在构建过程中都利用了Wikipedia、百度百科、互动百科等在线百科知识。所以本章将教大家分别爬取这三大在线百科。

百科是指天文、地理、自然、人文、宗教、信仰、文学等全部学科的知识的总称，它可以是综合性的，包含所有领域的相关内容；也可以是面向专业性的。接下来将介绍常见的三大在线百科，它们是信息抽取研究的重要语料库之一。

1.Wikipedia

“Wikipedia is a free online encyclopedia with the aim to allow anyone to edit articles.” 这是Wikipedia的官方介绍。Wikipedia是一个基于维基技术的多语言百科全书协作计划，用多种语言编写的网络百科全书。Wikipedia一词取自于该网站核心技术“Wiki”以及具有百科全书之意的“encyclopedia”共同创造出来的新混成词“Wikipedia”，接受任何人编辑。

在所有在线百科中，Wikipedia知识准确性最好，结构化最好，但是Wikipedia本以英文知识为主，涉及的中文知识很少。在线百科页面通常包括：Title（标题）、Description（摘要描述）、InfoBox（消息盒）、Categories（实体类别）、Crosslingual Links（跨语言链接）等。Wikipedia中实体“黄果树瀑布”的中文页面信息如图1所示。

图1所示的Wikipedia信息主要包括：

文章标题（Article Title）：唯一标识一篇文章（除存在歧义的页面），即对应一个实体，对应图中的“黄果树瀑布”。
摘要（Abstract）：通过一段或两段精简的信息对整篇文章或整个实体进行描述，它具有重要的使用价值。
自由文本（Free Text）：自由文本包括全文本内容和部分文本内容。全文本内容是描述整篇文章的所有文本信息，包括摘要信息和各个部分的信息介绍。部分文本内容是描述一篇文章的部分文本信息，用户可以自定义摘取。
分类标签（Category Label）：用于鉴定该篇文章所属的类型，如图中“黄果树瀑布”包括的分类标签有“国家5A级旅游景区”、“中国瀑布”、“贵州旅游”等。
消息盒（InfoBox）：又称为信息模块或信息盒。它采用结构化形式展现网页信息，用于描述文章或实体的属性和属性值信息。消息盒包含了一定数量的“属性-属性值”对，聚集了该篇文章的核心信息，用于表征整个网页或实体。

2.百度百科

百度百科是百度公司推出的一部内容开放、自由的网络百科全书平台。截至2017年4月，百度百科已经收录了超过1432万的词条，参与词条编辑的网友超过610万人，几乎涵盖了所有已知的知识领域。百度百科旨在创造一个涵盖各领域知识的中文信息收集平台。百度百科强调用户的参与和奉献精神，充分调动互联网用户的力量，汇聚广大用户的头脑智慧，积极进行交流和分享。同时，百度百科实现与百度搜索、百度知道的结合，从不同的层次上满足用户对信息的需求。

与Wikipedia相比，百度百科所包含中文知识最多最广，但是准确性相对较差。百度百科页面也包括：Title（标题）、Description（摘要描述）、InfoBox（消息盒）、Categories（实体类别）、Crosslingual Links（跨语言链接）等。图2为百度百科“Python”网页知识，该网页的消息盒为中间部分，采用键值对（Key-value Pair）的形式，比如“外文名”对应的值为“Python”，“经典教材”对应的值为“Head First Python”等。

3.互动百科

互动百科（www.baike.com）是中文百科网站的开拓与领军者，致力于为数亿中文用户免费提供海量、全面、及时的百科信息，并通过全新的维基平台不断改善用户对信息的创作、获取和共享方式。截止到2016年年底，互动百科已经发展成为由超过1100万用户共同打造的拥有1600万词条、2000万张图片、5万个微百科的百科网站，新媒体覆盖人群1000余万人，手机APP用户超2000万。

相对于百度百科而言，互动百科的准确性更高、结构化更好，在专业领域上知识质量较高，故研究者通常会选择互动百科作为主要语料之一。图3显示的是互动百科的首页。

互动百科的信息分为两种形式存储，一种是百科中结构化的信息盒，另一种是百科正文的自由文本。对于百科中的词条文章来说，只有少数词条含有结构化信息盒，但所有词条均含有自由文本。信息盒是采用结构化方式展现词条信息的形式，一个典型的百科信息盒展示例子如图4，显示了Python的InfoBox信息，采用键值对的形式呈现，比如Python的“设计人”为“Guido van Rossum”。

下面分别讲解Selenium技术爬取三大在线百科的消息盒，三大百科的分析方法略有不同。Wikipedia先从列表页面分别获取20国集团（简称G20）各国家的链接，再依次进行网页分析和信息爬取；百度百科调用Selenium自动操作，输入各种编程语言名，再进行访问定位爬取；互动百科采用分析网页的链接url，再去到不同的景点进行分析及信息抓取。

二.Selenium爬取百度百科知识

百度百科作为最大的中文在线百科或中文知识平台，它提供了各行各业的知识，可以供研究者从事各方面的研究。虽然词条的准确率不是最好，但依然可以为从事数据挖掘、知识图谱、自然语言处理、大数据等领域的学者提供很好的知识平台。

1.网页分析

本小节将详细讲解Selenium爬取百度百科消息盒的例子，爬取的主题为10个国家5A级景区，其中景区的名单定义在TXT文件中，然后再定向爬取它们的消息盒信息。其中网页分析的核心步骤如下：

(1) 调用Selenium自动搜索百度百科关键词

首先，调用Selenium技术访问百度百科首页，网址为“https://baike.baidu.com”，图5为百度百科首页，其顶部为搜索框，输入相关词条如“故宫”，点击“进入词条”，可以得到故宫词条的详细信息。

然后，在浏览器鼠标选中“进入词条”按钮，右键鼠标点击“审查元素”，可以查看该按钮对应的HTML源代码，如图6所示。注意，不同浏览器查看网页控件或内容对应源代码的称呼是不同的，图中使用的是360安全浏览器，称呼为“审查元素”，而Chrome浏览器称为“检查”，QQ浏览器称为“检查”等。

“进入词条”对应的HTML核心代码如下所示：

<div class="form">
	<form id="searchForm" action="/search/word" method="GET">
		<input id="query" nslog="normal" name="word" type="text"
		       autocomplete="off" autocorrect="off" value="">
		<button id="search" nslog="normal" type="button">
		进入词条
		button>
		<button id="searchLemma" nslog="normal" type="button">
		全站搜索
		button>
		<a class="help" href="/help" nslog="normal" target="_blank">
		帮助
		a>
	form>
	...
div>

调用Selenium函数可以获取输入框input控件。

find_element_by_xpath("//form[@id=‘searchForm’]/input")

然后自动输入“故宫”，获取按钮“进入词条”并自动点击，这里采用的方法是在键盘上输入回车键即可访问“故宫”界面，核心代码如下所示：

driver.get("http://baike.baidu.com/")  
elem_inp=driver.find_element_by_xpath("//form[@id='searchForm']/input")  
elem_inp.send_keys(name)  
elem_inp.send_keys(Keys.RETURN)

(2) 调用Selenium访问“故宫”页面并定位消息盒

第一步完成后，进入“故宫”页面然后找到中间消息盒InfoBox部分，右键鼠标并点击“审查元素”，返回结果如图7所示。

消息盒核心代码如下：

消息盒主要采用<属性-属性值>的形式存储，详细概括了“故宫”实体的信息。例如，属性“中文名称”对应值为“北京故宫”，属性“外文名称”对应值为“Fobidden City”。对应的HTML部分源代码如下。

<div class="basic-info J-basic-info cmn-clearfix">
	<dl class="basicInfo-block basicInfo-left">
		<dt class="basicInfo-item name">中文名称dt>
		<dd class="basicInfo-item value">
		北京故宫
		dd>
		<dt class="basicInfo-item name">外文名称dt>
		<dd class="basicInfo-item value">
		Forbidden City
		dd>
		<dt class="basicInfo-item name">类  别dt>
		<dd class="basicInfo-item value">
		世界文化遗产、历史古迹、历史博物馆
		dd>
	dl>
	...
	<dl class="basicInfo-block basicInfo-right">
		<dt class="basicInfo-item name">建筑面积dt>
		<dd class="basicInfo-item value">
		约15万平方米
		dd>
		<dt class="basicInfo-item name">著名景点dt>
		<dd class="basicInfo-item value">
		三大殿、乾清宫、养心殿、皇极殿
		dd>
	dl>
	...
div>

整个消息盒位于< div class=“basic-info J-basic-info cmn-clearfix” >标签中，接下来是< dl >、< dt >、< dd >一组合HTML标签，其中消息盒div布局共包括两个< dl >…布局，一个是记录消息盒左边部分的内容，另一个< dl >记录了消息盒右部分的内容，每个< dl >标签里再定义属性和属性值，如图8所示。

注意：使用dt、dd最外层必须使用dl包裹，< dl >标签定义了定义列表（Definition List），< dt >标签定义列表中的项目，< dd >标签描述列表中的项目，此组合标签叫做表格标签，与table表格组合标签类似。

接下来调用Selenium扩展包的find_elements_by_xpath()函数分别定位属性和属性值，该函数返回多个属性及属性值集合，再通过for循环输出已定位的多个元素值。代码如下：

elem_name=driver.find_elements_by_xpath("//div[@class='basic-info J-basic-info cmn-clearfix']/dl/dt")  
elem_value=driver.find_elements_by_xpath("//div[@class='basic-info J-basic-info cmn-clearfix']/dl/dd")
for e in elem_name:
	print(e.text)
for e in elem_value:
    print(e.text)

此时，使用Selenium技术爬取百度百科国家5A级景区的分析方法就讲解完了，下面是这部分完整的代码及一些难点。

2.代码实现

注意，接下来我们尝试定义多个Python文件相互调用实现爬虫功能。完整代码包括两个文件，即：

test10_01_baidu.py：定义了主函数main并调用getinfo.py文件
getinfo.py：通过getInfobox()函数爬取消息盒

test10_01_baidu.py

# -*- coding: utf-8 -*-
"""
test10_01_baidu.py
    定义了主函数main并调用getinfo.py文件
By：Eastmount CSDN 2021-06-23
"""
import codecs   
import getinfo  #引用模块

#主函数 
def main():
    #文件读取景点信息 
    source = open('data.txt','r',encoding='utf-8') 
    for name in source:  
        print(name)
        getinfo.getInfobox(name)  
    print('End Read Files!') 
    source.close()
if __name__ == '__main__':
    main()

在代码中调用“import getinfo”代码导入getinfo.py文件，导入之后就可以在main函数中调用getinfo.py文件中的函数和属性，接着我们调用getinfo.py文件中的getInfobox()函数，执行爬取消息盒的操作。

getinfo.py

# coding=utf-8

"""
getinfo.py:获取信息
By：Eastmount CSDN 2021-06-23
"""
import os  
import codecs
import time
from selenium import webdriver      
from selenium.webdriver.common.keys import Keys

#getInfobox函数: 获取国家5A级景区消息盒  
def getInfobox(name):  
    try:  
        #访问百度百科并自动搜索
        driver = webdriver.Firefox() 
        driver.get("http://baike.baidu.com/")  
        elem_inp = driver.find_element_by_xpath("//form[@id='searchForm']/input")  
        elem_inp.send_keys(name)  
        elem_inp.send_keys(Keys.RETURN)  
        time.sleep(1)
        print(driver.current_url)
        print(driver.title)
  
        #爬取消息盒InfoBox内容
        elem_name=driver.find_elements_by_xpath("//div[@class='basic-info J-basic-info cmn-clearfix']/dl/dt")  
        elem_value=driver.find_elements_by_xpath("//div[@class='basic-info J-basic-info cmn-clearfix']/dl/dd")
        """
        for e in elem_name:
            print(e.text)
        for e in elem_value:
            print(e.text)
        """

        #构建字段成对输出
        elem_dic = dict(zip(elem_name,elem_value)) 
        for key in elem_dic:  
            print(key.text,elem_dic[key].text)
        time.sleep(5)
        return
          
    except Exception as e: 
        print("Error: ",e)
    finally:  
        print('\n')
        driver.close()

比如爬取过程Firefox浏览器会自动搜索“故宫”页面，如下图所示：

最终输出结果如下图所示：

内容如下：

https://baike.baidu.com/item/北京故宫
北京故宫_百度百科
https://baike.baidu.com/item/%E5%8C%97%E4%BA%AC%E6%95%85%E5%AE%AB
北京故宫_百度百科
中文名 北京故宫
地理位置 北京市东城区景山前街4号 [91] 
开放时间 4.1-10.31：08:20-17:00(停止售票16:00,最晚入园16:10) ；11.1-3.31：08:30-16:30(停止售票15:30,最晚入园15:40) ；除法定节假日外每周一闭馆 [6]  [91] 
景点级别 AAAAA级
门票价格 60元旺季/40元淡季 [7] 
占地面积 72万平方米（建筑面积约15万平方米）
保护级别 世界文化遗产；第一批全国重点文物保护单位
批准单位 联合国教科文组织；中华人民共和国国务院
批    号 III-100
主要藏品 清明上河图、乾隆款金瓯永固杯、酗亚方樽
别    名 紫禁城 [8] 
官方电话 010－85007057 [92]

Python运行结果如下所示，其中data.txt文件中包括了常见的几个景点。

北京故宫
黄果树瀑布
颐和园
八达岭长城
明十三陵
恭王府
北京奥林匹克公园
黄山

上述代码属性和属性值通过字典进行组合输出的，核心代码如下：

elem_dic = dict(zip(elem_name,elem_value)) 
for key in elem_dic:  
   print(key.text,elem_dic[key].text)

同时，读者可以尝试调用本地的无界面浏览器PhantomJS进行爬取的，调用方法如下：

webdriver.PhantomJS(executable_path="C:\...\phantomjs.exe")

课程作业：

作者这里教大家爬取了消息盒，同时百科知识的摘要及正文也非常重要，读者不妨尝试分别爬取。这些语料都将成为您后续文本挖掘或NLP领域的必备储备，比如文本分类、实体对齐、实体消歧、知识图谱构建等。

三.Selenium爬取Wikipedia

在线百科是互联网中存在公开的最大数据量的用户生成数据集合，这些数据具有一定的结构，属于半结构化数据，最知名的三大在线百科包括Wikipedia 、百度百科、互动百科。首先，作者将介绍Selenium爬取Wikipedia的实例。

1.网页分析

第一个实例作者将详细讲解Selenium爬取20国家集团（G20）的第一段摘要信息，具体步骤如下：

(1) 从G20列表页面中获取各国超链接

20国集团列表网址如下，Wikipedia采用国家英文单词首写字母进行排序，比如“Japan”、“Italy”、“Brazil”等，每个国家都采用超链接的形式进行跳转。

https://en.wikipedia.org/wiki/Category:G20_nations

首先，需要获取20个国家的超链接，然后再去到具体的页面进行爬取。选中一个国家的超链接，比如“China”，右键鼠标并点击“检查”按钮，可以获取对应的HTML源代码，如下所示。

其中超链接位于< div class=“mw-category-group” >布局的< ul >< li >< a >节点下，对应代码：

<div class="mw-pages">
	<div lang="en" dir="ltr" class="mw-content-ltr">
		<div class="mw-category">
		<div class="mw-category-group">
			<h3>C<h3>
			<ul><li>
			    <a href="/wiki/China" title="China">Chinaa>
			li>ul>
		div>
		<div class="mw-category-group">...div>
		<div class="mw-category-group">...div>
		...
		div>
	div>
div>

调用Selenium的find_elements_by_xpath()函数获取节点class属性为“mw-category-group”的超链接，它将返回多个元素。定位超链接的核心代码如下：

driver.get("https://en.wikipedia.org/wiki/Category:G20_nations")  
elem=driver.find_elements_by_xpath("//div[@class='mw-category-group']/ul/li/a")  
for e in elem:
	print(e.text)
	print(e.get_attribute("href"))

函数find_elements_by_xpth()先解析HTML的DOM树形结构并定位到指定节点，并获取其元素。然后定义一个for循环，依次获取节点的内容和href属性，其中e.text表示节点的内容，例如下面节点之间的内容为China。

<a href="/wiki/China" title="China">Chinaa>

同时，e.get_attribute(“href”)表示获取节点属性href对应的属性值，即“/wiki/China”，同理，e.get_attribute(“title”)可以获取标题title属性，得到值“China”。

此时将获取的超链接存储至变量中如下图，再依次定位到每个国家并获取所需内容。

(2) 调用Selenium定位并爬取各国页面消息盒

接下来开始访问具体的页面，比如中国“https://en.wikipedia.org/wiki/China”，如图所示，可以看到页面的URL、标题、摘要、内容、消息盒等，其中消息盒在途中右部分，包括国家全称、位置等。

下面采用<属性-属性值>对的形式进行描述，很简明精准地概括了一个网页实体，比如<首都-北京>、<人口-13亿人>等信息。通常获取这些信息之后，需要进行预处理操作，之后才能进行数据分析，后面章节将详细讲解。

访问到每个国家的页面后，接下来需要获取每个国家的第一段介绍，本小节讲解的爬虫内容可能比较简单，但是讲解的方法非常重要，包括如何定位节点及爬取知识。详情页面对应的HTML核心部分代码如下：

<div class="mw-parser-output">
	<div role="note" class="hatnote navigation-not-searchable">...</div>
	<div role="note" class="hatnote navigation-not-searchable">...</div>
	  <table class="infobox gegraphy vcard">...</table>
		<p>
		<b>China</b>
		, officially the
		<b>People’s Republic of China</b>
		....
		</p>
		<p>...</p>
		<p>...</p>
		...
	   </table>
	</div>
	</div>
</div>

浏览器审查元素方法如图所示。

正文内容位于属性class为“mw-parser-output”的< div >节点下。在HTML中，< P >标签表示段落，通常用于标识正文，< b >标签表示加粗。获取第一段内容即定位第一个< p >节点即可。核心代码如下：

driver.get("https://en.wikipedia.org/wiki/China")  
elem=driver.find_element_by_xpath("//div[@class='mw-parser-output']/p[2]").text  
print elem

注意，正文第一段内容位于第二个< p >段落，故获取p[2]即可。同时，如果读者想从源代码中获取消息盒，则需获取消息盒的位置并抓取数据，消息盒（InfoBox）内容在HTML对应为如下节点，记录了网页实体的核心信息。

<table class="infobox gegraphy vcard">...table>

2.代码实现

完整代码参考文件test10_02.py，如下所示：

# coding=utf-8
#By：Eastmount CSDN 2021-06-23
import time            
import re            
import os     
from selenium import webdriver        
from selenium.webdriver.common.keys import Keys        

driver = webdriver.Firefox() 
driver.get("https://en.wikipedia.org/wiki/Category:G20_nations")  
elem = driver.find_elements_by_xpath("//div[@class='mw-category-group']/ul/li/a")
name = []    #国家名
urls = []    #国家超链接

#爬取链接
for e in elem:
    print(e.text)
    print(e.get_attribute("href"))
    name.append(e.text)
    urls.append(e.get_attribute("href"))
print(name)
print(urls)

#爬取内容
for url in urls:
    driver.get(url)  
    elem = driver.find_element_by_xpath("//div[@class='mw-parser-output']/p[1]").text  
    print(elem)

其中，爬取的信息如图所示。

PS：该部分大家简单尝试即可，更推荐爬取百度百科、互动百科和搜狗百科。

四.Selenium爬取互动百科

几年过去，互动百科变成了快懂百科，但还好网页结构未变化。

1.网页分析

目前，在线百科已经发展为众多科研工作者从事语义分析、知识图谱构建、自然语言处理、搜索引擎和人工智能等领域的重要语料来源。互动百科作为最热门的在线百科之一，为研究者提供了强大的语料支持。

本小节将讲解一个爬取互动百科最热门的十个编程语言页面的摘要信息，通过该实例加深读者使用Selenium爬虫技术的印象，更加深入地剖析网络数据爬取的分析技巧。不同于Wikipedia先爬取词条列表超链接再爬取所需信息、百度百科输入词条进入相关页面再进行定向爬取，互动百科采用的方法是：

设置不同词条的网页url，再去到该词条的详细界面进行信息爬取。

由于互动百科搜索不同词条对应的超链接是存在一定规律的，即采用 “常用url+搜索的词条名” 方式进行跳转，这里我们通过该方法设置不同的词条网页。具体步骤如下：

(1) 调用Selenium分析URL并搜索互动百科词条

我们首先分析互动百科搜索词条的一些规则，比如搜索人物“贵州”，对应的超链为：

http://www.baike.com/wiki/贵州

对应页面如图所示，从图中可以看到，顶部的超链接URL、词条为“贵州”、第一段为“贵州”的摘要信息、“右边为对应的图片等信息。

同理，搜索编程语言“Python”，对应的超链接为：

http://www.baike.com/wiki/Python

可以得出一个简单的规则，即：

http://www.baike.com/wiki/词条

可以搜索对应的知识，如编程语言“Java”对应为：

http://www.baike.com/wiki/Java

(2) 访问热门Top10编程语言并爬取摘要信息
2016年，Github根据各语言过去12个月提交的PR数量进行排名，得出最受欢迎的Top10编程语言分别是：JavaScript、Java、Python、Ruby、PHP、C++、CSS、C#、C和GO语言。

然后，需要分布获取这十门语言的摘要信息。在浏览器中选中摘要部分，右键鼠标点击“审查元素”返回结果如图所示，可以在底部看到摘要部分对应的HTML源代码。

新版本的“快懂百科”内容如下图所示：

“Java”词条摘要部分对应的HTML核心代码如下所示：

<div class="summary">
	<div class="content-p ">
		<span class=" ">Java是一门面向对象span>
		<a href="/wikiid/7601579597865866248?from=wiki_content" 
			class="" clicklog="baike_search_inlink_click">
		<span class=" ">编程语言span>
		a>
		<span class=" ">，不仅吸收了C++语言的各种优点，还摒弃了C++里难以理解的多继承、指针等概念，因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表，极好地实现了面向对象理论，允许程序员以优雅的思维方式进行复杂的编程。span>
	div>
	<div class="content-p ">
		<span class=" ">Java具有简单性、面向对象、分布式、span>
		...
	div>
div>

调用Selenium的find_element_by_xpath()函数，可以获取摘要段落信息，核心代码如下。

driver = webdriver.Firefox()
url = "http://www.baike.com/wiki/" + name
driver.get(url)
elem = driver.find_element_by_xpath("//div[@class='summary']/div/span")  
print(elem.text)

这段代码的基本步骤是：

首先调用webdriver.Firefox()驱动，打开火狐浏览器。
分析网页超链接，并调用driver.get(url)函数访问。
分析网页DOM树结构，调用driver.find_element_by_xpath()进行分析。
输出结果，部分网站的内容需要存储至本地，并且需要过滤掉不需要的内容等。

下面是完整的代码及详细讲解。

2.代码实现

完整代码为blog10_03.py如下所示，主函数main()中循环调用getgetAbstract()函数爬取Top10编程语言的摘要信息。

# coding=utf-8  
#By：Eastmount CSDN 2021-06-23              
import os  
import codecs
from selenium import webdriver      
from selenium.webdriver.common.keys import Keys       

driver = webdriver.Firefox()

#获取摘要信息
def getAbstract(name):  
    try:
        #新建文件夹及文件
        basePathDirectory = "Hudong_Coding"  
        if not os.path.exists(basePathDirectory):  
            os.makedirs(basePathDirectory)  
        baiduFile = os.path.join(basePathDirectory,"HudongSpider.txt")
        #文件不存在新建,存在则追加写入
        if not os.path.exists(baiduFile):  
            info = codecs.open(baiduFile,'w','utf-8')  
        else:  
            info = codecs.open(baiduFile,'a','utf-8')  

        url = "http://www.baike.com/wiki/" + name
        print(url)
        driver.get(url)  
        elem = driver.find_elements_by_xpath("//div[@class='summary']/div/span")
        content = ""
        for e in elem:
            content += e.text
        print(content)
        info.writelines(content+'\r\n')  
          
    except Exception as e: 
        print("Error: ",e)  
    finally:  
        print('\n') 
        info.write('\r\n')  
  
#主函数  
def main():
    languages = ["JavaScript", "Java", "Python", "Ruby", "PHP",
                 "C++", "CSS", "C#", "C", "GO"]
    print('开始爬取')
    for lg in languages:  
        print(lg)
        getAbstract(lg)  
    print('结束爬取')

if __name__ == '__main__':
    main()

其中“JavaScript”和“Java”编程语言的抓取结果如图所示，该段代码爬取了热门十门语言在互动百科中的摘要信息。

程序成功抓取了各个编程语言的摘要信息，如下图所示：

同时将数据存储至本地TXT文件中，这将有效为NLP和文本挖掘进行一步分析提供支撑。

写到这里，几种常见的百科数据抓取方法就介绍完毕了，希望您喜欢。

五.本章小结

在线百科被广泛应用于科研工作、知识图谱和搜索引擎构建、大小型公司数据集成、Web2.0知识库系统中，由于其公开、动态、可自由访问和编辑、拥有多语言版本等特点，它深受科研工作者和公司开发人员的喜爱，常见的在线百科包括Wikipedia、百度百科和互动百科等。

本文结合Selenium技术分别爬取了Wikipedia的段落内容、百度百科的消息盒和互动百科的摘要信息，并采用了三种分析方法，希望读者通过该章节的案例掌握Selenium技术爬取网页的方法。

消息盒爬取
文本摘要爬取
网页多种跳转方式
网页分析及爬取核心代码
文件保存

Selenium用得更广泛的领域是自动化测试，它直接运行在浏览器中（如Firefox、Chrome、IE等），就像真实用户操作一样，对开发的网页进行各式各样的测试，它更是自动化测试方向的必备工具。希望读者能掌握这种技术的爬取方法，尤其是目标网页需要验证登录等情形。

该系列所有代码下载地址：

https://github.com/eastmountyxz/Python-zero2one

感谢在求学路上的同行者，不负遇见，勿忘初心。这周的留言感慨～

(By:娜璋之家 Eastmount 2021-06-23 夜于武汉 https://blog.csdn.net/Eastmount )

参考文献

[1] [译]Selenium Python文档：目录 - Tacey Wong - 博客园
[2] Baiju Muthukadan Selenium with Python Selenium Python Bindings 2 documentation
[3] https://github.com/baijum/selenium-python
[4] http://blog.csdn.net/Eastmount/article/details/47785123
[5] Selenium实现自动登录163邮箱和Locating Elements介绍 - Eastmount
[6] Selenium常见元素定位方法和操作的学习介绍 - Eastmount
[7]《Python网络数据爬取及分析从入门到精通（爬取篇）》Eastmount
[8] 杨秀璋. 实体和属性对齐方法的研究与实现[J]. 北京理工大学硕士学位论文，2016:15-40.
[9] 徐溥. 旅游领域知识图谱构建方法的研究和实现[J]. 北京理工大学硕士学位论文，2016:7-24.
[10] 胡芳魏. 基于多种数据源的中文知识图谱构建方法研究[J]. 华东理工大学博士学位论文，2014：25-60.
[11] 杨秀璋. [python爬虫] Selenium常见元素定位方法和操作的学习介绍 - CSDN博客[EB/OL]. （2016-07-10）[2017-10-14].

你可能感兴趣的:(Python从零到壹,Python网络爬虫,Python学习系列,网络爬取,Python从零到壹,Selenium,百科知识,语料库)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
第一场雪岁月静好_nx
早晨起来，外面白茫茫的一片，总算是下雪了，这还是今年第一场雪呢！走在路上，踩着雪“咯吱咯吱”的，空气很湿润。树上、草坪上、屋顶上都落了白白的一层，天上还零星漂着几点雪。慢慢走在路上，呼吸着清新的空气，感受着冬天的美好，心情也好多了。
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
第四天旅游线路预览——从换乘中心到喀纳斯湖陟彼高冈yu 基于Google earth studio 的旅游规划和预览旅游
第四天：从贾登峪到喀纳斯风景区入口，晚上住宿贾登峪；换乘中心有4路车，喀纳斯①号车，去喀纳斯湖，路程时长约5分钟；将上面的的行程安排进行动态展示，具体步骤见”Googleearthstudio进行动态轨迹显示制作过程“、“Googleearthstudio入门教程”和“Googleearthstudio进阶教程“相关内容，得到行程如下所示：Day4-2-480p
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
从鸡肉高汤到记忆的魔法再到有效提示的艺术步子哥人工智能
还记得小时候那些天马行空的白日梦吗？也许只要按下键盘上的某个神奇组合，电脑就会发出滴滴的声响，一个隐藏的世界突然在你眼前展开，让你获得超凡的能力，摆脱平凡的生活。这听起来像是玩过太多电子游戏的幻想，但实际上，间隔重复系统给人的感觉惊人地相似。在最佳状态下，这些系统就像魔法一样神奇。本文将以一个看似平凡的鸡肉高汤食谱为例，深入浅出地探讨如何编写有效的间隔重复提示，让你像掌握烹饪技巧一样轻松地掌握记忆
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发