weixin_30414635

（数据科学学习手札31）基于Python的网络数据采集（初级篇）

一、简介

　　在实际的业务中，我们手头的数据往往难以满足需求，这时我们就需要利用互联网上的资源来获取更多的补充数据，但是很多情况下，有价值的数据往往是没有提供源文件的直接下载渠道的（即所谓的API），这时我们该如何批量获取这些嵌入网页中的信息呢？

　　这时网络数据采集就派上用处了，你通过浏览器可以观看到的绝大多数数据，都可以利用爬虫来获取，而所谓的爬虫，就是我们利用编程语言编写的脚本，根据其规模大小又分为很多种，本篇便要介绍基本的Python编写的爬虫脚本来进行单机形式的网络数据采集，这也是一个进阶的数据挖掘工程师或数据分析师的基本技能之一，大量的应用场景都会需要这种几乎可以毫无阻碍地获取数据的手段，譬如市场预测、机器语言翻译亦或是医疗诊断领域，通过对新闻网站、文章中的文本数据进行采集以进行进一步的数据挖掘工作，也是爬虫很常见的应用场景之一；

　　本篇博客将通过介绍基础的爬虫知识，并附上两个实战项目的例子（爬取网易财经海南板块历史股票数据、爬取网易新闻多个分类板块的新闻文本数据），对基础的爬虫做一个小小的总结。

*本篇以jupyter notebook作为开发工具

二、建立连接

　　为了抓取互联网上的数据资源，第一步显然是要建立起网络连接（即登入你的目标网址），在Python中，我们使用urllib.request中的urlopen()来建立起与目标网址的连接，这个函数可以用来打开并读取一个从网络获取的远程对象，可以轻松读取HTML文件、图像文件或其他寄存在网络端的文件，下面是一个简单的例子：

from urllib.request import urlopen

'''赋值我们需要登入的网址'''
html = urlopen('http://news.163.com/')

'''打印采集回的目标网页的源代码'''
print(html.read())

运行结果：

可以看出，通过上面非常简单的几行语句，我们就采集回http://news.163.com/的网页源代码，与浏览器中查看源代码的方式进行比较：

　　可以看出，只通过这几行语句采集回的网页内容，和浏览器中展示的网页源码信息有很大的出入，这是因为我们通过urlopen只是传回来朴素的源代码，没有经过任何解析操作，下面介绍如何对返回的朴素的网页源码进行解析；

三、BeautifulSoup库

　　通过上一节我们举的例子可以看出，我们需要对返回的网页源码进行结构化的解析，而BeautifulSoup就是这样一个神奇的第三方库，它通过对HTML标签进行定位，以达到格式化和组织复杂网络信息的目的，我们基于BeautifulSoup对上一节中的简单代码进行扩充：

from urllib.request import urlopen
from bs4 import BeautifulSoup

'''赋值我们需要登入的网址'''
html = urlopen('http://news.163.com/')

'''利用BeautifulSoup对朴素的网页源代码进行结构化解析（包括对utf编码的内容进行转码）'''
obj1 = BeautifulSoup(html.read())

'''打印采集回的目标网页的源代码'''
print(obj1)

运行结果：

可以看出这时我们得到的内容与我们之前在浏览器中查看的网页源代码一致（中文内容也被展示出来），更重要的是，我们已经对目标网页的结构进行了解析，意味着我们可以通过调用不同结构标签来查看相应内容：

print(obj1.html.h1)

print(obj1.html.title)

运行结果：

这对之后我们对所需内容的定位提取很有帮助，事实上，任何HTML、XML文件的任意节点信息都可以被提取出来，只要目标信息的附近有标记即可；

四、错误的处理策略

　　相比大家都有经验，当我们登入某些网址时，因为网络不稳定或其它原因，会导致网页连接失败，而在我们的网络爬虫持续采集数据的过程中，因为网页数据格式不友好、网络服务器宕机、目标数据的标签寻找失败等原因，会导致你的爬虫中途因发生错误而中断，这在需要长时间工作的爬虫项目来说尤为关键；

　　爬虫工作过程中常见的错误如下：

　　对于urlopen的过程，服务器上不存在目标网页（或是获取页面的时候出现错误），这种异常发生时，程序会返回HTTP错误，这包含很多种详细的错误类型，但urlopen统一反馈“HTTPError”，于是乎利用Python中处理错误的try...except机制，就可以在爬虫遇到这种错误时，进行相应的处理方法（通常是选择跳过），下面是一个简单的例子：

from urllib.request import urlopen

'''创造一系列网址，其中第四个为伪造的不存在网站'''
html = ['http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=1',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=2',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=3',
        'http://www.pythonscraping.com/pages/page10000.html',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=4']

'''循环反馈对应网址的源代码信息'''
for i in range(5):
        token = urlopen(html[i])
        print(token.read()[:10])

这时我们没有进行错误处理，因此在程序运行到第四个网址时，会出现打不开网页的错误，如下：

HTTPError出现了，这时由于这个网址的打开失败，导致后续的任务都被迫中断，下面我们使用错误处理机制对这种遍历任务中的潜在错误风险进行处理：

from urllib.request import urlopen
from urllib.error import HTTPError#注意，这里需要import urllib中具体的错误类型

'''创造一系列网址，其中第四个为伪造的不存在网站'''
html = ['http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=1',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=2',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=3',
        'http://www.pythonscraping.com/pages/page10000.html',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=4']

'''循环反馈对应网址的源代码信息'''
for i in range(5):
    try:
        token = urlopen(html[i])
        print(token.read()[:10])
    except HTTPError as e:
        print('错误出现！跳过')

运行结果：

这样就可以对各种潜在的错误进行处理，而不打断整个程序的进行，但运行大的爬虫项目时，潜在的错误类型是多种多样的，一旦没有在程序开头import全对应的错误类型，依旧会因为未预料到的错误类型打断程序，这时我们可以利用try...except中的泛型错误Exception来识别所有错误类型，并打印具体的错误类型以作后期分析：

from urllib.request import urlopen

'''创造一系列网址，其中第四个为伪造的不存在网站'''
html = ['http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=1',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=2',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=3',
        'http://www.pythonscraping.com/pages/page10000.html',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=4']

'''循环反馈对应网址的源代码信息'''
for i in range(5):
    try:
        token = urlopen(html[i])
        print(token.read()[:10])
    except Exception as e:#泛型错误处理机制
        print('错误','< ',e,' >','出现！跳过')

运行结果：

可以看到，在利用Exception时，会处理所有可能的错误，非常方便；

五、目标内容的粗略提取（基于CSS）

　　前面说了这么多，实际上还是在对我们的目的做铺垫，即介绍了 获取信息--抽取目标信息 这个过程中的获取信息部分，在获得了结构化的全量信息之后，我们就要开始着手如何提取其中想要的信息了；

　　先普及一个知识：几乎每一个网站都会存在层叠样式报（cascading style sheet，CSS），这种机制使得浏览器和人类得以理解网页的层次内容，CSS可以让HTML元素呈现出差异化，使得不同的数据归属于其对应的标签下，我们再通过BeautifulSoup解析后的网页内容（带有各层次标签），利用对应内容的标签属性，即可有选择的获取我们想要的数据内容；

　　我们用findAll()方法来对BeautifulSoup对象进行指定标签内容的提取，下面是一个简单的例子：

我们对http://sports.163.com/18/0504/10/DGV2STDA00058782.html这个新闻网页，先是提取它的新闻标题内容，通过观察网页源代码，发现其文章标题内容隐藏在标签下，于是利用findAll()对title标签内内容进行提取：</span></p> <p> </p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup </span><span style="color:#800000;">'''</span><span style="color:#800000;">连接目标网址</span><span style="color:#800000;">'''</span><span style="color:#000000;"> html </span>= urlopen(<span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">将反馈回的网页源代码解析为BeautifulSoup对象</span><span style="color:#800000;">'''</span><span style="color:#000000;"> obj </span>=<span style="color:#000000;"> BeautifulSoup(html) </span><span style="color:#800000;">'''</span><span style="color:#800000;">提取obj对象下title标签内的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">title</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">打印结果</span><span style="color:#800000;">'''</span> <span style="color:#0000ff;">print</span>(text)</pre> </div> <p> </p> <p><span style="font-size:14pt;">运行结果：</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><img src="http://img.e-com-net.com/image/info8/0b4cca18d0d94b5c9a06f9249ee94970.png" alt="" width="557" height="29"></span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　从上面的小例子中可以看出findAll()的强大功能，下面对其进行详细的介绍：</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　BeautifulSoup中的find()与findAll()是网页内容提取中最常用的两个函数，我们可以利用它们通过标签的不同属性轻松地过滤HTML页面，查找需要的单个或多个标签下的内容。</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　find()与findAll()用法几乎一样，先介绍findAll()的主要参数：</span></p> <p style="text-align:left;"><span style="font-size:14pt;">tag：这个参数传递字符串形式的单个标题标签或由多个标题标签组成的列表，如'title'，['h1','h2','h3']</span></p> <p style="text-align:left;"><span style="font-size:14pt;">attributes：属性参数，接受用字典封装的一个标签的若干属性和对应的属性值，例如{'<span class="html-attribute-name">property':'<span class="html-attribute-value">og:description'}</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">recursive：bool型变量，默认为True，代表findAll会根据你的要求去查找标签参数的所有子标签，以及子标签的子标签；如果设置为False，则findAll只查找文档的一级标签；</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">text：字符型输入，设置该参数以后，提取信息就不是用标签的属性，而是用标签的文本内容，即content中的内容来匹配</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">limit：范围限制参数，只用于findAll，换句话说，find等价于findAll的limit参数为1时的特殊情况，因为根据其他参数设定的条件返回的，是满足条件的所有标签下内容按顺序排列的一个序列，limit设置的值即控制了最终留下前多少个结果</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">keyword：这个参数的用法不是对keyword赋值，而是将你感兴趣的标签内属性声明项，如<span class="html-attribute-name">name="<span class="html-attribute-value">keywords"这样的，在findAll中附加上</span></span></span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value"><span class="html-attribute-name"><span class="html-attribute-value">下面还是基于之前举例子的那篇新闻网页，对findAll进行演示：</span></span></span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value"><span class="html-attribute-name"><span class="html-attribute-value">单个标题标签内容的粗略提取：</span></span></span></span></span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">获取标签为<p>的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">p</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p style="text-align:left;"> </p> <p style="text-align:left;"> </p> <p><span style="font-size:14pt;">运行结果：</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/d5c66166a4fb4d0196bb7ffac15528c5.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/d5c66166a4fb4d0196bb7ffac15528c5.jpg" alt="（数据科学学习手札31）基于Python的网络数据采集（初级篇）_第7张图片" width="650" height="192" style="border:1px solid black;"></a></span></p> <p><span style="font-size:14pt;">多个标签内容的捆绑提取：</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">保存多个标题标签的列表</span><span style="color:#800000;">'''</span><span style="color:#000000;"> tag </span>= [<span style="color:#800000;">'</span><span style="color:#800000;">title</span><span style="color:#800000;">'</span>,<span style="color:#800000;">'</span><span style="color:#800000;">meta</span><span style="color:#800000;">'</span><span style="color:#000000;">] </span><span style="color:#800000;">'''</span><span style="color:#800000;">获取tag中标签的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>=<span style="color:#000000;"> obj.findAll(tag) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果：</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/92bda107930c4adcac13a97d1f77e7af.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/92bda107930c4adcac13a97d1f77e7af.jpg" alt="" width="650" height="83"></a></span></p> <p><span style="font-size:14pt;">对指定标签下指定属性值对应内容的提取：</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">获取meta标签下属性name为author的对应内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">meta</span><span style="color:#800000;">'</span>,{<span style="color:#800000;">'</span><span style="color:#800000;">name</span><span style="color:#800000;">'</span>:<span style="color:#800000;">'</span><span style="color:#800000;">author</span><span style="color:#800000;">'</span><span style="color:#000000;">}) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果：</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/2e8f69e81db04fed849a794d68922a7f.png" target="_blank"><img src="http://img.e-com-net.com/image/info8/2e8f69e81db04fed849a794d68922a7f.png" alt="" width="350" height="45"></a></span></p> <p> </p> <p><span style="font-size:18pt;">六、正则表达式</span></p> <p><span style="font-size:14pt;">　　即使你之前完全没有接触过网络爬虫，也可能接触过正则表达式（regular expression，简称regex），之所以叫正则表达式，是因为它们可以识别正则字符串（regular string），通俗的理解就是，我只识别我编写的正则表达式所匹配的内容，而忽视不符合我的表达式所构造的规则的字符串，这在很多方面都十分的方便；</span></p> <p><span style="font-size:14pt;">　　正则字符串是任意可以用一系列线性规则构成的字符串，例如：</span></p> <p><span style="font-size:14pt;">　　1、字母“a”至少出现一次；</span></p> <p><span style="font-size:14pt;">　　2、后面接上重复5次的“b”；</span></p> <p><span style="font-size:14pt;">　　3、后面再接上重复任意偶数次的字母“c”；</span></p> <p><span style="font-size:14pt;">　　4、最后一位字母是“d”或没有。</span></p> <p><span style="font-size:14pt;">满足上述组合条件的字符串有无数个，如“aaabbbbbccccd”，“abbbbbcc”等，相信你应该理解了，正则表达式就是用一个对于目标语句的格式普适的规则，来识别目标内容。</span></p> <p><span style="font-size:14pt;">　　你可以将正则表达式理解为SQL中的LIKE运算符后跟着的通配符，还是以上面介绍过的组合条件为例，用正则表达式来表示：</span></p> <p style="text-align:center;"><span style="font-size:14pt;">aa*bbbbb(cc)*(d|)</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　首先，开头的a表示a出现一次，a*表示a出现任意次，因此aa*的组合代表a至少出现一次；bbbbb表示连续出现5次b；(cc)*表示cc出现任意次，对应重复任意次（包括0次）的c；(d|)表示出现d或无任何字符，对应“最后一位是字母d或没有”，这样一个由若干规则按顺序组合起来的字符串，就是正则字符串；</span></p> <p style="text-align:left;"><span style="font-size:14pt;">*有很多网站可以在线测试你的正则表达式，我喜欢用的是http://regexpal.com.s3-website-us-east-1.amazonaws.com/?_ga=2.164205119.1679442026.1514793856-2027450969.1514793856</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　再举一个更常见的正则表达式使用场景——识别邮箱，以我个人的邮箱为例：pengzyill@foxmail.com，这是个常见的邮箱格式，若要编写正则表达式来识别它，就会按顺序用到以下识别规则：</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　1、邮箱的第一部分至少包括一种内容：大写字母、小写字母、数字0-9、点号.、加号+或下划线_，因此为了识别这一部分，我们构造的正则字符串如下：</span></p> <p style="text-align:center;"><span style="font-size:14pt;">[A-Za-z0-9\.+_]+</span></p> <p style="text-align:left;"> <span style="font-size:14pt;">[]中放入的内容是所有可能出现的内容的最简形式，A-Z表示所有大写字母，a-z表示所有小写字母，0-9表示所有数字，\.表示点号.（这里用\转义），+表示加号，_表示下划线，[]后紧跟的+表示前面[]内的所有部件可以出现多次，且至少有一种部件至少出现1次，可以看出，非常简洁；</span><span style="font-size:14pt;"><br></span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　2、紧跟着，会出现一个@符号，很简单，对应的正则字符串为：</span></p> <p style="text-align:center;"><span style="font-size:14pt;">@</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　3、在@之后，是指明邮箱所属域名的部分，由大小写字母组成，如我的邮箱中的foxmail，于是对应的正则字符串为：</span></p> <p style="text-align:center;"><span style="font-size:14pt;">[A-Za-z]+</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　4、紧跟着是一个点号，即：</span></p> <p style="text-align:center;"><span style="font-size:14pt;">\.</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　5、最后一部分，是邮箱地址的顶级域名，如com，org，edu或net等，这是四种最常见的，因此以这四种作为全部（虽然有些以偏概全），对应的正则字符串如下：</span></p> <p style="text-align:center;"><span style="font-size:14pt;">(com|org|edu|net)</span></p> <p style="text-align:left;"><span style="font-size:14pt;">将上述的子正则字符串按照顺序连接起来，便得到了我们的用于识别邮箱地址的正则字符串：</span></p> <p style="text-align:center;"><span style="font-size:14pt;">[A-Za-z0-9\.+_]+@[A-Za-z]+\.(com|org|edu|net)</span></p> <p style="text-align:left;"> <span style="font-size:14pt;">我们在前面提到的在线测试网站中测试一下~</span></p> <p style="text-align:left;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/b60d06515d654b3989606cf72c70795a.png" target="_blank"><img style="margin-left:auto;;border:1px solid black;" src="http://img.e-com-net.com/image/info8/b60d06515d654b3989606cf72c70795a.png" alt="（数据科学学习手札31）基于Python的网络数据采集（初级篇）_第8张图片" width="628" height="328"></a></span></p> <p style="text-align:left;"><span style="font-size:14pt;">可以看出，我的邮箱地址被准确的识别出来（完全被黄色底纹包裹），你也可以试试你自己的邮箱地址；所以，在使用正则表达式之前，最好分块的理清楚各个部分需要对应的正则字符串，这对提高效率很有帮助。</span></p> <p style="text-align:left;"><span style="font-size:14pt;">　　下面用一些简单的说明和例子来总结一下正则表达式中的常用符号：</span></p> <table style="width:651px;" border="0" align="center"> <tbody> <tr> <td style="text-align:center;"><span style="font-size:14px;">符号</span></td> <td style="text-align:center;"><span style="font-size:14px;">含义</span></td> <td style="text-align:center;"><span style="font-size:14px;">例子</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配结果</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">*</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配前面的单个字符、子表达式或括号里的所有字符0次或多次</span></td> <td style="text-align:center;"><span style="font-size:14px;">a*(bb)*</span></td> <td style="text-align:center;"><span style="font-size:14px;">aaaa　　aabbbb</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">+</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配前面的字符、子表达式或括号里的所有字符至少1次</span></td> <td style="text-align:center;"><span style="font-size:14px;">a+b+</span></td> <td style="text-align:center;"><span style="font-size:14px;">ab　　aabbb</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">[]</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配括号中任意一个字符(配合*实现多次出现的匹配)</span></td> <td style="text-align:center;"><span style="font-size:14px;">[A-Z]*</span></td> <td style="text-align:center;"><span style="font-size:14px;">LOVE　　PEACE</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">()</span></td> <td style="text-align:center;"><span style="font-size:14px;">表达式编组（类似数学运算，()里的规则会优先运行）</span></td> <td style="text-align:center;"><span style="font-size:14px;">(a*b)*</span></td> <td style="text-align:center;"><span style="font-size:14px;">aabab　　abababab</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">{m,n}</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配前面的字符、子表达式或括号里的字符m到n次（包含m或n）</span></td> <td style="text-align:center;"><span style="font-size:14px;">a{2,3}b{2,3}</span></td> <td style="text-align:center;"><span style="font-size:14px;">aabbb　　aaabb</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">[^]</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配任意一个不在中括号里的字符</span></td> <td style="text-align:center;"><span style="font-size:14px;">[^A-Z]*</span></td> <td style="text-align:center;"><span style="font-size:14px;">apple　　love%++</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">|</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配任意<span style="color:#ff0000;">一个</span>由竖线|分割的字符、子表达式</span></td> <td style="text-align:center;"><span style="font-size:14px;">b(a|i|e)d</span></td> <td style="text-align:center;"><span style="font-size:14px;">bad　　bid　　bed</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">.</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配任意单个字符（包括符号、数字和空格等）</span></td> <td style="text-align:center;"><span style="font-size:14px;">b.d</span></td> <td style="text-align:center;"><span style="font-size:14px;">bed　　b?d　　bod</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">^</span></td> <td style="text-align:center;"><span style="font-size:14px;">表示以某个字符或子表达式开头的字符串</span></td> <td style="text-align:center;"><span style="font-size:14px;">^a</span></td> <td style="text-align:center;"><span style="font-size:14px;">adshdjsh　　a?di</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">\</span></td> <td style="text-align:center;"><span style="font-size:14px;">转义字符（把有特殊含义的字符转换成字面形式，譬如本表中的一些常用符号）</span></td> <td style="text-align:center;"><span style="font-size:14px;">\.\|\\</span></td> <td style="text-align:center;"><span style="font-size:14px;">.|\</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">$</span></td> <td style="text-align:center;"><span style="font-size:14px;">常用于正则表达式的末尾，表示“从字符串的末端匹配”，如果不使用它，每个正则表达式实际上都相当于外套一个.*，默认从字符串开头进行匹配。可以将这个符号视为^的反义词</span></td> <td style="text-align:center;"><span style="font-size:14px;">[A-Z]*[a-z]*$</span></td> <td style="text-align:center;"><span style="font-size:14px;">ABCabc</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">?!</span></td> <td style="text-align:center;"><span style="font-size:14px;">表示“不包含”，这个符号通常放在字符或正则表达式前面，表示指定字符不可以出现在目标字符串中，若字符在字符串的不规则部位出现，则需要在整个字符串中排除某个字符，就需要加上^与$符号</span></td> <td style="text-align:center;"><span style="font-size:14px;">^((?![A-Z]).)*$</span></td> <td style="text-align:center;"><span style="font-size:14px;">nojoasdn-\</span></td> </tr> </tbody> </table> <p style="text-align:center;"> </p> <p> <span style="font-size:18pt;">七、正则表达式与BeautifulSoup</span><span style="font-size:18pt;"><br></span></p> <p><span style="font-size:14pt;">　　基于前面介绍的正则表达式，下面我们来介绍如何将正则表达式与BeautifulSoup结合起来：</span></p> <p><span style="font-size:14pt;">　　这里要使用到一个新的模块——re，这时Python中专门进行正则表达式相关操作的模块，为了与BeautifulSoup结合起来，我们需要进行的操作是将re.compile('正则表达式内容')作为findAll内适配参数的输入值，即可将以前确切赋参的方法，转换为利用正则表达式进行模式赋参，这大大提高了findAll对网页内容提取的自由度和效率，下面是几个简单的例子：</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup </span><span style="color:#0000ff;">import</span><span style="color:#000000;"> re html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">匹配meta标签下，name属性值为k开头，紧跟着任意数目小写字母</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">meta</span><span style="color:#800000;">'</span>,{<span style="color:#800000;">'</span><span style="color:#800000;">name</span><span style="color:#800000;">'</span>:re.compile(<span style="color:#800000;">'</span><span style="color:#800000;">k[a-z]*</span><span style="color:#800000;">'</span><span style="color:#000000;">)}) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果：</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/dbd1624986a04994af39b85cf14f24da.png" target="_blank"><img src="http://img.e-com-net.com/image/info8/dbd1624986a04994af39b85cf14f24da.png" alt="" width="441" height="41"></a></span></p> <p><span style="font-size:14pt;">接下来我们来实现更复杂一些的数据爬取，我在本篇博客中反复举例的网页是一篇关于台球的新闻报道，那么我们最关注的信息就应该是新闻的正文内容，下面我们就将针对此目的进行数据的爬取：</span></p> <p><span style="font-size:14pt;">　　通过对网页源代码的观察后，确定了新闻内容属于标签p下，因此利用正则表达式配合findAll爬取这部分内容，这里.*?表示匹配所有类型任意出现次数的字符：</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup </span><span style="color:#0000ff;">import</span><span style="color:#000000;"> re html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">匹配p标签下的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">p</span><span style="color:#800000;">'</span>,text=re.compile(<span style="color:#800000;">'</span><span style="color:#800000;">.*?</span><span style="color:#800000;">'</span><span style="color:#000000;">)) </span><span style="color:#800000;">'''</span><span style="color:#800000;">打印未经处理的内容</span><span style="color:#800000;">'''</span> <span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果：</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/79c21ccfec81454abeced550a1023952.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/79c21ccfec81454abeced550a1023952.jpg" alt="（数据科学学习手札31）基于Python的网络数据采集（初级篇）_第9张图片" width="650" height="343" style="border:1px solid black;"></a></span></p> <p><span style="font-size:14pt;">虽然将全部新闻内容爬取了下来，但其中参杂着许多<>包裹的标签内容，下面我们利用re.sub来对这些无关内容进行处理：</span></p> <div class="cnblogs_code"> <pre><span style="color:#800000;">'''</span><span style="color:#800000;">将爬下来的粗略内容转为字符串形式</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>=<span style="color:#000000;"> str(text) </span><span style="color:#800000;">'''</span><span style="color:#800000;">利用re.sub将所有的<>及内部信息替换为空字符，等价于将这些干扰部分删去</span><span style="color:#800000;">'''</span> <span style="color:#0000ff;">print</span>(re.sub(<span style="color:#800000;">'</span><span style="color:#800000;"><.*?></span><span style="color:#800000;">'</span>,<span style="color:#800000;">''</span>,text))</pre> </div> <p><span style="font-size:14pt;">运行结果：</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/e2838a8ff1854c2d9f99c2d3e08033ee.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/e2838a8ff1854c2d9f99c2d3e08033ee.jpg" alt="（数据科学学习手札31）基于Python的网络数据采集（初级篇）_第10张图片" width="650" height="338" style="border:1px solid black;"></a></span></p> <p><span style="font-size:14pt;">相信你此时一定在惊叹re这个模块的功能之强大，接下来的一篇博客，我就将详细介绍re模块的常见功能和特性；</span></p> <p> </p> <p><span style="font-size:14pt;">　　以上就是关于Python网络爬虫的初级知识，今后会继续更进阶的介绍，敬请期待。</span></p> <p> </p> <p style="text-align:left;"> </p> <p> </p> </div> <p>转载于:https://www.cnblogs.com/feffery/p/8984411.html</p> </div> </div> </div> </div> </div>  <div id="SOHUCS" sid="1280740270547156992"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script>  <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad">  <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div>  <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div>  <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:(（数据科学学习手札31）基于Python的网络数据采集（初级篇）)</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1903405241336918016.htm" title="简单工厂模式：思考与解读" target="_blank">简单工厂模式：思考与解读</a> <span class="text-muted">智想天开</span> <a class="tag" taget="_blank" href="/search/%E7%90%86%E8%A7%A3%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F%23/1.htm">理解设计模式#</a><a class="tag" taget="_blank" href="/search/%E5%88%9D%E7%BA%A7/1.htm">初级</a><a class="tag" taget="_blank" href="/search/%E7%AE%80%E5%8D%95%E5%B7%A5%E5%8E%82%E6%A8%A1%E5%BC%8F/1.htm">简单工厂模式</a> <div>原文地址：简单工厂模式：思考与解读更多内容请关注：深入思考与解读设计模式引言你是否遇到过这样的问题：在一个系统中，你需要创建不同类型的对象，而这些对象之间有很多相似之处，唯一的区别可能是某些细节或行为？如果每次都手动创建对象，会导致代码重复，并且难以扩展。如何才能有效地管理这些对象的创建？你是否想过，是否有一种机制可以在不暴露对象创建过程的情况下，提供统一的接口来生成对象？这就是简单工厂模式能够帮</div> </li> <li><a href="/article/1903404988638490624.htm" title="C语言中的结构体" target="_blank">C语言中的结构体</a> <span class="text-muted">NaZiMeKiY</span> <a class="tag" taget="_blank" href="/search/C%2FC%2B%2B/1.htm">C/C++</a><a class="tag" taget="_blank" href="/search/c%E8%AF%AD%E8%A8%80/1.htm">c语言</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>一.结构体1.结构体的概念：结构体可以理解为自定义的数据类型，它是由一批数据组合而成的结构型数据2.结构体格式：struct结构体名字{成员1;成员2;...成员n;};案例：#include#includestructstudent{charname[100];intage;chargender;};intmain(){structstudents1;strcpy(s1.name,"zhangs</div> </li> <li><a href="/article/1903404862289276928.htm" title="CSS实现当鼠标停留在一个元素上时，使得两个元素的样式发生改变" target="_blank">CSS实现当鼠标停留在一个元素上时，使得两个元素的样式发生改变</a> <span class="text-muted">Lipn</span> <a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/CSS/1.htm">CSS</a><a class="tag" taget="_blank" href="/search/css/1.htm">css</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a> <div>这里我们实现一个鼠标停留在input框时，使得input和button两个元素的边框都变颜色首先该元素结构如下，HTML是这样的第一步：当鼠标悬停在input上时，使用css伪类选择器，代码如下：这里空格是后代选择器，:hover是伪类选择器.testinput:hover{}第二步：当鼠标悬停在input上时，选中button元素：从html可以看到input和button属于兄弟关系，相邻兄弟</div> </li> <li><a href="/article/1903404231956688896.htm" title="流数据（Streaming Data）处理" target="_blank">流数据（Streaming Data）处理</a> <span class="text-muted">人间无人事</span> <a class="tag" taget="_blank" href="/search/javascript/1.htm">javascript</a> <div>在看代码之前，我们应当首先知道流数据与webSocket之间的区别（两者不能同一而论），因为存在区别所以在读取数据时使用相对较大的差距下面我将概述我对两者区别的一个总结（若有不对，请斧正）流数据（StreamingData）和WebSocket是两种不同的技术，但它们在实时数据传输方面有一些相似之处。以下是它们的区别和相同点：相同点1.实时性-两者都支持实时数据传输，适合需要低延迟的场景，如聊天应</div> </li> <li><a href="/article/1903403601850593280.htm" title="Maven简介" target="_blank">Maven简介</a> <span class="text-muted">z迦在线</span> <a class="tag" taget="_blank" href="/search/maven/1.htm">maven</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>Maven简介Maven是Apache软件基金会的一个开源项目,是一个优秀的项目构建工具,它用来帮助开发者管理项目中的jar,以及jar之间的依赖关系、完成项目的编译（.java--->.class）、测试、打包（源代码--->.jar文件）和发布等工作。Maven是如何管理项目中的jar文件的？Maven简化了Java项目中的JAR文件管理，主要通过以下几个关键点：POM文件：Maven使用po</div> </li> <li><a href="/article/1903402720526659584.htm" title="将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南" target="_blank">将MySQL数据同步到Elasticsearch作为全文检索数据的实战指南</a> <span class="text-muted">格子先生Lab</span> <a class="tag" taget="_blank" href="/search/%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2/1.htm">全文检索</a><a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/elasticsearch/1.htm">elasticsearch</a> <div>在现代应用中，全文检索是一个非常重要的功能，尤其是在处理大量数据时。Elasticsearch是一个强大的分布式搜索引擎，能够快速地进行全文检索、分析和可视化。而MySQL作为传统的关系型数据库，虽然能够处理结构化数据，但在全文检索方面的性能不如Elasticsearch。因此，将MySQL中的数据同步到Elasticsearch中，可以充分发挥两者的优势。本文将介绍如何将MySQL中的数据同步到</div> </li> <li><a href="/article/1903402342573731840.htm" title="CSS实现当鼠标悬停在一个元素上时，另一个元素的样式发生变化的效果" target="_blank">CSS实现当鼠标悬停在一个元素上时，另一个元素的样式发生变化的效果</a> <span class="text-muted">Wiktok</span> <a class="tag" taget="_blank" href="/search/css/1.htm">css</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a> <div>CSS可以实现当鼠标悬停在一个元素上时，另一个元素的样式发生变化的效果。可以通过以下几种方法来实现：1.使用兄弟选择器（AdjacentSiblingSelector）如果两个元素是兄弟关系（即它们有相同的父元素），可以使用+或~选择器来实现。示例代码：.element1:hover+.element2{background-color:yellow;}悬停在我上面另一个元素在这个例子中，当鼠标悬</div> </li> <li><a href="/article/1903400831923843072.htm" title="设计模式-抽象工厂模式(Abstract Factory)" target="_blank">设计模式-抽象工厂模式(Abstract Factory)</a> <span class="text-muted">树懒_Zz</span> <a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a><a class="tag" taget="_blank" href="/search/%E6%8A%BD%E8%B1%A1%E5%B7%A5%E5%8E%82%E6%A8%A1%E5%BC%8F/1.htm">抽象工厂模式</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>抽象工厂模式是一种创建型设计模式，它能创建一系列相关的对象，而无需指定其具体类。譬如你正在开发一款家具组装系统。代码中包括一些产品：椅子（chair）,沙发（sofa）和咖啡桌（CoffeeTable）然后基于这些产品形成一些列组合套餐装饰风艺术(ArtDeco)、维多利亚（Victorian）和现代（Mdern）。你需要设法单独生成每件家具对象，这样才能确保其风格一致。如果顾客收到的家具风格不一</div> </li> <li><a href="/article/1903400076173176832.htm" title="Python基础知识点总结" target="_blank">Python基础知识点总结</a> <span class="text-muted">豆芽819</span> <a class="tag" taget="_blank" href="/search/tip/1.htm">tip</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,</div> </li> <li><a href="/article/1903399572303048704.htm" title="Pytorch中的torch.utils.data.Dataset 类" target="_blank">Pytorch中的torch.utils.data.Dataset 类</a> <span class="text-muted">小白的高手之路</span> <a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%EF%BC%88DL%EF%BC%89/1.htm">深度学习（DL）</a><a class="tag" taget="_blank" href="/search/Pytorch%E5%AE%9E%E6%88%98/1.htm">Pytorch实战</a><a class="tag" taget="_blank" href="/search/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/1.htm">深度学习</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/pytorch/1.htm">pytorch</a> <div>1、使用方法fromtorch.utils.dataimportDataset2、torch.utils.data.Dataset类的定义classDataset(Generic[_T_co]):r"""Anabstractclassrepresentinga:class:`Dataset`.Alldatasetsthatrepresentamapfromkeystodatasamplesshou</div> </li> <li><a href="/article/1903399446046109696.htm" title="实验7-2-3 求矩阵的局部极大值" target="_blank">实验7-2-3 求矩阵的局部极大值</a> <span class="text-muted">范德蒙蒙</span> <a class="tag" taget="_blank" href="/search/%E7%9F%A9%E9%98%B5/1.htm">矩阵</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84/1.htm">数据结构</a><a class="tag" taget="_blank" href="/search/c%E8%AF%AD%E8%A8%80/1.htm">c语言</a> <div>#includeintmain(){intm,n;scanf("%d%d",&m,&n);inta[m+1][n+1];//编号从1开始for(inti=1;ia[i-1][j]&&a[i][j]>a[i+1][j]&&a[i][j]>a[i][j-1]&&a[i][j]>a[i][j+1]){printf("%d%d%d\n",a[i][j],i,j);you=1;}}}if(you==0){p</div> </li> <li><a href="/article/1903399193918107648.htm" title="Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全" target="_blank">Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全</a> <span class="text-muted">Echo_Wish</span> <a class="tag" taget="_blank" href="/search/Python%EF%BC%81/1.htm">Python！</a><a class="tag" taget="_blank" href="/search/%E5%AE%9E%E6%88%98%EF%BC%81/1.htm">实战！</a><a class="tag" taget="_blank" href="/search/%E5%8C%BA%E5%9D%97%E9%93%BE/1.htm">区块链</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%8E%BB%E4%B8%AD%E5%BF%83%E5%8C%96/1.htm">去中心化</a> <div>Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全在区块链世界里，透明性和不可篡改性是两大核心优势，但这也带来了一个悖论——如何在公开账本的同时保障用户隐私？如果你的交易记录对所有人可见，如何防止敏感信息泄露？Python作为区块链开发中最受欢迎的语言之一，提供了强大的工具和库来增强隐私保护。本文将深入探讨区块链的隐私保护技术，并结合Python代码示例，带你了解如何在Web3时代</div> </li> <li><a href="/article/1903398815096958976.htm" title="HDFS相关的面试题" target="_blank">HDFS相关的面试题</a> <span class="text-muted">努力的搬砖人.</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a><a class="tag" taget="_blank" href="/search/hdfs/1.htm">hdfs</a> <div>以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次</div> </li> <li><a href="/article/1903398815860322304.htm" title="服务器虚拟化相关的面试题" target="_blank">服务器虚拟化相关的面试题</a> <span class="text-muted">努力的搬砖人.</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a><a class="tag" taget="_blank" href="/search/%E5%85%B6%E4%BB%96/1.htm">其他</a> <div>以下是服务器虚拟化相关的面试题，涵盖了服务器虚拟化的基础概念、技术原理、应用场景、性能优化、容错与高可用性、网络与存储、管理与监控、安全与备份、与其他技术的结合等方面，希望对你有所帮助。服务器虚拟化基础概念1.什么是服务器虚拟化？它的主要目的是什么？•服务器虚拟化是指通过虚拟化技术将一台物理服务器虚拟成多台虚拟机，每台虚拟机可以独立运行操作系统和应用程序。其主要目的是提高服务器的资源利用率，降低硬</div> </li> <li><a href="/article/1903398813654118400.htm" title="Flink相关面试题" target="_blank">Flink相关面试题</a> <span class="text-muted">努力的搬砖人.</span> <a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AF/1.htm">后端</a><a class="tag" taget="_blank" href="/search/flink/1.htm">flink</a> <div>以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl</div> </li> <li><a href="/article/1903398308689276928.htm" title="如何对关键字段进行脱敏(一）在使用Mybatis-plus执行查询" target="_blank">如何对关键字段进行脱敏(一）在使用Mybatis-plus执行查询</a> <span class="text-muted">张瀚元782738120</span> <a class="tag" taget="_blank" href="/search/mybatis/1.htm">mybatis</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>为了在读取用户表中的mobile字段时进行脱敏处理，并实现一个通用的方法以便将来对其他字段例如：邮箱、身份证、姓名等进行脱敏处理，可以采用以下步骤：1.添加依赖首先，在pom.xml文件中添加必要的依赖，包括SpringBoot、MyBatis-Plus和Hutool工具库：org.springframework.bootspring-boot-starter-webcom.baomidoumyb</div> </li> <li><a href="/article/1903398309620412416.htm" title="FastAPI Web框架 [1.9]" target="_blank">FastAPI Web框架 [1.9]</a> <span class="text-muted">carefree798</span> <a class="tag" taget="_blank" href="/search/FastAPI/1.htm">FastAPI</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>表单数据fromfastapiimportFastAPI,Form#导入Form#表单数据#接收的不是JSON，而是表单字段时，要使用Formapp=FastAPI()@app.post("/login/")asyncdeflogin(username:str=Form(...),password:str=Form(...)#定义Form参数):return{"username":username</div> </li> <li><a href="/article/1903397804756234240.htm" title="基于Azure云平台构建实时数据仓库" target="_blank">基于Azure云平台构建实时数据仓库</a> <span class="text-muted">weixin_30777913</span> <a class="tag" taget="_blank" href="/search/%E4%BA%91%E8%AE%A1%E7%AE%97/1.htm">云计算</a><a class="tag" taget="_blank" href="/search/azure/1.htm">azure</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a><a class="tag" taget="_blank" href="/search/spark/1.htm">spark</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a> <div>设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal</div> </li> <li><a href="/article/1903397678373466112.htm" title="shell 脚本搭建apache" target="_blank">shell 脚本搭建apache</a> <span class="text-muted">好多知识都想学</span> <a class="tag" taget="_blank" href="/search/apache/1.htm">apache</a> <div>#!/bin/bash#SetApacheversiontoinstall##author:yuan#检查外网连接echo"检查外网连接..."pingwww.baidu.com-c3>/dev/null2>&1if[$?-eq0];then echo"外网通讯良好！"else echo"网络连接失败，请检查你的网络设置！" exit1fisleep5#检查并安装APR库echo"检查并安装</div> </li> <li><a href="/article/1903397174461394944.htm" title="人脸识别的一些代码" target="_blank">人脸识别的一些代码</a> <span class="text-muted">饿了就干饭</span> <a class="tag" taget="_blank" href="/search/CV%E7%9B%B8%E5%85%B3/1.htm">CV相关</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E8%84%B8%E8%AF%86%E5%88%AB/1.htm">人脸识别</a> <div>1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片</div> </li> <li><a href="/article/1903397047227183104.htm" title="Nginx 在 Ubuntu 上的安装与配置指南" target="_blank">Nginx 在 Ubuntu 上的安装与配置指南</a> <span class="text-muted">一回生二回熟</span> <a class="tag" taget="_blank" href="/search/Ubuntu/1.htm">Ubuntu</a><a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a><a class="tag" taget="_blank" href="/search/ubuntu/1.htm">ubuntu</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a> <div>Nginx在Ubuntu上的安装与配置指南Ubuntu的软件管理工具已经提供了Nginx的安装包，如果不需要借助Docker等其他容器化工具对Nginx进行管理，可以直接通过Ubuntu自带的软件管理工具轻松安装Nginx。本指南将详细介绍Nginx的安装过程、安装后的检查方法、服务的管理以及基本的配置步骤，帮助你快速上手并正确使用Nginx。1.安装Nginx安装Nginx非常简单，只需使用以下</div> </li> <li><a href="/article/1903397048099598336.htm" title="Ubuntu检查并启用 Nginx 的stream模块或重新安装支持stream模块的Nginx" target="_blank">Ubuntu检查并启用 Nginx 的stream模块或重新安装支持stream模块的Nginx</a> <span class="text-muted">一回生二回熟</span> <a class="tag" taget="_blank" href="/search/Ubuntu/1.htm">Ubuntu</a><a class="tag" taget="_blank" href="/search/ubuntu/1.htm">ubuntu</a><a class="tag" taget="_blank" href="/search/nginx/1.htm">nginx</a> <div>stream模块允许Nginx处理TCP和UDP流量，常用于负载均衡和端口转发等场景。本文将详细介绍如何检查Nginx是否支持stream模块，以及在需要时如何启用该模块。1.检查Nginx是否支持stream模块首先，需要确认当前安装的Nginx是否已经编译并启用了stream模块。可以通过以下命令查看Nginx的编译参数：nginx-V2>&1|grep--'--with-stream'•有输</div> </li> <li><a href="/article/1903396793694089216.htm" title="在 Linux 中，lsblk 命令输出内容解释" target="_blank">在 Linux 中，lsblk 命令输出内容解释</a> <span class="text-muted">冷冷清清中的风风火火</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a> <div>在Linux中，lsblk命令用于以树状结构列出所有块设备（如磁盘、分区、LVM逻辑卷等）的信息。以下是lsblk输出的详细解释和示例：1.示例输出NAMEMAJ:MINRMSIZEROTYPEMOUNTPOINTSsda8:00238.5G0disk├─sda18:10512M0part/boot/efi├─sda28:201G0part/boot└─sda38:30237G0part└─vg-</div> </li> <li><a href="/article/1903396795040460800.htm" title="在 Linux 系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）" target="_blank">在 Linux 系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）</a> <span class="text-muted">冷冷清清中的风风火火</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a><a class="tag" taget="_blank" href="/search/%E6%9C%8D%E5%8A%A1%E5%99%A8/1.htm">服务器</a> <div>在Linux系统中，区分**磁盘（物理/虚拟存储设备）和分区（磁盘的逻辑划分）**是管理存储的基础。以下是详细的区分方法和操作示例：一、通过设备命名规则区分Linux中磁盘和分区的命名遵循特定规则：类型命名格式示例说明磁盘/dev/sdX/dev/sdasd表示SCSI/SATA磁盘，X为字母（a,b,c…）。/dev/nvmeXnY/dev/nvme0n1nvme表示NVMe磁盘，X为控制器编号</div> </li> <li><a href="/article/1903396163944509440.htm" title="Python从入门到精通的系统性学习路径" target="_blank">Python从入门到精通的系统性学习路径</a> <span class="text-muted">niuTaylor</span> <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E5%8C%BA/1.htm">编程区</a><a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/%E5%BC%80%E5%8F%91%E8%AF%AD%E8%A8%80/1.htm">开发语言</a> <div>Python从入门到精通的系统性学习路径一、基础语法快速突破1.变量与基础操作#动态类型演示a=10#整型a=3.14#浮点型a="Python"#字符串a=[1,2,3]#列表#格式化输出进阶name="Alice"print(f"{name:*^20}")#居中填充输出：******Alice*******2.运算符优先级实战#常见运算符优先级练习result=5+3*2**2//(4%3)p</div> </li> <li><a href="/article/1903396037557547008.htm" title="YOLO算法全面改进指南（二）" target="_blank">YOLO算法全面改进指南（二）</a> <span class="text-muted">niuTaylor</span> <a class="tag" taget="_blank" href="/search/YOLO%E6%94%B9%E8%BF%9B/1.htm">YOLO改进</a><a class="tag" taget="_blank" href="/search/YOLO/1.htm">YOLO</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a> <div>以下是为YOLO系列算法设计的系统性改进框架，结合前沿技术与多领域创新，提供可支持高水平论文发表的详细改进思路。本方案整合了轻量化设计、多模态融合、动态特征优化等创新点，并给出可验证的实验方向。一、多模态提示驱动的开放场景检测系统1.核心创新三模态提示机制：文本提示编码器：基于RepRTA（可重参数化区域文本对齐）构建轻量级文本编码网络，将自然语言描述映射为128维语义向量。视觉提示编码器：采用S</div> </li> <li><a href="/article/1903395532781449216.htm" title="环境准备系列——使家里的工作站在公网上也可以通过ssh进行访问" target="_blank">环境准备系列——使家里的工作站在公网上也可以通过ssh进行访问</a> <span class="text-muted">music&movie</span> <a class="tag" taget="_blank" href="/search/%E5%B7%A5%E5%85%B7/1.htm">工具</a><a class="tag" taget="_blank" href="/search/ssh/1.htm">ssh</a><a class="tag" taget="_blank" href="/search/%E8%BF%90%E7%BB%B4/1.htm">运维</a> <div>一、基础配置：启用SSH服务与端口开放安装SSH服务•Ubuntu/Debian系统：sudoaptupdate&&sudoaptinstallopenssh-server•CentOS系统：sudoyuminstallopenssh-server•启动服务：sudosystemctlstartsshd&&sudosystemctlenablesshd修改默认端口（推荐）•编辑配置文件：sudov</div> </li> <li><a href="/article/1903395533653864448.htm" title="Spring系列学习之Spring Messaging消息支持" target="_blank">Spring系列学习之Spring Messaging消息支持</a> <span class="text-muted">m0_74825488</span> <a class="tag" taget="_blank" href="/search/%E9%9D%A2%E8%AF%95/1.htm">面试</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0%E8%B7%AF%E7%BA%BF/1.htm">学习路线</a><a class="tag" taget="_blank" href="/search/%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4/1.htm">阿里巴巴</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/linq/1.htm">linq</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>英文原文：https://docs.spring.io/spring-boot/docs/current/reference/html/boot-features-messaging.html目录JMSActiveMQ支持Artemis支持使用JNDIConnectionFactory发送消息接收消息AMQPRabbitMQ支持发送消息接收消息ApacheKafka支持发送消息接收消息Kafka流</div> </li> <li><a href="/article/1903395530667520000.htm" title="算法之魂：深入剖析数据结构中的七大排序算法" target="_blank">算法之魂：深入剖析数据结构中的七大排序算法</a> <span class="text-muted">GeminiGlory</span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84/1.htm">数据结构</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84/1.htm">数据结构</a><a class="tag" taget="_blank" href="/search/%E6%8E%92%E5%BA%8F%E7%AE%97%E6%B3%95/1.htm">排序算法</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a> <div>目录1.冒泡排序（BubbleSort）2.选择排序（SelectionSort）3.插入排序（InsertionSort）4.希尔排序（ShellSort）5.快速排序（QuickSort）6.归并排序（MergeSort）7.堆排序（HeapSort）在计算机科学领域，排序是一项基础但至关重要的操作。无论你是处理数据库查询结果还是优化搜索效率，了解不同的排序算法及其适用场景都至关重要。本文将介</div> </li> <li><a href="/article/1903395278484992000.htm" title="个人学习编程(3-21) leetcode刷题" target="_blank">个人学习编程(3-21) leetcode刷题</a> <span class="text-muted">Rsecret2</span> <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E7%AC%94%E8%AE%B0/1.htm">编程笔记</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/leetcode/1.htm">leetcode</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a> <div>链接列表的中间值：测试用例1：创建链表[1,2,3,4,5]，调用middleNode，预期返回值是3。测试用例2：创建链表[1,2,3,4,5,6]，调用middleNode，预期返回值是3。判断长度，然后length/2structListNode*middleNode(structListNode*head){intlength=0;for(structListNode*curr=head;</div> </li> <li><a href="/article/128.htm" title="scala的option和some" target="_blank">scala的option和some</a> <span class="text-muted">矮蛋蛋</span> <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B/1.htm">编程</a><a class="tag" taget="_blank" href="/search/scala/1.htm">scala</a> <div>原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点</div> </li> <li><a href="/article/255.htm" title="NullPointerException" target="_blank">NullPointerException</a> <span class="text-muted">Cb123456</span> <a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/BaseAdapter/1.htm">BaseAdapter</a> <div> java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上</div> </li> <li><a href="/article/382.htm" title="PHP使用文件和目录" target="_blank">PHP使用文件和目录</a> <span class="text-muted">天子之骄</span> <a class="tag" taget="_blank" href="/search/php%E6%96%87%E4%BB%B6%E5%92%8C%E7%9B%AE%E5%BD%95/1.htm">php文件和目录</a><a class="tag" taget="_blank" href="/search/%E8%AF%BB%E5%8F%96%E5%92%8C%E5%86%99%E5%85%A5/1.htm">读取和写入</a><a class="tag" taget="_blank" href="/search/php%E9%AA%8C%E8%AF%81%E6%96%87%E4%BB%B6/1.htm">php验证文件</a><a class="tag" taget="_blank" href="/search/php%E9%94%81%E5%AE%9A%E6%96%87%E4%BB%B6/1.htm">php锁定文件</a> <div>PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置</div> </li> <li><a href="/article/509.htm" title="SQL SELECT DISTINCT 语句" target="_blank">SQL SELECT DISTINCT 语句</a> <span class="text-muted">何必如此</span> <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a> <div>SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F</div> </li> <li><a href="/article/636.htm" title="java冒泡排序" target="_blank">java冒泡排序</a> <span class="text-muted">3213213333332132</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%86%92%E6%B3%A1%E6%8E%92%E5%BA%8F/1.htm">冒泡排序</a> <div>package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10</div> </li> <li><a href="/article/763.htm" title="struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！" target="_blank">struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！</a> <span class="text-muted">7454103</span> <a class="tag" taget="_blank" href="/search/DAO/1.htm">DAO</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/Ajax/1.htm">Ajax</a><a class="tag" taget="_blank" href="/search/json/1.htm">json</a><a class="tag" taget="_blank" href="/search/qq/1.htm">qq</a> <div>struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut</div> </li> <li><a href="/article/890.htm" title="struts2 数据标签说明" target="_blank">struts2 数据标签说明</a> <span class="text-muted">darkranger</span> <a class="tag" taget="_blank" href="/search/jsp/1.htm">jsp</a><a class="tag" taget="_blank" href="/search/bean/1.htm">bean</a><a class="tag" taget="_blank" href="/search/struts/1.htm">struts</a><a class="tag" taget="_blank" href="/search/servlet/1.htm">servlet</a><a class="tag" taget="_blank" href="/search/Scheme/1.htm">Scheme</a> <div>数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta</div> </li> <li><a href="/article/1017.htm" title="链表.简单的链表节点构建" target="_blank">链表.简单的链表节点构建</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E6%8A%80%E5%B7%A7/1.htm">编程技巧</a> <div>/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs</div> </li> <li><a href="/article/1144.htm" title="tomcat下jndi的三种配置方式" target="_blank">tomcat下jndi的三种配置方式</a> <span class="text-muted">avords</span> <a class="tag" taget="_blank" href="/search/tomcat/1.htm">tomcat</a> <div>jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置</div> </li> <li><a href="/article/1271.htm" title="关于敏捷的一些想法" target="_blank">关于敏捷的一些想法</a> <span class="text-muted">houxinyou</span> <a class="tag" taget="_blank" href="/search/%E6%95%8F%E6%8D%B7/1.htm">敏捷</a> <div>从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有</div> </li> <li><a href="/article/1398.htm" title="富养还是穷养，决定孩子的一生" target="_blank">富养还是穷养，决定孩子的一生</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/%E6%95%99%E8%82%B2/1.htm">教育</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E7%94%9F/1.htm">人生</a> <div> 是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜</div> </li> <li><a href="/article/1525.htm" title="oracle 日期时间格式转化" target="_blank">oracle 日期时间格式转化</a> <span class="text-muted">征客丶</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a> <div>oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月</div> </li> <li><a href="/article/1652.htm" title="【Scala六】分析Spark源代码总结的Scala语法四" target="_blank">【Scala六】分析Spark源代码总结的Scala语法四</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/scala/1.htm">scala</a> <div>1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId</div> </li> <li><a href="/article/1779.htm" title="Erlang中有意思的bug" target="_blank">Erlang中有意思的bug</a> <span class="text-muted">bookjovi</span> <a class="tag" taget="_blank" href="/search/erlang/1.htm">erlang</a> <div> 代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <bookjovi@gmail.com> Date: Fri Dec 2 16:19:22 2011 +0100 erts:</div> </li> <li><a href="/article/1906.htm" title="移位打印10进制数转16进制-2008-08-18" target="_blank">移位打印10进制数转16进制-2008-08-18</a> <span class="text-muted">ljy325</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%9F%BA%E7%A1%80/1.htm">基础</a> <div> /** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di</div> </li> <li><a href="/article/2033.htm" title="读《研磨设计模式》-代码笔记-组合模式" target="_blank">读《研磨设计模式》-代码笔记-组合模式</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str</div> </li> <li><a href="/article/2160.htm" title="利用cmd命令将.class文件打包成jar" target="_blank">利用cmd命令将.class文件打包成jar</a> <span class="text-muted">chenyu19891124</span> <a class="tag" taget="_blank" href="/search/cmd/1.htm">cmd</a><a class="tag" taget="_blank" href="/search/jar/1.htm">jar</a> <div>cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal</div> </li> <li><a href="/article/2287.htm" title="[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明" target="_blank">[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明</a> <span class="text-muted">comsci</span> <a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a><a class="tag" taget="_blank" href="/search/swing/1.htm">swing</a> <div> JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb</div> </li> <li><a href="/article/2414.htm" title="SecureCRT右键粘贴的设置" target="_blank">SecureCRT右键粘贴的设置</a> <span class="text-muted">daizj</span> <a class="tag" taget="_blank" href="/search/secureCRT/1.htm">secureCRT</a><a class="tag" taget="_blank" href="/search/%E5%8F%B3%E9%94%AE/1.htm">右键</a><a class="tag" taget="_blank" href="/search/%E7%B2%98%E8%B4%B4/1.htm">粘贴</a> <div>一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle</div> </li> <li><a href="/article/2541.htm" title="Linux 软链接和硬链接" target="_blank">Linux 软链接和硬链接</a> <span class="text-muted">dongwei_6688</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div>1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连</div> </li> <li><a href="/article/2668.htm" title="DIV底部自适应" target="_blank">DIV底部自适应</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a> <div><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q</div> </li> <li><a href="/article/2795.htm" title="Centos6.5使用yum安装mysql——快速上手必备" target="_blank">Centos6.5使用yum安装mysql——快速上手必备</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a> <div>第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb</div> </li> <li><a href="/article/2922.htm" title="如何调试JDK源码" target="_blank">如何调试JDK源码</a> <span class="text-muted">frank1234</span> <a class="tag" taget="_blank" href="/search/jdk/1.htm">jdk</a> <div>相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr</div> </li> <li><a href="/article/3049.htm" title="Maximal Rectangle" target="_blank">Maximal Rectangle</a> <span class="text-muted">hcx2013</span> <a class="tag" taget="_blank" href="/search/max/1.htm">max</a> <div>Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)</div> </li> <li><a href="/article/3176.htm" title="Spring MVC测试框架详解——服务端测试" target="_blank">Spring MVC测试框架详解——服务端测试</a> <span class="text-muted">jinnianshilongnian</span> <a class="tag" taget="_blank" href="/search/spring+mvc+test/1.htm">spring mvc test</a> <div>随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs</div> </li> <li><a href="/article/3303.htm" title="Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0" target="_blank">Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0</a> <span class="text-muted">liyong0802</span> <a class="tag" taget="_blank" href="/search/hadoop/1.htm">hadoop</a> <div>一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho</div> </li> <li><a href="/article/3430.htm" title="StatusBar 字体白色" target="_blank">StatusBar 字体白色</a> <span class="text-muted">pangyulei</span> <a class="tag" taget="_blank" href="/search/status/1.htm">status</a> <div> [[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method</div> </li> <li><a href="/article/3557.htm" title="如何分析Java虚拟机死锁" target="_blank">如何分析Java虚拟机死锁</a> <span class="text-muted">sesame</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/thread/1.htm">thread</a><a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E8%99%9A%E6%8B%9F%E6%9C%BA/1.htm">虚拟机</a><a class="tag" taget="_blank" href="/search/jdbc/1.htm">jdbc</a> <div>英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B</div> </li> <li><a href="/article/3684.htm" title="位运算简介及实用技巧（一）：基础篇" target="_blank">位运算简介及实用技巧（一）：基础篇</a> <span class="text-muted">tw_wangzhengquan</span> <a class="tag" taget="_blank" href="/search/%E4%BD%8D%E8%BF%90%E7%AE%97/1.htm">位运算</a> <div>http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r</div> </li> <li><a href="/article/3811.htm" title="jsearch的索引文件结构" target="_blank">jsearch的索引文件结构</a> <span class="text-muted">yangshangchuan</span> <a class="tag" taget="_blank" href="/search/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/1.htm">搜索引擎</a><a class="tag" taget="_blank" href="/search/jsearch/1.htm">jsearch</a><a class="tag" taget="_blank" href="/search/%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2/1.htm">全文检索</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2/1.htm">信息检索</a><a class="tag" taget="_blank" href="/search/word%E5%88%86%E8%AF%8D/1.htm">word分词</a> <div>jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类：</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.  </div> </div> </footer>  <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>