(数据科学学习手札31)基于Python的网络数据采集(初级篇)

一、简介

  在实际的业务中,我们手头的数据往往难以满足需求,这时我们就需要利用互联网上的资源来获取更多的补充数据,但是很多情况下,有价值的数据往往是没有提供源文件的直接下载渠道的(即所谓的API),这时我们该如何批量获取这些嵌入网页中的信息呢?

  这时网络数据采集就派上用处了,你通过浏览器可以观看到的绝大多数数据,都可以利用爬虫来获取,而所谓的爬虫,就是我们利用编程语言编写的脚本,根据其规模大小又分为很多种,本篇便要介绍基本的Python编写的爬虫脚本来进行单机形式的网络数据采集,这也是一个进阶的数据挖掘工程师或数据分析师的基本技能之一,大量的应用场景都会需要这种几乎可以毫无阻碍地获取数据的手段,譬如市场预测、机器语言翻译亦或是医疗诊断领域,通过对新闻网站、文章中的文本数据进行采集以进行进一步的数据挖掘工作,也是爬虫很常见的应用场景之一;

  本篇博客将通过介绍基础的爬虫知识,并附上两个实战项目的例子(爬取网易财经海南板块历史股票数据、爬取网易新闻多个分类板块的新闻文本数据),对基础的爬虫做一个小小的总结。

*本篇以jupyter notebook作为开发工具

 

二、建立连接

  为了抓取互联网上的数据资源,第一步显然是要建立起网络连接(即登入你的目标网址),在Python中,我们使用urllib.request中的urlopen()来建立起与目标网址的连接,这个函数可以用来打开并读取一个从网络获取的远程对象,可以轻松读取HTML文件、图像文件或其他寄存在网络端的文件,下面是一个简单的例子:

from urllib.request import urlopen

'''赋值我们需要登入的网址'''
html = urlopen('http://news.163.com/')

'''打印采集回的目标网页的源代码'''
print(html.read())

运行结果:

(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第1张图片

可以看出,通过上面非常简单的几行语句,我们就采集回http://news.163.com/的网页源代码,与浏览器中查看源代码的方式进行比较:

(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第2张图片

 (数据科学学习手札31)基于Python的网络数据采集(初级篇)_第3张图片

  可以看出,只通过这几行语句采集回的网页内容,和浏览器中展示的网页源码信息有很大的出入,这是因为我们通过urlopen只是传回来朴素的源代码,没有经过任何解析操作,下面介绍如何对返回的朴素的网页源码进行解析;

 

三、BeautifulSoup库

  通过上一节我们举的例子可以看出,我们需要对返回的网页源码进行结构化的解析,而BeautifulSoup就是这样一个神奇的第三方库,它通过对HTML标签进行定位,以达到格式化和组织复杂网络信息的目的,我们基于BeautifulSoup对上一节中的简单代码进行扩充:

from urllib.request import urlopen
from bs4 import BeautifulSoup

'''赋值我们需要登入的网址'''
html = urlopen('http://news.163.com/')

'''利用BeautifulSoup对朴素的网页源代码进行结构化解析(包括对utf编码的内容进行转码)'''
obj1 = BeautifulSoup(html.read())

'''打印采集回的目标网页的源代码'''
print(obj1)

运行结果:

(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第4张图片

可以看出这时我们得到的内容与我们之前在浏览器中查看的网页源代码一致(中文内容也被展示出来),更重要的是,我们已经对目标网页的结构进行了解析,意味着我们可以通过调用不同结构标签来查看相应内容:

print(obj1.html.h1)

print(obj1.html.title)

运行结果:

这对之后我们对所需内容的定位提取很有帮助,事实上,任何HTML、XML文件的任意节点信息都可以被提取出来,只要目标信息的附近有标记即可;

 

四、错误的处理策略

  相比大家都有经验,当我们登入某些网址时,因为网络不稳定或其它原因,会导致网页连接失败,而在我们的网络爬虫持续采集数据的过程中,因为网页数据格式不友好、网络服务器宕机、目标数据的标签寻找失败等原因,会导致你的爬虫中途因发生错误而中断,这在需要长时间工作的爬虫项目来说尤为关键;

  爬虫工作过程中常见的错误如下:

  对于urlopen的过程,服务器上不存在目标网页(或是获取页面的时候出现错误),这种异常发生时,程序会返回HTTP错误,这包含很多种详细的错误类型,但urlopen统一反馈“HTTPError”,于是乎利用Python中处理错误的try...except机制,就可以在爬虫遇到这种错误时,进行相应的处理方法(通常是选择跳过),下面是一个简单的例子:

from urllib.request import urlopen

'''创造一系列网址,其中第四个为伪造的不存在网站'''
html = ['http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=1',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=2',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=3',
        'http://www.pythonscraping.com/pages/page10000.html',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=4']

'''循环反馈对应网址的源代码信息'''
for i in range(5):
        token = urlopen(html[i])
        print(token.read()[:10])

这时我们没有进行错误处理,因此在程序运行到第四个网址时,会出现打不开网页的错误,如下:

(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第5张图片

HTTPError出现了,这时由于这个网址的打开失败,导致后续的任务都被迫中断,下面我们使用错误处理机制对这种遍历任务中的潜在错误风险进行处理:

from urllib.request import urlopen
from urllib.error import HTTPError#注意,这里需要import urllib中具体的错误类型

'''创造一系列网址,其中第四个为伪造的不存在网站'''
html = ['http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=1',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=2',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=3',
        'http://www.pythonscraping.com/pages/page10000.html',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=4']

'''循环反馈对应网址的源代码信息'''
for i in range(5):
    try:
        token = urlopen(html[i])
        print(token.read()[:10])
    except HTTPError as e:
        print('错误出现!跳过')

运行结果:

这样就可以对各种潜在的错误进行处理,而不打断整个程序的进行,但运行大的爬虫项目时,潜在的错误类型是多种多样的,一旦没有在程序开头import全对应的错误类型,依旧会因为未预料到的错误类型打断程序,这时我们可以利用try...except中的泛型错误Exception来识别所有错误类型,并打印具体的错误类型以作后期分析:

from urllib.request import urlopen

'''创造一系列网址,其中第四个为伪造的不存在网站'''
html = ['http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=1',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=2',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=3',
        'http://www.pythonscraping.com/pages/page10000.html',
        'http://quotes.money.163.com/trade/lsjysj_600221.html?year=2012&season=4']

'''循环反馈对应网址的源代码信息'''
for i in range(5):
    try:
        token = urlopen(html[i])
        print(token.read()[:10])
    except Exception as e:#泛型错误处理机制
        print('错误','< ',e,' >','出现!跳过')

运行结果:

可以看到,在利用Exception时,会处理所有可能的错误,非常方便;

 

五、目标内容的粗略提取(基于CSS)

  前面说了这么多,实际上还是在对我们的目的做铺垫,即介绍了 获取信息--抽取目标信息 这个过程中的获取信息部分,在获得了结构化的全量信息之后,我们就要开始着手如何提取其中想要的信息了;

  先普及一个知识:几乎每一个网站都会存在层叠样式报(cascading style sheet,CSS),这种机制使得浏览器和人类得以理解网页的层次内容,CSS可以让HTML元素呈现出差异化,使得不同的数据归属于其对应的标签下,我们再通过BeautifulSoup解析后的网页内容(带有各层次标签),利用对应内容的标签属性,即可有选择的获取我们想要的数据内容;

  我们用findAll()方法来对BeautifulSoup对象进行指定标签内容的提取,下面是一个简单的例子:

(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第6张图片

 

我们对http://sports.163.com/18/0504/10/DGV2STDA00058782.html这个新闻网页,先是提取它的新闻标题内容,通过观察网页源代码,发现其文章标题内容隐藏在标签下,于是利用findAll()对title标签内内容进行提取:</span></p> <p> </p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup </span><span style="color:#800000;">'''</span><span style="color:#800000;">连接目标网址</span><span style="color:#800000;">'''</span><span style="color:#000000;"> html </span>= urlopen(<span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">将反馈回的网页源代码解析为BeautifulSoup对象</span><span style="color:#800000;">'''</span><span style="color:#000000;"> obj </span>=<span style="color:#000000;"> BeautifulSoup(html) </span><span style="color:#800000;">'''</span><span style="color:#800000;">提取obj对象下title标签内的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">title</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">打印结果</span><span style="color:#800000;">'''</span> <span style="color:#0000ff;">print</span>(text)</pre> </div> <p> </p> <p><span style="font-size:14pt;">运行结果:</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><img src="http://img.e-com-net.com/image/info8/0b4cca18d0d94b5c9a06f9249ee94970.png" alt="" width="557" height="29"></span></p> <p style="text-align:left;"><span style="font-size:14pt;">  </span></p> <p style="text-align:left;"><span style="font-size:14pt;">  从上面的小例子中可以看出findAll()的强大功能,下面对其进行详细的介绍:</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  BeautifulSoup中的find()与findAll()是网页内容提取中最常用的两个函数,我们可以利用它们通过标签的不同属性轻松地过滤HTML页面,查找需要的单个或多个标签下的内容。</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  find()与findAll()用法几乎一样,先介绍findAll()的主要参数:</span></p> <p style="text-align:left;"><span style="font-size:14pt;">tag:这个参数传递字符串形式的单个标题标签或由多个标题标签组成的列表,如'title',['h1','h2','h3']</span></p> <p style="text-align:left;"><span style="font-size:14pt;">attributes:属性参数,接受用字典封装的一个标签的若干属性和对应的属性值,例如{'<span class="html-attribute-name">property':'<span class="html-attribute-value">og:description'}</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">recursive:bool型变量,默认为True,代表findAll会根据你的要求去查找标签参数的所有子标签,以及子标签的子标签;如果设置为False,则findAll只查找文档的一级标签;</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">text:字符型输入,设置该参数以后,提取信息就不是用标签的属性,而是用标签的文本内容,即content中的内容来匹配</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">limit:范围限制参数,只用于findAll,换句话说,find等价于findAll的limit参数为1时的特殊情况,因为根据其他参数设定的条件返回的,是满足条件的所有标签下内容按顺序排列的一个序列,limit设置的值即控制了最终留下前多少个结果</span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value">keyword:这个参数的用法不是对keyword赋值,而是将你感兴趣的标签内属性声明项,如<span class="html-attribute-name">name="<span class="html-attribute-value">keywords"这样的,在findAll中附加上</span></span></span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value"><span class="html-attribute-name"><span class="html-attribute-value">下面还是基于之前举例子的那篇新闻网页,对findAll进行演示:</span></span></span></span></span></p> <p style="text-align:left;"><span style="font-size:14pt;"><span class="html-attribute-name"><span class="html-attribute-value"><span class="html-attribute-name"><span class="html-attribute-value">单个标题标签内容的粗略提取:</span></span></span></span></span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">获取标签为<p>的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">p</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p style="text-align:left;"> </p> <p style="text-align:left;"> </p> <p><span style="font-size:14pt;">运行结果:</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/d5c66166a4fb4d0196bb7ffac15528c5.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/d5c66166a4fb4d0196bb7ffac15528c5.jpg" alt="(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第7张图片" width="650" height="192" style="border:1px solid black;"></a></span></p> <p><span style="font-size:14pt;">多个标签内容的捆绑提取:</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">保存多个标题标签的列表</span><span style="color:#800000;">'''</span><span style="color:#000000;"> tag </span>= [<span style="color:#800000;">'</span><span style="color:#800000;">title</span><span style="color:#800000;">'</span>,<span style="color:#800000;">'</span><span style="color:#800000;">meta</span><span style="color:#800000;">'</span><span style="color:#000000;">] </span><span style="color:#800000;">'''</span><span style="color:#800000;">获取tag中标签的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>=<span style="color:#000000;"> obj.findAll(tag) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果:</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/92bda107930c4adcac13a97d1f77e7af.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/92bda107930c4adcac13a97d1f77e7af.jpg" alt="" width="650" height="83"></a></span></p> <p><span style="font-size:14pt;">对指定标签下指定属性值对应内容的提取:</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">获取meta标签下属性name为author的对应内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">meta</span><span style="color:#800000;">'</span>,{<span style="color:#800000;">'</span><span style="color:#800000;">name</span><span style="color:#800000;">'</span>:<span style="color:#800000;">'</span><span style="color:#800000;">author</span><span style="color:#800000;">'</span><span style="color:#000000;">}) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果:</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/2e8f69e81db04fed849a794d68922a7f.png" target="_blank"><img src="http://img.e-com-net.com/image/info8/2e8f69e81db04fed849a794d68922a7f.png" alt="" width="350" height="45"></a></span></p> <p> </p> <p><span style="font-size:18pt;">六、正则表达式</span></p> <p><span style="font-size:14pt;">  即使你之前完全没有接触过网络爬虫,也可能接触过正则表达式(regular expression,简称regex),之所以叫正则表达式,是因为它们可以识别正则字符串(regular string),通俗的理解就是,我只识别我编写的正则表达式所匹配的内容,而忽视不符合我的表达式所构造的规则的字符串,这在很多方面都十分的方便;</span></p> <p><span style="font-size:14pt;">  正则字符串是任意可以用一系列线性规则构成的字符串,例如:</span></p> <p><span style="font-size:14pt;">  1、字母“a”至少出现一次;</span></p> <p><span style="font-size:14pt;">  2、后面接上重复5次的“b”;</span></p> <p><span style="font-size:14pt;">  3、后面再接上重复任意偶数次的字母“c”;</span></p> <p><span style="font-size:14pt;">  4、最后一位字母是“d”或没有。</span></p> <p><span style="font-size:14pt;">满足上述组合条件的字符串有无数个,如“aaabbbbbccccd”,“abbbbbcc”等,相信你应该理解了,正则表达式就是用一个对于目标语句的格式普适的规则,来识别目标内容。</span></p> <p><span style="font-size:14pt;">  你可以将正则表达式理解为SQL中的LIKE运算符后跟着的通配符,还是以上面介绍过的组合条件为例,用正则表达式来表示:</span></p> <p style="text-align:center;"><span style="font-size:14pt;">aa*bbbbb(cc)*(d|)</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  首先,开头的a表示a出现一次,a*表示a出现任意次,因此aa*的组合代表a至少出现一次;bbbbb表示连续出现5次b;(cc)*表示cc出现任意次,对应重复任意次(包括0次)的c;(d|)表示出现d或无任何字符,对应“最后一位是字母d或没有”,这样一个由若干规则按顺序组合起来的字符串,就是正则字符串;</span></p> <p style="text-align:left;"><span style="font-size:14pt;">*有很多网站可以在线测试你的正则表达式,我喜欢用的是http://regexpal.com.s3-website-us-east-1.amazonaws.com/?_ga=2.164205119.1679442026.1514793856-2027450969.1514793856</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  再举一个更常见的正则表达式使用场景——识别邮箱,以我个人的邮箱为例:pengzyill@foxmail.com,这是个常见的邮箱格式,若要编写正则表达式来识别它,就会按顺序用到以下识别规则:</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  1、邮箱的第一部分至少包括一种内容:大写字母、小写字母、数字0-9、点号.、加号+或下划线_,因此为了识别这一部分,我们构造的正则字符串如下:</span></p> <p style="text-align:center;"><span style="font-size:14pt;">[A-Za-z0-9\.+_]+</span></p> <p style="text-align:left;"> <span style="font-size:14pt;">[]中放入的内容是所有可能出现的内容的最简形式,A-Z表示所有大写字母,a-z表示所有小写字母,0-9表示所有数字,\.表示点号.(这里用\转义),+表示加号,_表示下划线,[]后紧跟的+表示前面[]内的所有部件可以出现多次,且至少有一种部件至少出现1次,可以看出,非常简洁;</span><span style="font-size:14pt;"><br></span></p> <p style="text-align:left;"><span style="font-size:14pt;">  2、紧跟着,会出现一个@符号,很简单,对应的正则字符串为:</span></p> <p style="text-align:center;"><span style="font-size:14pt;">@</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  3、在@之后,是指明邮箱所属域名的部分,由大小写字母组成,如我的邮箱中的foxmail,于是对应的正则字符串为:</span></p> <p style="text-align:center;"><span style="font-size:14pt;">[A-Za-z]+</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  4、紧跟着是一个点号,即:</span></p> <p style="text-align:center;"><span style="font-size:14pt;">\.</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  5、最后一部分,是邮箱地址的顶级域名,如com,org,edu或net等,这是四种最常见的,因此以这四种作为全部(虽然有些以偏概全),对应的正则字符串如下:</span></p> <p style="text-align:center;"><span style="font-size:14pt;">(com|org|edu|net)</span></p> <p style="text-align:left;"><span style="font-size:14pt;">将上述的子正则字符串按照顺序连接起来,便得到了我们的用于识别邮箱地址的正则字符串:</span></p> <p style="text-align:center;"><span style="font-size:14pt;">[A-Za-z0-9\.+_]+@[A-Za-z]+\.(com|org|edu|net)</span></p> <p style="text-align:left;"> <span style="font-size:14pt;">我们在前面提到的在线测试网站中测试一下~</span></p> <p style="text-align:left;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/b60d06515d654b3989606cf72c70795a.png" target="_blank"><img style="margin-left:auto;;border:1px solid black;" src="http://img.e-com-net.com/image/info8/b60d06515d654b3989606cf72c70795a.png" alt="(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第8张图片" width="628" height="328"></a></span></p> <p style="text-align:left;"><span style="font-size:14pt;">可以看出,我的邮箱地址被准确的识别出来(完全被黄色底纹包裹),你也可以试试你自己的邮箱地址;所以,在使用正则表达式之前,最好分块的理清楚各个部分需要对应的正则字符串,这对提高效率很有帮助。</span></p> <p style="text-align:left;"><span style="font-size:14pt;">  下面用一些简单的说明和例子来总结一下正则表达式中的常用符号:</span></p> <table style="width:651px;" border="0" align="center"> <tbody> <tr> <td style="text-align:center;"><span style="font-size:14px;">符号</span></td> <td style="text-align:center;"><span style="font-size:14px;">含义</span></td> <td style="text-align:center;"><span style="font-size:14px;">例子</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配结果</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">*</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配前面的单个字符、子表达式或括号里的所有字符0次或多次</span></td> <td style="text-align:center;"><span style="font-size:14px;">a*(bb)*</span></td> <td style="text-align:center;"><span style="font-size:14px;">aaaa  aabbbb</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">+</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配前面的字符、子表达式或括号里的所有字符至少1次</span></td> <td style="text-align:center;"><span style="font-size:14px;">a+b+</span></td> <td style="text-align:center;"><span style="font-size:14px;">ab  aabbb</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">[]</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配括号中任意一个字符(配合*实现多次出现的匹配)</span></td> <td style="text-align:center;"><span style="font-size:14px;">[A-Z]*</span></td> <td style="text-align:center;"><span style="font-size:14px;">LOVE  PEACE</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">()</span></td> <td style="text-align:center;"><span style="font-size:14px;">表达式编组(类似数学运算,()里的规则会优先运行)</span></td> <td style="text-align:center;"><span style="font-size:14px;">(a*b)*</span></td> <td style="text-align:center;"><span style="font-size:14px;">aabab  abababab</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">{m,n}</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配前面的字符、子表达式或括号里的字符m到n次(包含m或n)</span></td> <td style="text-align:center;"><span style="font-size:14px;">a{2,3}b{2,3}</span></td> <td style="text-align:center;"><span style="font-size:14px;">aabbb  aaabb</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">[^]</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配任意一个不在中括号里的字符</span></td> <td style="text-align:center;"><span style="font-size:14px;">[^A-Z]*</span></td> <td style="text-align:center;"><span style="font-size:14px;">apple  love%++</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">|</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配任意<span style="color:#ff0000;">一个</span>由竖线|分割的字符、子表达式</span></td> <td style="text-align:center;"><span style="font-size:14px;">b(a|i|e)d</span></td> <td style="text-align:center;"><span style="font-size:14px;">bad  bid  bed</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">.</span></td> <td style="text-align:center;"><span style="font-size:14px;">匹配任意单个字符(包括符号、数字和空格等)</span></td> <td style="text-align:center;"><span style="font-size:14px;">b.d</span></td> <td style="text-align:center;"><span style="font-size:14px;">bed  b?d  bod</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">^</span></td> <td style="text-align:center;"><span style="font-size:14px;">表示以某个字符或子表达式开头的字符串</span></td> <td style="text-align:center;"><span style="font-size:14px;">^a</span></td> <td style="text-align:center;"><span style="font-size:14px;">adshdjsh  a?di</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">\</span></td> <td style="text-align:center;"><span style="font-size:14px;">转义字符(把有特殊含义的字符转换成字面形式,譬如本表中的一些常用符号)</span></td> <td style="text-align:center;"><span style="font-size:14px;">\.\|\\</span></td> <td style="text-align:center;"><span style="font-size:14px;">.|\</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">$</span></td> <td style="text-align:center;"><span style="font-size:14px;">常用于正则表达式的末尾,表示“从字符串的末端匹配”,如果不使用它,每个正则表达式实际上都相当于外套一个.*,默认从字符串开头进行匹配。可以将这个符号视为^的反义词</span></td> <td style="text-align:center;"><span style="font-size:14px;">[A-Z]*[a-z]*$</span></td> <td style="text-align:center;"><span style="font-size:14px;">ABCabc</span></td> </tr> <tr> <td style="text-align:center;"><span style="font-size:14px;">?!</span></td> <td style="text-align:center;"><span style="font-size:14px;">表示“不包含”,这个符号通常放在字符或正则表达式前面,表示指定字符不可以出现在目标字符串中,若字符在字符串的不规则部位出现,则需要在整个字符串中排除某个字符,就需要加上^与$符号</span></td> <td style="text-align:center;"><span style="font-size:14px;">^((?![A-Z]).)*$</span></td> <td style="text-align:center;"><span style="font-size:14px;">nojoasdn-\</span></td> </tr> </tbody> </table> <p style="text-align:center;"> </p> <p> <span style="font-size:18pt;">七、正则表达式与BeautifulSoup</span><span style="font-size:18pt;"><br></span></p> <p><span style="font-size:14pt;">  基于前面介绍的正则表达式,下面我们来介绍如何将正则表达式与BeautifulSoup结合起来:</span></p> <p><span style="font-size:14pt;">  这里要使用到一个新的模块——re,这时Python中专门进行正则表达式相关操作的模块,为了与BeautifulSoup结合起来,我们需要进行的操作是将re.compile('正则表达式内容')作为findAll内适配参数的输入值,即可将以前确切赋参的方法,转换为利用正则表达式进行模式赋参,这大大提高了findAll对网页内容提取的自由度和效率,下面是几个简单的例子:</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup </span><span style="color:#0000ff;">import</span><span style="color:#000000;"> re html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">匹配meta标签下,name属性值为k开头,紧跟着任意数目小写字母</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">meta</span><span style="color:#800000;">'</span>,{<span style="color:#800000;">'</span><span style="color:#800000;">name</span><span style="color:#800000;">'</span>:re.compile(<span style="color:#800000;">'</span><span style="color:#800000;">k[a-z]*</span><span style="color:#800000;">'</span><span style="color:#000000;">)}) </span><span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果:</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/dbd1624986a04994af39b85cf14f24da.png" target="_blank"><img src="http://img.e-com-net.com/image/info8/dbd1624986a04994af39b85cf14f24da.png" alt="" width="441" height="41"></a></span></p> <p><span style="font-size:14pt;">接下来我们来实现更复杂一些的数据爬取,我在本篇博客中反复举例的网页是一篇关于台球的新闻报道,那么我们最关注的信息就应该是新闻的正文内容,下面我们就将针对此目的进行数据的爬取:</span></p> <p><span style="font-size:14pt;">  通过对网页源代码的观察后,确定了新闻内容属于标签p下,因此利用正则表达式配合findAll爬取这部分内容,这里.*?表示匹配所有类型任意出现次数的字符:</span></p> <div class="cnblogs_code"> <pre><span style="color:#0000ff;">from</span> urllib.request <span style="color:#0000ff;">import</span><span style="color:#000000;"> urlopen </span><span style="color:#0000ff;">from</span> bs4 <span style="color:#0000ff;">import</span><span style="color:#000000;"> BeautifulSoup </span><span style="color:#0000ff;">import</span><span style="color:#000000;"> re html </span>=urlopen( <span style="color:#800000;">'</span><span style="color:#800000;">http://sports.163.com/18/0504/10/DGV2STDA00058782.html</span><span style="color:#800000;">'</span><span style="color:#000000;">) obj </span>= BeautifulSoup(html,<span style="color:#800000;">'</span><span style="color:#800000;">lxml</span><span style="color:#800000;">'</span><span style="color:#000000;">) </span><span style="color:#800000;">'''</span><span style="color:#800000;">匹配p标签下的内容</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>= obj.findAll(<span style="color:#800000;">'</span><span style="color:#800000;">p</span><span style="color:#800000;">'</span>,text=re.compile(<span style="color:#800000;">'</span><span style="color:#800000;">.*?</span><span style="color:#800000;">'</span><span style="color:#000000;">)) </span><span style="color:#800000;">'''</span><span style="color:#800000;">打印未经处理的内容</span><span style="color:#800000;">'''</span> <span style="color:#0000ff;">print</span>(text)</pre> </div> <p><span style="font-size:14pt;">运行结果:</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/79c21ccfec81454abeced550a1023952.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/79c21ccfec81454abeced550a1023952.jpg" alt="(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第9张图片" width="650" height="343" style="border:1px solid black;"></a></span></p> <p><span style="font-size:14pt;">虽然将全部新闻内容爬取了下来,但其中参杂着许多<>包裹的标签内容,下面我们利用re.sub来对这些无关内容进行处理:</span></p> <div class="cnblogs_code"> <pre><span style="color:#800000;">'''</span><span style="color:#800000;">将爬下来的粗略内容转为字符串形式</span><span style="color:#800000;">'''</span><span style="color:#000000;"> text </span>=<span style="color:#000000;"> str(text) </span><span style="color:#800000;">'''</span><span style="color:#800000;">利用re.sub将所有的<>及内部信息替换为空字符,等价于将这些干扰部分删去</span><span style="color:#800000;">'''</span> <span style="color:#0000ff;">print</span>(re.sub(<span style="color:#800000;">'</span><span style="color:#800000;"><.*?></span><span style="color:#800000;">'</span>,<span style="color:#800000;">''</span>,text))</pre> </div> <p><span style="font-size:14pt;">运行结果:</span></p> <p style="text-align:center;"><span style="font-size:14pt;"><a href="http://img.e-com-net.com/image/info8/e2838a8ff1854c2d9f99c2d3e08033ee.jpg" target="_blank"><img src="http://img.e-com-net.com/image/info8/e2838a8ff1854c2d9f99c2d3e08033ee.jpg" alt="(数据科学学习手札31)基于Python的网络数据采集(初级篇)_第10张图片" width="650" height="338" style="border:1px solid black;"></a></span></p> <p><span style="font-size:14pt;">相信你此时一定在惊叹re这个模块的功能之强大,接下来的一篇博客,我就将详细介绍re模块的常见功能和特性;</span></p> <p> </p> <p><span style="font-size:14pt;">  以上就是关于Python网络爬虫的初级知识,今后会继续更进阶的介绍,敬请期待。</span></p> <p> </p> <p style="text-align:left;"> </p> <p> </p> </div> <p>转载于:https://www.cnblogs.com/feffery/p/8984411.html</p> </div> </div> </div> </div> </div> <!--PC和WAP自适应版--> <div id="SOHUCS" sid="1280740270547156992"></div> <script type="text/javascript" src="/views/front/js/chanyan.js"></script> <!-- 文章页-底部 动态广告位 --> <div class="youdao-fixed-ad" id="detail_ad_bottom"></div> </div> <div class="col-md-3"> <div class="row" id="ad"> <!-- 文章页-右侧1 动态广告位 --> <div id="right-1" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_1"> </div> </div> <!-- 文章页-右侧2 动态广告位 --> <div id="right-2" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_2"></div> </div> <!-- 文章页-右侧3 动态广告位 --> <div id="right-3" class="col-lg-12 col-md-12 col-sm-4 col-xs-4 ad"> <div class="youdao-fixed-ad" id="detail_ad_3"></div> </div> </div> </div> </div> </div> </div> <div class="container"> <h4 class="pt20 mb15 mt0 border-top">你可能感兴趣的:((数据科学学习手札31)基于Python的网络数据采集(初级篇))</h4> <div id="paradigm-article-related"> <div class="recommend-post mb30"> <ul class="widget-links"> <li><a href="/article/1882638295133908992.htm" title="6.1 贪心算法 | 区间选点、Huffman树" target="_blank">6.1 贪心算法 | 区间选点、Huffman树</a> <span class="text-muted">镜水不emo</span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84%E4%B8%8E%E7%AE%97%E6%B3%95_%E5%9F%BA%E7%A1%80%E5%AD%A6%E4%B9%A0/1.htm">数据结构与算法_基础学习</a><a class="tag" taget="_blank" href="/search/%E8%B4%AA%E5%BF%83%E7%AE%97%E6%B3%95/1.htm">贪心算法</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E7%BB%93%E6%9E%84/1.htm">数据结构</a><a class="tag" taget="_blank" href="/search/c%2B%2B/1.htm">c++</a> <div>6.1贪心算法|区间选点、Huffman树这是我的一个算法网课学习记录,道阻且长,好好努力可以尝试的做法:区间问题重要的步骤就是排序按左端点排序,按右端点排序,双关键字排序区间问题区间选点例题:AcWing905.区间选点给定N个闭区间[ai,bi],请你在数轴上选择尽量少的点,使得每个区间内至少包含一个选出的点。输出选择的点的最小数量。位于区间端点上的点也算作区间内。输入格式第一行包含整数N,表</div> </li> <li><a href="/article/1882638296891322368.htm" title="高成长、高潜力、高社区影响!镜舟科技入选 2024 中国新锐技术先锋企业" target="_blank">高成长、高潜力、高社区影响!镜舟科技入选 2024 中国新锐技术先锋企业</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93%E5%BC%80%E6%BA%90%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/1.htm">数据库开源数据分析</a> <div>2024年12月4日,中国技术先锋年度评选|2024中国新锐技术先锋企业榜单正式发布。作为中国领先的新一代开发者社区,SegmentFault思否依托上千万开发者用户数据分析,各科技企业在国内技术领域的行为及影响力指标,最终评选出30家新锐技术先锋企业,镜舟科技作为领先的数据技术企业,入选30强之列。2024中国新锐技术先锋企业榜隶属于中国技术先锋年度评选,旨在挖掘信奉技术力量、敢于技术创新、践行</div> </li> <li><a href="/article/1882638042448064512.htm" title="12 分布式事务" target="_blank">12 分布式事务</a> <span class="text-muted">40岁的系统架构师</span> <a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a> <div>分布式事务产生的原因我们拿mysql数据库来说,当数据库为单体数据库的时候,我们打开事务,执行sql为预执行阶段,最后commit时通过日志控制最终全部提交后存储到磁盘中,如果commit失败,可以通过日志控制回滚回来,但是当我们的数据库实例为多个的时候,不同的数据源,我们的日志已经无法控制落入磁盘的数据正常的回滚。当我们分库的时候旧无法通过传统的方式控制事务的正常运转,这个时候就产生了分布式事务</div> </li> <li><a href="/article/1882638042959769600.htm" title="13 CAP理论和base理论" target="_blank">13 CAP理论和base理论</a> <span class="text-muted">40岁的系统架构师</span> <a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/1.htm">系统架构</a> <div>CAP理论解释C:consistency(一致性)。指数据在多个副本之间能够保持一致的特性(强一致性)A:availability(可用性)。一个系统提供的服务必须一直处于可用的状态,每次请求都能够获取到非错误的响应(不保证获取的数据为最新的数据)P:partitiontolerance(分区容错性)。分布式系统在遇到部分网络分区故障的时候,仍能对外提供满足一致性和可用性的服务(整个网络瘫痪除外)</div> </li> <li><a href="/article/1882637790294896640.htm" title="6 分布式限流框架" target="_blank">6 分布式限流框架</a> <span class="text-muted">40岁的系统架构师</span> <a class="tag" taget="_blank" href="/search/%E5%88%86%E5%B8%83%E5%BC%8F/1.htm">分布式</a> <div>限流的作用在API对外互联网开放的情况下,是无法控制调用方的行为的。当遇到请求激增或者黑客攻击的情况下,会导致接口占用大量的服务器资源,使得接口响应效率的降低或者超时,更或者导致服务器宕机。限流是指对应用服务进行限制。例如对某一个接口限制为1秒100次请求,超过这个请求的就放弃限流可以应对热点业务带来的突发情况、调用方的异常请求、恶意攻击等为什么要使用分布式限流我们先看下单节点的限流,如下图所示:</div> </li> <li><a href="/article/1882637664016986112.htm" title="8 如何设计一个高并发系统" target="_blank">8 如何设计一个高并发系统</a> <span class="text-muted">40岁的系统架构师</span> <a class="tag" taget="_blank" href="/search/%E7%B3%BB%E7%BB%9F%E6%9E%B6%E6%9E%84/1.htm">系统架构</a><a class="tag" taget="_blank" href="/search/java/1.htm">java</a> <div>这个话题很大也很泛,我们这里泛泛而谈下。主要关注下面的几个点系统拆分的问题系统拆分主要垂直拆分和水平拆分。水平拆分稍微简单点,把技术相关的基本功打扎实了,常见的水平拆分的方式大体有个了解以后,大部分人做起来基本上问题不大。我们在进行水平拆分服务的时候尽量考虑一些请求数据状态的问题。比如说我们一个用户体量很大的系统在用户登录的时候,是在服务端保持用户登录的状态信息,还是把状态信息放在token中在网</div> </li> <li><a href="/article/1882637163082870784.htm" title="项目上线之后,出现过线上问题吗?怎么排查和解决的?" target="_blank">项目上线之后,出现过线上问题吗?怎么排查和解决的?</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AFgo%E9%9D%A2%E8%AF%95%E9%97%AE%E9%A2%98/1.htm">后端go面试问题</a> <div>在面试中,相信大家都遇到过这个问题。本文将通过训练营内部抽奖项目的问题案例——抽奖结果通知延迟和抽奖列表加载缓慢,讲清楚它们的解决方法和优化策略。回答思路这些问题都是在我负责的项目中出现过的,给我留下了深刻的印象。一、出现的线上问题抽奖结果通知延迟问题表现:有部分中奖用户未能及时收到抽奖结果通知,影响了用户体验。影响范围:部分中奖用户。抽奖列表加载缓慢问题表现:在高峰时段,用户获取抽奖列表的速度明</div> </li> <li><a href="/article/1882637161761665024.htm" title="SSL证书代理商申请指南" target="_blank">SSL证书代理商申请指南</a> <span class="text-muted"></span> <div>SSL(SecureSocketsLayer)证书作为保障网站安全的重要工具,市场需求不断增长。成为SSL证书代理商不仅能够为企业带来稳定的收入来源,还能够在多个方面带来显著的好处。一、申请流程:官网链接:https://www.joyssl.com/?nid=191.申请代理资格访问国产SSL证书厂商JoySSL品牌的官方网站,并注册账号。注册时需要填写注册码230919,注册完账号后会有工作人</div> </li> <li><a href="/article/1882636780407156736.htm" title="【面试笔记】过河问题|图论|羊|狼|农夫|BFS" target="_blank">【面试笔记】过河问题|图论|羊|狼|农夫|BFS</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/unity/1.htm">unity</a> <div>题干要从A岸出发到B岸,A岸有M只羊、N只狼和1个农夫,船每一趟可载X只动物。有农夫看着、或则羊的数量大于狼,羊就不会被吃。请返回任一躺数最少方案。题解题目可转化为:在一个有向无路长的图中,在不知道各个节点之间如何连接的基础上,找到两个节点之间的最短路径。数据结构publicclassPack{publicintsheep;//羊的数量publicintwolf;//狼的数量publicintfa</div> </li> <li><a href="/article/1882636781678030848.htm" title="面试官:Redis中大Key怎么删除?" target="_blank">面试官:Redis中大Key怎么删除?</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/%E5%90%8E%E7%AB%AFgo%E9%9D%A2%E8%AF%95%E9%97%AE%E9%A2%98/1.htm">后端go面试问题</a> <div>首先来看一下该岗位的职责和要求:岗位职责负责公司旗下产品的全新需求开发负责公司中台系统管理系统开发开发临时性工具和数据处理工作设计开发可复用模块,提高开发效率节省维护成本保质保量的完成上级领导安排的技术相关工作任职要求本科以上学历,计算机相关专业优先,3年左右Golang开发经验,有PHP转Go项目经验者优先熟练掌握Golang/PHP语言,熟悉至少一种Golang框架熟练掌握关系型数据库Mysq</div> </li> <li><a href="/article/1882636783032791040.htm" title="万字长文2024最全Go面经汇总" target="_blank">万字长文2024最全Go面经汇总</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/go%E5%90%8E%E7%AB%AF%E9%9D%A2%E8%AF%95%E9%97%AE%E9%A2%98/1.htm">go后端面试问题</a> <div>本文主要是分享真实的面经,关于这些问题的详解,我们只整理了一部分,文末有他们的详解跳转链接,如果需要可以点进去看看。对于我们没有整理的面经详解,我建议大家可以使用AI,基于这些真实的面经去获取对应的答案。如果你需要更多的面经,也可以私信我联系我。腾讯一面协程池的作用?内存逃逸分析?go的内存回收什么条件会触发?go的GC能够手动触发吗?channel的底层实现?有缓冲的,无缓冲的channel,如</div> </li> <li><a href="/article/1882636656679383040.htm" title="WebRTC协议学习之一(WebRTC简介)" target="_blank">WebRTC协议学习之一(WebRTC简介)</a> <span class="text-muted">音视频开发老马</span> <a class="tag" taget="_blank" href="/search/webrtc/1.htm">webrtc</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a> <div>什么WebRTCWebRTC,名称源自网页即时通信(英语:WebReal-TimeCommunication)的缩写,是一个支持网页浏览器进行实时语音对话或视频对话的API。它于2011年6月1日开源并在Google、Mozilla、Opera支持下被纳入万维网联盟的W3C推荐标准。谷歌2011年6月3日宣布向开发人员开放WebRTC架构的源代码。这个源代码将根据没有专利费的BSD(伯克利软件发布</div> </li> <li><a href="/article/1882636401682477056.htm" title="如何使用 StarRocks 管理和优化数据湖中的数据?" target="_blank">如何使用 StarRocks 管理和优化数据湖中的数据?</a> <span class="text-muted"></span> <a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E6%B9%96%E6%95%B0%E6%8D%AE%E7%AE%A1%E7%90%86%E6%95%B0%E6%8D%AE%E5%BA%93%E5%A4%A7%E6%95%B0%E6%8D%AE/1.htm">数据湖数据管理数据库大数据</a> <div>数据湖已成为企业存储、处理和分析海量数据的核心基础设施。然而,随着数据量的爆炸性增长,如何高效地管理和优化数据湖中的大规模数据成为了一个亟待解决的问题。近一年开源项目StarRocks围绕湖仓相关功能积极探索,目前已实现无缝对接多种开放表格式和文件格式,为企业业务运营提供数据管理和分析的灵活选择。作为StarRocks社区的主要贡献者和商业化公司,镜舟科技在已经和申万宏源、苏商银行、格创东智、吉利</div> </li> <li><a href="/article/1882636278650957824.htm" title="多版本并发控制:MVCC的作用和基本原理" target="_blank">多版本并发控制:MVCC的作用和基本原理</a> <span class="text-muted">koping_wu</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a><a class="tag" taget="_blank" href="/search/%E6%95%B0%E6%8D%AE%E5%BA%93/1.htm">数据库</a> <div>多版本并发控制:MVCC的作用和基本原理1、MVCC简介1.1快照读与当前读的区别1.1.1快照读1.1.2当前读1.2数据库的读写问题1.3MVCC的作用2、MVCC实现原理之ReadView2.1什么是ReadView2.2ReadView的设计思路2.3MVCC整体操作流程1、MVCC简介1.1快照读与当前读的区别mysql在读数据的场景下,根据是否加锁分为了2种读的方式:1.1.1快照读不</div> </li> <li><a href="/article/1882636149562863616.htm" title="Windows Server 虚拟化环境中SR-IOV网络I/O增强功能" target="_blank">Windows Server 虚拟化环境中SR-IOV网络I/O增强功能</a> <span class="text-muted">xidianjiapei001</span> <a class="tag" taget="_blank" href="/search/%E8%99%9A%E6%8B%9F%E5%8C%96%E6%8A%80%E6%9C%AF/1.htm">虚拟化技术</a><a class="tag" taget="_blank" href="/search/windows/1.htm">windows</a><a class="tag" taget="_blank" href="/search/%E7%BD%91%E7%BB%9C/1.htm">网络</a><a class="tag" taget="_blank" href="/search/SR-IOV/1.htm">SR-IOV</a><a class="tag" taget="_blank" href="/search/%E8%99%9A%E6%8B%9F%E5%8C%96/1.htm">虚拟化</a><a class="tag" taget="_blank" href="/search/IO%E8%99%9A%E6%8B%9F%E5%8C%96/1.htm">IO虚拟化</a> <div>WindowsServer虚拟化环境中SR-IOV网络I/O增强功能目录详细文章症状原因解决方案受影响的产品总结:戴尔技术中心的戴尔操作系统和应用解决方案-包括ProjectSputnik、微软Windows、红帽Linux、SUSE、Ubuntu等详细文章症状微软在WindowsServer2012Beta操作系统中引入了对网络领域多项功能的支持。其中一项重要且有趣的功能是单根I/O虚拟化(SR</div> </li> <li><a href="/article/1882636147331493888.htm" title="SAP API开发方法大全" target="_blank">SAP API开发方法大全</a> <span class="text-muted"></span> <div>Python中的class体内定义方法时,如果没有显式地包含self参数,有时候依然可以被调用。这是一个非常有趣的话题,因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用,我们需要逐步拆解Python类的构造方式以及方法绑定的原理。</div> </li> <li><a href="/article/1882636148589785088.htm" title="使用基于 WebRTC 的 JavaScript API 在浏览器环境里调用本机摄像头" target="_blank">使用基于 WebRTC 的 JavaScript API 在浏览器环境里调用本机摄像头</a> <span class="text-muted"></span> <div>Python中的class体内定义方法时,如果没有显式地包含self参数,有时候依然可以被调用。这是一个非常有趣的话题,因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用,我们需要逐步拆解Python类的构造方式以及方法绑定的原理。</div> </li> <li><a href="/article/1882636148392652800.htm" title="优化性能:高性能云计算的虚拟化技术" target="_blank">优化性能:高性能云计算的虚拟化技术</a> <span class="text-muted">xidianjiapei001</span> <a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD%E5%88%86%E6%9E%90/1.htm">性能分析</a><a class="tag" taget="_blank" href="/search/%E4%BA%91%E5%8E%9F%E7%94%9F%E4%B8%8E%E5%BE%AE%E6%9C%8D%E5%8A%A1%E6%B2%BB%E7%90%86/1.htm">云原生与微服务治理</a><a class="tag" taget="_blank" href="/search/%E4%BA%91%E8%AE%A1%E7%AE%97/1.htm">云计算</a><a class="tag" taget="_blank" href="/search/%E9%AB%98%E6%80%A7%E8%83%BD%E8%AE%A1%E7%AE%97/1.htm">高性能计算</a><a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD%E4%BC%98%E5%8C%96/1.htm">性能优化</a><a class="tag" taget="_blank" href="/search/%E8%99%9A%E6%8B%9F%E5%8C%96/1.htm">虚拟化</a> <div>优化性能:高性能云计算的虚拟化技术云计算已经改变了企业获取和利用计算资源的方式。从云服务器的按需处理能力,到托管数据存储等可扩展的存储解决方案,云计算提供了无与伦比的灵活性和成本效益。然而,对于特定的应用程序,尤其是那些需要高性能计算(HPC)的应用,传统的云解决方案可能会带来一些性能开销。这时,虚拟化技术就发挥作用了,它能帮助我们针对HPC工作负载优化云环境。理解虚拟化及其对性能的影响虚拟化是云</div> </li> <li><a href="/article/1882636146069008384.htm" title="SAP FSM 学习笔记(一) : 使用API消费FSM的数据" target="_blank">SAP FSM 学习笔记(一) : 使用API消费FSM的数据</a> <span class="text-muted"></span> <div>在SAP项目实施中,Brownfield场景是一种迁移策略,尤其用于从SAPERP系统升级到SAPS/4HANA的过程中。Brownfield方法可以理解为“系统转换”模式,它是指在现有系统基础上进行优化和转换,而不是从头开始构建一个全新系统。这种策略可以让企业保留现有的业务流程和系统配置,最大程度地降低业务中断风险,同时利用S/4HANA提供的新功能来实现企业数字化转型。</div> </li> <li><a href="/article/1882636022081187840.htm" title="GitHub Copilot、Cursor和Cline三款AI辅助编码工具评测对比-2024年12月最新体验" target="_blank">GitHub Copilot、Cursor和Cline三款AI辅助编码工具评测对比-2024年12月最新体验</a> <span class="text-muted">xidianjiapei001</span> <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E8%AF%AD%E8%A8%80/1.htm">编程语言</a><a class="tag" taget="_blank" href="/search/copilot/1.htm">copilot</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/Cursor/1.htm">Cursor</a><a class="tag" taget="_blank" href="/search/AI/1.htm">AI</a><a class="tag" taget="_blank" href="/search/Cline/1.htm">Cline</a><a class="tag" taget="_blank" href="/search/AI/1.htm">AI</a><a class="tag" taget="_blank" href="/search/AI%E4%BB%A3%E7%A0%81%E7%94%9F%E6%88%90/1.htm">AI代码生成</a> <div>2024年12月,我体验了一下AI编码辅助工具,本文我们将对比分析GitHubCopilot、Cursor和Cline这三款AI工具,评估它们在自动代码生成和AI辅助编码方面的优缺点。GitHubCopilot是一款IDE插件,需要结合JetBrains或VSCode使用。优点高效的代码补全:GitHubCopilot能够实时分析代码上下文并提供建议,帮助开发者快速完成代码块。跨语言支持:支持多种</div> </li> <li><a href="/article/1882635893035036672.htm" title="腾讯AI开放平台的接口调用指南" target="_blank">腾讯AI开放平台的接口调用指南</a> <span class="text-muted"></span> <div>在多模态模型的架构上,ChatGPT的绘图能力主要依赖以下几个核心组件:跨模态编码器(Cross-ModalEncoder):跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示,然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。</div> </li> <li><a href="/article/1882635518223642624.htm" title="Wav文件格式" target="_blank">Wav文件格式</a> <span class="text-muted">昉钰</span> <a class="tag" taget="_blank" href="/search/%E5%A4%9A%E5%AA%92%E4%BD%93/1.htm">多媒体</a><a class="tag" taget="_blank" href="/search/Wav/1.htm">Wav</a><a class="tag" taget="_blank" href="/search/Android/1.htm">Android</a> <div>目录1、文件整体结构1.1RIFFChunk块1.2FormatChunk区块1.3DATA块1.4文件示例分析2、Android上Wav录制2.1首先初始化AudioRecord(忽略权限相关代码):2.2启动录制2.3格式转换(Wav)3、参考文章1、文件整体结构WAV文件的数据体区块一般由3个区块组成:RIFFChunk、FormatChunk和DataChunk。如上图三个不同颜色区域。1</div> </li> <li><a href="/article/1882634888511811584.htm" title="“赛教融合”背景下,职业院校教师教学能力提升创新路径" target="_blank">“赛教融合”背景下,职业院校教师教学能力提升创新路径</a> <span class="text-muted">武汉唯众智创</span> <a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E8%81%8C%E4%B8%9A%E6%95%99%E8%82%B2/1.htm">职业教育</a><a class="tag" taget="_blank" href="/search/%E8%81%8C%E6%95%99/1.htm">职教</a><a class="tag" taget="_blank" href="/search/%E8%B5%9B%E6%95%99%E8%9E%8D%E5%90%88/1.htm">赛教融合</a> <div>自2010年起,教育部启动全国职业院校信息化教学大赛,旨在深化职业教育教学改革与创新。至2018年,该赛事升级为全国职业院校技能大赛教学能力比赛,显著增强了其专业性和实践性,成为推动职业教育发展的强劲动力。2024年下半年,“全国职业院校技能大赛教学能力比赛”官网也已更名为“全国职业院校技能大赛教师赛服务平台”。这一大赛致力于推广信息化教学手段的日常应用,全面提高职业院校教师的教学能力和信息素养,</div> </li> <li><a href="/article/1882634509904572416.htm" title="分布式微服务搭建" target="_blank">分布式微服务搭建</a> <span class="text-muted">Xi-Tong</span> <a class="tag" taget="_blank" href="/search/%E5%BE%AE%E6%9C%8D%E5%8A%A1/1.htm">微服务</a><a class="tag" taget="_blank" href="/search/%E6%9E%B6%E6%9E%84/1.htm">架构</a><a class="tag" taget="_blank" href="/search/%E4%BA%91%E5%8E%9F%E7%94%9F/1.htm">云原生</a><a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a><a class="tag" taget="_blank" href="/search/centos/1.htm">centos</a><a class="tag" taget="_blank" href="/search/bash/1.htm">bash</a><a class="tag" taget="_blank" href="/search/jdk/1.htm">jdk</a> <div>分布式微服务架构搭建(举出一个项目搭建的例子,其他项目可参考本文档)基于Nginx作为web服务器、JDK作为Java运行环境、MySQL作为关系型数据库、Nacos作为服务发现和配置中心、Maven作为项目管理工具、Redis作为缓存和消息中间件(视具体需求而定)、Node.js与npm作为某些微服务(如前端服务或特定业务逻辑服务)的开发和依赖管理工具,可以搭建一个完整的分布式微服务架构项目。以</div> </li> <li><a href="/article/1882633250959060992.htm" title="前端开发概述" target="_blank">前端开发概述</a> <span class="text-muted">不会写代码的菜</span> <a class="tag" taget="_blank" href="/search/html/1.htm">html</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/html/1.htm">html</a> <div>我们前后端工程师都一样,最终目的都是开发和维护软件,以给用户以更好的服务我们可以将软件分为以下几类:系统软件:WindowsLinuxmacOS应用软件:officeqq游戏软件:王者荣耀绝地求生我们的软件通常由服务器端和客户端组成客户端:通过客户端来使用软件,我们通常使用电脑时能看到的也就是客户端的软件,服务器端我们平常在使用过程中是无法看到的客户端的形式:文字客户端:一种古老的方式,通过命令行</div> </li> <li><a href="/article/1882632621381447680.htm" title="【Python Dash】零基础也能轻松掌握的学习路线与参考资料" target="_blank">【Python Dash】零基础也能轻松掌握的学习路线与参考资料</a> <span class="text-muted">weishaoonly</span> <a class="tag" taget="_blank" href="/search/python/1.htm">python</a><a class="tag" taget="_blank" href="/search/dash/1.htm">dash</a><a class="tag" taget="_blank" href="/search/%E5%AD%A6%E4%B9%A0/1.htm">学习</a> <div>PythonDash是一个可视化框架,可以帮助开发者快速构建交互式仪表板和应用程序。它基于Plotly.js库建立,提供了一种易于使用的Python界面,用户可以通过简单的Python代码创建仪表板和应用程序。本篇文章将介绍PythonDash的学习路线,并给出参考资料和优秀实践,并对PythonDash应用的未来趋势进行了展望。一、PythonDash的学习路线以下是学习PythonDash的建</div> </li> <li><a href="/article/1882632495086759936.htm" title="SkyWalking" target="_blank">SkyWalking</a> <span class="text-muted">小馋喵知识杂货铺</span> <a class="tag" taget="_blank" href="/search/%E6%80%A7%E8%83%BD/1.htm">性能</a><a class="tag" taget="_blank" href="/search/skywalking/1.htm">skywalking</a> <div>SkyWalking是一款开源的APM(ApplicationPerformanceManagement)工具,主要用于监控、追踪和诊断微服务架构中的应用性能。它支持多种语言,包括Java、Go、Node.js、Python等,能够提供强大的分布式追踪、日志分析、性能监控等功能,是微服务和云原生架构中重要的性能管理工具之一。SkyWalking最初由ApacheSoftwareFoundation</div> </li> <li><a href="/article/1882632367273734144.htm" title="java 解析PDF文件里面的表格并转换成EXCEL,不是表格的不会解析" target="_blank">java 解析PDF文件里面的表格并转换成EXCEL,不是表格的不会解析</a> <span class="text-muted">妳、终究不属于涐</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/pdf/1.htm">pdf</a><a class="tag" taget="_blank" href="/search/excel/1.htm">excel</a> <div>importcom.collection.integration.constant.ReminderConstant;importcom.spire.pdf.PdfDocument;importcom.spire.pdf.utilities.PdfTable;importcom.spire.pdf.utilities.PdfTableExtractor;importcom.spire.xls.Ex</div> </li> <li><a href="/article/1882632367873519616.htm" title="2025美赛数学建模E题思路+模型+代码(1.24第一时间更新)" target="_blank">2025美赛数学建模E题思路+模型+代码(1.24第一时间更新)</a> <span class="text-muted">灿灿数模</span> <a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/1.htm">人工智能</a><a class="tag" taget="_blank" href="/search/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/1.htm">机器学习</a> <div>2025美赛数学建模E题思路+模型+代码(1.24第一时间更新)以下为2024C题:题目在2023年温布尔登绅士队的决赛中,20岁的西班牙新星卡洛斯·阿尔卡拉兹击败了36岁的诺瓦克·德约科维奇。这是德约科维奇自2013年以来首次在温布尔登公开赛失利,并结束了他在大满贯赛事中历史上最伟大的球员之一的非凡表现。这场比赛本身就是一场非凡的战斗。[1]德约科维奇似乎注定要轻松获胜,他以6-1控制了第一盘(</div> </li> <li><a href="/article/1882632368666243072.htm" title="vue2 缓存组件<keep-alive>" target="_blank">vue2 缓存组件<keep-alive></a> <span class="text-muted">海绵宝龙</span> <a class="tag" taget="_blank" href="/search/vue2/1.htm">vue2</a><a class="tag" taget="_blank" href="/search/%E7%BC%93%E5%AD%98/1.htm">缓存</a><a class="tag" taget="_blank" href="/search/vue.js/1.htm">vue.js</a><a class="tag" taget="_blank" href="/search/javascript/1.htm">javascript</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF/1.htm">前端</a><a class="tag" taget="_blank" href="/search/%E5%89%8D%E7%AB%AF%E6%A1%86%E6%9E%B6/1.htm">前端框架</a><a class="tag" taget="_blank" href="/search/vue/1.htm">vue</a> <div>在Vue.js2中,keep-alive是一个内置组件,它允许您缓存不活动的组件实例,以便在需要时可以更快地重新渲染它们。当一个组件被包裹在标签中时,它的状态会被保留,而不是在每次切换时都重新创建。以下是如何使用keep-alive组件来缓存组件的示例:切换组件importMyComponentfrom'./MyComponent.vue';exportdefault{name:'App',com</div> </li> <li><a href="/article/128.htm" title="scala的option和some" target="_blank">scala的option和some</a> <span class="text-muted">矮蛋蛋</span> <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B/1.htm">编程</a><a class="tag" taget="_blank" href="/search/scala/1.htm">scala</a> <div>原文地址: http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说,对象是一个比较自然、简单的入口点。在 本系列 前几期文章中,我介绍了 Scala 中一些面向对象的编程方法,这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念,找到其缺点</div> </li> <li><a href="/article/255.htm" title="NullPointerException" target="_blank">NullPointerException</a> <span class="text-muted">Cb123456</span> <a class="tag" taget="_blank" href="/search/android/1.htm">android</a><a class="tag" taget="_blank" href="/search/BaseAdapter/1.htm">BaseAdapter</a> <div>    java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference     出现以上异常.然后就在baidu上</div> </li> <li><a href="/article/382.htm" title="PHP使用文件和目录" target="_blank">PHP使用文件和目录</a> <span class="text-muted">天子之骄</span> <a class="tag" taget="_blank" href="/search/php%E6%96%87%E4%BB%B6%E5%92%8C%E7%9B%AE%E5%BD%95/1.htm">php文件和目录</a><a class="tag" taget="_blank" href="/search/%E8%AF%BB%E5%8F%96%E5%92%8C%E5%86%99%E5%85%A5/1.htm">读取和写入</a><a class="tag" taget="_blank" href="/search/php%E9%AA%8C%E8%AF%81%E6%96%87%E4%BB%B6/1.htm">php验证文件</a><a class="tag" taget="_blank" href="/search/php%E9%94%81%E5%AE%9A%E6%96%87%E4%BB%B6/1.htm">php锁定文件</a> <div>PHP使用文件和目录 1.使用include()包含文件 (1):使用include()从一个被包含文档返回一个值 (2):在控制结构中使用include()   include_once()函数需要一个包含文件的路径,此外,第一次调用它的情况和include()一样,如果在脚本执行中再次对同一个文件调用,那么这个文件不会再次包含。   在php.ini文件中设置</div> </li> <li><a href="/article/509.htm" title="SQL SELECT DISTINCT 语句" target="_blank">SQL SELECT DISTINCT 语句</a> <span class="text-muted">何必如此</span> <a class="tag" taget="_blank" href="/search/sql/1.htm">sql</a> <div>SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句 在表中,一个列可能会包含多个重复值,有时您也许希望仅仅列出不同(distinct)的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F</div> </li> <li><a href="/article/636.htm" title="java冒泡排序" target="_blank">java冒泡排序</a> <span class="text-muted">3213213333332132</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%86%92%E6%B3%A1%E6%8E%92%E5%BA%8F/1.htm">冒泡排序</a> <div>package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10</div> </li> <li><a href="/article/763.htm" title="struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题!" target="_blank">struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题!</a> <span class="text-muted">7454103</span> <a class="tag" taget="_blank" href="/search/DAO/1.htm">DAO</a><a class="tag" taget="_blank" href="/search/spring/1.htm">spring</a><a class="tag" taget="_blank" href="/search/Ajax/1.htm">Ajax</a><a class="tag" taget="_blank" href="/search/json/1.htm">json</a><a class="tag" taget="_blank" href="/search/qq/1.htm">qq</a> <div>struts2.18  出来有段时间了! (貌似是 稳定版)   闲时研究下下!  貌似 sruts2 搭配 json 做 ajax 很吃香!   实践了下下! 不当之处请绕过! 呵呵   网上一大堆 struts2+json  不过大多的json 插件 都是 jsonplugin.34.jar   strut</div> </li> <li><a href="/article/890.htm" title="struts2 数据标签说明" target="_blank">struts2 数据标签说明</a> <span class="text-muted">darkranger</span> <a class="tag" taget="_blank" href="/search/jsp/1.htm">jsp</a><a class="tag" taget="_blank" href="/search/bean/1.htm">bean</a><a class="tag" taget="_blank" href="/search/struts/1.htm">struts</a><a class="tag" taget="_blank" href="/search/servlet/1.htm">servlet</a><a class="tag" taget="_blank" href="/search/Scheme/1.htm">Scheme</a> <div>数据标签主要用于提供各种数据访问相关的功能,包括显示一个Action里的属性,以及生成国际化输出等功能 数据标签主要包括: action :该标签用于在JSP页面中直接调用一个Action,通过指定executeResult参数,还可将该Action的处理结果包含到本页面来。 bean :该标签用于创建一个javabean实例。如果指定了id属性,则可以将创建的javabean实例放入Sta</div> </li> <li><a href="/article/1017.htm" title="链表.简单的链表节点构建" target="_blank">链表.简单的链表节点构建</a> <span class="text-muted">aijuans</span> <a class="tag" taget="_blank" href="/search/%E7%BC%96%E7%A8%8B%E6%8A%80%E5%B7%A7/1.htm">编程技巧</a> <div>/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \  Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node {  &nbs</div> </li> <li><a href="/article/1144.htm" title="tomcat下jndi的三种配置方式" target="_blank">tomcat下jndi的三种配置方式</a> <span class="text-muted">avords</span> <a class="tag" taget="_blank" href="/search/tomcat/1.htm">tomcat</a> <div>jndi(Java Naming and Directory Interface,Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来,使得我们可以用名称 访问对象。目录服务是一种命名服务,在这种服务里,对象不但有名称,还有属性。          tomcat配置</div> </li> <li><a href="/article/1271.htm" title="关于敏捷的一些想法" target="_blank">关于敏捷的一些想法</a> <span class="text-muted">houxinyou</span> <a class="tag" taget="_blank" href="/search/%E6%95%8F%E6%8D%B7/1.htm">敏捷</a> <div>从网上看到这样一句话:“敏捷开发的最重要目标就是:满足用户多变的需求,说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。 感觉容易被人误解的地方主要在“用户多变的需求”上。 第一种多变,实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的,只是比较多,也比较混乱,用户一般只能了解自己的那一小部分,所以没有用户能清楚的表达出整体需求。而由于各种条件的,用户表达自己那一部分时也有</div> </li> <li><a href="/article/1398.htm" title="富养还是穷养,决定孩子的一生" target="_blank">富养还是穷养,决定孩子的一生</a> <span class="text-muted">bijian1013</span> <a class="tag" taget="_blank" href="/search/%E6%95%99%E8%82%B2/1.htm">教育</a><a class="tag" taget="_blank" href="/search/%E4%BA%BA%E7%94%9F/1.htm">人生</a> <div> 是什么决定孩子未来物质能否丰盛?为什么说寒门很难出贵子,三代才能出贵族?真的是父母必须有钱,才能大概率保证孩子未来富有吗?-----作者:@李雪爱与自由 事实并非由物质决定,而是由心灵决定。一朋友富有而且修养气质很好,兄弟姐妹也都如此。她的童年时代,物质上大家都很贫乏,但妈妈总是保持生活中的美感,时不时给孩子们带回一些美好小玩意,从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜</div> </li> <li><a href="/article/1525.htm" title="oracle 日期时间格式转化" target="_blank">oracle 日期时间格式转化</a> <span class="text-muted">征客丶</span> <a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a> <div>oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP; SYSDATE:不支持毫秒,取的是系统时间; SYSTIMESTAMP:支持毫秒,日期,时间是给时区转换的,秒和毫秒是取的系统的。 日期转字符窜: 一、不取毫秒: TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明, YYYY 年 MM   月</div> </li> <li><a href="/article/1652.htm" title="【Scala六】分析Spark源代码总结的Scala语法四" target="_blank">【Scala六】分析Spark源代码总结的Scala语法四</a> <span class="text-muted">bit1129</span> <a class="tag" taget="_blank" href="/search/scala/1.htm">scala</a> <div>1. apply语法   FileShuffleBlockManager中定义的类ShuffleFileGroup,定义:   private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId</div> </li> <li><a href="/article/1779.htm" title="Erlang中有意思的bug" target="_blank">Erlang中有意思的bug</a> <span class="text-muted">bookjovi</span> <a class="tag" taget="_blank" href="/search/erlang/1.htm">erlang</a> <div>  代码中常有一些很搞笑的bug,如下面的一行代码被调用两次(Erlang beam) commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <bookjovi@gmail.com> Date: Fri Dec 2 16:19:22 2011 +0100 erts:</div> </li> <li><a href="/article/1906.htm" title="移位打印10进制数转16进制-2008-08-18" target="_blank">移位打印10进制数转16进制-2008-08-18</a> <span class="text-muted">ljy325</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E5%9F%BA%E7%A1%80/1.htm">基础</a> <div> /** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di</div> </li> <li><a href="/article/2033.htm" title="读《研磨设计模式》-代码笔记-组合模式" target="_blank">读《研磨设计模式》-代码笔记-组合模式</a> <span class="text-muted">bylijinnan</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a> <div>声明: 本文只为方便我个人查阅和理解,详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str</div> </li> <li><a href="/article/2160.htm" title="利用cmd命令将.class文件打包成jar" target="_blank">利用cmd命令将.class文件打包成jar</a> <span class="text-muted">chenyu19891124</span> <a class="tag" taget="_blank" href="/search/cmd/1.htm">cmd</a><a class="tag" taget="_blank" href="/search/jar/1.htm">jar</a> <div>cmd命令打jar是如下实现: 在运行里输入cmd,利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作: cd D: 回车 cd workspace/prpal</div> </li> <li><a href="/article/2287.htm" title="[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明" target="_blank">[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明</a> <span class="text-muted">comsci</span> <a class="tag" taget="_blank" href="/search/eclipse/1.htm">eclipse</a><a class="tag" taget="_blank" href="/search/%E8%AE%BE%E8%AE%A1%E6%A8%A1%E5%BC%8F/1.htm">设计模式</a><a class="tag" taget="_blank" href="/search/%E7%AE%97%E6%B3%95/1.htm">算法</a><a class="tag" taget="_blank" href="/search/%E5%B7%A5%E4%BD%9C/1.htm">工作</a><a class="tag" taget="_blank" href="/search/swing/1.htm">swing</a> <div>                       JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明     &nb</div> </li> <li><a href="/article/2414.htm" title="SecureCRT右键粘贴的设置" target="_blank">SecureCRT右键粘贴的设置</a> <span class="text-muted">daizj</span> <a class="tag" taget="_blank" href="/search/secureCRT/1.htm">secureCRT</a><a class="tag" taget="_blank" href="/search/%E5%8F%B3%E9%94%AE/1.htm">右键</a><a class="tag" taget="_blank" href="/search/%E7%B2%98%E8%B4%B4/1.htm">粘贴</a> <div>一般都习惯鼠标右键自动粘贴的功能,对于SecureCRT6.7.5 ,这个功能也已经是默认配置了。 老版本的SecureCRT其实也有这个功能,只是不是默认设置,很多人不知道罢了。 菜单: Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle</div> </li> <li><a href="/article/2541.htm" title="Linux 软链接和硬链接" target="_blank">Linux 软链接和硬链接</a> <span class="text-muted">dongwei_6688</span> <a class="tag" taget="_blank" href="/search/linux/1.htm">linux</a> <div>1.Linux链接概念Linux链接分两种,一种被称为硬链接(Hard Link),另一种被称为符号链接(Symbolic Link)。默认情况下,ln命令产生硬链接。 【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中,保存在磁盘分区中的文件不管是什么类型都给它分配一个编号,称为索引节点号(Inode Index)。在Linux中,多个文件名指向同一索引节点是存在的。一般这种连</div> </li> <li><a href="/article/2668.htm" title="DIV底部自适应" target="_blank">DIV底部自适应</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/JavaScript/1.htm">JavaScript</a> <div><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q</div> </li> <li><a href="/article/2795.htm" title="Centos6.5使用yum安装mysql——快速上手必备" target="_blank">Centos6.5使用yum安装mysql——快速上手必备</a> <span class="text-muted">dcj3sjt126com</span> <a class="tag" taget="_blank" href="/search/mysql/1.htm">mysql</a> <div>第1步、yum安装mysql [root@stonex ~]#  yum -y install mysql-server 安装结果: Installed:     mysql-server.x86_64 0:5.1.73-3.el6_5                   &nb</div> </li> <li><a href="/article/2922.htm" title="如何调试JDK源码" target="_blank">如何调试JDK源码</a> <span class="text-muted">frank1234</span> <a class="tag" taget="_blank" href="/search/jdk/1.htm">jdk</a> <div>相信各位小伙伴们跟我一样,想通过JDK源码来学习Java,比如collections包,java.util.concurrent包。 可惜的是sun提供的jdk并不能查看运行中的局部变量,需要重新编译一下rt.jar。 下面是编译jdk的具体步骤:         1.把C:\java\jdk1.6.0_26\sr</div> </li> <li><a href="/article/3049.htm" title="Maximal Rectangle" target="_blank">Maximal Rectangle</a> <span class="text-muted">hcx2013</span> <a class="tag" taget="_blank" href="/search/max/1.htm">max</a> <div>Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area.   public class Solution { public int maximalRectangle(char[][] matrix)</div> </li> <li><a href="/article/3176.htm" title="Spring MVC测试框架详解——服务端测试" target="_blank">Spring MVC测试框架详解——服务端测试</a> <span class="text-muted">jinnianshilongnian</span> <a class="tag" taget="_blank" href="/search/spring+mvc+test/1.htm">spring mvc test</a> <div>随着RESTful Web Service的流行,测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架,如果版本低于3.2,请使用spring-test-mvc项目(合并到spring3.2中了)。   Spring MVC测试框架提供了对服务器端和客户端(基于RestTemplate的客户端)提供了支持。 &nbs</div> </li> <li><a href="/article/3303.htm" title="Linux64位操作系统(CentOS6.6)上如何编译hadoop2.4.0" target="_blank">Linux64位操作系统(CentOS6.6)上如何编译hadoop2.4.0</a> <span class="text-muted">liyong0802</span> <a class="tag" taget="_blank" href="/search/hadoop/1.htm">hadoop</a> <div>一、准备编译软件   1.在官网下载jdk1.7、maven3.2.1、ant1.9.4,解压设置好环境变量就可以用。     环境变量设置如下:   (1)执行vim /etc/profile (2)在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho</div> </li> <li><a href="/article/3430.htm" title="StatusBar 字体白色" target="_blank">StatusBar 字体白色</a> <span class="text-muted">pangyulei</span> <a class="tag" taget="_blank" href="/search/status/1.htm">status</a> <div> [[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method</div> </li> <li><a href="/article/3557.htm" title="如何分析Java虚拟机死锁" target="_blank">如何分析Java虚拟机死锁</a> <span class="text-muted">sesame</span> <a class="tag" taget="_blank" href="/search/java/1.htm">java</a><a class="tag" taget="_blank" href="/search/thread/1.htm">thread</a><a class="tag" taget="_blank" href="/search/oracle/1.htm">oracle</a><a class="tag" taget="_blank" href="/search/%E8%99%9A%E6%8B%9F%E6%9C%BA/1.htm">虚拟机</a><a class="tag" taget="_blank" href="/search/jdbc/1.htm">jdbc</a> <div>英文资料: Thread Dump and Concurrency Locks   Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B</div> </li> <li><a href="/article/3684.htm" title="位运算简介及实用技巧(一):基础篇" target="_blank">位运算简介及实用技巧(一):基础篇</a> <span class="text-muted">tw_wangzhengquan</span> <a class="tag" taget="_blank" href="/search/%E4%BD%8D%E8%BF%90%E7%AE%97/1.htm">位运算</a> <div>http://www.matrix67.com/blog/archives/263    去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一,很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料,学习到了更多关于位运算的知识,有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章,与其说是原来那篇文章的follow-up,不如说是一个r</div> </li> <li><a href="/article/3811.htm" title="jsearch的索引文件结构" target="_blank">jsearch的索引文件结构</a> <span class="text-muted">yangshangchuan</span> <a class="tag" taget="_blank" href="/search/%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E/1.htm">搜索引擎</a><a class="tag" taget="_blank" href="/search/jsearch/1.htm">jsearch</a><a class="tag" taget="_blank" href="/search/%E5%85%A8%E6%96%87%E6%A3%80%E7%B4%A2/1.htm">全文检索</a><a class="tag" taget="_blank" href="/search/%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2/1.htm">信息检索</a><a class="tag" taget="_blank" href="/search/word%E5%88%86%E8%AF%8D/1.htm">word分词</a> <div>jsearch是一个高性能的全文检索工具包,基于倒排索引,基于java8,类似于lucene,但更轻量级。   jsearch的索引文件结构定义如下:     1、一个词的索引由=分割的三部分组成:        第一部分是词        第二部分是这个词在多少</div> </li> </ul> </div> </div> </div> <div> <div class="container"> <div class="indexes"> <strong>按字母分类:</strong> <a href="/tags/A/1.htm" target="_blank">A</a><a href="/tags/B/1.htm" target="_blank">B</a><a href="/tags/C/1.htm" target="_blank">C</a><a href="/tags/D/1.htm" target="_blank">D</a><a href="/tags/E/1.htm" target="_blank">E</a><a href="/tags/F/1.htm" target="_blank">F</a><a href="/tags/G/1.htm" target="_blank">G</a><a href="/tags/H/1.htm" target="_blank">H</a><a href="/tags/I/1.htm" target="_blank">I</a><a href="/tags/J/1.htm" target="_blank">J</a><a href="/tags/K/1.htm" target="_blank">K</a><a href="/tags/L/1.htm" target="_blank">L</a><a href="/tags/M/1.htm" target="_blank">M</a><a href="/tags/N/1.htm" target="_blank">N</a><a href="/tags/O/1.htm" target="_blank">O</a><a href="/tags/P/1.htm" target="_blank">P</a><a href="/tags/Q/1.htm" target="_blank">Q</a><a href="/tags/R/1.htm" target="_blank">R</a><a href="/tags/S/1.htm" target="_blank">S</a><a href="/tags/T/1.htm" target="_blank">T</a><a href="/tags/U/1.htm" target="_blank">U</a><a href="/tags/V/1.htm" target="_blank">V</a><a href="/tags/W/1.htm" target="_blank">W</a><a href="/tags/X/1.htm" target="_blank">X</a><a href="/tags/Y/1.htm" target="_blank">Y</a><a href="/tags/Z/1.htm" target="_blank">Z</a><a href="/tags/0/1.htm" target="_blank">其他</a> </div> </div> </div> <footer id="footer" class="mb30 mt30"> <div class="container"> <div class="footBglm"> <a target="_blank" href="/">首页</a> - <a target="_blank" href="/custom/about.htm">关于我们</a> - <a target="_blank" href="/search/Java/1.htm">站内搜索</a> - <a target="_blank" href="/sitemap.txt">Sitemap</a> - <a target="_blank" href="/custom/delete.htm">侵权投诉</a> </div> <div class="copyright">版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved. <!-- <a href="https://beian.miit.gov.cn/" rel="nofollow" target="_blank">京ICP备09083238号</a><br>--> </div> </div> </footer> <!-- 代码高亮 --> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shCore.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shLegacy.js"></script> <script type="text/javascript" src="/static/syntaxhighlighter/scripts/shAutoloader.js"></script> <link type="text/css" rel="stylesheet" href="/static/syntaxhighlighter/styles/shCoreDefault.css"/> <script type="text/javascript" src="/static/syntaxhighlighter/src/my_start_1.js"></script> </body> </html>