While much has been made of China’........此处省略.......
以上便是我们想要的内容。要抓取上文的内容,我们需要先学习一下BeautifulSoup
的一些功能。一个例子胜过千言万语。以下例子来自BeautifulSoup
的官方文档。
The Dormouse's story
The Dormouse's story
Once upon a time there were three little sisters; and their names were
Elsie,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
我们将以上html
存储在一个叫soup
的BeautifulSoup
对象中,那么:
soup.title 输出
The Dormouse's story
soup.findAll('a') 输出
[Elsie,
Lacie,
Tillie]
soup.find(id="link3") 或者 soup.find({"id": "link3"}) 输出
Tillie
大致来说,findAll
输出所有符合条件的结果。find
输出符合条件的第一个结果。这两个函数既可以用来按标签名称查找,也可以按标签属性查找。请读者自行体会。
于是,我们使用
try:
articleTitle = soup.find("meta",{'property':"og:title"})['content'].strip()
except:
articleTitle = "This article has no title"
来提取文章的标题。['content']
的作用是提取出content
这一属性。.strip()
用于将结果左右的空格删除。注意我们使用了try: ... except:...
,这是为了防止有的文章不能用这样的方式找到标题导致程序报错,这样处理后,如果没有标题,那么我们便指出它没有标题。文章的发布时间和描述同理。
对于文章的正文,我们有
try:
TarticlePara = soup.find("div", {"class":"post-content"}).findAll({"p","h1","h2","h3","h4","h5","h6"})
except:
return None
我们观察到,文章的正文在 , , 来创建一个标题是文章标题的前30个字符的 我们分别在文件中写入文章的标题、时间和描述。 标签名是 这里我们使用了正则表达式。我们提出一种模式,然后搜寻能够匹配该模式的字符串。因篇幅所限,我们没有办法对正则表达式做一个哪怕浅显的介绍,但我们可以仔细看看这里这个例子。 我们发现,这些网址的共同点如下: 现在我们可以开始写正则表达式来匹配了这一模式了 以上网页显示的是联系信息,而这显然不是我们想要的。而这样的网址都很短,因此我们匹配3次以上用以忽略这样的网址。 这类的网页。读者在掌握了本文的技巧后,可以自行修改代码以让我们的文章爬取更完善。 我们提取出这些网址,用 如果我们找到了20个以上的文章就满足了,如果还没有达到这个数字,我们就选择该网页中最后一篇文章作为新的起始网页,重复以上行为。最后我们输出文章集合。
小标签下,为了保险起见,我们将,
全部都找出来。这样我们就获取了文章的正文了。注意,有的文章不能靠这种方法找到正文,但这样的文章我们就选择忽略了,于是我们使用,...
return none
来跳出函数剩下的部分。
本函数剩余部分的作用是把结果输出成为一个txt
文件。我们用
with open('C:/Work/Scrapers/ConsultingReports/McKinsey/'+articleTitle[0:30]+'.txt','w+', encoding="utf8") as file:
txt
文件。file.write('ThisIsTile:'+articleTitle+'\n')
file.write('ThisIsDate:'+articleTime+'\n')
file.write('ThisIsDesc:'+articleDescription+'\n\n')
for para in TarticlePara:
file.write(para.get_text())
\n
的作用是换到下一行。之后我们写入文章的正文。为什么我们这里要写一个for
循环呢?因为和标题时间描述不同,文章的正文是按段落存储的,TarticlePara
变量是这些段落的集合,所以不能直接写入到文件里,我们只能逐个段落地写入。
上文函数的作用是在我们找到一篇文章的网址后,获取该文章的信息。我们需要第二个函数,用以找到这些文章的网址,这便是getArticleLinks(motherUrl)
。我们将一个起始网址输入到该函数中,输出文章网址的集合。这个函数的思路如下:
我们先打开一个起始网页(mother)
,提取出该网页包含的所有链接,选取那些指向文章的链接并存储起来。之后我们跳到一篇文章的网页(child 1)
,选取文章链接并存储。然后跳到下一篇文章(child 2)
,以此类推。
我们需要注意到一个问题,即我们不可避免的会遇到很多重复的文章链接,怎么保证我们最后输出的文章网址集合没有重复呢?所幸的是,python
的set()
可以实现这一功能。当我们向一个set
输入重复的值时,它只会保留一个记录。我们将获取的所有文章链接都输入到一个set
后,最后的结果就是没有重复的文章链接集合了。
我们先使用BeautifulSoup
来存储起始网址,然后调用一个全局变量articlePages
。我们的目的是将所有文章链接都存储在这个变量里,而且我们需要重复地使用这个函数。如果我们选择在这个函数的内部建立一个新变量并存储网址的话,那么每次重新调用这个函数时,这个变量便会被清空,这显然不是我们想要的。所以我们在函数外部创建一个集合articlePages = set()
,然后再在函数中调用。
接下来我们提取所有文章的网址。观察源代码,我们发现包含网址的标签结构如下:
a
,而我们想要的信息存储在href
这一属性中。我们运用findAll
函数来提取所有的网址。注意到这个令人生畏的怪物:href=re.compile("http://www.mckinseychina.com/([A-Za-z0-9]+-){3,}[A-Za-z0-9]+/")
首先我们观察文章网址都有什么共同点,请看这三个网址:http://www.mckinseychina.com/who-is-winning-the-war-for-talent-in-china/
http://www.mckinseychina.com/what-might-happen-in-china-in-2016/
http://www.mckinseychina.com/which-china-headline-do-you-prefer/
http://www.mckinseychina.com
作为开头-
隔开
http://www.mckinseychina.com/
: 到这里,我们规定网址的开头([A-Za-z0-9]+-)
: [A-Za-z0-9]
的作用是,匹配任意一个大写字母、小写字母或者数字。我们在后边跟上+
,则表示我们匹配任意次数。之后我们跟上-
,则表示我们匹配链接符号-
。我们用(...)
表示这是一个整体。{3,}
: 这表示我们匹配上一步中的部分3次或以上。为什么要这样规定呢?因为观察网页,我们发现,有这样的网址http://www.mckinseychina.com/contact-us
[A-Za-z0-9]+/
: 网址的最后以单词或数字加上/
结束,并且没有-
,因此我们如此操作。
很显然,以上仅仅是一种匹配的方法,读者大可以自行观察其它的匹配方法。
细心的读者可能已经发现了,我们使用了一种很取巧的方法,即我们只在文章之间跳转。我们没有进入类似于http://www.mckinseychina.com/insights
http://www.mckinseychina.com/insights/innovation/
值得一提的是,正则表达式是一个很反人类的工具,很容易出错,一个很好的写正则表达式的辅助工具是http://regexpal.isbadguy.com/
。
接下来,我们开始抓取和存储这些链接了。for link in links:
newArticlePage = link.attrs['href']
articlePages.add(newArticlePage)
print(str(len(articlePages)) + " preys slayed")
.add()
方法来把这些网址加入到articlePages
这个集合里。我们用print(str(len(articlePages)) + " preys slayed")
来显示集合里已经存储了多少篇文章,用以观察进度。if len(articlePages)>=20:
print("Hunting complete")
else:
getArticleLinks(newArticlePage)
return articlePages
有了上述两个函数,我们可以真正开始抓取文章了。motherUrl = "http://www.mckinseychina.com"
articlePages = set()
articlePages = getArticleLinks(motherUrl)
summonCounter = 1
for page in list(articlePages):
getMcKArticle(page)
print(str(summonCounter) + ' out of ' + str(len(articlePages)) + " nightmares slayed")
summonCounter += 1
print("Farewell good hunter. May you find worth in the waking world")
getArticleLinks()
填充文章集合getMcKArticle()
下载其内容
注意我们用了summonCounter
来监督抓取进度。
这样我们就完成了文章的下载。print
一句您喜欢的话来表扬下自己吧!附录
获取麦肯锡公司报告的完整代码
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
def getMcKArticle(url):
html = urlopen(url)
soup = BeautifulSoup(html.read())
try:
articleTitle = soup.find("meta",{'property':"og:title"})['content'].strip()
except:
articleTitle = "This article has no title"
try:
articleTime = soup.find("meta", {"property":"article:published_time"})['content'].strip()
except:
articleTime = "This article has no date"
try:
articleDescription = soup.find("meta",{'property':"og:description"})['content'].strip()
except:
articleDescription = "This article has no description"
try:
TarticlePara = soup.find("div", {"class":"post-content"}).findAll({"p","h1","h2","h3","h4","h5","h6"})
except:
return None
with open('C:/Work/Scrapers/ConsultingReports/McKinsey/'+articleTitle[0:30]+'.txt','w+', encoding="utf8") as file:
file.write('ThisIsTile:'+articleTitle+'\n')
file.write('ThisIsDate:'+articleTime+'\n')
file.write('ThisIsDesc:'+articleDescription+'\n\n')
for para in TarticlePara:
file.write(para.get_text())
def getArticleLinks(motherUrl):
html = urlopen(motherUrl)
soup = BeautifulSoup(html)
global articlePages
links = soup.findAll("a", href=re.compile("http://www.mckinseychina.com/*([A-Za-z0-9]+-){3,}[A-Za-z0-9]+/"))
for link in links:
newArticlePage = link.attrs['href']
articlePages.add(newArticlePage)
print(str(len(articlePages)) + " preys slayed")
if len(articlePages)>=20:
print("Hunting complete")
else:
getArticleLinks(newArticlePage)
return articlePages
motherUrl = "http://www.mckinseychina.com"
articlePages = set()
articlePages = getArticleLinks(motherUrl)
summonCounter = 1
for page in list(articlePages):
getMcKArticle(page)
print(str(summonCounter) + ' out of ' + str(len(articlePages)) + " nightmares slayed")
summonCounter += 1
print("Farewell good hunter. May you find worth in the waking world")