直接贴代码
import urllib.request
import urllib.parse
import re
from bs4 import BeautifulSoup
def baike( word ) :
def test_url( soup ) : # 检测是否收录该词条,返回 True or False
result = soup.find( text=re.compile("百度百科未收录该词条") )
if result :
return False
else:
return True
def summary( soup ) :
# h1标签的文本(百科的主标题)
word = soup.h1.text # 此处word含义转变 , 不要弄混
# h2标签的文本(百科的副标题)
if soup.h2 :
word += soup.h2.text
print( word )
#(百科的简介)
if soup.find( class_="lemma-summary" ) :
print( soup.find( class_="lemma-summary" ).text )
def start( word ):
keyword = urllib.parse.urlencode( {"word" : word} ) # 解析,用于组成URL
response = urllib.request.urlopen( "http://baike.baidu.com/search/word?%s" % keyword )
html = response.read()
soup = BeautifulSoup( html , "html.parser" )
if test_url( soup ) :
summary( soup )
try :
start( word )
except AttributeError :
print("百度百科未收录该词条")
if(__name__ == "__main__") :
content = str( input("请输入关键词 : ") )
baike(content)
运行 ↓ :
>>>
请输入关键词 : 萝莉 ←
萝莉(ACGN界用语)
萝莉,来源于中国台湾作家赵尔心翻译的俄裔美国作家的小说《洛丽塔》,或指小说中的女主角14岁的洛丽
塔,后在日本引申发展成一种次文化,用来表示可爱的娇小女性。被世人公认最早的萝莉角色是1982年推出
的《甜甜仙子》中的MOMO公主。萝莉语出纳博可夫的小说《洛丽塔》(曾被改编成电影,中文片名是《一树
梨花压海棠》)中同名的女主角,其剧情描写中年男子爱上了年龄与自己有所差距的少女的故事。中文版于
1964年台湾皇冠出版公司出版,赵尔心翻译 ,是萝莉一词的最初使用者。
>>>
import tkinter做个窗口:
※ 后记
♥ 这个爬虫很基础
♠ 最基础的爬虫坑也多,希望上面的代码可以帮到你一点点
♣ tkinter比Java的Swing组件简单,且代码量小,可以玩玩,不要深究
♦ 完整的代码可以私信我