python爬取晋江文学城小说名、章节内容、作者、简介_爬虫爬取晋江文学网总分榜(失败)...

一、目的 :

爬取晋江文学网总分榜

二、python爬取数据

三、爬取

在最先多泛起了38号而且顺序内容不准确

代码:

import requests

from bs4 import BeautifulSoup

import bs4

url=”http://www.jjwxc.net/topten.php?orderstr=7&t=0″

def getHtml(url):

r=requests.get(url)

r.raise_for_status()

r.encoding=r.apparent_encoding

return r.text[26000:100000]

def fillList(html):

l1,l2 = [],[]

soup = BeautifulSoup(html,”html.parser”)

for i in soup.find_all(‘a’,”tooltip”):

l1.append(str(i.string))

for tag in soup.find_all(‘td’,{“align”:”center”}):

s=str(tag.string)

s.replace(”                                                        “,”  “)

l2.append(s)

return l1,l2

def printList(l1,l2):

n1,n2 = len(

你可能感兴趣的:(章节内容,作者,简介)