ly55521

Python爬虫结合dedecms自动采集发布

之前想实现一个爬虫，实时采集别人的文章，根据自己的规则去修改采集到的文章，然后自动发布。决定用dedecms做新闻发布，还可以自动生成html，自动把远程图片本地化等一些优点，为了安全，完全可以把前后台分离。
起初想用scrapy爬虫框架去实现，觉得定制开发的话用scrapy只能用到里面的一些基础的功能，有一些情况要跟着框架的规则走，如果自己写的话可以自己写规则去处理，也有优点爬虫、处理器等，最后还是自己写了一个demo。
首先分析需求，python做爬虫，dedecms做发布，起初先考虑了发布功能，实现了模拟登陆，或者研究dedecms的数据库设计，直接写到数据库，实际中没有这样去做，开始做模拟登陆的时候，需要改dedecms的代码去掉验证码，不然还要实现验证码识别，这个完全没有必要，因为要发布的是自己的网站，自己也有账户、密码、发布文章权限，然后就改了下dedecms的登陆功能，加了一个登陆接口，分析了dedecms的发布文章HTTP数据包。这块搞定了后就开始设计爬虫了，最后设计的感觉和scrapy的一些基础的处理机制很像。

做dedecms的登陆接口如下：
后台目录下的config.php 34行找到

/**
//检验用户登录状态
$cuserLogin = new userLogin();
if($cuserLogin->getUserID()==-1)
{
header(“location:login.php?gotopage=”.urlencode($dedeNowurl));
exit();
}
**/

改为下面
//http://127.0.0.2/dede/index.php?username=admin&password=admin

$cuserLogin = new userLogin();
if($cuserLogin->getUserID()==-1) {
if($_REQUEST['username'] != ''){
$res = $cuserLogin->checkUser($_REQUEST['username'], $_REQUEST['password']);
if($res==1) $cuserLogin->keepUser();
}

if($cuserLogin->getUserID()==-1) {
header("location:login.php?gotopage=".urlencode($dedeNowurl));
exit();
}
}```
这样只要请求：http://127.0.0.2/dede/index.php?username=admin&password=admin 就可以得到一个sessionid，只要用这个sessionid去发布文章就可以了。

发布文章的HTTP数据包如下：

#http://127.0.0.2/dede/article_add.php
POST /dede/article_add.php HTTP/1.1
Host: 127.0.0.2
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8
Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Referer: http://127.0.0.2/dede/article_add.php?cid=2
Cookie: menuitems=1_1%2C2_1%2C3_1; CNZZDATA1254901833=1497342033-1472891946-%7C1473171059; Hm_lvt_a6454d60bf94f1e40b22b89e9f2986ba=1472892122; ENV_GOBACK_URL=%2Fmd5%2Fcontent_list.php%3Farcrank%3D-1%26cid%3D11; lastCid=11; lastCidckMd5=2f82387a2b251324; DedeUserID=1; DedeUserIDckMd5=74be9ff370c4536f; DedeLoginTime=1473174404; DedeLoginTime__ckMd5=b8edc1b5318a3923; hasshown=1; Hm_lpvt_a6454d60bf94f1e40b22b89e9f2986ba=1473173893; PHPSESSID=m2o3k882tln0ttdi964v5aorn6
Connection: keep-alive
Upgrade-Insecure-Requests: 1
Content-Type: multipart/form-data; boundary=—————————2802133914041
Content-Length: 3639
—————————–2802133914041
Content-Disposition: form-data; name=”channelid”

1
—————————–2802133914041
Content-Disposition: form-data; name=”dopost”

save
—————————–2802133914041
Content-Disposition: form-data; name=”title”

2222222222
—————————–2802133914041
Content-Disposition: form-data; name=”shorttitle”

—————————–2802133914041
Content-Disposition: form-data; name=”redirecturl”

—————————–2802133914041
Content-Disposition: form-data; name=”tags”

—————————–2802133914041
Content-Disposition: form-data; name=”weight”

100
—————————–2802133914041
Content-Disposition: form-data; name=”picname”

—————————–2802133914041
Content-Disposition: form-data; name=”litpic”; filename=””
Content-Type: application/octet-stream

—————————–2802133914041
Content-Disposition: form-data; name=”source”

—————————–2802133914041
Content-Disposition: form-data; name=”writer”

—————————–2802133914041
Content-Disposition: form-data; name=”typeid”

2
—————————–2802133914041
Content-Disposition: form-data; name=”typeid2″

—————————–2802133914041
Content-Disposition: form-data; name=”keywords”

—————————–2802133914041
Content-Disposition: form-data; name=”autokey”

1
—————————–2802133914041
Content-Disposition: form-data; name=”description”

—————————–2802133914041
Content-Disposition: form-data; name=”dede_addonfields”

—————————–2802133914041
Content-Disposition: form-data; name=”remote”

1
—————————–2802133914041
Content-Disposition: form-data; name=”autolitpic”

1
—————————–2802133914041
Content-Disposition: form-data; name=”needwatermark”

1
—————————–2802133914041
Content-Disposition: form-data; name=”sptype”

hand
—————————–2802133914041
Content-Disposition: form-data; name=”spsize”

5
—————————–2802133914041
Content-Disposition: form-data; name=”body”

2222222222
—————————–2802133914041
Content-Disposition: form-data; name=”voteid”

—————————–2802133914041
Content-Disposition: form-data; name=”notpost”

0—————————–2802133914041
Content-Disposition: form-data; name=”click”

70
—————————–2802133914041
Content-Disposition: form-data; name=”sortup”

0—————————–2802133914041
Content-Disposition: form-data; name=”color”

—————————–2802133914041
Content-Disposition: form-data; name=”arcrank”

0—————————–2802133914041
Content-Disposition: form-data; name=”money”

0—————————–2802133914041
Content-Disposition: form-data; name=”pubdate”

2016-09-06 23:07:52
—————————–2802133914041
Content-Disposition: form-data; name=”ishtml”

1
—————————–2802133914041
Content-Disposition: form-data; name=”filename”

—————————–2802133914041
Content-Disposition: form-data; name=”templet”

—————————–2802133914041
Content-Disposition: form-data; name=”imageField.x”

41
—————————–2802133914041
Content-Disposition: form-data; name=”imageField.y”

6
—————————–2802133914041–

#更新生成html请求
http://127.0.0.2/dede/task_do.php?typeid=2&aid=109&dopost=makeprenext&nextdo=

GET /dede/task_do.php?typeid=2&aid=109&dopost=makeprenext&nextdo= HTTP/1.1
Host: 127.0.0.2
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,/;q=0.8
Accept-Language: zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Referer: http://127.0.0.2/dede/article_add.php
Cookie: menuitems=1_1%2C2_1%2C3_1; CNZZDATA1254901833=1497342033-1472891946-%7C1473171059; Hm_lvt_a6454d60bf94f1e40b22b89e9f2986ba=1472892122; ENV_GOBACK_URL=%2Fmd5%2Fcontent_list.php%3Farcrank%3D-1%26cid%3D11; lastCid=11; lastCidckMd5=2f82387a2b251324; DedeUserID=1; DedeUserIDckMd5=74be9ff370c4536f; DedeLoginTime=1473174404; DedeLoginTime__ckMd5=b8edc1b5318a3923; hasshown=1; Hm_lpvt_a6454d60bf94f1e40b22b89e9f2986ba=1473173893; PHPSESSID=m2o3k882tln0ttdi964v5aorn6
Connection: keep-alive
Upgrade-Insecure-Requests: 1

通过上面数据包可以分析到如下结果：
POST http://127.0.0.2/dede/article_add.php
需要配置的参数：

channelid:1 #普通文章提交
dopost:save #提交方式

shorttitle:” #短标题
autokey:1 #自动获取关键词
remote:1 #不指定缩略图,远程自动获取缩略图
autolitpic:1 #提取第一个图片为缩略图
sptype:auto #自动分页
spsize:5 #5k大小自动分页
notpost:1 #禁止评论
sortup:0 #文章排序、默认
arcrank:0 #阅读权限为开放浏览
money: #消费金币0
ishtml:1 #生成html

title:”文章标题” #文章标题
source:”文章来源” #文章来源
writer:”文章作者” #文章作者
typeid:”主栏目ID2″ #主栏目ID
body:”文章内容” #文章内容
click:”文章点击量” #文章点击量
pubdate:”提交时间” #提交时间

然后开始模拟dedecms发布文章测试了，python代码如下：

#!/usr/bin/python
#coding:utf8
import requests,random,time

#访问登陆接口保持cookies
sid = requests.session()
login_url = "http://127.0.0.2/dede/index.php?username=admin&password=admin"
header = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0",
"Referer" :"http://127.0.0.2"
}

#登陆接口获取Cookies
loadcookies = sid.get(url = login_url,headers = header)

#进入增加文章页面
#get_html = sid.get('http://127.0.0.2/dede/article_add.php?channelid=1',headers = header)
#print get_html.content

#定义固定字段
article = {
'channelid':1, #普通文章提交
'dopost':'save', #提交方式
'shorttitle':'', #短标题
'autokey':1, #自动获取关键词
'remote':1, #不指定缩略图,远程自动获取缩略图
'autolitpic':1, #提取第一个图片为缩略图
'sptype':'auto', #自动分页
'spsize':5, #5k大小自动分页
'notpost':1, #禁止评论
'sortup':0, #文章排序、默认
'arcrank':0, #阅读权限为开放浏览
'money': 0,#消费金币0
'ishtml':1, #生成html
'click':random.randint(10, 300), #随机生成文章点击量
'pubdate':time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()), #s生成当前提交时间
}

#定义可变字段
article['source'] = "文章来源" #文章来源
article['writer'] = "文章作者" #文章作者
article['typeid'] = "2" #主栏目ID

#定义提交文章请求URL
article_request = "http://127.0.0.2/dede/article_add.php"

"""
#测试提交数据
article['title'] = "测试_文章标题" #文章标题
article['body'] = "测试_文章内容" #文章内容
#提交后会自动重定向生成html，http返回状态为200则成功！
res = sid.post(url = article_request,data = article, headers = header)
print res
"""
for i in range(50):
article['title'] = str(i) + "_文章标题" #文章标题
article['body'] = str(i) + "_文章内容" #文章内容
#print article
res = sid.post(url = article_request,data = article, headers = header)
print res

其次就是分析爬虫需求阶段了，如下：

收集采集页面：

http://www.tunvan.com/col.jsp?id=115
http://www.zhongkerd.com/news.html
http://www.qianxx.com/news/field/
http://www.ifenguo.com/news/xingyexinwen/
http://www.ifenguo.com/news/gongsixinwen/

每一个采集页面和要改的规则都不一样，发布文章的栏目可能也有变化，要写多个爬虫，一个爬虫实现不了这个功能，要有爬虫、处理器、配置文件、函数文件（避免重复写代码）、数据库文件。

数据库里面主要是保存文章url和标题，主要是判断这篇文章是否是更新的，如果已经采集发布了就不要重复发布了，如果不存在文章就是最新的文章，需要写入数据库并发布文章。数据库就一个表几个字段就好，采用的sqlite3，数据库文件db.dll建表如下：

CREATE TABLE history (
id    INTEGER         PRIMARY KEY ASC AUTOINCREMENT,
url   VARCHAR( 100 ),
title TEXT,
date  DATETIME        DEFAULT ( ( datetime( 'now', 'localtime' )  )  )
);
架构设计如下：

│ db.dll #sqlite数据库
│ dede.py #测试dede登陆接口
│ function.py #公共函数
│ run.py #爬虫集开始函数
│ settings.py #爬虫配置设置
│ spiders.py #爬虫示例
│ sqlitestudio-2.1.5.exe #sqlite数据库编辑工具
│ __init__.py #前置方法供模块用

dede.py如下：

#!/usr/bin/python
#coding:utf8
import requests,random,time
import lxml

#定义域名
domain = "http://127.0.0.2/"
admin_dir = "dede/"
houtai = domain + admin_dir
username = "admin"
password = "admin"

#访问登陆接口保持cookies
sid = requests.session()
login_url = houtai + "index.php?username=" + username + "&password=" + password
header = { "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:44.0) Gecko/20100101 Firefox/44.0",
"Referer" : domain
}

#登陆接口获取Cookies
loadcookies = sid.get(url = login_url,headers = header)

#定义可变字段
article['source'] = "文章来源" #文章来源
article['writer'] = "文章作者" #文章作者
article['typeid'] = "2" #主栏目ID

#定义提交文章请求URL
article_request = houtai + "article_add.php"

"""
#测试提交数据
article['title'] = "11测试_文章标题" #文章标题
article['body'] = "11测试_文章内容" #文章内容
#提交后会自动重定向生成html，http返回状态为200则成功！
res = sid.post(url = article_request,data = article, headers = header)
print res
"""

"""
for i in range(50):
article['title'] = str(i) + "_文章标题" #文章标题
article['body'] = str(i) + "_文章内容" #文章内容
#print article
res = sid.post(url = article_request,data = article, headers = header)
print res
"""

function.py如下：

coding:utf-8

from settings import *

#检查数据库中是否存在文章,0为不存在,1为存在
def res_check(article):
exec_select = "SELECT count(*) FROM history WHERE url = '%s' AND title = '%s' "
res_check = cur.execute(exec_select % (article[0],article[1]))
for res in res_check:
result = res[0]
return result

#写入数据库操作
def res_insert(article):
exec_insert = "INSERT INTO history (url,title) VALUES ('%s','%s')"
cur.execute(exec_insert % (article[0],article[1]))
conn.commit()

#模拟登陆发布文章
def send_article(title,body,typeid = "2"):
article['title'] = title #文章标题
article['body'] = body #文章内容
article['typeid'] = "2"
#print article
#提交后会自动重定向生成html，http返回状态为200则成功！
res = sid.post(url = article_request,data = article, headers = header)
#print res
if res.status_code == 200 :
#print u"send mail!"
send_mail(title = title,body = body)
print u"success article send!"
else:
#发布文章失败处理
pass

#发邮件通知send_mail(收件，标题，内容)
def send_mail(title,body):
shoujian = "[email protected]"

设置服务器，用户名、密码以及邮箱的后缀

mail_user = "610358898"
mail_pass="你的邮箱密码"
mail_postfix="qq.com"
me=mail_user+"<"+mail_user+"@"+mail_postfix+">"
msg = MIMEText(body, 'html', 'utf-8')
msg['Subject'] = title
#msg['to'] = shoujian
try:
    mail = smtplib.SMTP()
    mail.connect("smtp.qq.com")#配置SMTP服务器
    mail.login(mail_user,mail_pass)
    mail.sendmail(me,shoujian, msg.as_string())
    mail.close()
    print u"send mail success!"
except Exception, e:
    print str(e)
    print u"send mail exit!"

run.py如下：

-- coding: utf-8 --

import spiders
#开始第一个爬虫
spiders.start()

settings.py如下：

coding:utf-8

import re,sys,os,requests,lxml,string,time,random,logging
from bs4 import BeautifulSoup
from lxml import etree
import smtplib
from email.mime.text import MIMEText
import sqlite3
import HTMLParser

#刷新系统
reload(sys)
sys.setdefaultencoding( "utf-8" )
#定义当前时间
#now = time.strftime( '%Y-%m-%d %X',time.localtime())

#设置头信息
headers={ "User-Agent":"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.152 Safari/537.36",
"Accept":"/",
"Accept-Language":"zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
"Accept-Encoding":"gzip, deflate",
"Content-Type":"application/x-www-form-urlencoded; charset=UTF-8",
"Connection":"keep-alive",
"X-Requested-With":"XMLHttpRequest",
}
domain = u"北京软件外包".decode("string_escape") #要替换的超链接
html_parser = HTMLParser.HTMLParser() #生成转义器

########################################################dede参数配置

#定义域名
domain = "http://127.0.0.2/"
admin_dir = "dede/"
houtai = domain + admin_dir
username = "admin"
password = "admin"

#登陆接口获取Cookies
loadcookies = sid.get(url = login_url,headers = header)

#定义可变字段
article['source'] = "文章来源" #文章来源
article['writer'] = "文章作者" #文章作者

#定义提交文章请求URL
article_request = houtai + "article_add.php"

########################################################数据库配置

#建立数据库连接
conn = sqlite3.connect("db.dll")
#创建游标
cur = conn.cursor()

spiders.py如下：

coding:utf-8

from settings import
from function import

#获取内容, 文章url,文章内容xpath表达式
def get_content( url = "http://www.zhongkerd.com/news/content-1389.html" , xpath_rule = "//html/body/div[3]/div/div[2]/div/div[2]/div/div[1]/div/div/dl/dd" ):
html = requests.get(url,headers = headers).content
tree = etree.HTML(html)
res = tree .xpath(xpath_rule)[0]
res_content = etree.tostring(res) #转为字符串
res_content = html_parser.unescape(res_content) #转为html编码输出
res_content = res_content.replace('\t','').replace('\n','') #去除空格 .replace(' ','')，换行符，制表符
return res_content
#获取结果,url列表
def get_article_list(url = "http://www.zhongkerd.com/news.html" ):
body_html = requests.get(url,headers = headers).content
#print body_html
soup = BeautifulSoup(body_html,'lxml')
page_div = soup.findall(name = "a",href = re.compile("content"),class="w-bloglist-entry-link")
#print page_div
list_url = []
for a in page_div:
#print a
#print a.get('href')
#print a.string
list_url.append((a.get('href'),a.string))
#print get_content(a.get('href'))
else:
#print list_url
return list_url
#处理采集页面
def res_content(url):
content = get_content(url)
#print content
info = re.findall(r'

(.*?)

',content,re.S)[0] #去掉dd标签

re_zhushi = re.compile(r'') #HTML注释
re_href = re.compile(r'<\s*a[^>]*>[^<](.*?)*<\s*/\s*a\s*>') #去出超链接,替换
re_js = re.compile(r'<\s*script[^>]*>[^<](.*?)*<\s*/\s*script\s*>') #去出 javascript
re_copyright = re.compile(r'(.*?)
') #去出 版权信息 #r'' 注意处理换行要

info = re_zhushi.sub('',info,re.S)
info = re_href.sub(domain,info,re.S)
#print content
#exit()
info = re_copyright.sub(u"",info,re.S)
info = info.replace(u'\xa0', u' ') #防止gbk转btf输出错误
#print info
return info

#处理结果
def caiji_result():
article_list = get_article_list()
#print article_list
#判断是否数据库中是否有，是否写入数据库
for article in article_list:
#print res_check(article)
#判断是否需要写入
if not res_check(article):
#print "no" #u"不存在需要写入"
res_insert(article)
#写入后需要发布文章
body = res_content(article[0])
send_article(title = article[1],body = body)
else:
#print "yes" #u"已经存在不需要写入"
pass
#爬虫调用函数
def start():
caiji_result()


__init__.py用于发布模块时用。

写完了、是不是发现和scrapy基础功能有点像呢。。。

爬虫技术抓取网站数据被限制怎么处理 Bearjumpingcandy 爬虫
爬虫技术用于抓取网站数据时，可能会遇到一些限制，常见的包括反爬机制、速率限制、IP封禁等。以下是应对这些情况的一些策略：尊重robots.txt：每个网站都有robots.txt文件，遵循其中的规定可以避免触犯网站的抓取规则。设置合理频率：控制爬虫请求的速度，通过添加延迟或使用代理服务器，减少对目标网站的压力。使用代理：获取并使用代理IP地址可以更换访问来源，降低被识别的可能性。模拟用户行为：使用
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML代码，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML中提取出所需的数据，如文
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是指通过程序自动访问网页并提取数据的技术。一般来说，爬虫技术包含以下几个步骤：确定目标网站：确定需要抓取的网站，并了解其页面结构和数据特点。分析页面结构：分析网页的结构和源代码，找到需要抓取的数据在页面中的位置和标识。编写爬虫程序：使用编程语言（如Python）编写爬虫程序，实现对目标网站的自动访问和数据提取。处理抓取数据：对抓取到的数据进行清洗、去重、整合等处理，以便后续的分析和利用。爬
Python数据分析之股票信息可视化实现matplotlib Blogfish Python3 大数据 python 可视化数据分析
今天学习爬虫技术数据分析对于股票信息的分析及结果呈现，目标是实现对股票信息的爬取并对数据整理后，生成近期成交量折线图。首先，做这个案例一定要有一个明确的思路。知道要干啥，知道用哪些知识，有些方法我也记不住百度下知识库很强大，肯定有答案。有思路以后准备对数据处理，就是几个方法使用了。接口地址参考：Tushare数据涉及知识库：tushare-一个财经数据开放接口；pandas-实现将数据整理为表格，
Python爬虫入门实战：抓取CSDN博客文章 A Bug's Code Journey 爬虫 python
一、前言在大数据时代，网络上充斥着海量的信息，而爬虫技术就是解锁这些信息宝库的钥匙。Python，以其简洁易读的语法和强大的库支持，成为编写爬虫的首选语言。本篇博客将从零开始，带你一步步构建一个简单的Python爬虫，抓取CSDN博客的文章标题和链接。二、环境准备在开始之前，确保你的环境中安装了Python和以下必要的库：1.requests：用于发送HTTP请求2.BeautifulSoup：用
爬虫入门教程：爬虫概述会三十六变的猫爬虫爬虫 python 大数据
在数字化时代，数据已经成为我们生活和工作中不可或缺的一部分。而如何高效、准确地获取这些数据，成为了许多领域面临的共同问题。今天，我们就来一起探讨一下爬虫技术，这个能够自动从互联网上抓取信息的神奇工具。一、什么是爬虫简单来说，爬虫（WebCrawler）是一种按照一定规则，自动抓取互联网信息的程序或者脚本。它通过模拟人类浏览器的行为，向目标网站发送请求，然后解析并提取返回的数据。这些数据可以是网页的
Haskell爬虫：连接管理与HTTP请求性能小白学大数据 python 爬虫 http 网络协议开发语言 python
爬虫技术作为数据抓取的重要手段，其效率和性能直接影响到数据获取的质量与速度。Haskell，作为一种纯函数式编程语言，以其强大的类型系统和并发处理能力，在构建高效爬虫方面展现出独特的优势。本文将探讨在Haskell中如何通过连接管理和HTTP请求优化来提升爬虫的性能。连接管理的重要性在HTTP请求中，连接管理是一个关键因素。有效的连接管理可以减少建立和关闭连接的开销，提高请求的响应速度。在Hask
基于Django开发的电商购物平台(完整项目介绍 --＞项目环境 , 项目完整代码 , 项目服务器/虚拟机部署) 攒了一袋星辰 Django项目之电商购物商城 django 服务器 python
1-10_Django项目实战文档本网站是基于Django+uwsgi+nginx+MySQL+redis+linux+requests开发的电商购物系统,以及通过使用爬虫技术批量获取商品数据.实现客户端:注册,登录,浏览记录保存,购物车,订单等功能实现管理端:商品添加,用户管理等功能项目内容较多,该博文只是对整体的大致思路介绍,如有疑问可以私信博主项目的完整代码可见博主主页上传的资源项目git地
在BrowserStack上进行自动化爬虫测试的终极指南亿牛云爬虫专家爬虫代理 python 代理IP 自动化爬虫 python 爬虫代理代理IP BrowserStack 浏览器
一、背景介绍随着互联网的快速发展，数据变得越来越宝贵，爬虫技术已成为从网页中提取信息的重要工具。然而，在不同的环境中测试和运行爬虫脚本可能会带来挑战。尤其是在多浏览器、多平台的环境中确保爬虫的稳定性和兼容性是一个令人头疼的问题。BrowserStack，一个领先的跨浏览器测试平台，为解决这一问题提供了强大的工具和服务。本指南将带你深入了解如何在BrowserStack上进行自动化爬虫测试，并展示如
Java IO异常处理：在Web爬虫开发中的实践小白学大数据 python java 前端爬虫
在当今的互联网时代，Web爬虫技术已经成为数据采集的重要手段之一。它们能够自动地从网页中提取信息，为数据分析、搜索引擎优化、内容聚合等提供了强大的支持。然而，Web爬虫在执行过程中可能会遇到各种输入/输出（IO）异常，如网络错误、文件读写问题等。因此，有效地处理这些异常对于确保爬虫的稳定性和可靠性至关重要。本文将探讨Java中IO异常处理的机制，并展示如何在Web爬虫开发中实践这些机制。JavaI
C# 爬虫技术：京东视频内容抓取的实战案例分析小白学大数据 python c#爬虫开发语言 python
摘要随着互联网技术的飞速发展，数据的获取和分析变得愈发重要。爬虫技术作为数据获取的重要手段之一，广泛应用于各个领域。本文将重点探讨C#语言在京东视频抓取中的实现过程，分析其技术细节，并提供相应的代码实现。引言京东作为中国领先的电商平台，拥有海量的商品信息和用户数据。通过爬虫技术，我们可以从京东网站抓取视频数据，用于市场分析、用户行为研究等。C#作为一种强大的编程语言，提供了丰富的网络编程接口，非常
Java爬虫开发：Jsoup库在图片URL提取中的实战应用小白学大数据 python java 爬虫开发语言测试工具前端 javascript
在当今的互联网时代，数据的获取和处理变得尤为重要。对于网站内容的自动化抓取，爬虫技术扮演着不可或缺的角色。Java作为一种广泛使用的编程语言，拥有丰富的库支持网络爬虫的开发。其中，Jsoup库以其简洁、高效的特点，成为处理HTML内容和提取数据的优选工具。本文将详细介绍如何使用Jsoup库开发Java爬虫，以实现图片URL的提取。Jsoup库简介Jsoup是一个用于解析HTML文档的Java库，它
Python爬虫技术深度解析与实战案例我的运维人生 python 爬虫开发语言
一、引言随着互联网的快速发展，网络数据已成为人们获取信息、进行研究的重要资源。Python作为一种功能强大且易于学习的编程语言，在爬虫领域有着广泛的应用。本文将详细介绍Python爬虫技术的基本原理、核心组件，并通过一个实战案例展示Python爬虫的实际应用。二、Python爬虫技术概述Python爬虫是指利用Python编写程序，自动从互联网上抓取信息的工具。其基本原理是通过模拟浏览器发送HTT
Python爬虫系列总结 qformat python 爬虫开发语言
Python爬虫系列总结包含（Scrapy框架介绍）文章目录Python爬虫系列总结包含（Scrapy框架介绍）一、前言二、Python爬虫的基础三、Python爬虫进阶四、简易爬虫总结五、Python爬虫框架六、爬虫部署一、前言随着WEB2.0时代的到来，网络已经成为了人们获取信息的重要途径，而爬虫技术可以让我们从海量的网络数据中快速地获取我们想要的信息。Python是一种简单易学、功能强大的编
爬虫业务为什么一定要用住宅代理辅助晓生谈跨境爬虫网络
数据对于企业和个人用户而言尤为重要。而爬虫技术作为一种高效获取网络数据的方式，受到越来越多的关注和应用。然而，随着网络安全的不断提升和网站反爬虫机制的增强，爬虫业务面临诸多挑战。在这样的背景下，选择住宅代理辅助爬虫业务成为了一种明智的选择。本文将探讨为什么爬虫业务一定要选住宅代理辅助，并阐述住宅代理的优势和应用场景，为企业和个人用户提供全面的指南和建议。一、爬虫业务的挑战与问题1.IP封禁：网站为
用爬虫玩转石墨文档细解程序员小羊！ selenium自动化爬虫石墨文档
您好，我是程序员小羊！前言石墨文档是一款受欢迎的在线协作工具，它允许多人实时编辑和共享文档。通过爬虫技术，我们可以自动化地获取石墨文档中的内容，进行数据分析或备份。不过，在使用爬虫技术时，务必遵循相关法律法规及服务条款，确保不违反用户隐私或服务协议。一、爬虫概述与基础知识爬虫，也称为网络蜘蛛，是一种自动化程序，用于访问网页并提取信息。常见的爬虫工具包括Python的requests、Beautif
为什么搜索引擎可以检索到网站？程序员T哥搜索引擎爬虫网络安全网络爬虫网络协议 java python
搜索引擎和爬虫，基于百度举例为什么搜索引擎可以快速检索到所有对应页面？搜索引擎能够快速检索到所有对应页面，主要归功于以下几个方面：爬虫技术：自动遍历互联网上的网页。索引：将爬取的网页内容转换成数据结构存储。关键词匹配：检索包含用户输入关键词的网页。页面排名：使用复杂算法对搜索结果排序。数据库技术：处理和存储大量数据。分布式计算：提高处理速度。缓存机制：快速返回热门查询结果。用户行为分析：优化搜索结
快速收集信息，Python爬虫教你一招爬取豆瓣Top250信息！不想秃头的里里
随着科技不断发展，互联网已经进入了大数据时代。我们过去只能通过报刊杂志、电视广播获取到有限的信息，而现在，互联网上的海量数据，让我们享受到了信息自由。但是，我们获取到了海量的信息同时，也带来了大量的垃圾信息。所以必须要通过一些技术手段进行收集、整理、分析、筛选，然后才能获取到对我们有用的相关内容。而这个技术手段，就叫网络爬虫技术。前两天老铁跟我吐槽，他的老板突然要他收集豆瓣电影Top250榜单上的
爬虫技巧分享：掌握高效数据抓取的艺术 shiming8879 爬虫 python
爬虫技巧分享：掌握高效数据抓取的艺术在当今数据驱动的世界里，爬虫技术成为了获取网页信息、分析数据不可或缺的工具。无论是学术研究、市场调研，还是商业智能，爬虫都扮演着重要的角色。然而，要编写出高效、稳定的爬虫，并非易事。本文将为你分享一系列爬虫技巧，帮助你更好地掌握数据抓取的艺术。一、基础篇：构建稳健的爬虫基础选择合适的库和工具在开始编写爬虫之前，选择合适的库和工具至关重要。Python作为一门简洁
2024年爬虫能力晋升图谱16个维度青舰海淘SaaS代购独立站爬虫技能晋升路线爬虫 python
哈哈，说起Python爬虫，那可是咱们程序员江湖里的一股“清风”啊！不是吹，是真的“清风”——它无声无息地穿梭于网页之间，搜集着那些宝贵的数据。兼职接单、爬取小说电影榜单、商业化的数据收集？哎呀，这简直就是爬虫小弟的日常小case嘛！不过话说回来，这爬虫技术嘛，还真不是闹着玩的。你问我爬虫技术能不能达到巅峰？嘿嘿，这我就得跟你开个玩笑了——巅峰？不存在的！在咱们程序员的世界里，只有更高，没有最高！
用爬虫玩转石墨文档 Small Cow 爬虫爬虫石墨文档
要“玩转”石墨文档（一种在线协作文档服务）使用爬虫技术，我们需要先明确几个关键点：合法性与道德性：确保你的行为符合法律法规及石墨文档的服务条款。通常情况下，未经允许抓取他人文档内容是不被允许的。目的与用途：你希望通过爬虫实现什么样的功能？比如是想批量下载自己创建或有权访问的文档，还是想要监控某些文档的变化等。技术层面的考虑1.石墨文档API官方API：如果目的是自动化处理自己的文档或与团队协作相关
如何在Java、C、Ruby语言中使用Newscatcher API 幂简集成 API实战指南 java c语言 ruby API
Newscatcher世界实时新闻聚合API一款强大的数据服务工具，它通过先进的网络爬虫技术，实时从全球超过70,000个新闻源聚合新闻内容。这个API能够提供全面、多角度的新闻报道，包括但不限于标题、作者、发布日期、全文内容以及媒体资源链接。它使开发人员能够访问全球的实时新闻文章。世界实时新闻聚合API的优势是什么？全面性：提供来自世界各地超过70000个新闻源的报道。详细信息：与GoogleN
Python爬虫技术案例集锦 hummhumm python 爬虫开发语言 django flask flink java
让我们通过几个实际的案例来说明如何使用Python编写网络爬虫。这些案例将涵盖从简单的静态网页爬取到较为复杂的动态网站交互，并且还会涉及到数据清洗、存储和分析的过程。案例1:简单的静态网页爬虫假设我们需要从一个简单的静态新闻网站上抓取文章标题和链接。Python代码我们将使用requests库来获取网页内容，使用BeautifulSoup来解析HTML。importrequestsfrombs4i
什么是分布式搜索引擎罗彬桦分布式搜索引擎搜索引擎分布式
什么是分布式搜索引擎搜索引擎所谓搜索引擎，就是根据用户需求与一定算法，运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术，如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等，为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等，同时可添加其他一系列辅助模块，以为用户创造更好的网络使用环境。分布
Python爬虫项目（附源码）70个Python爬虫练手实例！硬核Python 职业与发展 python 编程 python 爬虫开发语言
文章目录Python爬虫项目70例（一）：入门级Python爬虫项目70例（二）：pyspiderPython爬虫项目70例（三）：scrapyPython爬虫项目70例（四）：手机抓取相关Python爬虫项目70例（五）：爬虫进阶部分Python爬虫项目70例（六）：验证码识别技术Python爬虫项目70例（七）：反爬虫技术读者福利1、Python所有方向的学习路线2、Python课程视频3、精
爬虫技术抓取网站数据 Bearjumpingcandy 爬虫
爬虫技术是一种自动化获取网站数据的技术，它可以模拟人类浏览器的行为，访问网页并提取所需的信息。以下是爬虫技术抓取网站数据的一般步骤：发起HTTP请求：爬虫首先会发送HTTP请求到目标网站，获取网页的内容。解析HTML：获取到网页内容后，爬虫会使用HTML解析器解析HTML文档，提取出需要的数据。数据提取：通过使用XPath、CSS选择器或正则表达式等工具，爬虫可以从HTML文档中提取出所需的数据，
python 使用selenium等爬虫技术爬取某华网叶宇燚 Python python selenium 爬虫
本程序可以根据时间要求获取某华网上不同模块的新闻内容，时间要求包括设置截止日期，以及时间间隔，比如说获取距离2023-04-20一天以内的新闻。主要使用了selenium有关的爬虫技术，具体实现如下：目录目录一、SpiderXinhua类的基础属性二、日期获取与格式转换的函数timeinhref三、得到可用的网页链接need_hrefget四、单模块新闻获取xinhua_onemokuai_url
零基础如何高效的学习好Python爬虫技术？ IT青年
如何高效学习Python爬虫技术？大部分Python爬虫都是按“发送请求-获得页面-解析页面-抽取并储存内容”流程来进行抓取，模拟人们使用浏览器获取网页信息的过程。高效学习Python爬虫技术的步骤：1、学Python网络爬虫基础知识学Python网络爬虫时先了解Python基本常识，变量、字符串、列表、字典、元组、操控句子、语法等，把基础打牢，在做案例时能知道运用的是哪些知识点。此外还需求了解一
基于python的网络舆情系统通用框架悟空在散步产品相关舆情系统爬虫系统舆情框架爬虫产品框架
一、前言网络舆情是目前各类企业和机构研究的热点内容，舆情数据种类繁多衍生出各类舆情系统。舆情系统的数据来源可以通过数据网站进行购卖，更多的可以利用网络爬虫技术进行数据爬取。舆情系统整体上应具有数据采集、数据分析、信息预警等基本功能。利用python丰富的外部库可以快速进行系统的搭建及开发，笔者根据相关的项目经验设计了一套基于python的舆情通用框架，用于快速搭建舆情数据产品。二、系统总体框架系统
基于情感分析的网上图书推荐系统 qq405425197 Python python django
项目：基于情感分析的网上图书推荐系统摘要基于网络爬虫的数据可视化服务系统是一种能自动从网络上收集信息的工具，可根据用户的需求定向采集特定数据信息的工具，本项目通过研究爬取网上商品评论信息实现商品评论的情感分析系统功能。对于采集商品评论信息数量较少的工作而言，实现一个网页下载程序不会很麻烦，但是，当从网络上采集海量信息的时候，爬虫系统的实现将变得十分复杂。商品评论的情感分析系统信息网络爬虫技术仅仅处
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象

Python爬虫结合dedecms自动采集发布

coding:utf-8

设置服务器，用户名、密码以及邮箱的后缀

-- coding: utf-8 --

coding:utf-8

coding:utf-8

你可能感兴趣的:(爬虫技术)