枫奇

python爬虫(17)爬出新高度_抓取微信公众号文章（selenium+phantomjs）（上）

抓取微信公众号的文章

一.思路分析

目前所知晓的能够抓取的方法有：

1、微信APP中微信公众号文章链接的直接抓取（http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=ece37deaba0c8ebb9badf07e5a5a3bd3&scene=0#rd）

2、通过微信合作方搜狗搜索引擎（http://weixin.sogou.com/），发送相应请求来间接抓取

第1种方法中，这种链接不太好获取，而且他的规律不是特别清晰。

因此本文采用的是方法2----通过给 weixin.sogou.com 发送即时请求来实时解析抓取数据并保存到本地。

二.爬取过程

1、首先在搜狗的微信搜索页面测试一下，这样能够让我们的思路更加清晰

在搜索引擎上使用微信公众号英文名进行“搜公众号”操作（因为公众号英文名是公众号唯一的，而中文名可能会有重复，同时公众号名字一定要完全正确，不然可能搜到很多东西，这样我们可以减少数据的筛选工作，只要找到这个唯一英文名对应的那条数据即可），即发送请求到'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_= ' % 'python'，并从页面中解析出搜索结果公众号对应的主页跳转链接。

2.获取主页入口内容

使用request , urllib,urllib2,或者直接使用webdriver+phantomjs等都可以

这里使用的是request.get()的方法获取入口网页内容

		# 爬虫伪装头部设置
		self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}
		
		# 设置操作超时时长
		self.timeout = 5
		
		# 爬虫模拟在一个request.session中完成
		self.s = requests.Session()

	#搜索入口地址，以公众为关键字搜索该公众号	
	def get_search_result_by_keywords(self):
		self.log('搜索地址为：%s' % self.sogou_search_url)
		return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).content

3.获取公众号地址

从获取到的网页内容中，得到公众号主页地址，这一步骤有很多方法， beautifulsoup、webdriver，直接使用正则，pyquery等都可以

这里使用的是pyquery的方法来查找公众号主页入口地址

	#获得公众号主页地址
	def get_wx_url_by_sougou_search_html(self, sougou_search_html):
		doc = pq(sougou_search_html)
		#print doc('p[class="tit"]')('a').attr('href')
		#print doc('div[class=img-box]')('a').attr('href')
		#通过pyquery的方式处理网页内容，类似用beautifulsoup，但是pyquery和jQuery的方法类似，找到公众号主页地址
		return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')

4.获取公众号主页的文章列表

首先需要加载公众号主页，这里用的是phantomjs+webdriver, 因为这个主页的内容需要JS 渲染加载，采用之前的方法只能获得静态的网页内容

	#使用webdriver 加载公众号主页内容，主要是js渲染的部分
	def get_selenium_js_html(self, url):
		browser = webdriver.PhantomJS() 
		browser.get(url) 
		time.sleep(3) 
		# 执行js得到整个页面内容
		html = browser.execute_script("return document.documentElement.outerHTML")
		return html

得到主页内容之后，获取文章列表，这个文章列表中有我们需要的内容

	#获取公众号文章内容
	def parse_wx_articles_by_html(self, selenium_html):
		doc = pq(selenium_html)
		print '开始查找内容msg'
		return doc('div[class="weui_media_box appmsg"]')
		
		#有的公众号仅仅有10篇文章，有的可能多一点
		#return doc('div[class="weui_msg_card"]')#公众号只有10篇文章文章的

5.解析每一个文章列表，获取我们需要的信息

6.处理对应的内容

包括文章名字，地址，简介，发表时间等

7.保存文章内容

以html的格式保存到本地

同时将上一步骤的内容保存成excel 的格式

8.保存json数据

这样，每一步拆分完，爬取公众号的文章就不是特别难了。

三、源码

第一版源码如下：

#!/usr/bin/python
# coding: utf-8

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver

import requests
import time
import re
import json
import os


class weixin_spider:
	def __init__(self, kw):
		' 构造函数 '
		self.kw = kw
		# 搜狐微信搜索链接
		#self.sogou_search_url = 'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.kw)
		self.sogou_search_url = 'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.kw)
								
		# 爬虫伪装
		self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 FirePHP/0refox/47.0 FirePHP/0.7.4.1'}
		
		# 操作超时时长
		self.timeout = 5
		self.s = requests.Session()
		
	def get_search_result_by_kw(self):
		self.log('搜索地址为：%s' % self.sogou_search_url)
		return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).content
 
	def get_wx_url_by_sougou_search_html(self, sougou_search_html):
		' 根据返回sougou_search_html，从中获取公众号主页链接 '
		doc = pq(sougou_search_html)
		#print doc('p[class="tit"]')('a').attr('href')
		#print doc('div[class=img-box]')('a').attr('href')
		#通过pyquery的方式处理网页内容，类似用beautifulsoup，但是pyquery和jQuery的方法类似，找到公众号主页地址
		return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
 
	def get_selenium_js_html(self, wx_url):
		' 执行js渲染内容，并返回渲染后的html内容 '
		browser = webdriver.PhantomJS() 
		browser.get(wx_url) 
		time.sleep(3) 
		# 执行js得到整个dom 
		html = browser.execute_script("return document.documentElement.outerHTML")
		return html
 
	def parse_wx_articles_by_html(self, selenium_html):
		' 从selenium_html中解析出微信公众号文章 '
		doc = pq(selenium_html)
		return doc('div[class="weui_msg_card"]')
 
	def switch_arctiles_to_list(self, articles):
		' 把articles转换成数据字典 '
		articles_list = []
		i = 1
 
		if articles:
			for article in articles.items():
				self.log(u'开始整合(%d/%d)' % (i, len(articles)))
				articles_list.append(self.parse_one_article(article))
				i += 1
				# break
 
		return articles_list
		
	def parse_one_article(self, article):
		' 解析单篇文章 '
		article_dict = {}
		
		article = article('.weui_media_box[id]')
		
		title = article('h4[class="weui_media_title"]').text()
		self.log('标题是： %s' % title)
		url = 'http://mp.weixin.qq.com' + article('h4[class="weui_media_title"]').attr('hrefs')
		self.log('地址为： %s' % url)
		summary = article('.weui_media_desc').text()
		self.log('文章简述： %s' % summary)
		date = article('.weui_media_extra_info').text()
		self.log('发表时间为： %s' % date)
		pic = self.parse_cover_pic(article)
		content = self.parse_content_by_url(url).html()
		
		contentfiletitle=self.kw+'/'+title+'_'+date+'.html'
		self.save_content_file(contentfiletitle,content)
		
		return {
			'title': title,
			'url': url,
			'summary': summary,
			'date': date,
			'pic': pic,
			'content': content
		}
		
	def parse_cover_pic(self, article):
		' 解析文章封面图片 '
		pic = article('.weui_media_hd').attr('style')
		
		p = re.compile(r'background-image:url\((.*?)\)')
		rs = p.findall(pic)
		self.log( '封面图片是：%s ' % rs[0] if len(rs) > 0 else '')
		
		return rs[0] if len(rs) > 0 else ''
 
	def parse_content_by_url(self, url):
		' 获取文章详情内容 '
		page_html = self.get_selenium_js_html(url)
		return pq(page_html)('#js_content')
		
	def save_content_file(self,title,content):
		' 页面内容写入文件 '
		with open(title, 'w') as f:
			f.write(content)
		
	def save_file(self, content):
		' 数据写入文件 '
		with open(self.kw+'/'+self.kw+'.txt', 'w') as f:
			f.write(content)
 
	def log(self, msg):
		' 自定义log函数 '
		print u'%s: %s' % (time.strftime('%Y-%m-%d %H:%M:%S'), msg)
 
	def need_verify(self, selenium_html):
		' 有时候对方会封锁ip，这里做一下判断，检测html中是否包含id=verify_change的标签，有的话，代表被重定向了，提醒过一阵子重试 '
		return pq(selenium_html)('#verify_change').text() != ''
	
	def create_dir(self):
		'创建文件夹'
		if not os.path.exists(self.kw):  
			os.makedirs(self.kw) 
			
 
	def run(self):
		' 爬虫入口函数 '
		#Step 0 ：  创建公众号命名的文件夹
		self.create_dir()
		
		# Step 1：GET请求到搜狗微信引擎，以微信公众号英文名称作为查询关键字
		self.log(u'开始获取，微信公众号英文名为：%s' % self.kw)
		self.log(u'开始调用sougou搜索引擎')
		sougou_search_html = self.get_search_result_by_kw()
		
		# Step 2：从搜索结果页中解析出公众号主页链接
		self.log(u'获取sougou_search_html成功，开始抓取公众号对应的主页wx_url')
		wx_url = self.get_wx_url_by_sougou_search_html(sougou_search_html)
		self.log(u'获取wx_url成功，%s' % wx_url)
		
		
		# Step 3：Selenium+PhantomJs获取js异步加载渲染后的html
		self.log(u'开始调用selenium渲染html')
		selenium_html = self.get_selenium_js_html(wx_url)
		
		# Step 4: 检测目标网站是否进行了封锁
		if self.need_verify(selenium_html):
			self.log(u'爬虫被目标网站封锁，请稍后再试')
		else:
			# Step 5: 使用PyQuery，从Step 3获取的html中解析出公众号文章列表的数据
			self.log(u'调用selenium渲染html完成，开始解析公众号文章')
			articles = self.parse_wx_articles_by_html(selenium_html)
			self.log(u'抓取到微信文章%d篇' % len(articles))
			
			# Step 6: 把微信文章数据封装成字典的list
			self.log(u'开始整合微信文章数据为字典')
			articles_list = self.switch_arctiles_to_list(articles)
			
			# Step 7: 把Step 5的字典list转换为Json
			self.log(u'整合完成，开始转换为json')
			data_json = json.dumps(articles_list)
			
			# Step 8: 写文件
			self.log(u'转换为json完成，开始保存json数据到文件')
			self.save_file(data_json)
			
			self.log(u'保存完成，程序结束')
			
# main
if __name__ == '__main__':
	
	gongzhonghao=raw_input(u'输入要爬取的公众号')
	if not gongzhonghao:
		gongzhonghao='python6359'
	weixin_spider(gongzhonghao).run()

第二版代码：

对代码进行了一些优化和整改，主要：

1.增加了excel存贮

2.对获取文章内容规则进行修改

3.丰富了注释

本程序已知缺陷：如果公众号的文章内容包括视视频，可能会报错。

#!/usr/bin/python
# coding: utf-8

'''
总的来说就是通过搜狗搜索中的微信搜索入口来爬取
2017-04-12 by Jimy_fengqi
'''

#这三行代码是防止在python2上面编码错误的，在python3上面不要要这样设置
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

from urllib import quote
from pyquery import PyQuery as pq
from selenium import webdriver
from pyExcelerator import * #导入excel相关包

import requests
import time
import re
import json
import os


class weixin_spider:

	def __init__(self, keywords):
		' 构造函数 '
		self.keywords = keywords
		# 搜狐微信搜索链接入口
		#self.sogou_search_url = 'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_=' % quote(self.keywords)
		self.sogou_search_url = 'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_=' % quote(self.keywords)
								
		# 爬虫伪装头部设置
		self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:51.0) Gecko/20100101 Firefox/51.0'}
		
		# 设置操作超时时长
		self.timeout = 5
		
		# 爬虫模拟在一个request.session中完成
		self.s = requests.Session()
		
		#excel 第一行数据
		self.excel_data=[u'编号',u'时间',u'文章标题',u'文章地址',u'文章简介']
		#定义excel操作句柄
		self.excle_w=Workbook()
		
	
	#搜索入口地址，以公众为关键字搜索该公众号	
	def get_search_result_by_keywords(self):
		self.log('搜索地址为：%s' % self.sogou_search_url)
		return self.s.get(self.sogou_search_url, headers=self.headers, timeout=self.timeout).content
	
	#获得公众号主页地址
	def get_wx_url_by_sougou_search_html(self, sougou_search_html):
		doc = pq(sougou_search_html)
		#print doc('p[class="tit"]')('a').attr('href')
		#print doc('div[class=img-box]')('a').attr('href')
		#通过pyquery的方式处理网页内容，类似用beautifulsoup，但是pyquery和jQuery的方法类似，找到公众号主页地址
		return doc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
	
	#使用webdriver 加载公众号主页内容，主要是js渲染的部分
	def get_selenium_js_html(self, url):
		browser = webdriver.PhantomJS() 
		browser.get(url) 
		time.sleep(3) 
		# 执行js得到整个页面内容
		html = browser.execute_script("return document.documentElement.outerHTML")
		return html
	#获取公众号文章内容
	def parse_wx_articles_by_html(self, selenium_html):
		doc = pq(selenium_html)
		print '开始查找内容msg'
		return doc('div[class="weui_media_box appmsg"]')
		
		#有的公众号仅仅有10篇文章，有的可能多一点
		#return doc('div[class="weui_msg_card"]')#公众号只有10篇文章文章的

		
	#将获取到的文章转换为字典
	def switch_arctiles_to_list(self, articles):
		#定义存贮变量
		articles_list = []
		i = 1
		
		#以当前时间为名字建表
		excel_sheet_name=time.strftime('%Y-%m-%d')
		excel_content=self.excle_w.add_sheet(excel_sheet_name)
		
		#遍历找到的文章，解析里面的内容
		if articles:
			for article in articles.items():
				self.log(u'开始整合(%d/%d)' % (i, len(articles)))
				#处理单个文章
				articles_list.append(self.parse_one_article(article,i,excel_content))
				i += 1
		return articles_list
	#解析单篇文章
	def parse_one_article(self, article,i,excel_content):
		article_dict = {}
		
		#获取标题
		title = article('h4[class="weui_media_title"]').text()
		self.log('标题是： %s' % title)
		#获取标题对应的地址
		url = 'http://mp.weixin.qq.com' + article('h4[class="weui_media_title"]').attr('hrefs')
		self.log('地址为： %s' % url)
		#获取概要内容
		summary = article('.weui_media_desc').text()
		self.log('文章简述： %s' % summary)
		#获取文章发表时间
		date = article('.weui_media_extra_info').text()
		self.log('发表时间为： %s' % date)
		#获取封面图片
		pic = self.parse_cover_pic(article)
		#获取文章内容
		content = self.parse_content_by_url(url).html()
		#存储文章到本地
		contentfiletitle=self.keywords+'/'+title+'_'+date+'.html'
		self.save_content_file(contentfiletitle,content)
		
		#将这些简单的信息保存成excel数据
		cols=0
		tempContent=[i,date,title,url,summary]
		for data in self.excel_data:
			excel_content.write(0,cols,data)
			excel_content.write(i,cols,tempContent[cols])
			
			cols +=1
		self.excle_w.save(self.keywords+'/'+self.keywords+'.xls')
		
		
		#返回字典数据
		return {
			'title': title,
			'url': url,
			'summary': summary,
			'date': date,
			'pic': pic,
			'content': content
		}
		
	#查找封面图片，获取封面图片地址
	def parse_cover_pic(self, article):
		pic = article('.weui_media_hd').attr('style')
		
		p = re.compile(r'background-image:url\((.*?)\)')
		rs = p.findall(pic)
		self.log( '封面图片是：%s ' % rs[0] if len(rs) > 0 else '')
		
		return rs[0] if len(rs) > 0 else ''
	#获取文章页面详情
	def parse_content_by_url(self, url):
		page_html = self.get_selenium_js_html(url)
		return pq(page_html)('#js_content')
	
	#存储文章到本地	
	def save_content_file(self,title,content):
		with open(title, 'w') as f:
			f.write(content)
	
	#存贮json数据到本地	
	def save_file(self, content):
		' 数据写入文件 '
		with open(self.keywords+'/'+self.keywords+'.txt', 'w') as f:
			f.write(content)
	#自定义log函数，主要是加上时间
	def log(self, msg):
		print u'%s: %s' % (time.strftime('%Y-%m-%d %H:%M:%S'), msg)
	#验证函数
	def need_verify(self, selenium_html):
		' 有时候对方会封锁ip，这里做一下判断，检测html中是否包含id=verify_change的标签，有的话，代表被重定向了，提醒过一阵子重试 '
		return pq(selenium_html)('#verify_change').text() != ''
	#创建公众号命名的文件夹
	def create_dir(self):
		if not os.path.exists(self.keywords):  
			os.makedirs(self.keywords) 
			
	#爬虫主函数
	def run(self):
		' 爬虫入口函数 '
		#Step 0 ：  创建公众号命名的文件夹
		self.create_dir()
		
		# Step 1：GET请求到搜狗微信引擎，以微信公众号英文名称作为查询关键字
		self.log(u'开始获取，微信公众号英文名为：%s' % self.keywords)
		self.log(u'开始调用sougou搜索引擎')
		sougou_search_html = self.get_search_result_by_keywords()
		
		# Step 2：从搜索结果页中解析出公众号主页链接
		self.log(u'获取sougou_search_html成功，开始抓取公众号对应的主页wx_url')
		wx_url = self.get_wx_url_by_sougou_search_html(sougou_search_html)
		self.log(u'获取wx_url成功，%s' % wx_url)
		
		
		# Step 3：Selenium+PhantomJs获取js异步加载渲染后的html
		self.log(u'开始调用selenium渲染html')
		selenium_html = self.get_selenium_js_html(wx_url)
		
		# Step 4: 检测目标网站是否进行了封锁
		if self.need_verify(selenium_html):
			self.log(u'爬虫被目标网站封锁，请稍后再试')
		else:
			# Step 5: 使用PyQuery，从Step 3获取的html中解析出公众号文章列表的数据
			self.log(u'调用selenium渲染html完成，开始解析公众号文章')
			articles = self.parse_wx_articles_by_html(selenium_html)
			self.log(u'抓取到微信文章%d篇' % len(articles))
			
			# Step 6: 把微信文章数据封装成字典的list
			self.log(u'开始整合微信文章数据为字典')
			articles_list = self.switch_arctiles_to_list(articles)
			
			# Step 7: 把Step 5的字典list转换为Json
			self.log(u'整合完成，开始转换为json')
			data_json = json.dumps(articles_list)
			
			# Step 8: 写文件
			self.log(u'转换为json完成，开始保存json数据到文件')
			self.save_file(data_json)
			
			self.log(u'保存完成，程序结束')
			
# main
#几个可供参考的公众号
#DataBureau  
#python6359
#ArchNotes
if __name__ == '__main__':
	print '''
			***************************************** 
			**    Welcome to Spider of 公众号       ** 
			**      Created on 2017-04-12          ** 
			**      @author: Jimy _Fengqi          ** 
			*****************************************
	'''
	gongzhonghao=raw_input(u'输入要爬取的公众号')
	if not gongzhonghao:
		gongzhonghao='python6359'
	weixin_spider(gongzhonghao).run()

四、总结

本文涉及到的知识点：

1.requests的get方法

2.爬虫header的设置

3.文件IO操作，文件夹的创建，文件的创建

4.pyquery的使用，拓展内容beautifsoup的使用

5.phantomjs +webdriver的使用，拓展 webdriver 中 xpath方法的使用

6.js 的加载

7.quote的使用

8. time 的使用系统休眠和获取当前时间，处理时间格式

9.excel 的使用

本文使用的excel 相关包 pyExcelerator

from   pyExcelerator  import * #导入excel相关包

它的安装方法：

pip  install  pyExcelerator

10.数据的存贮

11.正则表达式的使用

12.json的使用

13. 打印log 的变换方法

Python 爬虫实战：科学知识收集网站构建西攻城狮北 python 爬虫开发语言
一、引言在信息爆炸的时代，科学知识的收集与整理变得尤为重要。通过构建一个科学知识收集网站，我们可以高效地获取、整理和展示各类科学知识，为科研人员、学生以及科学爱好者提供便利。本文将详细介绍如何使用Python爬虫技术构建这样一个网站，涵盖从目标网站分析到数据存储与展示的完整流程。二、目标网站分析选择一个合适的科学知识网站作为数据源是构建收集网站的第一步。以中国科学院（http://www.cas.
Python爬虫相关内容猫猫头有亿点炸 python 爬虫开发语言
一、打开源代码的方式鉴于时间过很久后我们可能会忘记的源代码位置所以写下以下文章便于实时查看:一般有两种方法打开源代码:第一是f12第二右键查看网页源代码二、特殊情况第三种情况当你用爬虫爬取内容的时候可能用xpath还是匹配不到任何结果因为页面可能会自动刷新所以使用xpath的时候匹配不到任何内容查找源代码的示例图片三、解决办法这个时候你可以先->f12(笔记本电脑fn+f12)再->ctrl+sh
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
Python 爬虫实战：游戏论坛评论数据抓取与游戏热度分析西攻城狮北 python 开发语言爬虫
一、引言随着电子游戏产业的飞速发展，游戏论坛成为了玩家交流心得、分享体验的重要平台。通过分析游戏论坛的评论数据，我们可以了解不同游戏的热度、玩家的评价以及游戏的受欢迎程度。本文将详细介绍如何使用Python爬虫技术抓取游戏论坛的评论数据，并进行游戏热度分析。二、项目背景与目标2.1项目背景游戏论坛如Steam社区、贴吧、NGA等，拥有大量的用户和丰富的评论数据。这些数据反映了玩家对不同游戏的评价和
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
Python爬虫教程：如何通过接口批量下载视频封面（FFmpeg技术实现） Python爬虫项目 python 爬虫开发语言数据库数据分析 scrapy selenium
引言随着在线视频平台的蓬勃发展，视频封面作为视频内容的预览图，一直以来都是观众对视频的第一印象。在爬取视频资源时，很多开发者和研究者往往只关注视频本身，而忽略了视频封面。实际上，视频封面不仅能提供重要的信息（例如视频标题、主题或情感等），而且它们也能作为数据集中的重要属性，用于视频分类、推荐系统等应用。在这篇博客中，我们将深入探讨如何使用Python通过接口批量下载视频封面，利用FFmpeg等技术
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Python爬虫-请求模块urllib3 andyyah晓波 python 爬虫开发语言
Python爬虫-请求模块urllib3urllib3是一个功能强大、条理清晰，用于HTTP客户端的第三方模块，许多Python的原生系统已经开始使用urllib3。urllib3提供了很多Python标准库里所没有的重要特性：线程安全。连接池。客户端SSL/TLS验证。使用multipart编码上传文件。Helpers用于重试请求并处理HTTP重定向。支持gzip和deflate编码。支持HTT
Python爬虫-请求模块Urllib andyyah晓波 python 爬虫开发语言
Python爬虫-请求模块UrllibPython3中的Urllib模块中包含多个功能的子模块，具体内容如下：urllib.request：用于实现基本HTTP请求的模块。urllib.error：异常处理模块，如果在发送网络请求时出现了错误，可以捕获异常进行异常的有效处理。urllib.parse：用于解析URL的模块。urllib.robotparser：用于解析robots.txt文件，判断
【Python爬虫(71)】用Python爬虫解锁教育数据的奥秘奔跑吧邓邓子 Python爬虫 python 爬虫开发语言教育数据
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、确定目标网站2.1教育机构官网2.2在线学习平台三、爬
Python爬虫实战：抓取电子图书平台图书信息与下载数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫信息可视化
前言电子图书平台汇集了海量的图书资源和丰富的信息，抓取这些数据可用于研究图书销售趋势、阅读偏好分析，甚至为书籍推荐系统提供数据支持。本文将详细介绍如何使用Python爬虫技术抓取电子图书平台的图书信息和下载数据。我们会涵盖从需求分析到代码实现的完整流程，探讨如何应对复杂的反爬机制，并使用最新的技术工具优化抓取过程。目录前言一、需求分析与目标1.1抓取目标1.2难点与挑战二、技术选型与工具2.1使用
Python 爬虫实战：公开专利信息抓取与创新趋势分析系统构建西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，专利信息已成为企业和科研机构进行技术创新与竞争分析的重要资源。通过获取和分析专利数据，可以了解行业动态、技术发展趋势以及竞争对手的创新方向。本文将详细介绍如何使用Python爬虫技术抓取公开专利信息，并构建一个创新趋势分析系统。二、项目背景与目标2.1项目背景随着全球科技创新的加速，专利数量不断增加。手动查阅专利信息已无法满足高效分析的需求，因此利用Python爬虫自动抓
2024年最全Python逆向进阶：Web逆向私单_逆向工程能接爬虫私活吗(1) 2401_84692110 程序员 python 前端爬虫
可见，大家都迫切地想要掌握Python爬虫技术。很多人都表示，高阶的爬虫技术不太好上手，找到合适的练手项目也很不容易，每个人都在期待一套能快速进阶的技术速成方案。想要快速学好爬虫，尤其是可以用于变现的高阶爬虫技术，野路子的啃书自学就大可不必了，辣条推荐大家直接来参加Python爬虫实战特训营。可直接白瓢三天~↓↓↓文末的这个名片直接找我，直接参加即可↓↓↓这是一套专讲爬虫与反爬虫攻防的实战特训，迄
2024年Python逆向进阶：Web逆向私单_逆向工程能接爬虫私活吗(2) 2301_82243558 程序员 python 前端爬虫
可见，大家都迫切地想要掌握Python爬虫技术。很多人都表示，高阶的爬虫技术不太好上手，找到合适的练手项目也很不容易，每个人都在期待一套能快速进阶的技术速成方案。想要快速学好爬虫，尤其是可以用于变现的高阶爬虫技术，野路子的啃书自学就大可不必了，辣条推荐大家直接来参加Python爬虫实战特训营。可直接白瓢三天~↓↓↓文末的这个名片直接找我，直接参加即可↓↓↓这是一套专讲爬虫与反爬虫攻防的实战特训，迄
python爬虫网络中断_如何解决Python爬虫中的网络掉线问题？ weixin_39767645 python爬虫网络中断
在学校里的时候，除了上课，还有一大幸福的事情，就是用着学校的网线网络。当然玩的时候很开心，就是没事关键词时刻掉链子。时不时地网络掉线让人非常恼火，什么团战在梦游啊，看剧卡住不动了，相信能引起很多小伙伴的共鸣。所以，为了大家的快乐，小编找到了一个解决办法，分享给大家。以山东大学网络为例，别的话不多说，直接上程序__author__='CQC'#-*-coding:utf-8-*-importurll
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
python爬虫遇到IP被封的情况，怎么办？(2) 2301_82242251 程序员 python 爬虫开发语言
代理的设置：①urllib的代理设置fromurllib.errorimportURLErrorfromurllib.requestimportProxyHandler,build_opener‘’’更多Python学习资料以及源码教程资料，可以在群1136201545免费获取‘’’proxy=‘127.0.0.1:8888’#需要认证的代理#proxy=‘username:password@12
python爬虫碰到IP被封的情况，如何解决？ xinxinhenmeihao 代理IP python 爬虫 tcp/ip
在数据抓取和爬虫开发的实践中，Python作为一种功能强大且易于上手的编程语言，被广泛应用于网络数据的采集。然而，随着网络环境的日益复杂，爬虫活动也面临着越来越多的挑战，其中IP被封便是常见且棘手的问题。IP被封不仅会导致爬虫任务中断，还可能对目标网站的正常运营造成干扰。因此，了解并掌握解决Python爬虫IP被封的方法，对于爬虫开发者而言至关重要。一、IP被封的原因分析一般来说，IP被封主要源于
Python 爬虫实战：时尚网站潮流趋势数据抓取与流行趋势预测西攻城狮北 python 爬虫开发语言时尚网站
作为一名对时尚和编程都充满热情的创作者，我一直在寻找将这两者结合的方式。今天，我将带领大家进行一场独特的Python爬虫实战，通过抓取时尚网站的潮流趋势数据，预测未来的流行趋势。这不仅可以帮助时尚爱好者提前了解潮流走向，还能为时尚从业者提供决策依据。一、项目背景在当今快节奏的社会中，时尚潮流的变化速度越来越快。人们渴望及时了解最新的时尚趋势，以便跟上时代的步伐。时尚网站作为时尚信息的重要传播平台，
Python 爬虫实战：在线论坛用户活跃度分析系统构建西攻城狮北 python 爬虫开发语言
作为一名对数据分析和社区运营感兴趣的内容创作者，我决定利用Python爬虫技术抓取在线论坛的用户数据，并构建一个用户活跃度分析系统。这对于了解用户行为、提升社区活跃度和优化运营策略具有重要意义。一、项目背景在线论坛是用户交流和分享信息的重要平台。用户的活跃度直接影响论坛的氛围和价值。通过分析用户的发帖、回帖、点赞等行为数据，我们可以评估用户的活跃度，找出活跃用户和沉寂用户，为社区的精细化运营提供数
Python爬虫：从人民网提取视频链接的完整指南小白学大数据 python python 爬虫音视频开发语言大数据
无论是用于数据分析、内容提取还是资源收集，Python爬虫都因其高效性和易用性而备受开发者青睐。本文将通过一个实际案例——从人民网提取视频链接，详细介绍如何使用Python构建一个完整的爬虫程序。我们将涵盖从基础的网络请求到HTML解析，再到最终提取视频链接的全过程。一、爬虫技术概述网络爬虫（WebCrawler）是一种自动化的程序，用于在互联网上浏览网页并收集信息。它通过模拟浏览器的行为，发送H
Python爬虫实战——如何抓取电影网站票房数据及相关分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化
1.引言随着电影产业的迅速发展，电影票房数据成为了衡量电影受欢迎程度和市场表现的重要指标。分析电影的票房数据不仅有助于电影公司了解市场趋势，也为影迷和研究人员提供了宝贵的信息资源。现代电影票房数据通常发布在多个电影网站上，包括但不限于IMDb、豆瓣电影、猫眼电影等，这些网站提供了电影的详细信息，包括票房收入、评分、上映时间等。为了更好地理解电影行业的现状，本文将教您如何通过Python编写爬虫，抓
Python 爬虫实战：全球大学排名数据抓取与排名趋势分析西攻城狮北 python 爬虫开发语言大学排名
引言作为一名对教育数据和数据分析感兴趣的内容创作者，我决定利用Python爬虫技术抓取全球大学排名数据，并对排名趋势进行分析。这对于了解大学的学术表现、国际竞争力以及教育发展的动态具有重要意义。一、项目背景全球大学排名是衡量高等教育机构学术声誉和综合实力的重要指标。QS世界大学排名作为全球最具影响力的大学排名之一，每年都会发布最新的排名数据。通过抓取这些数据，我们可以分析不同大学在各个指标上的表现
使用 Python 爬虫抓取汽车品牌市场数据：销量、广告与消费者反馈 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言信息可视化 php
引言在现代商业环境中，数据已经成为最重要的资产之一，尤其在汽车行业。汽车制造商、经销商以及广告商都依赖于市场数据来优化他们的营销策略、产品开发和品牌定位。对于研究汽车行业的市场趋势和消费者反馈，抓取不同汽车品牌的市场销量、广告效果及消费者评论，已成为一项重要的任务。随着Python爬虫技术的不断发展，我们可以使用最新的技术手段来自动化抓取汽车品牌的相关数据。本文将详细介绍如何使用Python爬虫抓
市场调研新思路：Python 爬虫抓取多行业数据，剖析市场需求西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，市场调研变得愈发重要。传统的市场调研方式往往受限于高成本和低效率，而Python爬虫技术的出现为市场调研提供了新思路。通过爬虫抓取多行业数据，可以快速获取大量有价值的信息，进而剖析市场需求，为商业决策提供有力支持。本文将详细介绍如何利用Python爬虫抓取多行业数据，剖析市场需求。一、Python爬虫在市场调研中的重要性高效获取数据：能够轻松抓取海量的互联网数据，包括商品
使用 Python 爬虫抓取 Wikipedia 页面内容——完整实战教程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 json java
引言随着互联网的普及和信息化时代的到来，获取知识变得异常方便。Wikipedia作为全球最大的开放式百科全书，几乎涵盖了所有领域的知识。每年都有数十亿次的访问量，成为全球获取信息的一个重要来源。对于数据分析、自然语言处理、学术研究等领域，Wikipedia页面内容往往是研究者和开发者的重要数据来源之一。本篇博客将带您通过Python爬虫，学习如何抓取Wikipedia页面中的内容，并处理提取的文本
Python中的简单爬虫 m0_74825614 面试学习路线阿里巴巴 python 爬虫信息可视化
文章目录一.基于FastAPI之Web站点开发1.基于FastAPI搭建Web服务器2.Web服务器和浏览器的通讯流程3.浏览器访问Web服务器的通讯流程4.加载图片资源代码二.基于Web请求的FastAPI通用配置1.目前Web服务器存在问题2.基于Web请求的FastAPI通用配置三.Python爬虫介绍1.什么是爬虫2.爬虫的基本步骤3.安装requests模块4.爬取照片①查看index.
Python爬虫教程：爬取全网小说数据 Python爬虫项目 python 爬虫开发语言数据库数据分析
引言随着互联网内容的爆炸式增长，小说作为一种受欢迎的娱乐形式，已经成为了网络中最重要的内容之一。从各种在线小说平台（如起点中文网、17K小说网、红袖添香等）到免费的书籍网站，小说资源无处不在。因此，爬取全网小说数据成为了许多数据分析师、开发者以及小说爱好者的需求。本篇博客将介绍如何使用Python爬虫技术爬取全网小说数据。爬取的数据包括小说名称、作者、章节、内容等。通过本文，您将掌握如何利用Pyt
Python 爬虫实战：全球机场航班数据抓取与延误情况分析西攻城狮北 python 爬虫开发语言
在当今全球化的世界中，航空运输已成为人们出行和货物运输的重要方式。航班的准点到达对于旅客的行程安排和航空公司的运营效率至关重要。通过分析全球机场的航班数据，我们可以了解航班延误的情况及其原因，为旅客和航空公司提供有价值的参考。本文将详细介绍如何使用Python爬虫技术抓取全球机场航班数据，并进行延误情况分析。一、项目背景与目标1.项目背景随着航空业的快速发展，航班数量不断增加，航班延误问题也日益受
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

python爬虫(17)爬出新高度_抓取微信公众号文章（selenium+phantomjs）（上）

一.思路分析

二.爬取过程

三、源码

你可能感兴趣的:(python爬虫,python爬虫专题)