Mi1k7ea

Python爬虫之爬取动态页面数据

很多网站通常会用到Ajax和动态HTML技术，因而只是使用基于静态页面爬取的方法是行不通的。对于动态网站信息的爬取需要使用另外的一些方法。

先看看如何分辨网站时静态的还是动态的，正常而言含有“查看更多”字样或者打开网站时下拉才会加载内容出来的进本都是动态的，简便的方法就是在浏览器中查看页面相应的内容、当在查看页面源代码时找不到该内容时就可以确定该页面使用了动态技术。

对于动态页面信息的爬取，一般分为两种方法，一种是直接从JavaScript中采集加载的数据、需要自己去手动分析Ajax请求来进行信息的采集，另一种是直接从浏览器中采集已经加载好的数据、即可以使用无界面的浏览器如PhantomJS来解析JavaScript。

1、直接从JavaScript中采集加载的数据

示例1——爬取MTime影评信息：

随便打开一个电影的URL：http://movie.mtime.com/99547/

一开始出现转圈的加载，即可判断是动态加载的。

关注到“票房”这里：

查看源代码并找不到票房的字样：

因此可断定该内容是使用Ajax异步加载生成的。

打开FireBug，在“网络”>“JavaScript”中查看含有敏感字符的接口链接，因为是和电影相关的，就先查看含有“Movie.api?Ajax_Callback=......”字样的链接，可以查看到其中一个含有影评和票房等信息：

为了进行确认哪些参数是会变化的，再打开一个新的电影的URL并进行相同的操作进行查看：

为了方便，直接上BurpSuite的Compare模块进行比较：

可以直接看到，只有以上三个参数的值是不一样的，其余的都是相同的。其中Ajax_RequestUrl参数值为当前movie的URL，t的值为当前时间，Ajax_CallBackArgument0的值为当前电影的序号、即其URL中后面的数字。

因此就可以构造Ajax请求的URL来爬取数据，回到top 100的主页http://www.mtime.com/top/movie/top100/，分析其中的标签等然后编写代码遍历top 100所有的电影相关票房和影评信息，注意的是并不是所有的电影都有票房信息，这里需要判断即可。

代码如下：

#coding=utf-8
import requests
import re
import time
import json
from bs4 import BeautifulSoup as BS
import sys
reload(sys)
sys.setdefaultencoding('utf8')

headers = {
	'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',
}

def Get_Movie_URL():
	urls = []
	for i in range(1,11):
		# 第一页的URL是不一样的，需要另外进行处理
		if i != 1:
			url = "http://www.mtime.com/top/movie/top100/index-%d.html" % i
		else:
			url = "http://www.mtime.com/top/movie/top100/"
		r = requests.get(url=url,headers=headers)
		soup = BS(r.text,'lxml')
		movies = soup.find_all(name='a',attrs={'target':'_blank','href':re.compile('http://movie.mtime.com/(\d+)/'),'class':not None})
		for m in movies:
			urls.append(m.get('href'))
	return urls

def Create_Ajax_URL(url):
	movie_id = url.split('/')[-2]
	t = time.strftime("%Y%m%d%H%M%S0368", time.localtime())
	ajax_url = "http://service.library.mtime.com/Movie.api?Ajax_CallBack=true&Ajax_CallBackType=Mtime.Library.Services&Ajax_CallBackMethod=GetMovieOverviewRating&Ajax_CrossDomain=1&Ajax_RequestUrl=%s&t=%s&Ajax_CallBackArgument0=%s" % (url,t,movie_id)
	return ajax_url

def Crawl(ajax_url):
	r = requests.get(url=ajax_url,headers=headers)
	if r.status_code == 200:
		r.encoding = 'utf-8'
		result = re.findall(r'=(.*?);',r.text)[0]
		if result is not None:
			value = json.loads(result)

			movieTitle = value.get('value').get('movieTitle')
			TopListName = value.get('value').get('topList').get('TopListName')
			Ranking = value.get('value').get('topList').get('Ranking')
			movieRating = value.get('value').get('movieRating')
			RatingFinal = movieRating.get('RatingFinal')
			RDirectorFinal = movieRating.get('RDirectorFinal')
			ROtherFinal = movieRating.get('ROtherFinal')
			RPictureFinal = movieRating.get('RPictureFinal')
			RStoryFinal = movieRating.get('RStoryFinal')
			print movieTitle
			if value.get('value').get('boxOffice'):
				TotalBoxOffice = value.get('value').get('boxOffice').get('TotalBoxOffice')
				TotalBoxOfficeUnit = value.get('value').get('boxOffice').get('TotalBoxOfficeUnit')
				print '票房：%s%s' % (TotalBoxOffice,TotalBoxOfficeUnit)
			print '%s——No.%s' % (TopListName,Ranking)
			print '综合评分：%s 导演评分：%s 画面评分：%s 故事评分：%s 音乐评分：%s' %(RatingFinal,RDirectorFinal,RPictureFinal,RStoryFinal,ROtherFinal)
			print '****' * 20

def main():
	urls = Get_Movie_URL()
	for u in urls:
		Crawl(Create_Ajax_URL(u))

	# 问题所在，请求如下单个电影链接时时不时会爬取不到数据
	# Crawl(Create_Ajax_URL('http://movie.mtime.com/98604/'))

if __name__ == '__main__':
	main()

运行结果为：

注意到其中一些电影如No.6的是时不时才会爬取得到的，具体Json数据也是loads下来了，就是不能够每次都可以解析出来，具体的原因还没分析出来。

示例2——爬取肯德基门店信息：

以肯德基的餐厅地址为例：http://www.kfc.com.cn/kfccda/storelist/index.aspx

可以看到当前城市显示的是广州。

查看页面源代码：

发现在“当前城市”之后只有“上海”的字样而没有广州，而且城市是通过JS加载进来的，即该页面使用了动态加载技术。

到FireBug中查看JS相应的请求内容：

可以看到其中一个JS请求是用于获取城市地址的，将该URL记下用于后面的地址的自动获取然后再解析Json格式的数据即可。

获取了city信息，就应该是获取所在city的门店信息了，到XHR中查看到如下请求：

其为POST请求，提交的内容为city信息等，且返回的响应内容就是含有门店信息的Json格式的内容。

因此记录下该POST请求的URL和参数名，其中cname参数为city的值、直接从上一个Ajax请求中获取即可，pageIndex参数是指定第几页（注意门店的换页操作也是使用Ajax加载的），pageSize参数指定每页显示几家店铺、这里为默认的10。

代码如下：

#coding=utf-8
import requests
import re
import json

url = 'http://www.kfc.com.cn/kfccda/storelist/index.aspx'
ajax_url = 'http://int.dpool.sina.com.cn/iplookup/iplookup.php?format=js'
store_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'

r = requests.get(ajax_url)
result = re.findall(r'=(.*?);',r.text)[0]
value = json.loads(result)
city = value.get('city')

for i in range(1,11):
	data = {
		'cname':city,
		'pageIndex':str(i),
		'pageSize':'10',
		'pid':''
	}
	r2 = requests.post(url=store_url,data=data)
	result2 = json.loads(r2.text)
	tables = result2.get('Table1')
	for t in tables:
		print t.get('storeName')
		print t.get('addressDetail')
		print '**' * 20

运行结果：

注意，直接在命令行输出结果才会完整，不要直接在Sublime中输出否则结果会出现漏掉的：-）

2、直接从浏览器中采集已经加载好的数据

这里用到一个组合，即：PhantomJS+Selenium+Python，都需要一个个去安装，PhantomJS负责渲染解析JavaScript，Selenium负责驱动浏览器以及和Python交互，Python负责后期处理。

安装selenium：pip install selenium，另外在调用浏览器驱动时可能会报错，这时就需要下载相应的补丁，地址为：http://www.seleniumhq.org/download/

下载phantomjs解压然后在调用时执行路径executable_path上写上phantomjs.exe所在的路径即可。

Selenium练习例子：

使用Firefox浏览器的驱动来打开百度，查看输入框的标签：

可知可以通过webdriver的find_element_by_name()方法来获取标签元素进行操作。

在代码中判断是否包含“百度”字样，然后输入“Kali Linux”进行搜索，查看页面是否含有“Kali”字符，最后退出：

#coding=utf-8
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

url = 'https://www.baidu.com/'

driver = webdriver.Firefox()
driver.implicitly_wait(3) # 隐式等待
driver.get(url)

assert u"百度" in driver.title

elem = driver.find_element_by_name("wd") # 找到输入框的元素
elem.clear() # 清空输入框里的内容
elem.send_keys(u"Kali Linux") # 在输入框中输入'Kali Linux'
elem.send_keys(Keys.RETURN) # 在输入框中输入回车键
time.sleep(3)

assert u"Kali" in driver.page_source

driver.close()

期间会出现报错信息：selenium.common.exceptions.WebDriverException: Message: 'geckodriver' executable needs to be in PATH.

这是因为没有geckodriver.exe文件或者没有将其配置到环境变量中。

先去下载，个人下载的是win64版的：https://github.com/mozilla/geckodriver/releases

接着解压，将geckodriver.exe放在一个已经设置了环境变量的目录或者直接再设置新的环境变量的目录都可以，这里是直接放在Python目录中的Scripts目录中。

接着运行就没有问题了：

示例1——爬取肯德基门店信息：

这里还是使用肯德基门店的例子，直接调用webdriver的find_element_by_xpath()方法，对于餐厅名称及其地址的xpath的获取，可以直接使用FireBug中的FirePath来获取：

接着可以使用PhantomJS或者Firefox驱动都可以。

代码如下：

#coding=utf-8
from selenium import webdriver
import time

url = 'http://www.kfc.com.cn/kfccda/storelist/index.aspx'

driver = webdriver.PhantomJS(executable_path='E:\Python27\Scripts\phantomjs-2.1.1-windows\\bin\phantomjs.exe')
# 也可以使用Firefox驱动，区别在于有无界面的显示
# driver = webdriver.Firefox()

# driver.implicitly_wait(10) # 隐式等待

driver.get(url)  

# 线程休眠，和隐式等待的区别在于前者执行每条命令的超时时间是一样的而sleep()只会在调用时wait指定的时间
time.sleep(3)

for i in range(1,11):
	shopName_xpath = ".//*[@id='listhtml']/tr[" + str(i+1) + "]/td[1]"
	shopAddress_xpath = ".//*[@id='listhtml']/tr[" + str(i+1) + "]/td[2]"
	shopName = driver.find_element_by_xpath(shopName_xpath).text
	shopAddress = driver.find_element_by_xpath(shopAddress_xpath).text
	print shopName
	print shopAddress
	print '**' * 20

driver.close()

运行结果：

想换页的话直接获取该下一页的标签然后再模拟点击即可。

这里还是要注意，直接在命令行输出结果才会完整，不要直接在Sublime中输出否则结果会出现漏掉的：-）

示例2——爬取去哪儿网酒店信息：

网页为：http://hotel.qunar.com/

查看源代码中表单部分内容：

可以根据图中框出的属性来进行元素的提取，然后通过webdriver进行相应的操作。

接着对酒店信息的标签进行特征提取，这里城市选的是深圳：

根据框中的特征使用BeautifulSoup来进行提取即可。

酒店名所在标签：

酒店地址所在标签：

酒店评分所在标签：

酒店价格所在标签：

接着进行自动点击下一页操作，查看源代码：

可以看到li标签的class值为“item next ”，即中间有空格隔着，也就是其class值有多个而不是一个的意思，这样就不能使用find_element_by_class_name()而是使用find_element_by_css_selector()来获取元素，当然也可以使用find_element_by_xpath()和FirePath结合使用、但是xpath解析出来的参数会随着页面而改变，为了方便就直接使用find_element_by_css_selector()，如上述情况，多个class值的写法为find_element_by_css_selector(".item.next")

代码如下：

#coding=utf-8
import requests
import re
import time
import datetime
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup as BS

def Crawl_For_Hotel(driver, to_city, from_date, to_date):
	ele_tocity = driver.find_element_by_id('toCity')
	ele_fromdate = driver.find_element_by_id('fromDate')
	ele_todate = driver.find_element_by_id('toDate')
	ele_search = driver.find_element_by_class_name('search-btn')
	ele_tocity.clear()
	ele_tocity.send_keys(to_city)
	ele_tocity.click()
	ele_fromdate.clear()
	ele_fromdate.send_keys(from_date)
	ele_todate.clear()
	ele_todate.send_keys(to_date)
	ele_search.click()
	page_num = 0
	while True:
		try:
			WebDriverWait(driver, 10).until(
					EC.title_contains(unicode(to_city))
				)
		except Exception, e:
			print e
			break

		time.sleep(5)

		# 让driver执行JS脚本，将页面拉到底部
		js = "window.scrollTo(0, document.body.scrollHeight);"
		driver.execute_script(js)
		time.sleep(5)

		htm_const = driver.page_source
		soup = BS(htm_const,'lxml')
		names = soup.find_all(name='a',attrs={'class':'e_title js_list_name', 'href':not None, 'title':not None, 'target':'_blank'})
		addrs = soup.find_all(name='span',attrs={'class':'area_contair'})
		scores = soup.find_all(name='p',attrs={'class':'score'})
		prices = soup.find_all(name='div',attrs={'class':'hotel_price'})

		for name,addr,score,price in zip(names,addrs,scores,prices):

			# 处理地址标签及其拼接问题
			ads = re.findall(r'(.*?)',str(addr))
			addr_new = ''
			for a in ads:
				addr_new = a if addr_new == '' else addr_new + ',' + a

			score_new = re.findall(r'(.*?)',str(score))[0]

			price_new = re.findall(r'(.*?)',str(price))[0]

			print name.string
			print '价格：%s元起' % price_new
			print '评分：%s / 5分' % score_new
			print '地址：' + addr_new
			print '**' * 20

		try:
			next_page = WebDriverWait(driver, 10).until(
				# EC.visibility_of(driver.find_element_by_xpath(".//*[@id='searchHotelPanel']/div[6]/div[1]/div/ul/li[10]/a/span[1]"))
				EC.visibility_of(driver.find_element_by_css_selector(".item.next"))
				)
			next_page.click()
			page_num += 1
			time.sleep(10)
		except Exception, e:
			print e
			break

def main():
	url = 'http://hotel.qunar.com/'
	today = datetime.date.today().strftime('%Y-%m-%d')
	tomorrow = datetime.datetime.today() + datetime.timedelta(days=1)
	tomorrow = tomorrow.strftime('%Y-%m-%d')

	driver = webdriver.Firefox()
	# driver = webdriver.PhantomJS(executable_path='E:\Python27\Scripts\phantomjs-2.1.1-windows\\bin\phantomjs.exe')
	driver.set_page_load_timeout(50)
	driver.get(url)
	driver.maximize_window() # 将浏览器最大化显示
	driver.implicitly_wait(10) # 控制间隔时间，等待浏览器反应

	Crawl_For_Hotel(driver,u'深圳',today,tomorrow)

if __name__ == '__main__':
	main()

运行结果：

示例3——爬取酷狗页面实现下载歌曲

参考的文章：http://www.freebuf.com/sectool/151282.html

大致过程为，当点击播放某一首歌时，页面会请求一个MP3文件所在的URL来进行播放，这个URL可以使用BurpSuite截断或者浏览器的开发者工具看到，然后直接访问也可以进行歌曲的下载。在这里就只看如何通过webdriver来获取该URL然后实现下载。

打开酷狗主页面：http://www.kugou.com/

查看其输入框以及搜索按钮的元素标签，同样是使用FirePath来查看其xpath：

随意搜索一首歌，这里搜的是“smileyface”，然后查看第一行的歌曲的元素标签信息：

打开FireBug的网络，然后点击该链接进行播放操作：

查看Network的内容，发现其中一条请求的是一个乱取名字的URL文件，即mp3文件，可以看到它请求包的一些特征：

直接复制该URL进行访问，可以直接下载歌曲，即是我们需要查找的URL。

接着点击页面的下载按钮看看，会提示需要在客户端才能进行下载操作：

可以看到，是可以直接绕过这个限制直接下载歌曲的。

接着查看页面源代码，看到audio标签的属性src的值是不会显示出来的：

只有查看元素时才可以看到链接，即需要动态加载：

接着，直接对该URL使用urllib库的urlretrieve()方法下载即可。

但是，有一些付费歌曲在在线页面上是找不到其相应播放的URL的，需要下载客户端才可以播放：

所以要在下载时进行判断以免下载了不是MP3的文件。

代码如下：

#coding=utf-8
import requests
import re
import time
import urllib
import sys
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException

def Download_The_Song(url):
	try:
		print "[*]Start to download the song..."
		path = "%s.mp3" % name
		urllib.urlretrieve(url, path, Schedule)
		print '\n[+]Download successfully!'
	except Exception, e:
		print '[-]Failed to download.'
		print e

def Crawl_For_The_URL():
	print
	song_name = raw_input("[*]Please input the name of song for search: ")
	global name

	url = 'http://www.kugou.com/'
	driver = webdriver.Chrome()
	driver.maximize_window()
	driver.get(url)
	# time.sleep(3)

	# 输入歌曲名并进行搜索操作
	ele_input = driver.find_element_by_xpath('html/body/div[1]/div[1]/div[1]/div[1]/input')
	ele_input.clear()
	ele_input.send_keys(song_name.decode('gbk'))
	ele_search = driver.find_element_by_xpath('html/body/div[1]/div[1]/div[1]/div[1]/div/i')
	ele_search.click()
	songs_list_url = driver.current_url

	# 获取歌曲列表的名称
	driver.get(songs_list_url)
	# time.sleep(3)
	i = 1
	while True:
		try:
			ele_song = driver.find_element_by_xpath(".//*[@id='search_song']/div[2]/ul[2]/li[%d]/div[1]/a"%i)
			print "%d." % i + ele_song.get_attribute('title')
			i += 1
		except NoSuchElementException as msg:
			break

	# 获取用户输入的数字进行相应歌曲下载URL的提取
	print
	num_input = raw_input("[*]Please choose the number of the song to download: ")
	num = int(num_input)
	driver.get(songs_list_url)
	# time.sleep(3)
	ele_choosed_song = driver.find_element_by_xpath(".//*[@id='search_song']/div[2]/ul[2]/li[%d]/div[1]/a"%num)
	name = ele_choosed_song.get_attribute('title')
	ele_choosed_song.click()
	driver.switch_to_window(driver.window_handles[1])
	download_url = driver.find_element_by_xpath(".//*[@id='myAudio']").get_attribute('src')
	driver.close()
	return download_url

# 用于显示下载进度
def Schedule(a, b, c):
	per = 100 * a * b / c  
	if per > 100:
		per = 100
	percentage = "Downloading...... %.2f %%" % per
	sys.stdout.write('\r'+'[*]'+percentage)

def main():
	url = Crawl_For_The_URL()

	# 若返回的URL请求的文件名后缀不是MP3格式，则可能是webdriver的问题，或者是该歌曲是付费歌曲、需要在客户端才能播放
	if url.split('.')[-1] == "mp3":
		Download_The_Song(url)
	else:
		print "[-]Can't download the song .Maybe the type of webdriver is incorrect ,or the song needs to be paid for play."

if __name__ == '__main__':
	main()

运行结果：

大多数歌曲都是可以直接下载的：

接着看下Eason大佬的新歌，一般都是需要付费的：

这里奇怪的一点是使用Firefox驱动或者PhantomJS是有问题的而使用Chrome的就没有问题，Firefox说的是找不到该元素：

具体的不同浏览器驱动的问题后面再分析看看。

参考来源：《Python爬虫开发与项目实战》

你可能感兴趣的:(脚本,爬虫)

Jira获取story信息更新子任务状态脚本技术实现吾爱乐享 w w w w .f e n
title:Jira获取story信息更新子任务状态脚本技术实现tags:-Jiracategories:-Jira一、项目背景在Jira项目管理系统中，当story主任务处于特定状态（如“READYFORPM”或“已关闭”）时，需要对其所有子任务的状态进行更新。为了实现这一自动化操作，编写了一个Python脚本，以提高工作效率和准确性。二、技术选型编程语言：Python，因其简洁易读的语法和丰富
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
攻防世界-happyctf 2503_90412967 网络安全
进入主函数，可以看到一堆乱七八糟的东西，这个时候要找输入，确定密钥，再寻找出口（例如error,goodflag等等），然后我们就可以找条件语句和循环了，然后我们就可以找到while循环里面的那个函数，里面进行了异或操作接着我们就可以写脚本了flag如图
如何用PHP开发一个api数据接口幽蓝计划 php
对于一个iOS开发者来说，我一直觉得会写接口是一件很酷的事情，因为它可以实时修改前台数据，而不像App一样需要更新版本和接受审核。更重要的是，它意味着你的技术完成了一个闭环，可以独自完成一整个项目的开发。PHP是我接触的第一个脚本语言，使用之后更是感觉PHP功能强大，开发过程非常友好方便，虽然之后也学习过Python、JavaScript等语言，但现在还是习惯使用PHP，下面就来介绍一下如何用PH
百某田网任务脚本点云-激光雷达-Slam-三维牙齿其他智能手机运维自动化
自动化操作百田游戏的任务脚本，特别是用于完成每日任务和积分兑换的功能。主要功能任务管理：脚本通过定时任务查询并执行每天的任务，自动完成任务并兑换积分。每个任务通过调用do_list()和do_task()函数来查询和完成。多账号支持：支持多个账号的登录和管理，账号信息通过baitianGameCookie变量传入，可以通过@或换行符分隔多个账号。积分兑换：根据配置的兑换ID进行积分兑换操作，支持选
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
批量获取虾皮shopee商品详情信息爬虫 a6229203 爬虫数据库前端
每天100万详情联系736131417v:IpAnt_Proxy在当今的电子商务环境中，数据是至关重要的。对于电商平台的商家和开发者来说，获取商品详情信息是他们日常工作的关键部分。虾皮Shopee作为东南亚最大的电商平台，其商品信息对于商家和开发者来说具有极高的价值。本文将分享如何通过API批量获取虾皮Shopee的商品详情信息，并提供测试代码，让您轻松上手。一、了解虾皮ShopeeAPI虾皮Sh
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
如何使用PHP爬虫获取Shopee（虾皮）商品详情？数据小爬虫@ php 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫获取Shopee商品详情，并提供完整的代码示例。一、为什么选择
从零开始：使用原生JS打造简易飞机大战游戏西域情歌
本文还有配套的精品资源，点击获取简介：在本教程中，我们将探讨如何利用原生JavaScript的特性，包括事件处理、DOM操作、定时器和音频处理，来构建一个基础的“飞机大战”游戏。该游戏的核心元素包括玩家飞机、敌机、子弹和碰撞检测，它们通过HTML和CSS展现在页面上。通过编写JavaScript脚本，我们实现游戏对象的创建与状态管理，响应用户的键盘和点击事件，更新游戏内容，并通过定时器维护游戏循环
从零至巅：逆向爬虫之道 0_0 蓝花楹下逆向爬虫爬虫
逆向爬虫-涅槃吾本一介凡鸟，栖于尘世，碌碌无为，浑浑噩噩，如沧海一粟，渺小而无足轻重。然，虽为小雀，心亦怀鸿鹄之志，欲挥羽向天，如凤凰般，翱翔九天，俯瞰苍茫大地。奈何羽翼未丰，学识浅薄，常感力不从心，困于樊笼，不得展翅高飞。然，吾深知，学如逆水行舟，不进则退。故，今执笔为记，以明志，以自勉。愿以此笔记为舟，载吾渡学海，以勤为桨，以思为帆，逐浪前行，终至彼岸。虽前路漫漫，荆棘丛生，然吾心坚定，誓不负
ubuntu中的配置文件，bashrc、profile 阿斯顿的风格 ubuntu 服务器 linux bash python
系统级配置文件/etc/profile作用：为所有Bourne兼容shell（包括Bash、sh等）提供登录时的全局环境设置。加载时机：当用户登录（例如在控制台登录或图形界面登录时启动登录shell）时，都会首先加载此文件。常见配置内容：设置全局环境变量（如PATH、LANG等）调用/etc/profile.d/目录下的脚本#/etc/profile示例片段#设置全局PATHPATH="/usr/
ubuntu 环境变量设置无效_BASH脚本设置环境变量不起作用萧总经理 ubuntu 环境变量设置无效
问题描述我已经编写了以下脚本，以便在需要时设置一些环境变量。#!/bin/shexportBASE=/home/develop/treesecho$BASEexportPATH=$PATH:$BASEecho$PATH在命令和结果之下，我可以在终端上看到：脚本运行，但变量未设置在最后。~$:./script.sh/home/develop/trees/bin:......:/home/develo
linux,ubuntu下source、sh、bash、./执行脚本的区别初识-CV linux Ubuntu Ubuntu source sh bash ./
ubuntu下source、sh、bash、./执行脚本的区别source命令用法sourceFileName作用:在当前bash环境下读取并执行FileName中的命令。该filename文件可以无"执行权限"注:该命令通常用命令“.”来替代。如:source.bash_profile..bash_profile两者等效。source(或点)命令通常用于重新执行刚修改的初始化文档。source命
云服务器linux下配置springboot项目启动、停止、重启脚本努力的Andy 脚本 linux 运维服务器
目录为什么要配置启动脚本？配置脚本一、选择一个文件夹新建一个XXX.sh文件（xxx可以命名为项目名称，新建.sh.conf等文件用到的是vi指令）二、进入如下页面，按下键盘i键进入insert模式三、insert如下配置（只需修改APP_NAME内容为自己想要启动的jar包）四、脚本代码解释：linux下脚本测试1、启动测试2、查看状态3、停止测试4、重启测试为什么要配置启动脚本？一般情况下我们
springboot 项目linux启停脚本 lovecode2011 linux 运维服务器
shutdown.shjps-lvm|grepxxx|awk'{print$1}'|xargskill-15xxx-进程号或项目名称(或名称关键字)startup.shls|grep"xxx"|grep-iv"bak"|tail-n1|xargs-n1-l{}nohupjava-jar{}-Dspring.config.location=/xxx/xxx/config/application-de
npm 命令使用文档喆星时瑜安装部署前端 npm 前端 node.js
目录简介安装与配置基础命令依赖管理版本控制脚本管理包发布高级命令配置管理最佳实践常见问题1.简介npm(NodePackageManager)是Node.js的官方包管理工具，提供：130万+开源包的注册表访问依赖解析与版本管理项目脚本自动化私有包管理能力完整的包生命周期管理2.安装与配置2.1安装Node.js#通过官方安装包https://nodejs.org#验证安装node-vnpm-v2
ubuntu中source bash sh的区别阿斯顿的风格 ubuntu bash linux
source与.（点命令）作用与特点执行方式：两者都用于在当前shell环境中执行指定脚本文件的命令，而不是启动一个新的子shell。效果：脚本中对环境变量、函数、当前目录等所做的修改会直接影响当前shell环境。这对于设置环境变量、加载配置等场景非常有用。语法区别：sourcescript.sh是Bash及部分其他shell中的内置命令。.script.sh（点命令）是POSIX标准规定的，在所
编写脚本在Linux下启动、停止SpringBoot工程流烟默系统运维 Linux全面入门 linux spring boot shell
【1】启动命令nohupjava-jaryour-application.jar>/dev/null2>&1&>/dev/null2>&1：这条命令将标准输出和标准错误都重定向到/dev/null，这意味着它们不会输出到控制台或任何文件。这样做是因为我们希望所有日志都由Logback处理并写入到配置文件中指定的日志文件里。然而，如果你想要保留控制台输出（例如，对于调试目的），你可以省略这部分重定向
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
UI自动化测试往往在功能测试之后进行的核心原因豌豆射手^ 测试 ui 功能测试
一、流程效率：避免“过早优化浪费资源”1.功能未定型，频繁修改导致脚本维护成本高实际场景：某电商平台开发初期，前端页面按钮的ID因需求变动频繁更改。此时若投入UI自动化，需不断调整元素定位逻辑，甚至完全重写脚本。对比分析：阶段功能测试方式成本对比开发初期手动功能测试人工快速验证，适应变化，成本低。稳定期UI自动化测试代码维护成本高，反复修改会抵消效率收益。2.瀑布模型与敏捷开发的差异瀑布模型：严格
分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
Dify - 架构、部署、扩展与二次开发指南花千树-010 AIGC 架构 AIGC prompt embedding llama gpt agi
本文详细解析Dify的架构、部署流程、高可用中间件的独立部署方法，以及二次开发流程，帮助开发者更高效地管理和扩展Dify。1.本地DEMO部署安装Docker，执行下面脚本，可能需要配置镜像。gitclonehttps://github.com/langgenius/dify.gitcddifycddockercp.env.example.envdockercomposeup-d1.Dify部署后
LoadRunner 11 性能测试全面教程金融先生-Frank
本文还有配套的精品资源，点击获取简介：LoadRunner11（LR11）是HP开发的一款企业级性能测试工具，支持多应用程序类型的负载测试，用于性能评估、瓶颈识别和系统优化。教程详细介绍LR11的组件功能、脚本开发、场景设置、测试执行、结果分析、性能指标监测、故障诊断以及自动化测试等，提供从初级到高级的完整学习路径。1.LoadRunner11(LR11)功能概述LoadRunner11(LR11
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
《代码与灯影：一个互联网“搬砖者”的十六小时马拉松》
清晨6:30，手机闹钟第三次震动时，王昊的手指在黑暗中摸索着按下"稍后提醒"。枕边充电器散发的微光里，他瞥见钉钉群里跳动的99+未读消息——昨夜两点部署的自动化脚本还在生产环境报错。一、困顿清晨：在咖啡因里开机7:15，地铁早高峰的人流像被编译失败的代码，在闸机口不断堆栈溢出。他缩在车厢角落，用手机查看凌晨的服务器监控日志，突然发现某个API接口响应时间突破2000ms。"这得在晨会上重点提...
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul