IT农民工1

一文搞懂各大APP&网站python网络爬虫

本文转载自数据EDTA，相亲可以扫描下方二维码：

很久以前写了一篇爬虫的文章，把它放在CSDN上（livan1234）没想到点击量竟然暴涨，足以看到大家在数据获取方面的需求，爬虫技术现在已经非常普遍，其用途也非常广泛，很多牛人在各个领域做过相关的尝试，比如：

1）爬取汽车之家数据，利用论坛发言的抓取以及NLP，对各种车型的车主做画像。

2）抓取各大电商的评论及销量数据，对各种商品（颗粒度可到款式）沿时间序列的销量以及用户的消费场景进行分析。

3）还可以根据用户评价做情感分析，实时监控产品在消费者心目中的形象，对新发布的产品及时监控，以便调整策略。

4）抓取房产买卖及租售信息，对热热闹闹的房价问题进行分析。

5）抓取大众点评、美团网等餐饮及消费类网站：各种店面的开业情况以及用户消费和评价，了解周边变化的口味，所谓是“舌尖上的爬虫”。以及各种变化的口味，比如：啤酒在衰退，重庆小面在崛起。

6）58同城等分类信息网站：抓取招商加盟的数据，对定价进行分析，帮助网友解惑。

7）拉勾网、中华英才网等招聘网站：抓取各类职位信息，分析最热门的职位以及薪水。

8）挂号网等医疗信息网站：抓取医生信息并于宏观情况进行交叉对比。

9）应用宝等App市场：对各个App的发展情况进行跟踪及预测。（顺便吹一下牛，我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑）

10）携程、去哪儿及12306等交通出行类网站：对航班及高铁等信息进行抓取，能从一个侧面反映经济是否正在走入下行通道。

11）雪球等财经类网站：抓取雪球KOL或者高回报用户的行为，找出推荐股票

12）58同城二手车、易车等汽车类网站：什么品牌或者型号的二手车残值高？更保值？反之，什么类型的贬值较快？- 二手车，找出最佳的买车时间以及最保值的汽车。

13）神州租车、一嗨租车等租车类网站：抓取它们列举出来的租车信息，长期跟踪租车价格及数量等信息。

14）各类信托网站：通过抓取信托的数据，了解信托项目的类型及规模。其实还有很多数据，不一一列举了。

上次的文章是在讨论移动端的数据获取：https://blog.csdn.net/livan1234/article/details/80850978

本文对爬虫做一个全面的总结，不一定包治百病，但是能治好大部分疾病，希望能够对大家有所帮助：

1、 urllib 库:这是一个在爬虫领域绕不开的库，他支持 http 的爬取，几乎可以取到方方面面的内容。

以下面的豆瓣案例做一个简要的解释：

豆瓣小案例:

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request import re

data = urllib.request.urlopen("https://read.douban.com/provider/all").read()

data = data.decode("utf-8")

pattern = '

(.*?)

mydata = re.compile(pattern).findall(data)

fh = open("出版社.txt", "w")

for i in range(0,len(mydata)):

fh.write(mydata[i]+"\n")

fh.close()

常用函数:

import urllib.request

#一、常用函数:

#1、将第一个参数中的网址，直接下载到filename 路径下，爬下来的数据为一个网页。

data = urllib.request.urlretrieve("http://www.hellobi.com",

filename="F:\python_workspace\spider_douban")

#2\清除缓存,清除urlretrieve 等下载时保存的数据

urllib.request.urlcleanup()

#3\爬取页面数据file = urllib.request.urlopen("http://www.hellobi.com")

#4\返回当环境的信息file.info()

#5\获取当前网页的状态码和网址。

print(file.getcode()) print(file.geturl())

2、超时设置:

由于网络速度或者对方服务器的问题，我们爬取一个网页的时候，都需要设置时间，我们访问一个网页，如果该网页长时间未响应，那么我们的系统就会判断该网页超时了，即无法打开该网页。

有时候，我们需要根据自己的需求，来设置超时的时间值，比如：有些网站会反应快，我们希望2秒种没有反应则判断为超时，那么此时，timeout=2即为设置方式，即在 urlopen 中加入 timeout 参数。再比如，有些网站服务器反应慢，那么我们希望100秒没有反应，才判断超时，此时的timeout即设置为100，接下来为大家讲解爬虫超时的设置。

file = urllib.request.urlopen("http://www.hellobi.com",timeout=10)

for i in range(0,100):

try:

file=urllib.request.urlopen("http://yum.iqianyue.com", timeout=1)

data=file.read()

print(len(data))

except Exception as e:

print("出现异常:"+str(e))

3、自动模拟 Http 请求:

客户端如果要与服务器端进行通信，需要通过http进行请求，http请求有很多种，我们在此会讲post与get两种请求方式，比如登录、搜索某些信息的时候会用到。

1）处理 get 请求:

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request keywd = "python"

#对网址中出现的中文进行相应的编码,得到进行编码之后的中文，后面可以直接使用。keywd=urllib.request.quote(keywd)

url = "http://www.baidu.com/s?wd"+keywd+"&ie=urf-8&tn=96542061_hao_pg"

#将url 封装为一个请求req = urllib.request.Request(url)

data = urllib.request.urlopen(req).read()

fh = open("test.txt","wb")

fh.write(data)

2）理 post 请求:

姓名：

密码：

点击提交”>

在新浪 login.sina.com.cn 中即可看到，form 为 post 方式。我们只需要 form 表单中的 name 属性即可。

如下图：

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.requestimport urllib.parse"http://www.iqianyue.com/mypost/"

#设置对应的表单信息,urlencode 中针对代码中的name 值。

mydata = urllib.parse.urlencode({

"name":"[email protected]" "pass":"123456" }).encode("utf-8")

#将数据转换为请求req = urllib.request.Request(url, mydata)

#发送请求data = urllib.request.urlopen(req).read()

fh = open("test_post.txt","wb")

fh.write(data)

4、爬虫的异常处理:

爬虫在运行的过程中，很多时候都会遇到这样或那样的异常。如果没有异常处理，爬虫遇到异常时就会直接崩溃停止运行，下次再次运行时，又会重头开始，所以，要开发一个具有顽强生命力的爬虫，必须要进行异常处理。

异常处理主要是为了增强代码的稳定性。

两者都是异常处理的类，HTTPError是URLError的子类，HTTPError有异常状态码与异常原因，URLError没有异常状态码，所以，在处理的时候，不能使用URLError直接替代HTTPError。如果要替代，必须要判断是否有状态码属性。

接下来我们通过实战讲解：

urlError:

1、连不上服务器2、远程的url 不存在

3、本地没有网络

4、触发了对应的 httpError 子类

具体的实战为:

#!/usr/bin/env python # _*_ UTF-8_*_

import urllib.error import urllib.request

try:

urllib.request.urlopen("http://blog.csdssn.net")

print("111")

except urllib.error.URLErroras e:

if hasattr(e, "code"):

print(e.code)

if hasattr(e, "reason"):

print(e.reason)

5、爬虫的伪装技术：

浏览器伪装技术原理：

我们可以试试爬取csdn博客，我们发现会返回403，因为对方服务器会对爬虫进行屏蔽。此时我们需要伪装成浏览器才能爬取。

浏览器伪装我们一般通过报头进行，接下来我们通过实战分析一下。

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.error import urllib.request

url="http://blog.csdn.net/weiwei_pig/article/details/52123738"

header = ("User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36")

#用来添加报头信息opener = urllib.request.build_opener()

opener.addheaders=[header]

data = opener.open(url).read()

fh = open("test_header","wb")

fh.write(data)

6、新闻网站爬取:

需求：将新浪新闻首页（http://news.sina.com.cn/）所有新闻都爬到本地。

思路：先爬首页，通过正则获取所有新闻链接，然后依次爬各新闻，并存储到本地。

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request import re

data = urllib.request.urlopen("http://news.sina.com.cn/").read()

data2 = data.decode("utf-8", "ignore")'href="(http://news.sina.com.cn/.*?)">'allurl = re.compile(pat).findall(data2)

for i in range(0, len(allurl)):

try:

print("第"+str(i)+"次爬取")str(i)+".html" urllib.request.urlretrieve(thisurl, file)

print("------成功-------")

except urllib.request.URLError as e:

if hasattr(e, "code"):

print(e.code)if hasattr(e, "reason"):

print(e.reason)

7、爬虫防屏蔽手段之代理服务器:

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request import re

url = "http://blog.csdn.net/"

headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36")

#建一个浏览器opener

opener = urllib.request.build_opener()

#将头加入到opener 中opener.addheaders=[headers]

#将opener 安装为全局urllib.request.install_opener(opener)

data = urllib.request.urlopen(url).read().decode("utf-8", "ignore")

pat = '

href="(.*?)"'

result =re.compile(pat).findall(data)

for i in range(0, len(result)):

file = str(i)+".html" urllib.request.urlretrieve(result[i], filename=file) print("第"+str(i)+"次爬取成功")

#由此可以将 CSDN 首页所有的文章爬取下来。

如何做代理:

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request

def use_proxy(url, proxy_addr):"http": proxy_addr})

opener = urllib.request.build_opener(proxy,

urllib.request.HTTPHandler)"utf-8", "ignore")

return data

proxy_addr = []

"110.73.43.18:8123"

url = "http://www.baidu.com"data = use_proxy(url, proxy_addr)

print(len(data))

8、图片爬虫实战: 在浏览器爬取时，有时不同的浏览器会有不同的查询结果，解析出不同的源码。

首先在“审查元素”中确定元素的重点字段是哪些，然后再在“源码”中查找对应的图片位置，确定图片 url 的规则。

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request

import re

keyname = "短裙"key = urllib.request.quote(keyname)

headers = ("User_Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0")

urllib.request.install_opener(opener)

for i in range(0, 10):

url = "https://s.taobao.com/search?q="+key+"&imgfile=&commend=all&ssid=s5- e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao- item.1&ie=utf8&initiative_id=tbindexz_20170306&bcoffset=4&ntoffset=4&p4 ppushleft=1%2C48&s="+str(i*44)

data = urllib.request.urlopen(url).read().decode("utf-8", "ignore")

pat = 'pic_url":"//(.*?)"'imagelist = re.compile(pat).findall(data)for j in range(0, len(imagelist)):

thisimg = imagelist[j]

thisimgurl = "http://"+thisimg"F:/python_workspace/test/pic/"+str(i)+str(j)+".jpg"

urllib.request.urlretrieve(thisimgurl, filename=file)

在源码解决不了的情况下，需要进行抓包。作业:千图网的爬取(可以通过调试找到报错原因):

#!/usr/bin/env python

# _*_ UTF-8 _*_

import urllib.request import re

for i in range(1,10):"http://www.58pic.com/piccate/3-153-652-"+str(i)+".html"

data = urllib.request.urlopen(pageurl).read().decode("utf-8",

"ignore")'

imglist = re.compile(pat).findall(data)for j in range(0,len(imglist)):

try:"_1024.jpg"file = "F:/python_workspace/test/pic2/"+str(i)+str(j)+".jpg"

urllib.request.urlretrieve(thisimgurl, filename=file)

print("第"+str(i)+"页第"+str(j)+"个图片爬取成功")

except urllib.error. URLError as e:

if hasattr(e, "code"):

print(e.code)if hasattr(e, "reason"):

print(e.reason)

except Exception as e:

print(e)

9、抓包分析实战(一)

获取淘宝的评论信息、腾讯的娱乐新闻信息等需要抓包分析。如何抓取 https 的数据包以及腾讯视频的评论。

TextView:显示返回的信息;

设置完 fiddler 之后，点击要爬取的页面，回到 fiddler 中，确定有 js 内容的链接:

对应的网址为:

https://rate.tmall.com/list_detail_rate.htm?itemId=42679128869&spuId=315119437&sellerId=2166475645&order=3¤tPage=1&append=0&content=1&tagId=&posi=&picture=&ua=098%23E1hv%2FpvEvbQvUvCkvvvvvjiPP2Lw0jEbPL59AjnEPmPZQj1Pn2L9QjEvR2MwljE8vphvC9vhvvCvpvyCvhQvryGvCzox9WFIRfU6pwet9E7rejZIYExr1EuK46en3OkQrEttpR2y%2BnezrmphQRAn3feAOHPIAXcBKFyK2ixrlj7xD7QHYWsUtE97Kphv8vvvvvCvpvvvvvmCc6Cv2UIvvUnvphvpgvvv96CvpCCvvvmCXZCvhhmEvpvV2vvC9jx2uphvmvvv98GEKUM72QhvCvvvMMGtvpvhvvvvv8wCvvpvvUmm3QhvCvvhvvv%3D&isg=AoKCecM7b7NouHNtRCUm6rar0osk--IFkGgfUsyboPWxHyKZtOPWfQjduSCd&needFold=0&_ksTS=1508769919830_1070&callback=jsonp1071

然后确定其中的 itemId 等字段的内容，其中的部分内容未必有用处，可以直接删除，比如上面 url的 ua 字段。

如果要抓取 https 的数据:

Fiddler 默认只能抓取 HTTP 协议的网页，不能抓取 HTTPS 协议的网页，而我们很多时候，都需要抓 HTTPS 协议的网页，比如抓淘宝数据等。今天，韦玮老师会为大家讲解如何使用 Fiddler 抓取 HTTPS 协议的网页。

打开 Fiddler，点击“Tools--FiddlerOptions--HTTPS”，把下方的全部勾上，如下图所示:

然后，点击 Action，选择将CA 证书导入到桌面，即第二项，导出后，点击上图的 ok 保存配置。

然后在桌面上就有了导出的证书，如下所示:

随后，我们可以在浏览器中导入该证书。我们打开火狐浏览器，打开“选项--高级--证书- -导入”，选择桌面上的证书，导入即可。随后，Fiddler 就可以抓 HTTPS 协议的网页了。如下图所示。

抓取腾讯视频的评论:

其中有多个字段，commentid 等，在点击“加载更多”时，commentID 会发生变化，在第一个url 的源码中会找到下一个评论 url 的地址，找到 last 字段，即为下一个 url 的commentid，以此来构造下一个 url。

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request import reimport urllib.error

headers = ("User_Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0")

opener = urllib.request.build_opener()

opener.addheaders = [headers]

urllib.request.install_opener(opener)

comid = "6323280825454961655"

url = "http://coral.qq.com/article/2102904258/comment?commentid="+comid+"&req num=20&tag=&callback=jQuery1124020025941284059412_1508770934137&_=15087 70934145"for i in range(0, 100):

data = urllib.request.urlopen(url).read().decode()

patnext = '"last":"(.*?)"' nextid = re.compile(patnext).findall(data)[0]

patcom = '"content":"(.*?)",'

comdata = re.compile(patcom).findall(data)

for j in range(0, len(comdata)):

print("------第"+str(i)+str(j)+"条评论内容是:")

print(eval('u"'+comdata[j]+'"'))

url =

"http://coral.qq.com/article/2102904258/comment?commentid="+nextid+"&re qnum=20&tag=&callback=jQuery1124020025941284059412_1508770934137&_=1508 770934145"

10、微信爬虫实战:

如何解决微信的限制?

#!/usr/bin/env python # _*_ UTF-8 _*_

#http://weixin.sogou.com/

import reimport urllib.request import timeimport urllib.error

#自定义函数，功能为使用代理服务器爬一个网址

def use_proxy(proxy_addr, url): #建立异常处理机制try:

req = urllib.request.Request(url)

req.add_header("User_Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0")

proxy = urllib.request.ProxyHandler({'http':proxy_addr})

opener = urllib.request.build_opener(proxy, urllib.request.HTTPHandler)

urllib.request.install_opener(opener)

data = urllib.request.urlopen(req).read()

return data

except urllib.error.URLError as e:

if hasattr(e, "code"):

print(e.code)if hasattr(e, "reason"):

print(e.reason)

#若为URLError 异常，延时10 秒执行time.sleep(10)

except Exception as e:

print("exception:"+str(e))

time.sleep(1)

#设置关键词key = "Python" #设置代理服务器，该代理服务器有可能失效，读者需要换成新的有效代理服务器#即通过fiddler 中转爬取。proxy = "127.0.0.1:8888"#爬多少页:for i in range(0, 10):

key = urllib.request.quote(key)

thispageurl = "http://weixin.sogou.com/weixin?type=2&query="+key+"&page"+str(i)

#a="http://blog.csdn.net"

thispagedata = use_proxy(proxy, thispageurl)

print(len(str(thispagedata)))'rs1 = re.compile(pat1, re.S).findall(str(thispagedata))

if(len(rs1)==0):

print("此次("+str(i)+"页)没有成功")

continuej in range(0, len(rs1)):

thisurl = rs1[j]

#提取到的网址与通过浏览器实际跳转的页面网址不完全一致，通过比#较观察发现，爬取的页面中有amp 字段为多余。

thisurl = thisurl.replace("amp;","")

file = "F:/python_workspace/test/wechat/第"+str(i)+"页第"+str(j)+"篇文章.html"

thisdata = use_proxy(proxy, thisurl)

try:

fh = open(file, "wb")print("第"+str(i)+"页第"+str(j)+"篇文章成功")

except Exception as e:

print(e)

print("第"+str(i)+"页第"+str(j)+"篇文章失败")

微信爬虫的爬取依然是使用浏览器，即在搜狗浏览器上使用微信网页版，然后编辑这个页面的 url，以获取内容。

11、多线程爬取实战糗事百科的代码:

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request import reimport urllib.error

headers = ("User_Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0")

urllib.request.install_opener(opener)

for i in range(1, 2):"https://www.qiushibaike.com/8hr/page/"+str(i)

pagedata=urllib.request.urlopen(url).read().decode("utf-8","ignore") pat='

.*?(.*?).*?

'datalist = re.compile(pat, re.S).findall(pagedata)for j in range(0, len(datalist)):

print("第"+str(i)+"页第"+str(j)+"个段子的内容是:")

print(datalist[j])

将此程序改为多进程为:

#!/usr/bin/env python # _*_ UTF-8 _*_

import urllib.request import reimport urllib.error import threading

headers = ("User_Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0")

urllib.request.install_opener(opener)

class One(threading.Thread):

def __init__(self):

threading.Thread.__init__(self)

def run(self):

for i in range(1, 36, 2):

url = "https://www.qiushibaike.com/8hr/page/"+str(i)

pagedata=urllib.request.urlopen(url).read().decode("utf- 8","ignore")

pat='

.*?(.*?).*?

datalist = re.compile(pat, re.S).findall(pagedata)for j in range(0, len(datalist)):

print("第"+str(i)+"页第"+str(j)+"个段子的内容是:"). print(datalist[j])

class Two(threading.Thread):

def __init__(self):

threading.Thread.__init__(self)

def run(self):for i in range(0, 36, 2):

url = "https://www.qiushibaike.com/8hr/page/"+str(i)

pagedata=urllib.request.urlopen(url).read().decode("utf- 8","ignore")

pat='

.*?(.*?).*?

datalist = re.compile(pat, re.S).findall(pagedata)for j in range(0, len(datalist)):

one = One()

one.start()

two = Two()

two.start()

◆ ◆ ◆ ◆ ◆

长按二维码关注我们

数据森麟公众号的交流群已经建立，许多小伙伴已经加入其中，感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容，还没有加入的小伙伴可以扫描下方管理员二维码，进群前一定要关注公众号奥，关注后让管理员帮忙拉进群，期待大家的加入。

管理员二维码：

你可能感兴趣的:(一文搞懂各大APP&网站python网络爬虫)

为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
Omics精进03|一文彻底搞明白Germline Mutation和Somatic Mutation qq_21478261 #生物信息生物学生物信息学
胚系突变（GermlineMutation）和体细胞突变（SomaticMutation）在WES、WGS、GenePanel检测时常常遇到，二者最大的区别是胚系突变可以遗传给后代，而体细胞突变不能够遗传给后代。本文将从形成原因、遗传性、功能、发生时期、变异检测几个方面介绍二者的区别。上图，直观理解二者区别形成原因Germlinemutations主要是由于生殖细胞（germcells）突变导致，
个人网站一键引入免费开关评论功能 giscus 后端java
快速接入选择giscus连接到的仓库。请确保：该仓库是公开的，否则访客将无法查看discussion。giscusapp已安装，否则访客将无法评论和回应。Discussions功能已在你的仓库中启用。1、创建仓库github创建一个公开的仓库https://github.com/houbb/my-discussion2、安装apphttps://github.com/apps/giscus/ins
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
STM32 ADC详解月入鱼饵 stm32 嵌入式硬件单片机
本文介绍stm32ADC的使用，本文较长，可以配合目录跳转到需要的地方阅读。ADC转换原理本文重点在于STM32的ADC的使用，介绍ADC转换原理是为了更好理解STM32中关于ADC的配置，所以这里只是简单介绍一下ADC的转换原理，想详细了解ADC的转换原理可以看看看完这篇文章，终于搞懂了ADC原理及分类！和ADC基本工作原理-CSDN。简单来说，模拟信号输入进来，经过低通滤波操作预处理信号之后，
家庭网络中的服务器怎么对外提供服务？行而不知服务器运维内网穿透 DDNS
家庭网络中的服务器怎么对外提供服务？方案1DDNS（家庭网络需要有公网ip）方案2内网穿透（需要有一台公网ip的服务器）方案1DDNS（家庭网络需要有公网ip）怎么判断是否有公网ip？大致的流程就是光猫改桥接，由光猫拨号改为路由器拨号，在路由器管理页面查看拨号获取的ip，用这个ip去ip查询网站验证，具体的操作可自行搜索，这里不进行赘述了。我们都知道，ip有两种，ipv4和ipv6 网络
如何查看自己本地的公网IP地址？内网环境网络如何开通服务器公网ip提供互联网访问？搬码临时工网络 tcp/ip 服务器
查看公网IP和开启公网地址提供互联网服务是作为网络管理员的必修课。代替路由映射的端口映射应用使用最广泛的就是nat123。内网发布网站或其他应用到外网访问,且本地无公网IP，或80和443端口被屏蔽，对于这些环境，就需要利用端口映射应用网络辅助来实现。一、如何查看自己本地的公网IP?登录你的路由器，看拨号状态那的WAN口的IP地址；如果你是光纤猫拨号，就需要登录光纤猫，看拨号状态那WAN口的IP地
性能狂飙 Gooxi 8卡5090服务器重新定义高密度算力 Gooxi国鑫服务器运维
国鑫Intel®EagleStream平台8卡RTX5090AI服务器性能到底有多强？小编一文带你看懂个中奥妙。国鑫Intel®EagleStream平台8卡RTX5090AI服务器如图，国鑫Intel®EagleStream平台8卡RTX5090AI服务器（SY6108G-G4）只有6U高度，但“貌美”不是重点，重点在于它闪亮的外表下“狂飙”的算力性能。极致性能国鑫SY6108G-G4可搭载1-
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
【JS三兄弟谁是谁】搞懂 splice、slice、split，只需一杯奶茶的时间！ dorabighead 前端八股总结 javascript 前端开发语言
JavaScript有三兄弟，经常一起“切人”。他们名字相似、功能相关，但性格迥异，常被搞混。今天，就带你喝着奶茶，笑着剖析，帮你彻底搞懂：splice、slice、split到底是谁？干了啥？凭啥这么火？一、三兄弟登场：不同对象，不同任务名称作用对象是否修改原对象返回类型功能简述splice数组✅是被删除元素数组原地删除元素并可插入新元素slice数组/字符串❌否副本（子集）复制选中部分，原体不
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
微软语音合成标记语言SSML文档结构和事件（详细文档和实例）阿酷tony AI数字人微信语音合成 microsoft 微软语音 SSML文档结构 SSML结构 SSML语音合成
说明：MicrosoftAzure中国技术文档网站，请访问https://docs.azure.cn包含输入文本的语音合成标记语言(SSML)确定了文本转语音输出的结构、内容和其他特征。例如，可以使用SSML来定义段落、句子、中断/暂停或静音。可以使用事件标记（例如书签或视素）来包装文本，这些标记可以稍后由应用程序处理。有关如何在SSML文档中构建元素的详细信息，请参阅以下部分。备注某些语音不支持
2025年网站源站IP莫名暴露全因排查指南：从协议漏洞到供应链污染
引言：IP暴露已成黑客“破门锤”2025年，全球因源站IP暴露导致的DDoS攻击同比激增217%，某电商平台因IP泄露遭遇800Gbps流量轰炸，业务瘫痪12小时损失超5000万元。更严峻的是，60%的IP暴露并非配置失误，而是新型攻击手法与供应链漏洞的叠加结果——本文将揭示IP暴露的隐秘链条，并提供可落地的闭环解决方案。一、2025年IP暴露的四大技术根源1.协议层漏洞：内存数据被“抽丝剥茧”C
【一文了解】C#基础-集合
目录集合1.集合分类1.1.非泛型集合1.2.泛型集合1）列表（List）2）字典（Dictionary）3）队列（Queue）4）栈（Stack）5）哈希集合（HashSet）2.集合的常见操作3.区分泛型集合与非泛型集合3.1.非泛型集合1）优点2）缺点3.2.泛型集合1）优点2）缺点总结本篇文章来学习一下集合，C#集合主要分为非泛型集合与泛型集合。集合集合（Collection）是一种用于存
llama-factory微调Qwen2.5-7B-instruct实战，看这一篇就够了！！！（含windows和linux）亚伯拉罕·黄肯大模型 llama 人工智能大模型 llamafactory 微调 Qwen
一.安装llama-factoryllama-factort的网站：https://github.com/hiyouga/LLaMA-Factory安装llama-factory很简单，打开github后滑到安装LLaMAFactory跟着步骤走即可。安装LLaMAFactorygitclone--depth1https://github.com/hiyouga/LLaMA-Factory.git
同城搭子交友小程序：千亿级社交市场的下一个风口？
传统婚恋网站式微，Z世代“轻社交”需求爆发！搭子经济正成为新蓝海：1.市场规模与增长潜力数据：2023年中国陌生人社交市场规模达1500亿元，年复合增长率超20%；趋势：搭子类小程序用户规模突破8000万，预计2025年将占社交市场30%份额。2.竞争格局与差异化机会头部平台：Soul、探探聚焦泛社交，搭子类小程序仍属蓝海；细分场景：运动、美食、游戏等垂直领域搭子需求未被充分满足；下沉市场：三四线
从域名到站点建站全攻略 rpa_top 前端服务器运维
一、引言在当今数字化时代，拥有一个属于自己的站点已经变得越来越重要。无论是个人展示自我、分享兴趣爱好，还是企业推广产品、服务客户，一个精心搭建的站点都能发挥巨大的作用。它不仅是信息传播的平台，更是与世界连接的窗口。对于个人而言，拥有自己的站点可以记录生活点滴、展示个人才华，与志同道合的人交流互动。你可以通过博客分享自己的见解和经验，吸引粉丝关注；也可以搭建个人作品集网站，展示自己的创意作品，为求职
一文读懂HarmonyOS知识地图，开启鸿蒙开发新征程大雨淅淅 #HarmonyOS开发 harmonyos 华为
目录一、HarmonyOS知识地图是什么？二、HarmonyOS基础概念速览（一）起源与发展（二）核心特性（三）技术架构剖析1.内核层2.系统服务层3.框架层4.应用层三、HarmonyOS知识地图板块解读（一）开发基础知识1.应用程序包2.应用配置文件3.资源分类与访问4.ArkTS语言基础（二）UI开发知识1.方舟开发框架（ArkUI）2.布局与组件3.动画与交互（三）应用模型与能力1.Abi
【WEB安全】任意URL跳转
1.1.漏洞介绍URL跳转漏洞（URLRedirectionVulnerability）又叫开放重定向漏洞（OpenRedirectVulnerability），是一种常见的网络安全漏洞，它存在于许多网站和应用程序中。该漏洞的根本原因是没有对用户提供的URL进行充分的验证和过滤，导致攻击者可以通过构造恶意URL，将用户重定向到任意的网站或应用程序中。1.2.漏洞危害以攻击用户客户端为主，对服务器本
HTTP注入、URL重定向漏洞验证测试 afei00123 #漏洞验证与渗透测试
目录1.前言2.HTTP注入漏洞介绍3.URL重定向漏洞介绍4.HTTP注入漏洞验证5.URL重定向漏洞验证6.修复建议（1）针对HTML注入漏洞修复建议（2）针对URL重定向漏洞修复建议1.前言今天在公司使用AWVS和Appscan对目标网站进行漏扫时发现了HTTP注入和URL重定向。并使用Burp进行了验证。afei2.HTTP注入漏洞介绍基于HTTP协议注入威胁技术是一种新型危害性很强的攻击
什么是URL 跳转漏洞（URL Redirection Vulnerability）西京刀客安全相关安全网络 web安全
文章目录什么是URL跳转漏洞（URLRedirectionVulnerability）漏洞原理修复建议什么是URL跳转漏洞（URLRedirectionVulnerability）URL跳转漏洞（URLRedirectionVulnerability）是指攻击者利用网站或应用程序中未经验证的重定向功能，将用户引导至恶意网站的一种安全漏洞。漏洞原理未验证的重定向参数：网站使用用户提供的URL参数（如
android电视root权限获取,各大安卓电视盒子通用！用无线获取ROOT权限教程！ Matthew Um
各大安卓电视盒子通用！用无线获取ROOT权限教程！相信大家都听到了一个消息就是广电发布了一则消息，所有的电视盒子必须统一使用TVOS1.0系统。然而对于市场上的盒子来讲安卓盒子占了99%，这样看来对安卓盒子的影响还是挺大的【安卓盒子最受影响！电视机顶盒须统一装TVOS】。既然安卓盒子所占的比例那么多，下面也给大家带来了安卓盒子通用的ROOT教程，一起来看看吧。安卓盒子root教程：1、下载adb工
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖析）爱骑行的Coder 数据库 redis java基础面试分布式 java redis 后端
从面试懵逼到通透掌握：分布式锁原理全解（附Redisson与Redlock机制剖)你是不是也有这样的经历？简历上写着“精通Java，精通Redis，熟悉高并发场景”，结果一面下来，分布式锁怎么实现？Redisson是怎么加锁的？看门狗机制了解吗？锁丢失你知道怎么解决吗？全程“啊能能”，频频磕巴。本文不整虚的，带你从0到1，一步步真正搞懂分布式锁的原理与落地实践，面试高频，架构核心，不能不会。一、什
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri