妖YOY

关于爬虫那档事

前言

本文主要以代码形式讲解爬虫，代码中有注释可助理解，代码都是可以运行的，或许有些网站变化，导致无法访问或者属性元素找不到，要想运行的话，自个在网站里找元素位置并在代码中更改。
代码都是在PyCharm编译下写的，读者也可以下个PyCharm，还是很好用的。

顺便说几个快捷键，都是对于选中的语句：
Tab			#换行
Shift+Tab			#取消换行
Ctrl+?键			#多行注释（取消注释）

爬虫分类
还是先说下分类吧（教科书式，）

•	通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。
主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做相关处理(提取关键字、去掉广告)，最后提供一个用户检索接口。
•	聚焦爬虫：聚焦爬虫是根据指定的需求抓取网络上指定的数据。
例如：获取豆瓣上电影的名称和影评，而不是获取整张页面中所有的数据值。
•	增量式爬虫：增量式是用来检测网站数据更新的情况，且可以将网站更新的数据进行爬取
•	深层网络爬虫：大部分不能通过静态的URL获取，隐藏在搜索表单之后，只有用户提交一些关键词之后才能获得的网络页面。

requests爬取

爬取步骤：
1、指定url
2、发送请求
3、获取响应
4、数据解析
5、永久化存储

下面算是最基本的爬虫了，其中没有数据解析，看下爬取过程就行了

# -*- coding: utf-8 -*-
#加上面这个是防止中文乱码
import requests
#爬取河南理工大学主页
# 1 指定URL
get_url = "http://www.hpu.edu.cn/www/index.html"
#UA伪装
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
}
# 2 发送请求
response = requests.get(url = get_url, headers = header)
# 3 获取响应数据
response.encoding = 'utf-8'
page_text =  response.text
# 4 永久化存储
fp = open("hpu.html",'w',encoding = 'utf-8')
fp.write(page_text)
fp.close()

get参数
下面代码是get请求时带有params参数，算是获取动态数据，获取到的是json类型的响应数据

# -*- coding: utf-8 -*-
import requests
import json
#豆瓣电影
url="https://movie.douban.com/j/chart/top_list?"
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"}
start = input("请输入起始位置：")
limit = input("请输入电影数量：")
params = {
        'type': '24',
        'interval_id': '100:90',
        'action':'' ,
        'start': start,
        'limit': limit
}
response = requests.get(url=url,params=params,headers=headers)
movie = response.json()
fp = open("douban.json",'w',encoding='utf-8')
json.dump(movie,fp=fp,ensure_ascii=False)
fp.close()
response.close()

post请求参数

# -*- coding: utf-8 -*-
import requests
import json
#百度翻译
url="https://fanyi.baidu.com/sug"
headers ={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"}
word = input("请输入想要查询的单词：")
data = {
        "kw": word
}
response = requests.post(url=url,data=data,headers=headers)
dic = response.json()
print(dic["data"][0]['k'])
print(dic["data"][0]['v'])
filename = word+".json"
fp = open(filename,'w',encoding='utf-8')
json.dump(dic,fp=fp,ensure_ascii=False)
fp.close()

运行结果：

生成的json文件，类型是字典：

数据解析

re用到的语句

import re
re.compile(pattern, flags=0)		#将一个正则表达式模式编译为一个正则表达式对象
re.findall(pattern, string, flags=0)	#匹配到字符串中所有符合条件的元素
re.finditer(pattern, string ,flags=0)
.groups()		#匹配对象函数来获取匹配表达式。
.sprit()		#去掉字符串里空格和换行

bs4语句

from bs4 import BeautifulSoup			#调用库
page=BeautifulSoup(string,'lxml')		#先将字符串转换为bs4识别的类型
table = page.find("table",class_="hq_table")              #class属性：class_
table = page.find("table",attrs={"class":"hq_table"})		# #指定属性 
trs = table.find_all("tr")		#找到所有tr标签

#获取文本
.string
.text
.get_text()

.get('title')		#用.get(‘属性值’)的方法获取标签里面的属性值

xpath语句

from lxml import etree
tree = etree.HTML(html)		#解析
/div[@class='coll']		#指定属性
/text()		#获取文本
/@href		#获取属性
/

三个特点：
re正则表达式：具有灵活、逻辑性和功能性非常强的特点，能迅速地通过表达式从字符串中找到所需信息的优点，但对刚接触的人，比较晦涩难懂。
bs4：提供了一些简单的函数用来处理导航、搜索、修改分析树等功能，可为用户提供需要抓取的数据，非常简便，仅需少量的代码就可以写出一个完整的应用程序，不仅支持python标准库中的HTML解析器，还支持一些第三方的解析器。
xpath：选择功能十分强大，提供了非常简洁明了的路径选择表达式，提供了超过100个内建函数，用于字符串、数值、时间的匹配，以及节点、序列的处理等等，几乎所有定位的节点都可以用Xpath来选择。

re正则化

正则的语法：使用元字符进行排列组合用来匹配字符串
安装re库

.*			贪婪匹配，匹配所有符合的
.*? 		惰性匹配 ，只匹配第一次成功

正则化匹配

# -*- coding: utf-8 -*-
import re
content = """
河南理工
郑州大学
河南大学
河南科大
"""
obj = re.compile(r"
           r"'>(?P.*?)
",re.S)	#re.S必须要带，不然.*不匹配
result = re.findall(obj,content)
print(result)

运行结果：

爬取豆瓣Top250前十页

# -*- coding: utf-8 -*-
import requests
import re

url = 'https://movie.douban.com/top250'
hd = {
    'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Mobile Safari/537.36'
}

f = open("movie.txt",'w',encoding='utf-8')
for i in range(10):
    n = i*25
    params = {
        'start': n,
        'filter': ''
    }
    #url = url + '?start={}&filter='.format(n)
    response = requests.get(url, headers=hd, params=params)
    response.encoding = 'utf-8'
    page_text = response.text
    #print(page_text)
    obj = re.compile(r'.*?.*?'
                     r'(?P.*?).*?.*?
(?P.*?)'
                     r' .*?.*?property="v:average">(?P.*?)'
                     r'.*?(?P.*?)人评价',re.S)
    result = re.finditer(obj,page_text)
    for res in result:
        f.write(res.group("name"))
        f.write('\t')
        f.write(res.group("year").strip())
        f.write('\t')
        f.write(res.group("score"))
        f.write('\t')
        f.write(res.group('num'))
        f.write('\n')
    print('第{}页完成'.format(i+1))
f.close()

运行结果：
生成movie.txt文件：

bs4

bs4：通过标签的特征定位到想要获取的内容
安装BeautifulSoup库

（1）根据标签名查找
    - soup.a   只能找到第一个符合要求的标签
（2）获取属性
    - soup.a.attrs  获取a所有的属性和属性值，返回一个字典
    - soup.a.attrs['href']   获取href属性
（3）获取其标签内的内容
    - soup.a.string
    - soup.a.text
    - soup.a.get_text()
   【注意】如果标签还有标签，那么string获取到的结果为None，而其它两个，可以获取文本内容
（4）find：找到第一个符合要求的标签
    - soup.find('a')  找到第一个符合要求的
    - soup.find('a', title="xxx")
    - soup.find('a', alt="xxx")
    - soup.find('a', class_="xxx")		#属性值查找
    - soup.find('a', id="xxx")
（5）find_all：找到所有符合要求的标签
    - soup.find_all('a')
    - soup.find_all(['a','b']) 找到所有的a和b标签
    - soup.find_all('a', limit=2)  限制前两个
（6）根据选择器选择指定的内容
           select:soup.select('#feng')
    - 常见的选择器：标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器
	【注意】select选择器返回永远是列表，需要通过下标提取指定的对象

#获取文本
.string
.text
.get_text()
.string可以返回当前节点中的内容，但是当前节点包含子节点时，.string不知道要获取哪一个节点中的内容，故返回空
.text（或.get_text())可以返回当前节点所包含的所有文本内容，包括当前节点的子孙节点

string与text：

bs4新发地代码实例

# -*- coding: utf-8 -*-
import requests
import csv
from bs4 import BeautifulSoup
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"
}

url="http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml"
resp = requests.get(url=url,headers=headers)
#print(type(resp.text))
page=BeautifulSoup(resp.text,'lxml')
#print(type(page))
# table = page.find("table",class_="hq_table")              #class属性：class_
table = page.find("table",attrs={"class":"hq_table"})       #指定属性
#print(type(table),table)
trs = table.find_all("tr")      #匹配所有tr标签
vegs = trs[1:]
#print(vegs[0].string)
fp = open("price.csv","w",newline='',encoding="utf-8")     #有中文，utf-8编码格式，newline是防止多出现一行
csvwriter = csv.writer(fp)
for tr in vegs:
    tds = tr.find_all("td")
    #print(tds)
    name = tds[0].string    #菜名
    lowest = tds[1].string  #最低价
    aver = tds[2].string    #平均价
    highest = tds[3].string     #最高价
    scale = tds[4].string       #规格
    unit = tds[5].string        #单位
    date = tds[6].string        #发布日期
    #print(name+","+lowest+','+aver)
    csvwriter.writerow([name,lowest,aver,highest,scale,unit,date])      #csv保存方式
fp.close()
print('ok')
#爬取十页
# for i in range(10):
#     url = f'http://www.xinfadi.com.cn/marketanalysis/0/list/{i + 1}.shtml'
#     r = requests.get(url,headers=hd).content.decode('utf-8')
#     page = BeautifulSoup(r,'lxml')
#     tbody = page.find('div',class_='hangqing').find('table',class_='hq_table').findAll('tr')[1:]
#     for tr in tbody:
#         print(tr.text)

运行结果：
生成price.csv文件：

xpath

xpath用路径找到数据
安装lxml库

代码实例

# -*- coding: utf-8 -*-
from lxml import etree
html = """

    
        
         河南理工大学 
    
    
        
            计算机学院
        
        
            大数据
            物联网
            
                /this is a span
                计算机学院成立于1999年
            
        

        
            
                搜狐
                郑大
                河大
                百度
                数据科学与大数据技术
                计算机科学与技术
            
        

    

"""
tree = etree.HTML(html)
# print(tree)
# result1 = tree.xpath("/html")
# print(result1)

# result2 = tree.xpath("/html/head/title/text()")
# print(result2)
#[' 河南理工大学 ']

# result3 = tree.xpath("/html//li[1]/a/text()")
# print(result3)
#['搜狐']

result4 = tree.xpath("/html/body/div[@class='coll']/ul")		#指定属性
# print(result4)
#[]
result5 = result4[0].xpath("./li")		#./当前目录
# print(result5)
for i in result5:
    # print(i)
    # print(i.xpath("./*/text()"))
    print(i.xpath("./a/@href"))		#获取href属性

运行结果：

selenium

selenium是一个用电脑模拟人操作浏览器网页，可以实现自动化，测试等！还有就是只要是肉眼能在网页看到的selenium都能爬取，对动态数据爬取很是方便。

准备工作：

安装seleniumm
pip install selenium
下载浏览器驱动
Firefox浏览器驱动：geckodriver
Chrome浏览器驱动：chromedriver
Edge浏览器驱动：MicrosoftWebDriver
打开本地浏览器，查看浏览器版本，然后下载对应的驱动器版本
下载后，（解压），把驱动器放到与python.exe同一目录下。用PyCharm的运行一个代码后有显示python.exe路径。

selenium模拟浏览器爬取拉勾网职位信息

# -*- coding: utf-8 -*-
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from lxml import etree
import time

#隐藏浏览器，就浏览器不弹出来
# opt = Options()
# opt.add_argument('--headless')
# opt.add_argument('--disable-gpu')
# web = Chrome(options=opt)

web = Chrome()
url = 'https://www.lagou.com/'
web.get(url)
web.find_element_by_xpath('//*[@id="changeCityBox"]/ul/li[1]/a').click()    #选择城市
time.sleep(1)
web.find_element_by_xpath('//*[@id="search_input"]').send_keys('python',Keys.ENTER)    #搜索JAVA，回车
for i in range(3):
    #爬取3页
    li_list = web.find_elements_by_xpath('//*[@id="s_position_list"]/ul/li')    #每页所有职业，列表
    for li in li_list:
        time.sleep(1)
        #//点进职业详细信息（就点击），这种方法以防页面有滚动，无法点击现象。

        element = li.find_element_by_xpath('./div[1]/div[1]/div[1]/a/h3')
        web.execute_script("arguments[0].click();", element)        #这种方法防止找不到元素
        #li.find_element_by_xpath('./div[1]/div[1]/div[1]/a/h3').click()
        
        #//切换新打开的窗口，即职业详细信息窗口
        handlers = web.window_handles
        web.switch_to.window(handlers[-1])

        time.sleep(1)   #停一秒是防止页面没有加载出来，元素找不到而出错
        job = web.find_element_by_class_name('position-head-wrap-position-name').text   #职业名
        company = web.find_element_by_class_name('company').text            #公司名
        salary = web.find_element_by_class_name('salary').text              #薪水
        adress = web.find_element_by_class_name('publish_time').find_element_by_class_name('company').text      #公司地址
        #下面try是找岗位职责，因为有些页面信息是折叠的，所以先判断下是否有可点击折叠元素
        try:
            web.find_element_by_xpath('//*[@id="container"]/div[1]/div[1]/div[1]/span').click()
            duty = web.find_element_by_xpath('//*[@id="job_detail"]/dd[2]/div').text
        except:
            duty = web.find_element_by_xpath('//*[@id="job_detail"]/dd[2]/div').text
        print(job,company,salary,adress[:-4],duty,'\n')
        web.close()    #关闭当前页面
        time.sleep(1)
        web.switch_to.window(handlers[0])       #转到最初那个窗口
    web.find_element_by_class_name('pager_next ').click()    #点击下一页
#web.close()	#关闭浏览器
#web.quit()		#关闭浏览器所有打开的窗口

运行结果：

若是出错，下面出错信息，不是代码问题，因为你他这个网址会记录你访问次数啥的，很烦人，体验下这个过程就行了。

验证码

有些登录操作需要验证码，本节讲selenium获取验证码过程
首先你需要个识别验证码的第三方工具，这里推荐个超级鹰，关注公众能白嫖使用许多次，够支持你学会了。

selenium验证码12306登录操作代码

# -*- coding: utf-8 -*-
import requests
from selenium.webdriver import Chrome
import time
from PIL import Image
from selenium.webdriver.common.action_chains import ActionChains
from hashlib import md5

url = 'https://kyfw.12306.cn/otn/resources/login.html'
web = Chrome()
web.get(url)
web.maximize_window()       #窗口最大化
# web.refresh()     #刷新
web.find_element_by_xpath('/html/body/div[2]/div[2]/ul/li[2]/a').click()
# time.sleep(1)
web.find_element_by_xpath('//*[@id="J-userName"]').send_keys('帐号')      #这里需要输入你12306的帐号
web.find_element_by_xpath('//*[@id="J-password"]').send_keys('密码')      #12306密码

web.save_screenshot('page_.png')        #截全屏
img = web.find_element_by_xpath('//*[@id="J-loginImg"]')        #找到验证码位置（通过属性定位）
loc = img.location
size = img.size                 #验证码大小
rect = (loc['x'],loc['y'],loc['x']+size['width'],loc['y']+size['height'])           #验证码左上角和右下角坐标
i = Image.open('./page_.png')
code = './code_.png'
frame = i.crop(rect)            #吧把验证码部分截下来
frame.save(code)

#下面类代码是超级鹰验证码识别框架，不用管
class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


chaojiying = Chaojiying_Client('用户帐号', '密码', '918789')	#帐号，密码用自己的 #用户中心>>软件ID 生成一个替换 96001
im = open('code_.png', 'rb').read()			            #本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
clicks = chaojiying.PostPic(im, 9005)['pic_str']        #pic_str是字典里的一个键，值是验证码（点击坐标）
print(clicks)
loc_all = clicks.split('|')
#模拟图片验证码点击操作
for xy in loc_all:
    x,y = xy.split(',')
    ActionChains(web).move_to_element_with_offset(img,int(x),int(y)).click().perform()

web.find_element_by_xpath('//*[@id="J-login"]').click()     #点击登录

#拖动滑块
time.sleep(1)
#web.switch_to.alert.accept()        #切换到弹出框
huakuai = web.find_element_by_xpath('//*[@id="nc_1_n1z"]')
#time.sleep(1)
# move_to_gap(huakuai,get_track(300))

# 防止12306禁止selenium
#使用selenium滑动会被12306检测到，需要伪装一下
script = 'Object.defineProperty(navigator,"webdriver",{get:()=>undefined,});'
web.execute_script(script)

#滑块移动
span = web.find_element_by_xpath('//*[@id="nc_1_n1z"]')
action = ActionChains(web)
action.click_and_hold(span)
action.move_by_offset(350, 0).perform()
action.release()

print('登陆了成功！')

代码运行说明：
1、下面这个调一下，在设置里面。不调的话验证码截剪的不对

2、代码里需要填写两处帐号、密码，一个是12306、另一个是超级鹰的
3、出错可能验证码没有成功，这个代码只会测试一次，没成功就重新运行代码。

运行：
截的网页：

截剪的验证码：

输出：

好了，到此本片文章结束，希望你能有所收获，捏！

深度对比：innerHTML vs 虚拟DOM——原理、性能与应用全解析止观止前端前端框架前端 html5 javascript reactjs xss
引言在现代Web开发中，高效操作DOM（文档对象模型）是构建高性能应用的关键。传统方法如innerHTML和新兴的虚拟DOM（VirtualDOM）技术代表了两种截然不同的DOM更新策略。innerHTML作为浏览器原生API，直接操纵HTML字符串；虚拟DOM则是通过JavaScript对象树进行优化更新，广泛应用于React、Vue等框架。本文深入对比两者的核心原理、技术细节、应用场景及优劣，
毕业设计基于python + flask +mysql + Layui新闻系统项目源码 love0everything flask python 课程设计
毕业设计基于python+flask+mysql+Layui新闻系统项目源码介绍该项目采用Flask框架开发，数据库采用mysql。这是一个作业项目。该项目采用Flask框架开发的一个新闻、论坛、博客系统。。前端采用的是layui框架，后端模板是X-admin下载地址：毕业设计基于python+flask+mysql+Layui新闻系统项目源码模块版本PyMysql1.0.2Flask1.1.2M
tailwindcss报错于慨 javascript
warn-The`content`optioninyourTailwindCSSconfigurationismissingorempty.warn-ConfigureyourcontentsourcesoryourgeneratedCSSwillbemissingstyles.warn-https://tailwindcss.com/docs/content-configurationtrans
测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
常用的折叠展开过渡动画效果css
如何实现优雅的折叠展开动画效果在现代Web设计中，折叠展开动画是一种常见且实用的交互方式，它可以帮助用户在保持界面简洁的同时，灵活控制内容的显示与隐藏。本文将分享如何使用HTML、CSS和JavaScript实现一个平滑流畅的折叠展开动画效果。基本原理折叠展开动画的核心原理是通过CSS过渡(transition)来控制元素的高度、内边距和其他样式属性的变化。当用户点击触发按钮时，JavaScrip
css 边框颜色渐变周不凢 CSS css 前端
border-image:linear-gradient(90deg,rgba(207,194,195,1),rgba(189,189,189,0.2),rgba(207,194,195,1))1;
Mac 下 python 安装 virtualenv 出错 stay_f_h
如果是安装了anaconda的机器，直接用pipinstallvirtualenv可能会由于版本的问题出错，建议使用sudocondainstallvirtualenv安装。
scrapy 一定要自定义USER_AGENT 魔童转世
原因是因为有的网站设置的是不允许爬虫请求，而srapy默认请求是带着一个标识告诉网站我就是爬虫，网站当然不允许爬去了偶然间在一个网站上看到的内容并且也跳过坑USER_AGENT='Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.181Safari/537.36'
Firefox浏览器Flash及音乐播放插件使用指南酷毙的我啊
本文还有配套的精品资源，点击获取简介：随着Firefox逐步淘汰原生FlashPlayer支持，依赖于Flash的内容和某些网页音乐的播放需求催生了特定插件的开发。尽管HTML5已取代Flash成为网页多媒体的核心，教育和娱乐领域的某些旧内容仍然需要使用Flash。用户可以通过安装类似Ruffle这样的Flash模拟器来播放Flash内容，同时，专为Firefox设计的音乐插件如Enhancerf
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
Python 字典(dict)和集合(set)新手指南
一、字典(dict)基础什么是字典？字典就像现实中的字典一样，通过"键(key)"快速查找对应的"值(value)"。#创建字典student_scores={"小明":90,"小红":85,"小刚":92}#查找成绩print(student_scores["小明"])#输出:90为什么字典查找快？字典使用哈希表实现，查找速度是O(1)级别，不会随着数据量增加而变慢。二、字典常用操作1.添加/修
Redmi 5Plus Liunx(PostmarketOS) Installation Tutorial
Setup1unlockbootloaderReference:https://www.miui.com/unlock/index.htmlNotice:miflush_unlockrequiresawindowsosIftheunlocktooldoesnotrecognizethephone,youneedtoinstallthedrivermanuallyinthedevicemanager
Python函数参数`*args`和`**kwargs`详解：区别与使用指南北辰alk python python 服务器数据库
文章目录一、基本概念与区别概述1.1`*args`（非关键字参数收集）1.2`**kwargs`（关键字参数收集）1.3主要区别对比表二、深入理解`*args`2.1基本用法2.2工作原理2.3与其他参数配合使用2.4解包序列作为参数三、深入理解`**kwargs`3.1基本用法3.2工作原理3.3与其他参数配合使用3.4解包字典作为参数四、组合使用`*args`和`**kwargs`4.1完整参
【Leetcode】3201. 找出有效子序列的最大长度 I 想要AC的dly 练习题(记录做题想法)leetcode 算法职场和发展
文章目录题目题目描述示例提示思路分析核心观察有效子序列的四种模式算法思路代码实现Java版本C++版本Python版本优化版本复杂度分析时间复杂度空间复杂度示例验证总结题目题目链接题目描述给你一个整数数组nums。nums的子序列sub的长度为x，如果其满足以下条件，则称其为有效子序列：(sub[0]+sub[1])%2==(sub[1]+sub[2])%2==...==(sub[x-2]+sub
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1179 数字统计
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1179[NOIP2010普及组]数字
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1109 学生分组热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1109学生分组-洛谷【题目描述】有n
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1449 后缀表达式热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1449后缀表达式-洛谷【题目描述】所
Python 内存分析方法 focksorCr python 开发语言 linux
概述本文档描述了如何分析Python应用中各部分内存使用量的方法，不含削减方法（如果你知道问题出在哪里，那你就应该知道如何解决）。内存分析统计分析Python的tracemalloc模块可以跟踪Python应用中的内存开销情况。阅读链接上的文档可以解决你所有问题。下面是上述文档的一些摘抄。尽早开始跟踪要追踪Python所分配的大部分内存块，模块应当通过将PYTHONTRACEMALLOC环境变量设
解决Python爬虫访问HTTPS资源时Cookie超时问题
一、问题背景：Cookie15秒就失效了？很多互联网图片站为了防止盗链，会把图片地址放在HTTPS接口里，并且给访问者下发一个带Path=/的Cookie，有效期极短（15s～60s）。常规Requests脚本在下载第二张图时就会401或403。本文以某壁纸站https://example-pics.com为例，演示如何：自动化获取并刷新Cookie；在下载高并发图片时维持Cookie活性；把方案
CSS背景精灵技术(sprite) 雪碧技术 9979eb0cd854
image.pngimage.png拼出自己的名字——ANDYimage.pngimage.pngimage.pngNDY以此类推总结：利用CSS的“background-image”，“background-repeat”，“background-position”的组合进行背景定位用到的代码：background:url(images/abcd.jpg)no-repeat;width:108p
Python - 数据分析三剑客之Pandas MinggeQingchun Python Python Pandas
阅读前可参考NumPy文章https://blog.csdn.net/MinggeQingchun/article/details/148253682https://blog.csdn.net/MinggeQingchun/article/details/148253682‌Pandas是Python中一个强大的开源数据分析库，专门用于处理结构化数据（如表格、时间序列等），其核心数据结构为Seri
第一章【vue】基础（超详细） ᝰ落念英 vue.js 前端 javascript web 开发语言前端框架 vue
Vue基础Vue在HTML中的引入使用Vue渲染数据Vue可直接渲染定义在data里的数据,渲染动态数据使用“{{}}"包裹示例代码{{message}}{{arr}}{{arr.name}}{{arr.age}}{{obj[2]}}在js中挂载Vue实例Vue实列的作用范围：vue会管理el选项命中的元素及其后代元素是否可以使用其他选择器但是建议使用id选择器是否可以设置其他的dom元素可以使用
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)学习python网络爬虫的完整路径：（第一章即此篇文章）（第二章）python网络爬虫(第二章/共三章：安装浏览器驱动，驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?
禁止拖动视频进度条来保障视频安全？菜包eo 教育视频 polyv 视频安全音视频安全
文章目录前言一、何为禁止拖动视频进度条？二、禁止拖动视频进度条的实现原理三、如何实现禁止拖动视频进度条总结前言在知识付费与企业培训场景中，视频内容安全是核心诉求。学员随意拖动进度条可能导致关键知识点遗漏，甚至助长盗录行为。本文深入解析HTML5播放器禁止拖拽进度条的技术方案，通过精准控制播放行为保障学习效果与内容安全。以企业培训、在线教育为例，探讨如何借助技术手段平衡用户体验与内容防护，为开发者提
mac mlx大模型框架的安装和使用 liliangcsdn python java 前端人工智能 macos
mlx是apple平台的大模型推理框架，对macm1系列处理器支持较好。这里记录mlx安装和运行示例。1安装mlx框架condacreate-nmlxpython=3.12condaactivatemlxpipinstallmlx-lm2运行mlx测试例以下是测试程序，使用方法和hf、vllm等推理框架基本一致。importosos.environ['HF_ENDPOINT']="https://
第二篇 html5和css3开发基础与应用 ᝰ落念英 html5 css3 前端开发语言 web html css
第一章html5开发基础与应用第一节简介2014年10月28日，W3C组织公开发布HTML5标准规范。官方文档地址为：https://www.w3.org/TR/2014/REC-html5-20141028/HTML5.1文档地址：https://www.w3.org/TR/2015/WD-html51-20151008/HTML5.2文档地址：https://www.w3.org/TR/201
【MySQL基础】MySQL事务详解：原理、特性与实战应用 GG Bond.ฺ MySQL学习 mysql 数据库
MySQL学习：https://blog.csdn.net/2301_80220607/category_12971838.html?spm=1001.2014.3001.5482前言：事务是数据库管理系统的核心概念之一，它确保了数据库操作的可靠性和一致性。本文将深入探讨MySQL事务的各个方面，包括基本概念、ACID特性、隔离级别、锁机制以及实战应用。目录一、事务的基本概念1.1什么是事务？1.
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l