霞落凤舞起

人工智能学习笔记：Python爬虫开发

一、爬虫介绍与常用工具

第一个爬虫

from urllib.request import urlopen
url = 'http://www.baidu.com'
response = urlopen(url)
print(response.read().decode())
print(response.getcode())  		#返回状态码
print(response.geturl())		#实际访问的url
print(response.info())			#http响应头

get请求

from urllib.request import urlopen,Request
from urllib.parse import quote
from urllib.parse import urlencode
args = {
    'wd':"尚学堂",
    'ie':'utf-8'
}
print(urlencode(args)) 		 #wd=%E5%B0%9A%E5%AD%A6%E5%A0%82&ie=utf-8
# url = 'https://www.baidu.com/s?ie=UTF-8&wd={}'.format(quote("尚学堂"))
url = 'https://www.baidu.com/s?ie=UTF-8&wd={}'.format(urlencode(args))
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
req = Request(url,headers=headers)
print(urlopen(req).read().decode())

post请求：

from urllib.request import urlopen,Request
from urllib.parse import urlencode
url = 'https://www.baidu.com/'
args = {
    'user':'111111',
    'password':'123456'
}
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36"
}
req = Request(url,headers=headers,data=urlencode(args))
print(urlopen(req).read().decode())

https请求问题

import ssl
context = ssl._create_unverified_context() #忽略ssl安全认证
print(urlopen(url,context=context).read().decode())

二、爬虫常用开发模块

动态UserAgent的使用

from fake_useragent import UserAgent
ua = UserAgent()
print(ua.ie)
print(ua.chrome)
print(ua.random)

opener的使用

from urllib.request import urlopen,Request
url = "http://httpbin.org/get"
from fake_useragent import UserAgent
headers = {
    "User-Agent": UserAgent().random
}
req = Request(url,headers=headers)
from urllib.request import  build_opener,HTTPHandler
handler = HTTPHandler(debuglevel=1) 		#打印信息
opener = build_opener(handler)
resp = opener.open(req)
#print(resp.read().decode())

proxy代理的使用

from urllib.request import  build_opener,ProxyHandler
# handler = ProxyHandler({"http":"name:password@ip:port"})
handler = ProxyHandler({"http":"211.137.52.158:8080"})
opener = build_opener(handler)

cookie使用

from urllib.request import HTTPCookieProcessor
handler = HTTPCookieProcessor()		#可以保存cookie
opener = build_opener(handler)

cookie的保存与使用

#cookie的保存
from http.cookiejar import MozillaCookieJar
cookie_jar = MozillaCookieJar()
handler = HTTPCookieProcessor(cookie_jar)
opener = build_opener(handler)
resp = opener.open(req)
cookie_jar.set_cookie('cookie.txt', ignore_discard=True, ignore_expires=True)
#cookie的使用
from http.cookiejar import MozillaCookieJar
cookie_jar = MozillaCookieJar()
cookie_jar.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = HTTPCookieProcessor(cookie_jar)
opener = build_opener(handler)
resp = opener.open(req)

捕获异常URLError
```
from urllib.error import URLError
```

requests的使用

get请求

import requests
url = "http://httpbin.org/get"
proxy = {									
    "http":"http://211.137.52.158:8080"		#设置代理
}
headers = {"User-Agent":UserAgent().random}
resp = requests.get(url,headers=headers,proxies=proxy)
print(resp.url)
resp.encoding = 'utf-8'
print(resp.text)

session自动保存cookies

s = requests.Session() 
# 用session对象发出get请求，设置cookies 
s.get('http://httpbin.org/cookies/set/sessioncookie/123456789')

ssl验证

# 禁用安全请求警告
requests.packages.urllib3.disable_warnings()
resp = requests.get(url, verify=False, headers=headers)

三、数据提取与验证码识别

正则表达式的使用：https://blog.csdn.net/mingzme/article/details/107250157
```
f1 = re.match(r"/w",str)
s1 = re.sub(r"every_day","EveryDay",str)	#t替换
```

数据提取-Beautiful Soup：https://blog.csdn.net/mingzme/article/details/107250908

from bs4 import BeautifulSoup
soup = BeautifulSoup(str, 'lxml')
print(soup.title)
a = soup.select('css表达式')[0].text		#css表达式
a.get('href')							  #获得元素的属性

数据提取-XPath：https://blog.csdn.net/mingzme/article/details/107252400

from lxml import etree
url='https://www.qidian.com/rank/fengyun?style=1&year=2018&month=08'
headers = {"User-Agent":UserAgent().chrome}
resp = requests.get(url,headers=headers)
e = etree.HTML(resp.text)
names = e.xpath('//div[@class="book-mid-info"]/h4/a/text()')
authors = e.xpath('//p[@class="author"]/a[1]/text()')
for name,author in zip(names,authors):
    print(name +":"+ author)

数据提取-PyQuery：https://blog.csdn.net/mingzme/article/details/107255479

from pyquery import PyQuery
doc = PyQuery(resp.text)
names = [a.text for a in doc('h4 a')]	()中是css表达式
print(names)

数据提取-jsonpath：https://blog.csdn.net/mingzme/article/details/107299928

json

str = '{"name":"盗梦空间"}'
obj = json.loads(str)       							#字符串转字典对象
obj_str = json.dumps(obj,ensure_ascii=False)    		#字典对象转字符串
#对象保存到文件
json.dump(obj,open('movie.txt','w',encoding='utf-8'),ensure_ascii=False)
obj2 = json.load(open('movie.txt',encoding='utf-8'))	#文件转对象

jsonpath使用

from  jsonpath import jsonpath
names = jsonpath(json.loads(resp.text), '$..name')
ids = jsonpath(resp.json(),"$..id")

Tesseract识别文字(需要安装)

import pytesseract
from PIL import Image
img = Image.open('yzm1.jpg')
str = pytesseract.image_to_string(img)
print(str)

selenium与PhantomJS游览器自动化插件：https://blog.csdn.net/mingzme/article/details/107303299

from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')          #开启无头浏览器模式
options.add_argument('--proxy-server=http://ip:port')	#设置代理
chrome = webdriver.Chrome(chrome_options=options)
chrome.get("https://cn.bing.com/")
chrome.find_element_by_id('sb_form_q').send_keys('python')	#输入框输入需要查询内容
chrome.find_element_by_id('sb_form_go').click()				#点击查询按钮
chrome.save_screenshot('baidu.png') #截图
js = 'document.documentElements.scrollTop=1000000'
chrome.execute_script(js)			#拉滚动条
html = chrome.page_source   #获取源代码
chrome.quit()       #关闭浏览器

四、Scrapy框架简介与配置

创建项目
```
scrapy startproject myfrist
```

创建爬虫

scrapy genspider 爬虫名 爬虫的地址

运行爬虫

scrapy crawl 爬虫名
scrapy crawl 爬虫名 -o douban.json -t json  
#方法二
from scrapy.cmdline import execute
execute('scrapy crawl movie'.split())

案例

#movie.py
    def parse(self, response):
        names = response.xpath('//div[@class="hd"]/a/span[1]/text()').extract()
        stars = response.xpath('//span[@class="rating_num"]/text()').extract()
        item = DoubanItem()
        for name, star in zip(names, stars):
            item['name'] = name
            item['star'] = star
            yield item'
            
#items.py
class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    star = scrapy.Field()
    
#pipelines.py
from json import dumps
class DoubanPipeline:
    def open_spider(self,spider):		#爬虫开始时运行
        self.filename = open('movies.txt','w',encoding='utf-8')

    def process_item(self, item, spider):
        self.filename.write(dumps(dict(item),ensure_ascii=False)+"\n")
        return item

    def close_spider(self,spider):		#爬虫结束时运行
        self.filename.close()

settings.py的设置内容：https://blog.csdn.net/mingzme/article/details/107322777

案例

#qu.py
class QuSpider(scrapy.Spider):
    name = 'qu'
    allowed_domains = ['qu.la']
    start_urls = ['https://www.qu.la/book/4703/2014176.html']

    def parse(self, response):
        title = response.xpath('//h1/text()').extract_first()
        content = response.xpath('string(//div[@class="content"])').extract_first().strip().replace('　　　　    ','\n')
        next_url = response.xpath('//div[@class="section-opt"]/a[3]/@href').extract_first()

        yield{
            'title':title,
            'content':content
        }
        #继续爬取下一个url
        yield scrapy.Request(response.urljoin(next_url), callback=self.parse)
        
#pipelines.py
class FictionPipeline:
    def open_spider(self,spider):
        self.filename = open('fiction.txt','w',encoding='utf-8')

    def process_item(self, item, spider):
        info = item['title'] + '\n' + item['content'] + "\n"
        self.filename.write(info+'\n\n\n')
        self.filename.flush()
        return item

    def close_spider(self,spider):
        self.filename.close()

五、scrapy框架高级

crawlspider的使用

创建爬虫
```
scrapy genspider qu3 qu.la -t crawl
```

案例

class Qu3Spider(CrawlSpider):
    name = 'qu3'
    allowed_domains = ['qu.la']
    start_urls = ['https://www.qu.la/book/4703/']

    rules = (
        Rule(LinkExtractor(restrict_xpaths=r'//*[@id="list"]/dl/dd[13]/a'), callback='parse_item', follow=True),#爬取第一章
        Rule(LinkExtractor(restrict_xpaths=r'//div[@class="section-opt"]/a[3]'), callback='parse_item', follow=True),
    )						

    def parse_item(self, response):
        title = response.xpath('//h1/text()').extract_first()
        content = response.xpath('string(//div[@class="content"])').extract_first().strip().replace('　　　　    ', '\n')
        yield {
            'title': title,
            'content': content
        }

imagepipline 下载图片

#zol.py
    def parse(self, response):
        image_url = response.xpath('//img[@id="bigImg"]/@src').extract_first()
        image_name = response.xpath('string(//h3)').extract_first()
        yield {
            'image_urls' : [image_url],		#不重写方法的话名字固定
            'image_name' : image_name
        }
        next_url = response.xpath('//a[@id="pageNext"]/@href').extract_first()
        yield scrapy.Request(response.urljoin(next_url),callback=self.parse)
        
#pipelines.py
from scrapy.pipelines.images import ImagesPipeline
from scrapy import Request
class ImagePipeline(ImagesPipeline):		#继承ImagesPipeline

    def get_media_requests(self, item, info):
        return Request(item['image_urls'], meta={'name' : item['image_name']})

    def file_path(self, request, response=None, info=None):		#改变图片名字
        name = request.meta['name'].strip().replace('\r\n\t\t','')
        name = name.replace('/','-')
        return name+'.jpg'
    
 #settings.py
ITEM_PIPELINES = {
   'scrapy.pipelines.images.ImagesPipeline': 300,
   'image.pipelines.ImagePipeline' : 300,			#重写方法的加进去
}
IMAGES_STORE='C:/Users/Mingz/Desktop/PythonLab/imagee'

中间件：动态UA设置

#middlewares.py
#from image.settings import USER_AGENTS
#from random import choice
class UserAgentMiddlerware:
	def process_request(self, request, spider):
		request.headers.setdefault(b'User-Agent',UserAgent().random)
#setting.py
DOWNLOADER_MIDDLEWARES = {
   'image.middlewares.ImageDownloaderMiddleware': 343,	#调高优先级
}
USER_AGENT=[
    'a','b','c'
]

中间件：动态代理

#middlewares.py
class ProxyMiddlerware:
	def process_request(self,request, spider):
		request.meta['proxy'] = 'http://uname:password@ip:port'
#setting.py
DOWNLOADER_MIDDLEWARES = {
   'image.middlewares.ProxyMiddlerware':344
}

登陆表单

class FilterSpider(scrapy.Spider):
    name = 'filter'
    allowed_domains = ['baicu.com']
    
    def start_requests(self):
        url = 'https://www.baidu.com'
        form_data= {
            'user':'user',
            'password':'pwd'
        }
        for num in range(3):
            yield scrapy.FormRequest(url, callback=self.parse, formdata=form_data, dont_filter=True,cookie="..")#True 不再去重 传表单 cookie要传入字典对象

六、爬虫数据存储

mongodb数据库使用

show dbs
db.createCollection('student')
db.dropDatabase()
show tables
show collections	#和show tables 一样
db.student.drop()

crud操作

db.student.save([{name:"刘备"},{name:"董卓"}])		#id重复则覆盖
db.student.insert({name:"刘备"})						#id重复则报错
db.student.update({name:"刘备"},{age:33,name:"刘备"})	
db.student.update({name:"刘备"},{$set:{age:18}},{multi:true})	#更新多条
db.student.remove({name:"刘备"},{justOne:true})
db.student.remove({})			#删除所有数据
db.student.find().limit(3).skip(6).sort({age:1})	#1升序 -1降序
db.student.find({country:"魏国"}).count()
db.student.find({$or:[{age:{$lt:25}},{country:'魏国'}]})       #小于25的或者...
db.student.find({age:{$in:[25,28]}})
db.student.find({name:/^曹/})			#模糊匹配 姓曹的人
db.student.find({name:{$regex:"^曹"}})
db.student.find({$where:function(){return this.age>=23}})	#自定义查询
db.student.distinct('country')			#去重
db.student.find({'age':{$exists:true}})

Mongo与Python的交互

from pymongo import MongoClient
client = MongoClient()
school = client.school  #获取数据库实例
student = school.student    #获取集合
stus = student.find()
print(stus.next())
stu = student.find_one({"country":"蜀国"})
stus = student.find().skip(6).limit(6)
# stus = student.find().sort("age",pymongo.DESCENDING)
stu = {"name":"诸葛亮","country":"蜀国"}
student.insert_one(stu)
student.update_one({"name":"诸葛亮"},{"$set":{"age":30}})
student.delete_many({"name":"诸葛亮"})

爬取数据保存到数据库

#Mongo数据库
from pymongo import MongoClient

class MongoDemoPipeline:
    def open_spider(self,spider):
        self.client = MongoClient()
        self.db = self.client.movie
        self.collection = self.db.collection

    def process_item(self, item, spider):
        self.collection.insert(item)
        return item

    def close_spider(self,spider):
        self.client.close()
        
 #Mysql 数据库
 class MysqlPipeline:
    def open_spider(self,spider):
        self.client = connect(host='localhost', port=3306, user='root', password='root', db='test01')
        self.cursor = self.client.cursor()

    def process_item(self, item, spider):
        sql = 'insert into t_maoyan values(0,%s,%s)'
        self.cursor.execute(sql, [item['name'],item['star']])
        self.client.commit()
        return item

    def close_spider(self,spider):
        self.cursor.close()
        self.client.close()
 #setting.py
   ITEM_PIPELINES = {
   'mongo_demo.pipelines.MongoDemoPipeline': 300,
   'mongo_demo.pipelines.MysqlPipeline': 301,
}

七、动态数据抓取

Splash与python：https://blog.csdn.net/mingzme/article/details/107339895

url = 'https://www.guazi.com/hengshui/buy/'
base_url = 'http://192.168.99.100:8050/render.html?url={}&wait=2'.format(url)
resp = requests.get(base_url, headers={'User-Agent': UserAgent().chrome})

import requests
from urllib.parse import quote
from fake_useragent import UserAgent

url = 'https://www.guazi.com/hengshui/buy/'
lua_script = '''
function main(splash, args)
  assert(splash:go('{}'))
  assert(splash:wait(0.5))
  return splash:html()
end
'''.format(url)
base_url = 'http://192.168.99.100:8050/execute?lua_source=' + quote(lua_script)
resp = requests.get(base_url, headers={'User-Agent': UserAgent().chrome})

splash与scrapy

#settings.py
SPLASH_URL = 'http://192.168.99.100:8050/'
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
SPIDER_MIDDLEWARES = {
  'scrapy_splash.SplashDeduplicateArgsMiddleware': 100
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

#guaizi.py
from scrapy_splash import SplashRequest
class Guazi1Spider(scrapy.Spider):
    name = 'guazi1'
    allowed_domains = ['guazi.com']
    
    def start_requests(self):
        url = 'https://www.guazi.com/bj/buy'
        yield SplashRequest(url, callback=self.parse,args={'wait':2})
    def parse(self, response):
        print(response.text)
        
#guaizi2.py
    def start_requests(self):
        url = 'https://www.guazi.com/hengshui/buy/'
        lua_script = '''
        function main(splash, args)
          assert(splash:go(args.url))
          assert(splash:wait(0.5))
          return splash:html()
        end
        '''
        yield SplashRequest(url, callback=self.parse, endpoint='execute',args={'lua_source':lua_script})

selenium 与 scrapy的结合

#baidu.py
import scrapy
from selenium import webdriver
from scrapy import signals
class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    allowed_domains = ['baidu.com']
    start_urls = ['http://www.baidu.com/']

    @classmethod
    def from_crawler(cls, crawler, *args, **kwargs):
        spider = super(BaiduSpider, cls).from_crawler(crawler, *args, **kwargs) #初始化爬虫对象
        spider.driver = webdriver.Chrome()
        crawler.signals.connect(spider.spider_closed, signal=signals.spider_closed)#捕捉信号
        return spider

    def spider_closed(self, spider):
        spider.driver.close()

    def parse(self, response):
        print(response.text)
middlewares.py
from scrapy.http import HtmlResponse
class SeleniumMiddleware:
    def process_request(self, request, spider):
        spider.driver.get(request.url)
        html = spider.driver.page_source
        return HtmlResponse(url=request.url,body=html,request=request,encoding='utf-8')       #不会再走后面和下载器
#setting.py
DOWNLOADER_MIDDLEWARES = {
   'selenium_demo.middlewares.SeleniumMiddleware': 543,
}

视频格式批量转换工具-FFGO 屠屠在干嘛 FFGO 格式工厂视频
由于毕设需要webm来展示动画而搜索引擎所有的webm转换工具都是在线且限制转换大小的就算大小刚好也容易报错甚至转换不出来绞尽脑汁干脆自己写了一个视频格式转换工具基本上视频格式都能够支持，如果后续有什么无法支持的格式我会后续继续更新所以暂且命名他为FF-GO吧也挺好听的，下面是软件的截图和下载链接下载直链：https://tuwp.cc:999/d/LOVETU/%E5%AE%9E%E7%94%A
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
信息学奥赛一本通1353 表达式括号匹配(stack) （栈） Star77777 信息学奥赛一本通 #数据结构栈信息学奥赛一本通括号匹配
1353：表达式括号匹配(stack)时间限制:1000ms内存限制:65536KB提交数:14209通过数:7610【题目描述】设一个表达式有英文字母（小写）、运算符（+，—，∗，/+，—，∗，/）和左右小（圆）括号构成，以“@@”作为表达式的结束符。请编写一个程序检查表达式中的左右圆括号是否匹配，若匹配，则返回“YESYES”；否则返回“NONO”。表达式长度小于255255，左圆括号少于20
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
Java面试黄金宝典12 ylfhpy Java面试黄金宝典 java 面试开发语言
1.什么是Java类加载机制定义Java类加载机制是Java程序运行时的关键环节，其作用是把类的字节码文件（.class文件）加载到Java虚拟机（JVM）中，并且将字节码文件转化为JVM能够识别的类对象。整个类加载过程主要包含加载、连接（验证、准备、解析）和初始化三个阶段。原理加载阶段：此阶段会通过类的全限定名来获取定义该类的二进制字节流。获取途径较为多样，既可以从本地文件系统读取，也能从网络下
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
操作系统练习题齐飞 linux
文章目录一、单选题二、多选题三、填空题四、简答题一、单选题1、在计算机系统中配置操作系统的主要目的是（）。A、增强计算机系统的功能B、提高系统资源的利用率C、提高系统的运行速度D、合理组织系统的工作流程，以提高系统吞吐量正确答案：B2、操作系统的主要功能是管理计算机系统中的（），其中包括处理机、存储器，以及文件和设备。这里的存储器管理主要是对进程进行管理。A、程序和数据B、资源C、软件D、硬件正确
Not enough information to list image symbols. Not enough information to list load addresses in ... Water_Sounds 学习笔记 keil mdk
除了绝大部分网上给的解决方法外：Notenoughinformationtolistimagesymbols.Notenoughinformationtolistloadaddressesin…我在向正点原子例程“输入捕获”中添加lcd驱动程序时，发现按照上述链接的做法填了路径什么的，还是报错，最后发现是这个.c文件文件没有添加进来导致这两句话一直是无定义，填进来就好了。
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
C++开发内存监控工具推荐点云SLAM 开发工具开发环境 c++开发语言 AddProperty gperftools Address 内存监控访问越界
在C++开发中，内存管理是至关重要的，尤其是当程序处理大数据或长时间运行时，内存泄漏或不当使用可能导致性能下降或崩溃。以下是几种常见且有效的内存监控工具，它们可以帮助开发者实时分析、诊断和优化程序的内存使用。1.ValgrindValgrind是一个广泛使用的内存调试和性能分析工具，它的Memcheck工具可以帮助你检查程序中的内存泄漏、内存越界、未初始化内存使用等问题。特点：检测内存泄漏。检查内
JVM 类加载器之间的层次关系，以及类加载的委托机制冰糖心书房 JVM 2025 Java面试系列 java jvm
JVM类加载器之间存在一种层次关系，通常被称为双亲委派模型(ParentDelegationModel)。这种层次关系和委托机制是Java类加载机制的核心，对于保证Java程序的安全性和避免类冲突至关重要。1.类加载器的层次关系:JVM中的类加载器（ClassLoader）主要分为以下几种，它们之间存在自顶向下的层次关系（父子关系，但不是继承关系，而是组合关系）：启动类加载器(BootstrapC
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
使用 Docker 部署 Puter 云桌面系统 Jaxx.Wang #开源项目 Docker
1）Puter介绍:::infoGitHub：https://github.com/HeyPuter/puter:::Puter是一个先进的开源桌面环境，运行在浏览器中，旨在具备丰富的功能、异常快速和高度可扩展性。它可以用于构建远程桌面环境，也可以作为云存储服务、远程服务器、Web托管平台等的界面。Puter是一个隐私至上的个人云，可以将您的所有文件、应用程序和游戏保存在一个安全的地方，随时随地都
TCP和MQTT通信协议御风_21 物联网分享篇 tcp/ip 网络服务器网络协议
协议分层网络分层协议应用层CoAPMQTTHTTP传输层UDPTCP网络层IP链路层Enternet网络分层中最常见的几种协议应用层：应用程序负责将数据以相应规则(协议)进行包装，发给传输层MQTT：消息队列遥测传输CoAP：受限应用协议HTTP：超文本传输协议传输层：负责将应用层传输过来的数组进行分组，为确保终端接收数据的顺序和完整性，会对每个分组进行标记，交给网络层TCP：传输控制协议UDP：
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
禁止搜索引擎收录网站内容,百度,谷歌,所有等... wangxingps seo 搜索引擎百度 html
第一种、robots.txt方法搜索引擎默认的遵守robots.txt协议，创建robots.txt文本文件放至网站根目录下，编辑代码如下:User-agent:*Disallow:/通过以上代码，即可告诉搜索引擎不要抓取采取收录本网站，注意慎用如上代码：这将禁止所有搜索引擎访问网站的任何部分。如何只禁止百度搜索引擎收录抓取网页1、编辑robots.txt文件，设计标记为:User-agent:B
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它