小蒋的技术栈记录

数学建模-爬虫系统学习

尚硅谷Python爬虫教程小白零基础速通（含python基础+爬虫案例）
内容包括：Python基础、Urllib、解析（xpath、jsonpath、beautiful）、requests、selenium、Scrapy框架

python基础 + 进阶（字符串列表元组字典文件异常）

页面结构

爬虫

urllib_get请求的quote方法

编码集的演变
由于计算机是美国人发明的，因此，最早只有127个字符被编码到计算机里，也就是大小写英文字母、数字和一些符号，
这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母z的编码是122。
但是要处理中文显然一个字节是不够的，至少需要两个字节，而且还不能和ASCII编码冲突，
所以，中国制定了GB2312编码，用来把中文编进去。
你可以想得到的是，全世界有上百种语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，
各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。
因此，Unicode应运而生。Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题了。
Unicode标准也在不断发展，但最常用的是用两个字节表示一个字符（如果要用到非常偏僻的字符，就需要4个字节）。
现代操作系统和大多数编程语言都直接支持Unicode。

urllib_get请求的urlencode方法

urllib_post

ajax的get请求

豆瓣电影前十页

ajax的post请求

肯德基的餐厅信息
判断ajax请求

异常

urllib_cookie登录

数据采集的时候需要绕过登录，进入某个页面

代理池

解析

xpath

获取百度网页百度一下

站长素材

JsonPath

BeautifulSoup

爬取星巴克数据

Selenium

驱动下载后，解压，放在项目目录下

Phantomjs(基本被淘汰)

驱动下载后，解压，放在项目目录下

Chrome handless

requests

超级鹰平台，能够识别验证码图片

scrapy

scrapy
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖
掘，信息处理或存储历史数据等一系列的程序中。

# (1) pip install scrapy
# (2)错1： building 'twisted.test.raiser' extension
#error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft
#Build Tools": http://landinghub.visualstudio.com/visual-cpp-build-too
#解决1
#http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
#Twisted-20.3.0-cp37-cp37m-win_amd64.whl
#cp是你的python版本
#amd是你的操作系统的版本
#下载完成之后使用pip  install  twistec的路径安装
#切记安装完twisted再次安装scrapy
# (3)报错2 示python -m pip install --upgrade pip
#解决2 运行python -m pip install --upgrade pip
# (4)报错3 win32的错误
#解决3 pip install pypiwin32
# (5) anaconda

1. scrapy项目的创建以及运行

1.创建scrapy项目：
终端输入 scrapy startproject 项目名称（不能数字开头，不能有汉字）

项目组成：
spiders
＿init_.py 自定义的爬虫文件.py －-》由我们自己创建，是实现爬虫核心功能的文件 init_.py
items.py －--》定义数据结构的地方，是一个继承自scrapy.Item的类
middlewares. py －--》中间件代理
pipelines.py －--》管道文件，里面只有一个类，用于处理下载数据的后续处理默认是300优先级，值越小优先级越高（1-1000）
settings.py －》配置文件比如：是否遵守robots协议，User-Agent定义等

2.创建爬虫文件
要在spiders文件夹中去创建爬虫文件
cd项目的名字\项目名字\spiders
cd scrapy_baidu_091\scrapy_baidu_091\spiders创建爬虫文件
scrapy genspider 爬虫文件的名字 要爬取网页
eg:scrapy genspider baidu www.baidu.com  
一般情况下不需要添加http协议 因为start_urls的值是根据allowed_domains修改的所以添加了http的话那么start_urls就需要我们手动去修改了

生成的baidu.py
import scrapy
class BaiduSpider(scrapy. Spider):
	#爬虫的名字用于运行爬虫的时候使用的值
	name 'baidu'
	#允许访问的域名
	allowed_domains =['http://www.baidu.com']
	#起始的url地址指的是第一次要访问的域名
	# start_urls 在allowed_domains前面添加一个http://
	#在 allowed_domains的后面添加一个/ start_urls ['http: //http: //www. baidu. com/'] 		  	      
	#是执行了start_urls之后执行的方法
	方法中的response就是回的那个对象
	# 相当 response = urllib.request.urlopen() 
	# response requests. get()
	 def parse(self, response):
		#字符串
		# content = response. text
		#二进制数据
		# content = response. body
		# print('
		# print(content)
		span response. xpath('//div[@id="filter"]/div[@class="tabs"]/a/span')[0]  
		print()
		print(span. extract()
	
	# response的属性和方法
	# response.text
	# 获取的是响应的字符串
	# response.body
	# 获取的是二进制数据
	# response.xpath 可以直接是xpath方法来解析response中的内容 response. extract(
	# 提取seletor对象的data属性值
	# response.extract_first(）提取的seletor列表的第一个数据
3.运行爬虫代码
scrapy crawl 爬虫名字
eg:scrapy crawl baidu

4. settings.py-ROBOTTXT_OBEY=TRUE注释掉

2. scrapy架构组成

（1）引擎－–》自动运行，无需关注，会自动组织所有的请求对象，分发给下载器
（2）下载器－-》从引擎处获取到请求对象后，请求数据
（3）spiders－–》Spider类定义了如何爬取某个（或某些）网站。包括了爬取的动作（例如：是否跟进链接）以及如何从网页的内容中提取结构化数据（爬取item）。换句话说， Spider就是您定义爬取的动作及分析某个网页（或者是有些网页）的地方。
（4）调度器－-》有自己的调度规则，无需关注
（5）管道（Item pipeline）—》最终处理数据的管道，会预留接口供我们处理数据
当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。
每个item pipeline组件（有时称之为“Item Pipeline＂）是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为，同时也决定此Item是否继续通过pipeline，或是被丢弃而不再进行处理。
以下是item pipeline的一些典型应用：
1.清理HTML数据
2.验证爬取的数据（检查item包含某些字段）
3.查重（并丢弃）
4.将爬取结果保存到数据库中

class CarSpider(scrapy. Spider):
	name ='car'
	allowed_domains ['https: //car. autohome. com. cn/price/brand-15. html']
	#注意如果你的请求的接口是html为结尾的那么是不需要加/的
	start_urls ['https: //car, autohome. com. cn/price/brand-15. html']
	def parse(self, response):
		name_list response. xpath('//div[@class="main-title"]/a/text()')
		price_list response. xpath('//div[@class="main-lever"]//span/span/text)' 		
		for i in range(len(name_list)):
			name = name_list[i].extract()
			price = price_list[i].extract()
			print(name, price)

3. scrapy工作原理

2. scrapy shell
1.什么是scrpy shell?
Scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码。其本意是用来测试提取
数据的代码，不过您可以将其作为正常的Python终端，在上面测试任何的Python代码。
该终端是用来测试XPath或CSS表达式，查看他们的工作方式及从爬取的网页中提取的数据。在编写您的spider时，该
终端提供了交互性测试您的表达式代码的功能，免去了每次修改后运行spider的麻烦。
一旦熟悉了Scrapy终端后，您会发现其在开发和调试spider时发挥的巨大作用。
2.安装ipython
安装：pip install ipython
简介:如果您安装了 IPython，Scrapy终端将使用 IPython（替代标准Python终端）。 IPython 终端与其他
相比更为强大，提供智能的自动补全，高亮输出，及其他特性。
直接在终端输入 scrapy shell www.baidu.com
3. yield
1.带有yield的函数不再是一个普通函数，而是一个生成器generator，可用于迭代
2.yield是一个类似 return的关键字，迭代一次遇到yield时就返回yield后面（右边）的值。重点是：下一次迭代时，从上一次迭代遇到的yield后面的代码（下一行）开始执行
3.简要理解：yield就是return返回一个值，并且记住这个返回的位置，下次迭代就从这个位置后（下一行）开始案例：1.当当网
（1）yield（2）.管道封装（3）.多条管道下载（4）多页数据下载

import scrapy

class ScrapyDangdang095Item(scrapy.Item):
	# 定义下载的数据都有什么
	src = scrapy.Field()
	name = scrapy.Field()
	price = scrapy.Field()

import scrapy
from scrapy_dangdang_095.items import ScrapyDangdang095Item
class DangSpider(scrapy. Spider):
	name ='dang'
	allowed_domains = ['http: //category.dangdang.com/cp01.01.02.00.00.00.html'] 	
	start_urls = ['http: //category.dangdang.com/cp01.01.02.00.00.00.html']
	def parse(self, response):
		#pipelines
		#items
		#定义数据结构的
		#src =//ul[@id="component_59"]/li//img/@src
		#alt = //ul[@id="component_59"]/li//img/@alt
		#price = //ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()
		#所有的seletor的对象都可以再次调用xpath方法
		li_list response. xpath('//ul[@id="component_59"]/1i')
		for li in li list:
			src =  li. xpath('.//img/@data-original').extract_first()
			if src:
				src = src
			else
				src = li. xpath('.//img/@src').extract_first()
			name = li. xpath('.//img/@alt').extract_first()
			price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()
			book = ScrapyDangdang095Item(src=src,name=name,price=price)
			# 获取一个book就将book交给pipelines
			yield book

settings中开启管道,以下代码注释解开
ITEM_PIPELINES = {
#管道可以有很多个
‘scrapy_dangdang_095.pipelines.ScrapyDangdang095Pipeline’: 300,
}

class ScrapyDangdang095Pipeline:
	#在爬虫文件开始的之前就执行的一个方法
	def open_spider(self, spider):
		self. fp open('book. json', 'w', encoding='utf-8')
		# item就是yield后面的book对象
	def process_item(self, item, spider):
		#以下这种模式不推荐因为每传递过来一个对象那么就打开一次文件对文件的操作过于频繁
		##(1)write方法必须要写一个字符串而不能是其他的对象
		##(2)w模式会每一个对象都打开一次文件覆盖之前的内容
		# with open('book.json','a',encoding='utf-8')as fp: #
		fp. write(str(item))
		self. fp. write(str(item))
	return item
	#在爬虫文件执行完之后执行的方法
	def close_spider(self, spider):
		self. fp. close()

#多条管道开启
#(1)定义管道类
#（2）在settings中开启管道
class DangDangDownloadPipeline:
	def process_item(self, item, spider):
		url item. get('src')
		filename ='./books/' item. get( 'name')+'. jpg'
		urllib. request. urlretrieve(url ur1, filename= filename) 
		return item

 ITEM _PIPELINES ={
#管道可以有很多个那么管道是有优先级的优先级的范围是1到1000值越小优先级越高
'scrapy_dangdang_095.pipelines.ScrapyDangdang095Pipeline': 300,
'scrapy_dangdang_095. pipelines. DangDangDownloadPipeline': 301
}

多页数据下载

import scrapy
from scrapy_dangdang_095.items import ScrapyDangdang095Item
class DangSpider(scrapy. Spider):
	name ='dang'
	#allowed_domains = ['http: //category.dangdang.com/cp01.01.02.00.00.00.html'] 
	#如果是多页下载，要调整allowed_domains的范围，一般只写域名
	allowed_domains = ['category.dangdang.com'] 	
	start_urls = ['http: //category.dangdang.com/cp01.01.02.00.00.00.html']
	base_url = 'http://category.dangdang.com/pg'
	page =1
	def parse(self, response):
		#pipelines
		#items
		#定义数据结构的
		#src =//ul[@id="component_59"]/li//img/@src
		#alt = //ul[@id="component_59"]/li//img/@alt
		#price = //ul[@id="component_59"]/li//p[@class="price"]/span[1]/text()
		#所有的seletor的对象都可以再次调用xpath方法
		li_list response. xpath('//ul[@id="component_59"]/1i')
		for li in li list:
			src =  li. xpath('.//img/@data-original').extract_first()
			if src:
				src = src
			else
				src = li. xpath('.//img/@src').extract_first()
			name = li. xpath('.//img/@alt').extract_first()
			price = li.xpath('.//p[@class="price"]/span[1]/text()').extract_first()
			book = ScrapyDangdang095Item(src=src,name=name,price=price)
			# 获取一个book就将book交给pipelines
			yield book
		
			 #每一页的爬取的业务逻辑全都是一样的，所以我们只需要将执行的那个页的请求再次调用parse方法就可以了
			#http: //category. dangdang. com/pg2-cp01. 01. 02.00.00.00. html
			#http://category.dangdang.com/pg3-cp01.01.02.00.00.00.html
			#http: //category. dangdang. com/pg4-cp01. 01. 02. 00. 00. 00. html
			if self. page < 100:
				self. page self. page 1
				url = self.base_url + str(self.page) + '-cp01.01.02.00.00.00.html'
			#怎么去调用parse方法
			#scrapy.Request就是scrpay的get请求
			#url就是请求地址
			#callback是你要执行的那个函数注意需要加
			yield scrapy. Request(url=ur1, callback=self. parse)

2.电影天堂
（1）一个item包含多级页面的数据

import Scrapy
from scrapy movie 099. items import ScrapyMovie099Item

class MvSpider(scrapy. Spider):
	name ='mv'
	allowed_domains = ['https: //www. dytt8. net/html/gndy/china/index. html'] 		
	start_urls = ['https: //www. dytt8. net/html/gndy/china/index. html']
	def parse(self, response):
		#要第一个的名字和第二页的图片
		a_list= response. xpath('//div[@class="co_content8"]//td[2]//a[2]')
		for a in a list:
		#获取第一页name和要点击接
		name = a.xpath('./text()'). extract_first()
		href = a.xpath('./@href').extract_first()
		#对第二页的链接发起访问
		yield scrapy. Request(url=ur1, callback=self. parse_second, meta=('name': name)
		def parse_second(self, response):
			#注意如果拿不到数据的情况下一定检查你的xpath语法是否正确
			src response. xpath('//div[@id="Zoom"]//img/@src').extract_first()
		#接受到请求的那个meta参数的值
		name = response. meta[ 'name']
		movie ScrapyMovie099Item(src=src, name=name) 
		yield movie

class ScrapyMovie099Pipeline:
	def open_spider(self, spider):
		self. fp open('movie. json', 'w', encoding='utf-8')
	def process_item(self, item, spider):
		self. fp. write(str(item))
		return item
	def close_spider(self, spider):
		self. fp. close()

Mysql
(1)下载（https:/dev.mysql.com/downloads/windows/installer/5.7.html
(2)安装 (https: //jingyan.baidu.com/album/d7130635f1c77d13fdf475df.html)
pymysql的使用步骤
1.pip install pymysql
2.pymysql. connect(host, port, user, password, db, charset)
3.conn. cursor()
4.cursor.execute()
CrawlSpider
1.继承自scrapy.Spider
2.独门秘笈
CrawlSpider可以定义规则，再解析html内容的时候，可以根据链接规则提取出指定的链接，然后再向这些链接发送请求
所以，如果有需要跟进链接的需求，意思就是爬取了网页之后，需要提取链接再次爬取，使用CrawlSpider是非常合适的
3.提取链接
链接提取器，在这里就可以写规则提取指定链接
scrapy. linkextractors. LinkExtractor(
allow =()#正则表达式提取符合正则的链接
deny = (),#(不用)正则表达式不提取符合正则的链接
allow domains =()#(不用)允许的域名
deny_domains =()#(不用)不允许的域名
restrict xpaths =()),xpath，提取符合xpath规则的链接
restrict css =(#提取符合选择器规则的链接)
4.模拟使用
正则用法： links1 = LinkExtractor(allow=r’list_23_\d+.html’)
xpath用法： links2 = LinkExtractor(restrict_xpaths=r’//div[@class=“x”]‘) css用法： links3 = LinkExtractor(restrict css=’.x’)
5.提取连接
link. extract_links(response)
6.注意事项
【注1】callback只能写函数名字符串，callback=‘parse item’
【注2】在基本的spider中，如果重新发送请求，那里的callback写的是
callback=self.parse_item 【稍后看】follow=true是否进就是取规则进行取
CrawlSpider案例
需求：读书网数据入库
1.创建项目： scrapy startproject dushuproject
2.跳转到spiders路径 cd\dushuproject\dushuproject\spiders
3.创建爬虫类： scrapy genspider -t crawl read www.dushu.com
4.items
5.spiders
6.settings
7.pipelines
数据保存到本地
数据保存到mysq1数据库

 import scrapy
from scrapy. linkextractors import LinkExtractor
from scrapy. spiders import CrawlSpider, Rule
from scrapy_readbook_101. items import ScrapyReadbook101Item
 class ReadSpider(CrawlSpider )
name 'read'
allowed_domains ['www. dushu. com']
start_urls ['https: //www. dushu. com/book/1188_1. html']
rules =
Rule(LinkExtractor(allow=r'/book/1188_\d+\. html'),
callback='parse_item',
follow=False),
)
def parse_item(self, response):
img_list response. xpath('//div[@class="bookslist"]//img') for img in img_list:
name img. xpath('. /@data-original'). extract_first()
src img. xpath('./@alt'). extract_first()
 book ScrapyReadbook101Item(name=name, src=src) yield book
return item

开启管道，写管道同之前

数据入库
settings.py

 DB HOST = '192.168.231.130'#端口号是一个整数
DB PORT 3306
DB USER ='root'
DB PASSWROD ='1234'
DB_NAME ='spider01
DB CHARSET ='utf8

pipelines.py

class ScrapyReadbook101Pipeline:
	def open_spider(self, spider):
		self. fp open('book. json', 'w', encoding='utf-8')
	def process_item(self, item, spider):
		self. fp. write(str(item))
		return item
	def close_spider(self, spider):
		self. fp. close()

from scrapy. utils. project import get_project_settings 
class MysqlPipeline:
	def open_spider(self, spider):
		settings get_project_settings()
		self. host settings 'DB_HOST']
		self. port =settings 'DB_PORT']
		self. user =settings 'DB_USER']
		self. password =settings 'DB_PASSWROD']
		self. name =settings 'DB_NAME']
		self. charset =settings 'DB_CHARSET']
		self. connect()

	 def connect(self):
		self. conn pymysql. connect(
		host=self. host,
		port=self. port,
		user=self. user,
		password=self. password,
		db=self. name,
		charset=self. charset
		self. corsor self. conn. cursor()
 	 def process_item(self, item, spider):
		sql 'insert into book(name, src) values("{}", "{}")' format(item['name'], item#执行sql语句
		self. cursor. execute(sql)
		#提交
		self. conn. commit()
		return item
	def close_spider(self, spider):
		self. cursor. close()
		self. conn. close()

日志信息和日志等级
（1）日志级别：
CRITICAL:严重错误
ERROR:
一般错误
I WARNING:警告
INFO:
一般信息
DEBUG:调试信息
默认的日志等级是DEBUG
只要出现了DEBUG或者DEBUG以上等级的日志
那么这些日志将会打印
（2）settings.py文件设置：
默认的级别为DEBUG，会显示上面所有的信息
在配置文件中 settings.py
LOG_FILE:将屏幕显示的信息部记录到文件中，屏幕不再显示，注意文件后缀一定是.logLOG LEVEL:设置日志显示的等级，就是显示哪些，不显示哪些
Request和response总结
scrapy的post请求

import scrapy
import json
class TestpostSpider(scrapy. Spider):
	name ='testpost'
	allowed_domains ['https: //fanyi. baidu. com/sug']# post请求如果没有参数那么这个请求将没有任何意义
	#start_urls
	#parse方法也没有用了
	# start_urls 'https: //fanyi. baidu. com/sug/'] #
	# def parse(self, response):
	# pass
	 def start_requests(self):
		url ='https: //fanyi. baidu. com/sug'
		data={'kw': 'final'}
		yield scrapy. FormRequest(url=ur1, formdata=data, callback=self.parse_second)
	def parse_second(self, response):
		content =response. text
		obj =json. loads(content, encoding='utf-8')
		print(obj)

代理

Python常用数据结构我真的不会做啊 python 数据结构开发语言
背景：最近在学习自动化测试，发现基本是用python写的脚本就顺带好好学一学python，准备以后也深入学习一下今天简单的介绍一下python里面常用的数据结构吧Python数据结构原生数据结构原生数据结构元组Tuple()tup1=('Python','Java',1,2)tup2=(9527,)注意：1、使用()、tuple()创建元组，元组可以为空且元素类型可以不同；2、若元组中仅包含一个数
Ollama 基本概念 Mr_One_Zhang 学习Ollama ai
Ollama是一个本地化的、支持多种自然语言处理（NLP）任务的机器学习框架，专注于模型加载、推理和生成任务。通过Ollama，用户能够方便地与本地部署的大型预训练模型进行交互。1.模型（Model）在Ollama中，模型是核心组成部分。它们是经过预训练的机器学习模型，能够执行不同的任务，例如文本生成、文本摘要、情感分析、对话生成等。Ollama支持多种流行的预训练模型，常见的模型有：deepse
【go从入门到精通】探秘struct结构体转json为什么需要首字母大写？前网易架构师-高司机 golang从入门到精通 golang json go 结构体首字母大写 golang从入门到精通 go从入门到精通
目录作者简介：问题抛出分析结论作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
38份DeepSeek核心资料汇总｜可下载航锦234 人工智能 pdf
资料链接：https://pan.quark.cn/s/b469ed4018ff为了方便大家查找和使用，我们对之前发布过的DeepSeek系列学习资料进行了分类和汇总。内容包括但不限于清北浙DeepSeek课件资料汇总manus学习资料DeepSeek实操变现指南DeepSeek本地部署教学等等点击最上方链接即可保存下载～
HarmonyOS NEXT开发笔记：@Computed装饰器计算属性我很英俊小名男男 OpenHarmony 鸿蒙开发 HarmonyOS harmonyos 华为开发语言前端鸿蒙移动开发鸿蒙系统
鸿蒙开发往期必看：一分钟了解”纯血版！鸿蒙HarmonyOSNext应用开发！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）
算法学习之路——贪心算法蒋楠鑫算法算法贪心算法
文章目录一、前言二、什么是算法三、什么是贪心算法1.含义2.基本思路3.适用场景四、代码实现五、经典例题分析六、总结一、前言先来看一道简单的数学问题：小明有30元钱，每瓶酒要5元钱，每3个空瓶子可以换1瓶酒，请问小明最多可以喝到多少瓶酒？这道题目显然是一道求最优解的问题，由于数据量小我们可以用最简单最直接的枚举法来解决，但是如果将题目泛化一下呢：小明现在购买了m瓶酒，每n个空瓶子可以换1瓶酒，请问
学习SpringBoot过程中常见问题汇总及多工程项目使用 IntelliJ IDEA 打开 KunQian_smile springBoot
一：SpringBoot:redisClientine.test.serviceImpl.RedisServiceImplrequiredabeanoftype‘com.examp1:没有自动注入导致。service类上面没有@service注解或者mapper上没有@Repository注解，但是这种情况比较少见，一般不会忘记。2:配置了mybatis，但没有指定扫描的包。（1）直接在生成出来的
AI 大模型应用数据中心建设：高性能计算与存储架构 AI智能涌现深度研究 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、高性能计算、存储架构、分布式训练、GPU加速、数据管理1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是深度学习模型的突破性进展，催生了一系列基于大规模数据训练的强大AI模型，例如GPT-3、BERT、DALL-E等。这些AI大模型在自然语言处理、计算机视觉、语音识别等领域展现出强大的应用潜力，但也对计算资源和数据存储提出了极高的要求。传统的计算架构难以满足AI大
Storyboard 之segue用法总结月未央 iOS学习总结 iOS
Storyboard的好玩之处在于它可以帮我们省略了很多要手动写的代码，其中segue的功劳功不可没，现总结一下学习心得，若有错误之处，望指正。创建工程，选择SingleViewApplication，给工程起个名字，这里是SegueDemo，注意要把下面的UseStoryboard选项勾选上，我使用ARC，这里可以随意。点选工程文件中的MainStoryboard.storyboard文件，可以
人工智能直通车系列24【机器学习基础】（机器学习模型评估指标（回归））浪九天人工智能直通车开发语言 python 机器学习深度学习神经网络人工智能
目录机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）2.均方根误差（RootMeanSquaredError,RMSE）3.平均绝对误差（MeanAbsoluteError,MAE）4.决定系数（CoefficientofDetermination,R2）机器学习模型评估指标（回归）1.均方误差（MeanSquaredError,MSE）详细解释均方误差是回归问
python_学习爬虫遇到的第一个问题_urllib获取baidu首页源代码 KJDETL python_爬虫 python 学习爬虫
第一天学习爬虫，学习的是urllib的基本用法，通过urllib.request获取baidu首页源代码。#导入urllib所需要的库importurllib.request#左边自定义名称，右边是要访问的地址url='https://www.baidu.com/Index.htm'#左边自定义名称可以叫做响应，右边是通过urllib.request.urlopen方法向url发出请求respon
从零开始学机器学习——构建一个推荐web应用努力的小雨机器学习机器学习前端人工智能
首先给大家介绍一个很好用的学习地址：https://cloudstudio.net/columns今天，我们终于将分类器这一章节学习完活了，和回归一样，最后一章节用来构建web应用程序，我们会回顾之前所学的知识点，并新增一个web应用用来让模型和用户交互。所以今天的主题是美食推荐。美食推荐Web应用程序首先，请不要担心，本章节并不会涉及过多的前端知识点。我们此次的学习重点在于机器学习本身，因此我们
在使用selenium进行爬虫时， add_experimental_optio(),add_argument()的用法数据牧马人 selenium 爬虫测试工具
driver.add_experimental_option('excludeSwitches',['enable-automation'])是在使用SeleniumWebDriver与浏览器交互时设置的一行代码。这行代码用于禁用浏览器中的自动化检测。具体来说，当你在使用SeleniumWebDriver与浏览器交互时，有些浏览器（例如GoogleChrome）可能会检测到自动化行为（例如，通过检
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
【前端入门】应该了解和知道的几个国内外前端开发资源网站爱上大树的小猪前端
与大家分享一下几个国内外前端开发资源网站国际资源MDNWebDocs(MozillaDeveloperNetwork)用途：MDN是Web技术领域最全面的文档库之一，涵盖了HTML、CSS、JavaScript以及浏览器API等。链接:https://developer.mozilla.orgW3Schools用途：适合初学者学习Web技术，提供从基础到进阶的教程，同时还有在线练习环境。链接:ht
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
[官文翻译]Flutter状态管理库Riverpod - 所有的Provider - StateProvider 2401_84166236 2024年程序员学习 flutter
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新HarmonyOS鸿蒙全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例云策量化 Python自动化炒股量化投资量化软件 python 量化交易 QMT PTrade 量化炒股量化投资 deepseek
推荐阅读：《程序化炒股：如何申请官方交易接口权限？个人账户可以申请吗？》Python自动化炒股：利用XGBoost和LightGBM进行股票市场预测的实战案例在当今快节奏的金融市场中，自动化交易和预测模型成为了投资者和交易者的重要工具。Python以其强大的数据处理能力和丰富的机器学习库，成为了实现这些模型的首选语言。本文将带你了解如何使用XGBoost和LightGBM这两个流行的机器学习算法来
AI大模型学习路线：从入门到精通的完整指南【2025最新】 AI大模型-大飞人工智能学习大模型 LLM AI 程序员大模型学习
引言近年来，以GPT、BERT、LLaMA等为代表的AI大模型彻底改变了人工智能领域的技术格局。它们不仅在自然语言处理（NLP）任务中表现卓越，还在计算机视觉、多模态交互等领域展现出巨大潜力。本文旨在为开发者、研究者和技术爱好者提供一条清晰的学习路径，帮助读者逐步掌握大模型的核心技术并实现实际应用。一、基础阶段：构建知识体系数学与理论基础线性代数：矩阵运算、特征值与奇异值分解是大模型参数优化的基础
【sklearn 04】DNN、CNN、RNN @金色海岸 sklearn dnn cnn
DNNDNN（DeepNeuralNetworks，深度神经网络）是一种相对浅层机器学习模型具有更多参数，需要更多数据进行训练的机器学习算法CNNCNN（convolutionalNeuralNetworks，卷积神经网络）是一种从局部特征开始学习并逐渐整合的神经网络。卷积神经网络通过卷积层来进行特征提取，通过池化层进行降维，相比较全连接的神经网络，卷积神经网络降低了模型复杂度，减少了模型的参数，
【sklearn 02】监督学习、非监督下学习、强化学习 @金色海岸 sklearn 学习人工智能
监督学习、非监督学习、强化学习**机器学习通常分为无监督学习、监督学习和强化学习三类。-第一类：无监督学习（unsupervisedlearning），指的是从信息出发自动寻找规律，分析数据的结构，常见的无监督学习任务有聚类、降维、密度估计、关联分析等。-第二类：监督学习（supervisedlearning），监督学习指的是使用带标签的数据去训练模型，并预测未知数据的标签。监督学习有两种，当预测
2025-03-15 学习记录--C/C++-PTA 练习3-4 统计字符小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️练习3-4统计字符本题要求编写程序，输入10个字符，统计其中英文字母、空格或回车、数字字符和其他字符的个数。输入格式:输入为10个字符。最后一个回车表示输入结束，不算在内。输出格式:在一行内按照letter=英文字母个数,blank=空格或回车个数,digit=数字字符个数,other=其他字符个数的格式输出。输入样例:a
2025-03-13 学习记录--C/C++-PTA 练习2-9 整数四则运算小呀小萝卜儿学习-C/C++学习 c语言
合抱之木，生于毫末；九层之台，起于累土；千里之行，始于足下。一、题目描述⭐️练习2-9整数四则运算本题要求编写程序，计算2个正整数的和、差、积、商并输出。题目保证输入和输出全部在整型范围内。输入格式:输入在一行中给出2个正整数A和B。输出格式:在4行中按照格式“A运算符B=结果”顺序输出和、差、积、商。输入样例:32输出样例:3+2=53-2=13*2=63/2=1二、代码（C语言）⭐️#incl
跨域视线估计的协同对比学习（重点针对局部对比学习解释）阳光明媚大男孩学习人工智能
跨域视线估计的协同对比学习1.问题表述在视线估计领域中，跨域问题是指当训练数据和测试数据来自不同的领域（如不同的个体、光照条件、拍摄设备等）时，模型性能会显著下降。这种性能下降主要是因为不同领域之间的差异导致模型难以泛化。为了解决这一问题，新方法（CrossGazeGeneralization,CGaG）旨在通过特征解耦的方式减少领域差异对视线估计的影响，从而提高模型在跨域情况下的准确性和稳定性。
c++与c语言的区别是什么？ pythoncainiao221 c++c语言开发语言
1、类型不同C语言是面向过程的，而C++是面向对象的。2、函数库不同C语言的标准的函数库很松散，而C++对于大多数的函数都是集成的很紧密。3、结构不同C语言中结构只有成员变量，而在C++中结构中，可以有成员变量和成员函数。它们的区别是c++是在C语言基础上发展起来的，根据开发过程中遇到的需求，它引入了很多新的特性。如果你不走C/C++方向，直接学习Java就可以了，相同的待遇下，选择简单的更好。当
从LLM出发：由浅入深探索AI开发的全流程与简单实践（全文3w字）码事漫谈 AI 人工智能
文章目录第一部分：AI开发的背景与历史1.1人工智能的起源与发展1.2神经网络与深度学习的崛起1.3Transformer架构与LLM的兴起1.4当前AI开发的现状与趋势第二部分：AI开发的核心技术2.1机器学习：AI的基础2.1.1机器学习的类型2.1.2机器学习的流程2.2深度学习：机器学习的进阶2.2.1神经网络基础2.2.2深度学习的关键架构2.3Transformer架构：现代LLM的核
Python爬虫实战教程——如何爬取多个国家的实时汇率数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫 chrome 信息可视化
1.引言随着全球经济一体化，跨国交易和投资变得越来越普遍，实时汇率数据成为了金融领域和国际贸易中的关键数据。对于金融分析师、投资者或者是开发者来说，能够实时获取并分析汇率数据是至关重要的。本文将深入探讨如何使用Python爬虫技术抓取多个国家的实时汇率数据。我们将使用最新的技术和工具，介绍如何通过Python编写一个高效、可扩展的汇率数据爬虫。2.为什么需要实时汇率数据？汇率数据被广泛应用于以下几
漫画算法python篇pdf_用Python抓取漫画并制作mobi格式电子书 jian bao 漫画算法python篇pdf
想看某一部漫画，但是用手机看感觉屏幕太小，用电脑看吧有太不方面。正好有一部Kindle，决定写一个爬虫把漫画爬取下来，然后制作成mobi格式的电子书放到kindle里面看。本人对于Python学习创建了一个小小的学习圈子，为各位提供了一个平台，大家一起来讨论学习Python。欢迎各位到来Python学习群：943752371一起讨论视频分享学习。Python是未来的发展方向，正在挑战我们的分析能力
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

数学建模-爬虫系统学习

python基础 + 进阶（字符串 列表 元组 字典 文件 异常）

页面结构

爬虫

urllib_get请求的quote方法

urllib_get请求的urlencode方法

urllib_post

ajax的get请求

ajax的post请求

异常

urllib_cookie登录

代理池

解析

xpath

获取百度网页百度一下

站长素材

JsonPath

BeautifulSoup

爬取星巴克数据

Selenium

Selenium

Phantomjs(基本被淘汰)

Chrome handless

requests

scrapy

你可能感兴趣的:(数学建模,爬虫,学习)

python基础 + 进阶（字符串列表元组字典文件异常）