weixin_34281537

数据之路 - Python爬虫 - 动态页面

一、Ajax数据爬取

1.Ajax介绍

Ajax，全称为Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。发送Ajax请求到网页更新过程，简单分为以下3步：发送请求；解析内容；渲染网页。
Ajax具有特殊的请求类型，它叫作xhr。

2.Ajax数据爬取

# 首先，定义一个方法来获取每次请求的结果。 在请求时，page是一个可变参数，所以我们将它作为方法的参数传递进来，相关代码如下：
from  urllib.parse import  urlencode 
import  requests 
base url = 'https://m.weibo.cn/api/container/getlndex?' 
headers = { 
'Host':  'm.weibo.cn', 
'Referer＇：'https://m.weibo.cn/u/2830678474',
'User-Agent':'Mozilla/s.o (Macintosh;  Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML,  like Gecko) 
Chrome/58.0.3029.110 Safari/537.36','X-Requested-With ':'XMLHttpRequest',
} 
def get_page(page)':
params = { 
'type':'uid', 
'value':'2830678474', 
'containerid':'1076032830678474', 
'page': page 
}
url = base_url + urlencode(params) 
try: 
    response = requests.get(url, headers=headers) 
    if response.status_code == 200: 
    return response.json() 
except requests.ConnectionError as e: 
    print(' Error',  e.args)
    
# 随后，我们需要定义一个解析方法，用来从结果中提取想要的信息，比如这次想保存微博的id、正文、赞数、 评论数和转发数这几个内容，  那么可以先遍历cards，然后获取mblog 中的各个信息，赋值为一个新的字典返回即可：
from  pyquery import  PyQuery as pq 
def parse _page (j son): 
    if json: 
    items  = j son. get(' data ') .get('cards ') 
    for item  in  items: 
        item = item.get('mblog') 
        weibo = {} 
        weibo[ 'id'] = item.get('id') 
        weibo['text'] = pq(item.get('text')). text() 
        weibo['attitudes']  = item.get('attitudes_count') 
        weibo [ 'comments '] = item.get('comments_count') 
        weibo['reposts'] = item.get('reposts_count') 
        yield weibo

# 最后，遍历一下page，一共10页，将提取到的结果打印输出即可：
if name ==  'main': 
    for page in range(l, 11): 
        json = get_page(page) 
        results = parse_page(json) 
    for result in results: 
        print(result)

# 加一个方法将结果保存到MongoDB数据库：
from  pymongo import MongoClient 
client = MongoClient () 
db = client [ 'weibo' ] 
collection = db['weibo']
def save_to_mongo(result):
    if collection.insert(result):
        print('save to Mongo')

二、Selenium库

Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。

1.声明浏览器对象

from  selenium import webdriver 
browser = webdri ver. Chrome() 
browser = webdriver. Firefox() 
browser = webdri ver. Edge() 
browser = webdriver. PhantomJS() 
browser= webdriver.Safari() 

# 完成浏览器对象初始化并将其赋值为browser 对象。调用 browser对象，让其执行各个动作以模拟浏览器操作。

2.访问页面

from  selenium import webdnver 
browser = webdriver.Chrome() 
browser. get （’https://www.taobao.com’ ）
print(browser.page_source) 
browser. close() 

# 用get（）方法来请求网页，参数传入链接URL即可。

3.查找节点

# 单个节点
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
Selenium提供通用方法find_element()，它需要传入两个参数： 查找方式By和值。find_element(By.ID,id)
from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID,'q')
print(input_first)
browser.close()

# 多个节点
要查找所有满足条件的节点，需要用find_elements（）这样的方法

4.节点交互

Selenium可以驱动浏览器来执行一些操作，也就是说可以让浏览器模拟执行一些动作。

from selenium import webdriver
import time 

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input = browser.find_element_by_id('q')

# send_keys()方法用于输入文字
input.send_keys('iPhone')
time.sleep(1)

# clear()方法用于清空文字
input.clear()
input.send_keys('iPad')
button = browser.find_element_by_class_name('btn-search')

# click()方法用于点击按钮
button.click()

5.动作链

如鼠标拖曳、 键盘按键等，它们没有特定的执行对象，这些动作用另一种方式来执行，那就是动作链。

- 实现一个节点的拖曳操作，将某个节点从一处拖曳到另外一处

# 首先，打开网页中的一个拖曳实例，然后依次选中要拖曳的节点和拖曳到的目标节点，接着声明ActionChains对象并将其赋值为actions变量，然后通过调用actions变量的drag_and_drop（）方法，  再调用perform（）方法执行动作，此时就完成了拖曳操作
from  selenium import  webdnver 
from  selenium.webdriver import  ActionChains 
browser = webdriver.Chrome() 
url ＝’http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url) 
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css selector('#draggable') 
target= browser.find_element_by_css_selector('#droppable' ) 
actions = ActionChains(browser) 
actions.drag_and_drop(source, target) 
actions.perform()

6.JavaScript执行

对于某些操作，Selenium API并没有提供。比如，下拉进度条，它可以直接模拟运行JavaScript，
此时使用execute script（）方法即可实现，代码如下：

from selenium import webdriver 
browser= webdriver.Chrome() 
browser. get (’https://www.zhihu.com/explore') 
browser.execute_script('window.scrollTo(o, document.body.scrollHeight)’) 
browser.execute_script('alert(”To Bottom”)') 

# 这里就利用execute script（）方法将进度条下拉到最底部，然后弹出alert提示框。

7.获取节点信息

- 获取属性

# 使用get_attribute（）方法来获取节点的属性
from  selenium import webdriver 
from  selenium.webdriver import  ActionChains 
browser = webdri ver. Chrome() 
url = 'https://www.zhihu.com/explore' 
browser. get ( url) 
logo= browser.find_element_by_id(’zh-top-link-logo’) 
print(logo) 
print(logo.get_attribute(’class' ))

- 获取文本值

from  selenium import webdriver 
browser= webdriver.Chrome() 
url =’https://www.zhihu.com/explore’ 
browser. get(url) 
input = browser.find_element by class name('zu-top-add-question’) 
print(input.text)

- 获取id、位置、标签名和大小

from. selenium import  webdnver 
browser = webdriver. Chrome() 
url ＝’https：/／www.zhihu.com/explore'
browser.get (url) 
input= browser.find_element_by_class_name(’zu-top-add-question') 
print(input.id)     　　 # 节点id
print(input.location)　　# 节点页面相对位置
print(input.tag_name)　　# 标签名称
print(input.size)    　　# 节点大小

8.Frame切换

网页中有一种节点叫作iframe，也就是子Frame，相当于页面的子页面，它的结构和外部网页的结构完全一致。 Selenium打开页面后，它默认是在父级Frame里面操作，而此时如果页面中还有子Frame，它是不能获取到子Frame里面的节点的。这时就需要使用switch_to.frame（）方法来切换Frame。

import time 
from  selenium import  webdriver 
from  selenium.common.exceptions import  NoSuchElementException 
browser = webdriver.Chrome() 
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable' 
browser.get(url) 
browser.switch_to.frame('iframeresult’) 
try: 
　　logo= browser.find_element_by_class_name('logo') 
except NoSuchElementException: 
　　print(’NO  LOGO') 
browser.switch_to.parent_frame）
logo = browser. find_element_by_class_name（'logo'）
print(logo) 
print(logo.text)

首先通过switch_to. frame（）方法切换到子Frame里面，然后尝试获取父级Frame 里的logo 节点（这是不能找到的），如果找不到的话，就会抛出NoSuchElementException异常，异常被捕捉之后，就会输出NO LOGO。接下来，重新切换回父级Frame,然后再次重新获取节点，发现此时可以成功获取了。

- 隐式等待

使用隐式等待执行测试的时候，如果Selenium没有在DOM中找到节点，将继续等待，超出设定时间后，则抛什1找不到节点的异常。换句话说，当查找节点而节点并没有立即出现的时候，隐式等待将等待一段时间再查找DOM，默认的时间是0。

from  selenium import webdriver 
browser = webdriver.Chrome() 
browser.implicitly_wait (10) 
browser.get(’https://www.zhihu.com/explore' ) 
input = browser. find_element_by_class_name(’zu-top-add-question’) 
print(input)

- 显式等待

隐式等中认为固定了等待时间，然而页面的加载时间会受到网络条件的影响。
显式等待方法，它指定要查找的节点，然后指定一个最长等待时间。如果在规定时间内加载出这个节点，就返回查找的节点；如果到了规定时间依然没有加载出来，则抛出超时异常。

# 首先引入WebDriverWait这个对象，指定最长等待时间，然后调用它的until()方法，传入要等待条件expected_conditions。 比如，这里传入了presence_of_element_located这个条件，代表节  点出现的意思，其参数是节点的定位元组，也就是ID为q的节点搜索框。
- 效果：在10秒内如果ID为q的节点（即搜索框）成功加载出来，就返回该节点；如果超过10秒还没有加载出来，就抛出异常。

from  selenium import webdriver 
from  selenium.webdriver.common.by import  By 
from  selenium.webdriver.support.ui import WebDriverWait 
from  selenium.webdriver.support import expected_conditions as EC 
browser = webdriver.Chrome() 
browser.get(’https://www.taobao.com/’) 
wait = WebDriverWait(browser, 10) 
input = wait. until(EC. presence_of _element_located( (By. ID,’q’))) 
button = wait.until(EC.element to be clickable((By.CSS_SELECTOR,’.btn search'))) 
print(input, button)

9.前进、后退

浏览器时都有前进和后退功能，Selenium中分别通过forward()、back()方法实现。

import time 
from  selenium import webdnver 
browser = webdriver.Chrome() 
browser. get (’https://www.baidu.com/’) 
browser.get('https://www.taobao.com/’) 
browser.get(’https://www.python.org/’) 
browser.back() 
time.sleep(l) 
browser. forward() 
browser. close()

10.Cookies

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())
browser.add_cookie({'name':'name','domain':'www.zhihu.com','value':'germey'})
browser.delete_all_cookies()

11.选项卡管理

import  time 
from  selenium import  webdnver 
browser = webdriver. Chrome() 
browser.get(’https://www.baidu.com') 
browser.execute_script(’window. open()’) 
print(browser. window _handles) 
browser.switch_to_window(browser.window_handles[l]) 
browser.get(’https://www.taobao.com') 
time.sleep(l) 
browser.switch_to_window(browser.window_handles(0)) 
browser.get(’https://python.org')

12.异常处理

from  selenium import webdriver 
from  selenium.common.exceptions import  TimeoutException, NoSuchElementExcephon 
browser = webdriver.Chrome() 
try: 
　　browser.get('https://www.baidu.com’）
except TimeoutException: 
　　print(' Time Out') 
try: 
　　browser. find_element_by_id(' hello') 
except NoSuchElementException: 
　　print(’No Element’) 
finally:
　　browser.close()

三、Splash

Splash是一个JavaScript渲染服务，是一个带有HTTPAPI的轻量级浏览器，它对接了Python中的Twisted和QT库。利用它，我们同样可以实现动态谊染页面的抓取。

异步方式处理多个网页渲染过程；
获取渲染后的页面的源代码或截图；
通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度；
可执行特定的JavaScript脚本；
可通过Lua脚本来控制页面渲染过程；
获取渲染的详细过程并通过HAR( HTTP Archive ）格式呈现

1.Splash Lua脚本

Splash可以通过Lua脚本执行一系列渲染操作，这样我们就可以用Splash来模拟类似Chrome、PhantomJS的操作。

- 入口及返回值

function main(splash, args) 
    splash:go("http://www.baidu.com") 
    splash:wait(o.s) 
    local title = splash:evaljs(”document.title”) 
    return {title=title}
end

- 异步处理

function main(splash, args) 
　　local example_urls = {"www.baidu.com”，”www.taobao.com”，”www.zhihu.com'’} 
　　local urls = args.urls or example_urls 
　　local results = {} 
　　for index,url in  ipairs(urls) do 
　　　　local ok, reason = splash:go(”http://”..url) 
　　　　if ok then 
　　　　　　splash:wait(2) 
　　　　　　results[url] = splash:png() 
　　　　end
　　end return results
end

2.Splash对象属性

- args

# 此属性可获取加载时配置的参数，如URL
function main(splash, args) 
    local url = args.url 
end

- js_enabled

# 此属性是Splash的JavaScript执行开关，可以将其配置为true或false来控制是否执行JavaScript代码，默认为true。 
function main(splash, args) 
    splash:go（”https：/／www.baidu.com”）
    splash.js_enabled = false 
    local title = splash:evaljs(”document.title") 
    return {title=title} 
end

- resource_timeout

# 此属性可以设置加载的超时时间，单位是秒。 如果设置为0或nil，代表不检测超时。 
function main(splash)
    splash.resource_timeout = 0.1
    assert(splash:go('https://www.taobao.com'))
    return splash:png()
end

- images_enabled

# 此属性可以设置图片是否加载，默认情况下是加载的。
function main(splash, args) 
    splash.images_enabled = false 
    assert(splash:go（’https://www.jd.com'))
    return {png=splash:png()}
end

- plugins_enabled

# 此属性可以控制浏览器插件是否开启。 默认情况下，此属性是false，表示不开启。
splash.plugins_enabled = true/false

- scroll_position

# 通过设置此属性，可以控制页面上下或左右滚动。 
function main(splash, args) 
    assert(splash:go('https://www.taobao.com’)) 
    splash.scroll_position = {y=400} 
    return {png=splash: png()} 
end

3.Splash对象方法

go()                 # 用于请求某个链接,模拟GET和POST请求。
ok, reason =  splash#go{url, baseurl=nil, headers=nil, http_method="GET", body=nil,  formdata=nil}
baseurl是资源加载相对路径,headers是请求头,http_method默认GET,body发POST请求时的表单数据,formdata是POST时的表单数据

wait()                # 控制页面等待时间
jsfunc()              # 可以直接调用JavaScript定义的方法,但是所调用的方法需要用双中括号包围,这相当于实现了JavaScript方法到Lua脚本的转换。 
evaljs()              # 执行JavaScript代码并返回最后一条JavaScript语句的返回结果
runjs()               # 执行JavaScript代码,它与evaljs()的功能类似,但是更偏向于执行某些动作或声明某些方法。 
autoload()            # 设置每个页面访问时自动加载的对象
call_later()          # 通过设置定时任务和延迟时间来实现任务延时执行,井且可以在执行前通过cancel()重新执行定时任务。 
http_get()            # 模拟发送HTTP的GET请求
http_post()           # 用来模拟发送POST请求
set_content()         # 用来设置页面的内容
html()                # 用来获取网页的源代码
png()                 # 用来获取PNG格式的网页截图
jpeg()                # 用来获取JPEG格式的网页截图
har()                 # 用来获取页面加载过程
url()                 # 获取当前正在访问的URL
get_cookies()         # 获取当前页面的Cookies
add_cookies()         # 为当前页面添加Cookie
clear_cookies()       # 清除所有的Cookies
get_viewport_size()   # 获取当前浏览器页面的大小,即宽高
set_viewport_size()   # 设置当前浏览器页面的大小,即宽高
set_viewport_full()   # 设置浏览器全屏显示
set_user_agent()      # 设置浏览器的User-Agent
set_custom_headers()  # 设置请求头
select()              # 选中符合条件的第一个节点,如果有多个节点符合条件,则只会返回一个,其参数是css选择器
select_all()          # 选中所有符合条件的节点,其参数是css选择器
mouse_click()         # 模拟鼠标点击操作,传入的参数为坐标值x和y。此外,也可以直接选中某个节点,然后调用此方法

4.Splash API调用

render.html     # 此接口用于获取JavaScript渲染的页面的HTML代码，接口地址就是Splash的运行地址加此接口名称
import  requests 
url = 'http://localhost:8050/render.html?url=https://www.baidu.com' 
response = requests.get(url) 
print(response.text) 

render.pug      # 此接口可以获取网页截图,它返回的是PNG格式的图片二进制数据
import  requests 
url ＝'http://localhost:8050/render.png?url=https://www.jd.com&wait=S&width=lOOO&height=700'
response = requests.get(url) 
with open(’taobao.png’, 'wb ’) as f: 
    f.write(response.content) 

render.jpeg     # 此接口可以获取网页截图,它返回的是JPEG格式的图片二进制数据
render.bar      # 此接口用于获取页面加载的HAR数据
render.json     # 此接口包含了前面接口的所有功能，返回结果是JSON格式
execute         # 此接口可用于实现与Lua脚本的对接。

5.Splash负载均衡配置

用Splash做页面抓取时，如果爬取的量非常大，任务非常多，用一个Splash服务来处理的话，未免压力太大了，此时可以考虑搭建一个负载均衡器来把压力分散到各个服务器上。这相当于多台机器多个服务共同参与任务的处理，可以减小单个Splash服务的压力。

第一步：配置Splash服务；第二步：配置负载均衡，选用任意一台带有公网IP的主机来配置负载均衡。首先，在这台主机上装好Nginx,然后修改Nginx的配置文件nginx.conf；第三步：配置认证，Splash是可以公开访问的，如果不想让其公开访问，还可以配置认证，这仍然借助于Nginx。可以在server的location字段中添加auth_basic和auth basic user_file字段；第四步：测试。

http {
    upstream splash { 
　　　　least_conn;      
　　　　server 41.159.27.223:8050; 
　　　　server 41.159. 27. 221: 8050; 
　　　　server 41.159. 27. 9: 8050: 
　　　　server 41.159 .117 .119: 8050; 
　　}
　　server { 
　　　　listen 8050; 
　　　　location / { 
　　　　　　proxy_pass http://splash; 
　　　　　　auth basic ”Restricted"; 
　　　　　　auth basic user_file /etc/nginx/conf.d/.htpasswd; 
　　　　　　}
　　}
}


import  requests 
from  urllib.parse import  quote 
import  re 
lua  = '''
　　function main(splash, args) 
　　local treat = require("treat'’) 
　　local response = splash:http_get(’'http://httpbin.org/get") 
　　return treat.as_string(response.body
end 
''' 
url = 'http://splash:8050/execute?lua_source=’+ quote(lua)  
response = requests.get(url, auth＝（'admin','admin’）） 
ip = re.search（'（＼d+\.\d+\.\d+\.\d+)', response.text).group(l)  
print(ip)

转载于:https://www.cnblogs.com/Iceredtea/p/11087551.html

08.03.01.tiptop webserver接口篇（增加接口案例测试单表数据） DKLi1717 鼎捷tiptop 5.3 开发语言
本页目录：1、制作xml2、配置2、测试注册服务接口案例：/u1/topprod/tiptop/aws/4gl/aws_ttsrv2_service.4glCreateCustomerData接口案例代码：/u1/topprod/tiptop/aws/4gl/aws_create_customer_data.4gl制作xml注意：vscode可以下载插件：XML对代码进行格式化再添加转译符或者&l
08.03.02.tiptop webserver接口篇（增加接口案例测试多表数据） DKLi1717 鼎捷tiptop 5.3 开发语言
本页目录：1、制作xml2、配置2、测试注册服务接口案例：/u1/topprod/tiptop/aws/4gl/aws_ttsrv2_service.4glCreateQuotationData接口案例代码：/u1/topprod/tiptop/aws/4gl/aws_create_quotation_data.4gl制作xml注意：vscode可以下载插件：XML对代码进行格式化再添加转译符或者
基于vue3实现的聊天机器人前端（附代码） P7进阶路前端
跟它说说话吧！一个活泼的伙伴，为你提供情感支持！??发送消息！import{ref,onMounted}from'vue';import{v4asuuidv4}from'uuid';//引入UUID生成库//响应式数据constmessage=ref('');//用户输入的消息constchatbox=ref(null);//聊天记录显示区的引用constchatId=ref(uuidv4());
1.动手学习深度学习课程安排及深度学习数学基础 Unknown To Known 动手学习深度学习深度学习人工智能
视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型LeNetAlexNetVGGResNetLSTMBERT…机器学习基础损失函数，目标函数，过拟合，优化实践使用pytorch实现介绍的知识点在真实数据上体验算法效果内容深度学习基础——线性神经网络，多层感知机卷积神经网络——
MySQL有哪些高可用方案？ java1234_小锋 mysql java 开发语言
大家好，我是锋哥。今天分享关于【MySQL有哪些高可用方案？】面试题。希望对大家有帮助；MySQL有哪些高可用方案？1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL高可用（HighAvailability，HA）方案主要是通过一系列技术和架构来确保MySQL数据库在出现故障时仍然可以继续提供服务。以下是一些常见的MySQL高可用方案：1.主从复制（Master-Slave
什么是分布式系统？什么是微服务架构？ BELONGS TO YOU . 微服务架构分布式
什么是分布式系统？分布式系统是由一组通过网络进行通信、为了完成共同的任务而协调工作的计算机节点组成的系统。分布式系统的出现是为了用廉价的、普通的机器完成单个计算机无法完成的计算、存储任务。其目的是利用更多的机器，处理更多的数据。首先需要明确的是，只有当单个节点的处理能力无法满足日益增长的计算、存储任务的时候，且硬件的提升（加内存、加磁盘、使用更好的CPU）高昂到得不偿失的时候，应用程序也不能进一步
单片机寄存器理解学不动CV了 51/32单片机相关知识数据库单片机 c语言 c++嵌入式硬件
单片机寄存器是单片机（嵌入式微控制器）内部的一种存储单元，位于CPU核心或与CPU紧密集成，用于暂存数据、指令或控制硬件外设。其读写速度极快，是连接软件与硬件的关键桥梁，直接影响单片机的数据处理效率和功能实现一、基本定义与核心组成本质与结构寄存器由触发器（如D触发器）构成，每个触发器存储1位数据，多个触发器组合形成不同位宽的寄存器（如8位、32位）。例如，4位寄存器由4个D触发器组成，通过时钟脉冲
报表DSL优化，享元模式优化过程，优化效果怎么样？蒂法就是我享元模式 python 前端
报表DSL优化与享元模式应用详解一、报表DSL优化1.问题背景报表系统通常使用领域特定语言（DSL）定义模板结构、数据绑定规则及样式配置。随着复杂度提升，DSL可能面临以下问题：冗余配置：重复定义样式、布局或数据源。解析效率低：嵌套层级过深或语法冗余导致解析耗时增加。维护困难：DSL文件臃肿，难以快速定位问题。2.优化策略结构扁平化：减少嵌套层级，通过引用机制复用公共配置块。#优化前（嵌套冗余）t
Python实现链表反转：迭代与递归双解法详解达不溜先生 ୧⍢⃝୨ python 数据结构链表算法 leetcode
目录一、问题描述二、核心代码实现2.1迭代法实现迭代法中的prev初始值是None的原因：关键步骤图解2.2递归法实现递归法中要设置head.next=None的原因递归过程拆解三、方法对比与选择建议一、问题描述链表反转是数据结构中的基础算法问题，常见于面试和算法题库（如LeetCode#206）。要求将单向链表的节点顺序完全倒置二、核心代码实现2.1迭代法实现时间复杂度：O(n)空间复杂度：O(
数学建模与图形建模资源全解析点我头像干啥 Ai 数学建模人工智能 python 深度学习数据挖掘分类
引言在当今的数据驱动时代，数学建模与图形建模已成为解决复杂问题、揭示数据内在规律的重要工具。无论是科学研究、工程设计，还是商业分析、决策支持，建模技术都发挥着举足轻重的作用。本文旨在为数学建模与图形建模的初学者及进阶者提供一份详尽的资源指南，涵盖软件工具、学习资料、在线课程、社区论坛等多个方面，帮助大家更好地掌握这些技能。一、数学建模资源概览1.数学建模软件工具数学建模离不开强大的软件支持。以下是
探索IT世界的宝藏：优质资源推荐与深度解析点我头像干啥 Ai 分类人工智能数据挖掘 python 深度学习
引言在当今数字化时代，信息技术（IT）已经成为推动社会进步和经济发展的重要引擎。无论是软件开发、网络安全、数据分析，还是人工智能、云计算等领域，IT技术都在不断革新和演进。对于IT从业者、学生以及技术爱好者来说，掌握最新的技术动态和获取优质的学习资源至关重要。本文将为大家推荐一些优质的IT资源，并深入探讨如何利用这些资源提升自己的技术能力。一、优质IT资源推荐1.在线学习平台1.1Coursera
H100架构解析与性能优化策略智能计算研究中心其他
内容概要NVIDIAH100GPU作为面向高性能计算与人工智能领域的旗舰级产品，其架构设计与优化策略在计算效率、显存带宽及并行任务处理等方面实现了显著突破。本文将从核心架构创新与典型场景调优两个维度展开：首先解析第三代TensorCore的稀疏计算加速机制、FP8混合精度支持特性及其对矩阵运算的优化效果；其次，针对显存子系统中HBM3堆栈布局、L2缓存分区策略以及数据预取算法的协同优化进行拆解；最
单机和微服务的区别，微服务有什么问题？数据一致性问题怎么解决？幂等问题怎么解决？蒂法就是我微服务架构云原生
单机与微服务的区别架构模式:单机架构:整个应用程序部署在一台机器上，通常是一个大型的单体应用。所有的功能模块紧密耦合，难以单独进行升级与扩展。微服务架构:应用程序被拆分为一组小的、独立的服务，每个服务通过API进行通信。服务可以被独立开发、部署和扩展。部署与扩展:单机架构:任何变更都需重新部署整个应用，扩展通常需要增加更强的单一硬件。微服务架构:每个服务可以独立部署，支持快速迭代与独立扩展，容易应
Python机器学习实战：使用Flask构建机器学习API AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：使用Flask构建机器学习API作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在数据科学和机器学习领域，模型训练和部署一直是重要的挑战。传统的机器学习项目往往采用独立的脚本或复杂的流程，难以实现模型的自动化、可视化和复现。为了解决这一问题，将机器学习模型封装成可访问的API变得越来越流行。Fla
一张表多少记录，会成为大表？如何计算 18你磊哥 mysql 数据库 mysql
首先，“大表”的定义并不是绝对的。不同的数据库系统、不同的硬件配置、不同的查询模式，对“大”的定义可能都不一样。比如，对于MySQL来说，百万级别的记录可能已经算大表，而对于一些分布式数据库，可能处理十亿级别的数据才算挑战。接下来，用户可能想知道如何判断自己的表是否过大，以及如何计算这个阈值。这时候，我需要考虑几个方面：数据量、性能指标、存储引擎的特性、索引情况、查询复杂度等。数据量方面，表的记录
Django 初始化导入数据详解 jay丿 django sqlite 数据库
Django初始化导入数据详解在Django项目中，初始化数据导入是一个常见的需求，特别是在开发阶段或者部署新环境时，通常需要一些预置的数据来确保应用能够正常运行。Django提供了一种高效的方法来加载初始化数据，即通过fixtures机制。本文将详细介绍如何使用Django的fixtures功能来导入初始化数据。1.Fixtures机制概述Django默认会在应用的目录下查找名为fixtures
Spring Boot 集成 Kettle m0_74824112 面试学习路线阿里巴巴 spring boot 后端 java
Kettle简介Kettle最初由MattCasters开发，是Pentaho数据集成平台的一部分。它提供了一个用户友好的界面和丰富的功能集，使用户能够轻松地设计、执行和监控ETL任务。Kettle通过其强大的功能和灵活性，帮助企业高效地处理大规模数据集成任务。主要组成部分Spoon：用途：Spoon是Kettle的图形化设计工具。用户可以使用Spoon设计和调试ETL转换和作业。功能：拖放式界面
大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025 量子位
关注前沿科技量子位挑战多图数学推理新基准，大模型直接全军覆没？！事情是这样的。近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。结果评估下来发现，GPT-4o仅得分32.1，类o1模型QvQ得分29.3，所有模型均不及格。具体咋回事，下面接
JavaEE 项目常见错误解决方案一弦一柱 JavaEE 常见错误中文乱码 JSP 404
JavaEE项目常见错误解决方案数据库连接JavaBean获取不到数据库字段值或出现意料之外的值业务中出现null或""404NOTFOUNDGET请求中文乱码form表单提交中文乱码最近的实训中，练了一个比较基础的项目，JSP+Servlet+JavaBean，完成两张表的CRUD操作，前端使用Bootstrap和JQuery，交互使用AJAX，IDE选用Eclipse,在时间比较仓促的情况下完
实现openAI流式打印效果 (包含markdown代码高亮及复制功能) Todo_MrWu javascript vue.js 前端
准备工作//插件npminstallmarkdown-ithighlight.js//引入文件importMarkdownItfrom'markdown-it'importhljsfrom'highlight.js'import'highlight.js/styles/atom-one-dark.css'初始化数据data(){return{vHtml:'',//最终填充展示的htmlstring
定期备份数据库：基于 Shell 脚本的自动化方案 mysql服务器脚本
数据库备份这件事，说实话，我一直没怎么上心。平时服务器跑得好好的，谁会想着备份呢？直到某天真出问题了，才意识到自己平时有多“懒”。我相信很多人跟我一样，觉得这东西看起来麻烦，等到数据库挂了、数据丢失了，才感叹自己怎么就没提前准备好呢？有一次数据库问题搞得我手忙脚乱，最后还好有个朋友给了我个备份文件，才算是有惊无险。经历了这次以后，我决定不能再拖了，必须把备份这事儿自动化起来。所以，我写了一个简单的
一文详解，什么是外贸订单管理系统？有什么功能和特点？
随着全球贸易的快速发展，外贸企业面临订单处理效率低、流程复杂、数据管理混乱等挑战。如何通过数字化工具实现订单全生命周期管理？外贸订单管理系统应运而生。本文将以ZohoBooks为例，解析其核心功能与价值。一、什么是外贸订单管理系统？1、什么是外贸订单管理系统？外贸订单管理系统是一种专门用于管理国际贸易订单的软件工具。它帮助企业跟踪和管理从客户下单到订单完成的整个流程，包括订单录入、订单审核、订单分
【排序算法】选择排序啥也不会干的小码排序算法排序算法算法 c语言
一、定义：选择排序（Selectionsort）是一种简单直观的排序算法。第一次从待排序的数据（元素）中选出最小（或最大）的一个元素，存放在数组的起始位置，然后再从剩余的没有排序的元素中寻找到最小（大）元素，然后放到已排序的数组的末尾。以此类推，直到全部待排序的数据元素的个数为零。对于数据量大的排序就没啥用了，排的比较慢。二、原理：1、对于待排序的数组，我们从首元素开始，将首元素的下标用min记住
10 大中文医学数据集汇总：涵盖神农中医药、中医药古籍、医学推理、医学问答……
医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发，再到个性化医疗，数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。医学数据集的形式多样，涵盖了不同维度和领域的数据资源。例如，在疾病诊断领域，像RJUA-QA这样的问答数据集推动了复杂医学知识的自动化应用；而在中医药领域，神农中医药数据集整合了传统中医药文献、临床案例和药方数据。针对于此，本文整理了医学领域的1
中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总
正月初三，年味正浓。新春的喜庆氛围不仅弥漫在大街小巷，也在人工智能领域引发了诸多创新应用。从AI生成春联，到春运交通标志的智能识别，再到生肖文化的深度挖掘，AI工具正赋能传统民俗，让年味更浓！在这阖家团圆，喜庆祥和的日子里，HyperAI超神经为大家整理了8个春节相关的数据集，涵盖对联、十二生肖、民族文化等热门主题，助力开发者在AI赋能春节的道路上大展拳脚！快来领取你的「新春大礼包」吧~点击查看更
归并排序（二叉树的后续遍历思想和数组的双指针技巧）冰火同学力扣算法排序算法数据结构
这次归并排序就只讲思路了，代码实现放到下次刷题再做首先确认一下归并排序的时间复杂度是NlogN的时间复杂度。实现归并排序的算法，我认为有几个困难需要克服掉1、首先就是要明确归并排序的算法思想，就是二叉数据的后序遍历，就是先从中间分割成两个子数组，然后继续分，直到只剩下一个元素，那么此时就是有序的，这个和构造二叉树时的分解思想十分相似，把子问题全部解决，那问题也就都解决了，至于我们只关注其中一个节点
讲一下Spark的shuffle过程冰火同学 Spark spark 大数据分布式
首先Spark的shuffle是Spark分布式集群计算的核心。Spark的shuffle可以从shuffle的阶段划分，shuffle数据存储，shuffle的数据拉取三个方面进行讲解。首先shuffle的阶段分为shuffle的shufflewrite阶段和shuffleread阶段。shufflewrite的触发条件就是上游的Stage任务shuffleMapTask完成计算后，会哪找下游S
第 146 题「LRU缓存机制」（手撸LRU算法）冰火同学力扣缓存数据结构算法
首选用比较通俗的语言来讲一讲LRU算法，那手机内存来举例子，就是当内存超出了手机设置的内存后，就要删除了内存，那删除那部分内存呢，LRU算法就是提供一个策略来选择那些需要缓存需要被删除掉，就是谁隔得最远就删除掉谁。LRU算法的描述怎么描述呢，其实上述描述的就是LRU算法要实现的逻辑只不多是人能理解的活，那么如何从写代码的角度来说一下实现LRU算法的逻辑呢，这个时候就要通过基础的数据结构结合来讲LR
selectdataset 发布2024最热门Top100数据集数据集
遇见数据集索引了国内外的大部分网站。首页有最新的数据集推荐：GitHub、HuggingFace、arXiv这些热门站点，都属于日级别的更新。这个站点是从搜索引擎方面去监控最新的数据集，大家如果有关注某个一个特点领域或话题的更新，可以关注这个站点：遇见数据集-让每个数据集都被发现，让每一次遇见都有价值。遇见数据集，领先的千万级数据集搜索引擎，实时追踪全球数据集，助力把握数据要素市场。https:/
Spark数据倾斜的问题冰火同学 Spark spark 大数据分布式
Spark数据倾斜业务背景Spark数据倾斜表现Spark的数据倾斜，包括SparkStreaming和SparkSQL，表现主要有下面几种：1、Excutorlost，OOM，Shuffle过程出错2、DriverOOM3、单个Excutor执行器一直在运行，整体任务卡在某个阶段不能结束4、正常运行的任务突然失败数据倾斜产生的原因以Spark使用场景为例，我们再做数据计算的时候会涉及类似coun
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分