LEEBELOVED

python爬虫知识深度巩固

不适合初学的，这个是小编的知识巩固杂记

1、AJAX

2、动态渲染页面

3、节点交互，点击、输入、清除；

动作链：from selenium.webdriver import ActionChains

4、执行JavaScript

5、获取节点信息

6、选项卡管理

7、Splash的使用

8、splash支持异步处理：

9、splash对象属性

10、splash对象的方法

splash api的调用：

11、splash负载均衡

12、selenium抓取淘宝商品

13、代理设置

selenium设置代理

14、cookies池搭建

15、APP的爬取

16、Charles的使用

17、APPium的基本使用

1、AJAX

AJAX原理：Asynchronous JavaScript and XML，即异步的JavaScript和XML，利用JavaScript在保证页面不被刷新、页面不改变的情况下与服务器交换数据更新部分网页。

发送AJAX请求到网页更新步骤：发送请求、解析内容、渲染网页

发送请求的JavaScript代码：

var xmlhttp;
if  (window.XMLHttpRequest)  {
II  code  for  IE7+,  Firefox,  Chrome,  Opera,  Safari
xmlhttp=new  XMLHttpRequest();
} else  {II  code  for  IE6,  IES
xmlhttp=new  ActiveXObject (” Microsoft.XMLHTTP ”);
}
xmlhttp.  onreadystatechange=function() {
  if  (xmlhttp.ready5tate == 4  &&  xmlhttp.status==200)  {
       document.getElementById（“myDiv”）.innerHTML=xmlhttp.responseText；将di为myDiv的节点内部的HTML代码更改为服务器返回的内容
  }
}

xmlhttp.open（“post”，“/ajax/”，true）；

xmlhttp.send（）；这是JavaScript对ajax最底层的实现，实际上是新建了xmlhttprequest对象，然后调用onreadystatechange属性设置监听，然后调用post、send方法向某个链接发送请求。

AJAX其实有其特殊的请求类型，叫作xhr。实例中request headers中一个信息为：x-requested-with：xmlhttprequest此标记显示请求为ajax请求。

2、动态渲染页面

JavaScript动态渲染页面不只ajax一种。

模拟浏览器的库：selenium、splash、PyV8、Ghost等

selenium中获取单个节点的方法by_id、name、xpath、link_text、partial_link_text、tag_name、class_name、css_selector

find_element(By.ID,id)；获取多个节点find_elements

3、节点交互，点击、输入、清除；

动作链：from selenium.webdriver import ActionChains

     source =browser.find_element_by_css  selector('#draggable ' )
     target=  browser.find_element_by_css_selector('#droppable' )
     actions = ActionChains(browser)
     actions.drag_and_drop(source,  target)
     actions. perform()

4、执行JavaScript

使用execute_script（）

browser. execute_script('window.scrollTo(o, document.body. scrollHeight )’)
browser. execute_script( 'ale rt (” To Bottom ”)')

5、获取节点信息

获取属性get.attribute，比如class的获取：logo.get_attribute (’ class ' )；获取文本值用text；获取id、位置、标签名、大小

切换frame：switch_to.frame切换

延时等待：隐式等待implicitly_wait;显式等待from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expec te d _c onditions as EC
browser = webdriver.Chrome()
browser.get (’ https://www.taobao.com /’)
wait = WebDriverWait(browser, 10)
input = wait. until(EC. presence_of _element_located( (By.ID ,’ q ’)))

可进行cookies添加、删除、获取

6、选项卡管理

browser.execute_script (’ window.open ()’)
print( browser.window _handles)
browser.switch_to_window(browser.window_handles[l])

7、Splash的使用

splash是一个JavaScript渲染服务，带有http api的轻量级浏览器。

可实现功能：异步方式处理多个网页渲染过程；获取渲染后的页面的源码或截图；通过关闭图片渲染或者使用adblock规则加快页面渲染速度；可执行特定JavaScript脚本；通过lua脚本来控制页面渲染过程；获取渲染的详细过程并通过har格式呈现。

splash执行整个网页渲染过程

function main(splash, args)
       assert(splash:go(args. url) )
       assert(splash:wait(o.s))
       return {
            html= splash :h tml(),
            png  = splash:png(),
            har = splash:  har(),
        }

end通过lua语言脚本加载页面，最后返回网页源码、截图、har信息。

8、splash支持异步处理：

function main(splash,  args)
local  example_urls =  {"url1","url2","url3"}
local  urls  = args . urls  or  example_urls
local  results  =  {}
for  index,  url  in  ipairs(urls)  do
local  ok , reason = splash:go (” http ://” ..  url )
if ok then
splash:wait(2)
results[url]  = splash:png()
end
end
return  results
end

9、splash对象属性

main方法的第一个参数是splash，类似于selenium中的webdriver

args：可以获取加载时配置的参数，若为url，get请求，可以获得get请求参数，post同理。

function main(splash, args)
local url = args.url
end等价于 function main(splash)

local url=splash.args.url
end

js_enabled：这个属性是splash执行JavaScript的开关

function main(splash, args)
splash：go（ ” url” ）
splash. js _e nabled = false
local title = splash:evaljs (” document.title")
return {title=title}
end

resource_timeout：可以设置加载超时时间

images_enabled：设置图片是否加载，禁止图片可能会影响JavaScript渲染

plugins_enabled：控制浏览器插件是否开启

scroll_position：控制页面上下或左右浮动

function main(splash, args)
assert(splash:go('https://www.taobao.com ’))
splash.scroll_position = {y=400}
return {png=splash: png()}

end控制页面向下浮动400像素值

10、splash对象的方法

go：请求链接

ok, reason = splash:go{url,  baseurl=nil,  headers=nil, http_method=" GET",  body=nil, formdata=nil}

wait：控制页面等待时间

ok, reason =  splash:wait{time,  cancel_on_redirect=false,  cancel_on_error=true}

jsfunc：直接调用JavaScript定义的方法

function main( s p l a s h , args)
local  get_div_count =  splash : jsfunc([[
function ()  {
}
]])
var  body  = document.body;
var  divs  =  body .getElementsByTagName (’ div');
return  divs.length;
splash:go (” https://vrww.baidu. com ”)
return  (” There  are  %s  DIVs"):forma(
get_div  _count())
end

evaljs：可以执行JavaScript代码并返回最后一条JavaScript语句的返回结果

result=splash：evaljs（js）

local title=splash：evaljs（“document.title”）

runjs：可以执行JavaScript代码

autoload：可以设置每个页面访问时候自动加载的对象

ok , reason = splash: au toload{source_or_url, source=nil, url=nil}

call_later：通过设置定时任务和延迟时间来实现任务延时执行

http_get：模拟发送http的get请求

response = sp lash:http_get{url, headers=nil, follow_re dir ects=true}

http_post：response = splash:http_post{url, h e a d e r s ＝「 1 i l , follow_redirects=true, body=nil}

set_content：设置页面的内容；html：获取网页源码；png、jpeg获取网页截图har：获取页面加载过程描述；url：获取当前网页网址；get/add/clear_cookies：获取当前页面cookies；get/set_viewport_size获取/设置当前浏览器页面的大小；set_view_full：全屏显示；set_user_agent：设置浏览器头；set_custom_headers设置请求头。

select选择符合条件的第一个节点；select_all选择符合条件的所有节点；mouse_click模拟鼠标点击工作，传入的参数为x、y，也可直接选择某个节点；

splash api的调用：

render.html用于获取JavaScript渲染的页面的HTML代码

import requests
url = ’ http://localhost:8050/render.html?url=https://www.baidu.com&wait=5'增加等待时间
response = requests . get(url)
print(response.text)可以获得页面渲染后的源代码

render.png/jpeg示例：

import requests
url=“http : //localhost :80SO/render.png?url=https://www. taobao.com&wait=S&width=lOOO&height=700”
response = requests.get(url)
with open (’ taobao.p ng ’, t wb ’) as f:
f . write(response.content)

render.har获取页面加载的har数据

render.json此接口包含了前面接口的所有功能

http:/ /localhost:8050/render.json?url= htt ps: //htt pbin.org&html =l&har=l

execute最强大的接口，可实现交互操作

import requests
from  urllib.parse  import quote
lua='''

function main(splash)

return "hello"
end

'''lua脚本
url  =’ http : //localhost:8050/execute?l ua_source =’+  quote(lua)
response =  requests.get(url)
print(response.text)

import requests
from  urllib.parse  import quote
lua ='''

fuction main(splash,  args)
local  treat  =  require (” treat ”)
local  response =  splash:http_get(" http: // httpbin . org/get ”)
return  {
html=treat.as_string(response.body),
url=response. url,
status=response.status

end

'''
url  =’ http://localhost:80SO/execute?l ua _source=' + quote(lua)
response =requests.get（url）
print(response.text)

11、splash负载均衡

选用任意一台带有公网IP的主机来配置负载均衡，装好Nginx，修改nginx.cnf：

http{
up stream splash {
least_conn；
server 41.159.  27 .  223:  8050;
server 41.159.  27.  221:  8050;
server 41.159.  27.  9:  8050;
server 41.  159  .117. 119:  8050;
}
server {
         listen  8050;
         location  I {
               proxy_pass  http: //s plash;
           }
      }
}

配置认证：splash是可以公开访问的，如果不让其公开访问，还可以配置认证，借助于Nginx，可以在server的location字段添加auth_basic和auth_basic_user_file

http{
up stream splash {
least_conn；
server 41.159.  27 .  223:  8050;
server 41.159.  27.  221:  8050;
server 41.159.  27.  9:  8050;
server 41.  159  .117. 119:  8050;
}
server {
         listen  8050;
         location  I {
               proxy_pass  http: //s plash;
               auth basic ” Restricted";
               auth basic  user_file  /etc/nginx/conf . d/ .htpasswd;
           }
      }
}

这里使用的用户名、密码放在/etc/nginx/conf.d，用htpassword命令创建

12、selenium抓取淘宝商品

wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'.m-itemlist.items.item')))

chorme headless模式：chorme59版本已经支持headless模式，无界面模式，这样爬取的时候就不会弹出浏览器了。

chrome_options = webdriver.ChromeOptions()
chrome_options .add_argument('--headless ’)
browser = webdriver.Chrome( chrome options=chrome _options)

13、代理设置

proxy_handler  =  ProxyHandler({
’ http ’:’ http://'  +proxy,
'https ’:’ https://'  + proxy
})

socks5类型：

import socks
import socket
from  urllib  import  request
from  urllib.error  import  URLError
socks .set_default_proxy(socks.SOCKSS ,’ 127.0.0 .1 ’, 9742)
socket .socket = socks.socksocket
try:
response =  request .urlopen (’ http: //httpb in.org /get ’)
print(response.read().decode('utf-8 ’))
except  URLError  as e:
print(e.reason)

selenium设置代理

from selenium import webdriver
proxy= 127.0.0.1:9743
chrome_ options = webdriver.ChromeOptions ()
chrome_options.add_argument ('--proxy-server=http ://’+ proxy)
browser = webdri ver.chorme（chorme_options=chorme_options)
browser.get (’ http://httpbin.org/get ' )

代理池维护：

' insert into %s (%s) values (%s )’% (table, keys, values)万能数据存储

requests中的Session可以帮助我们维持一个会话，而且可以自动处理cookies；访问登录页面获取初始的cookies，提取authenticity_token。

14、cookies池搭建

在没有登录的情况下，也可访问部分网页。

搭建cookies池需要一些账号，需要redis库，py中的redis-py、requests、selenium、flask

cookies架构：存储模块、生成模块、检测模块、接口模块

15、APP的爬取

app的爬取相比web端爬取更加容易，反爬虫能力没有那么强，而且大多数以json形式传输的，解析更简单。

抓包软件：wireshark、filddler、charles、mitmproxy、anyproxy

16、Charles的使用

确保手机和PC在同一个局域网内，可以使用手机模拟器通过虚拟网络连接，也可为真机。设置手机代理为Charles的代理地址，访问互联网的数据包就会经charles再转发到数据包真实的服务器，服务器返回的数据包由charles转发回手机，charles起到中间人的作用，所有流量包都可以捕捉到。

charles会一直监听PC和手机发生的网络数据包，捕获到的数据包都会显示在左侧。

一定要提前设置好charles的代理并配置好ca证书。

overview选项卡显示了请求接口的url，响应状态、请求方式等；

contents选项卡查看请求和响应的详细信息；

jsontext选项卡可查看response的body信息；

charles可以将捕获到的请求加以修改并发送修改后的请求

mitmproxy的使用

mitmproxy的功能：拦截http和https请求和响应；保存http会话并进行分析；模拟客户端发起请求，模拟服务器端返回响应；利用反向代理将流量转发给指定的服务器；利用py对http请求和响应进行实时处理。

mitmdump的使用

mitmdump是mitmproxy的命令行接口

命令启动mitmproxy：mitmdump -w outfile截获的数据会被保存在outfile文件中；mitmdump -s script.py这里指定当前处理脚本为script.py。

def request (flow) :
flow.request .headers['User-Agent ’] = 'MitmProxy ’
print（flow.request .headers）定义了一个request方法，参数为flow，其实是一个httpflow对象，通过request属性即可获取到当前请求对象。

mitmdump提供了专门的日志输出功能，可以设定不同级别以不同颜色输出结果。

from mitmproxy import ctx
def request(flow):
flow. request .headers [’ User-Agent']='Mitmproxy'
ctx.log.info(str(flow.request.headers))
ctx.log.warn(str(flow .r equest .headers))
ctx.log .error(str(fl ow.request.headers))

def request(flow):
request = flow.request

info = ctx . log.info
info(request.url)
info(str(reque st.headers))
info(str(reque st .cookie s))
info(reque st .ho st)
info(request.method)
info(str(request.port))
info(request.scheme)

修改请求的url：

from mitmproxy import ctx
def response(flow):
response = flow.response
info = ctx.log.info

mitmdump爬取“得到”app电子书信息

import json
from mitmproxy import ctx
def response（flow）：

url =’ https://dedao.ig e tget.com/v3/di s cover/booklist ’
if flow.request.url.startswith(url) :
text=flow.response.text
data = json.loads(text)
books = data.get(' c ’ ) . get('list')
for book in books:
ctx.log.info(str(book))

17、APPium的基本使用

appium是一个跨平台移动端自动化测试工具，可以便捷地为ios和Android平台创建自动化测试用例。可以模拟app内部的各种操作。

启动appium服务，将Android手机通过数据线和运行appium的pc相连，同时打开usb调试功能，确保爬虫可以连接到手机。

测试连接情况：adb devices -1

用appium内置的驱动器打开app，点击appium中的start new session，配置启动app时的desired capability参数

用py驱动app的方法：

首先需要在代码中指定一个appium server

server = ’ http: //localhost: 472 3/wd/hub ’

desired_caps={'platformName:'android',

'deviceName:'mi_note_pro',

'appPackage':'com.tencent.mm',

'appAcitivity':'.ui.LancherUI'}

新建一个session，类似点击appium内置驱动的start session按钮

from appi um import webdriver
from sele nium.webdriver. su pport.ui import WebDriverWait
driver = webdri ver.Remote (server , desired_ caps)配置完成后运行，就可以启动微信app

点击登录ell = driver. find_e lement_by_xpath (”/ hierarchy /an droid.widget.Framelayout/android.widget.Linearlayout/
android.widget.Framelayout/android.view.View/android . widget.Framelayout/android.widget . Linearlayout/
android.widget.Framelayout/android.widget . Relativelayout/android.widget .R el ative la yout/a ndro id.widget.
Button[l ]”)
ell . click()

wait = WebDriverWait(driver, 30)
login = wait . until(EC.presence_of_element_located((By.ID ,’ com .t encent . mm:id/cjk')))
log in.click()
phone = wait. until(EC. presence_of_element_ located( (By. ID, ' com. ten cent.mm：id/h2)))
phone.set_text('18888888888')

API:Appiumpythonclient

配置desired capability参数

首先需要在代码中指定一个appium server

from appium import webdriver

server = ’ http: //localhost: 472 3/wd/hub ’

desired_caps={'platformName:'android',

'deviceName:'mi_note_pro',

'appPackage':'com.tencent.mm',

'appAcitivity':'.ui.LancherUI'}

driver=webdriver.Rmote（server，desired_caps）

查找元素可以使用selenium来查找

el = driver.find_element_by_id (’ com .tencent.mm:id/cjk ’)

Android平台，可使用UIAutomator来进行元素选择

el = self .d river .find_element_by_android_uiautomator (’ new UiSe l ector() . description (” Animation ”)’)
els= sel f.dr iver.find_elements_by_android uiautomator('new UiSelector() .clickable(true)')

IOS平台上，可使用UIAutomation来进行元素选择

el = self.driver.find_element_by _ios _uiautomation(' . elements() [0] ’)
els= self.driver.find_element_by _ios _uiautomation( ' .elements ()’)

点击：可以使用tap方法，模拟手指点击，可设置按时长短

tap(self, positions, duration=None)

屏幕拖动：scroll（self，orgin_el，destination_el）

swipe（）模拟从A滑动到B

swipe(self, start_x, start_y, end_x, end_y, duration=None)

flick方法模拟从A点快速滑动到B点：flick(self, start_x, start_y, end_x, end_y)

拖拽：drag_and_drop（self，orgin_el，destination_el）

文本输入：set_text

el = find_element_by_id (’ com.tencent.mm:id/cjk')

el.ste_text（‘hello’）

动作链：Touchaction支持tap、press、long_press、release、move_to、wait、cancel

el = self . driver.find_element_by_accessibility_id (’ Animation ' )
action = TouchAction(self .driver)
action.tap(el).perform()

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
从0到500+，我是如何利用自媒体赚钱？一列脚印
运营公众号半个多月，从零基础的小白到现在慢慢懂了一些运营的知识。做好公众号是很不容易的，要做很多事情；排版、码字、引流…通通需要自己解决，业余时间全都花费在这上面涨这么多粉丝是真的不容易，对比知乎大佬来说，我们这种没资源，没人脉，还没钱的小透明来说，想要一个月涨粉上万，怕是今天没睡醒（不过你有的方法，算我piapia打脸）至少我是清醒的，自己慢慢努力，实现我的万粉目标！大家快来围观、支持我吧！孩子
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
走向以教育叙事为载体的教育叙事研究 666小飞鱼
今天我读了吴松超老师的《给教师的68条建写作建议》中的第23条《如何通过教育叙事走向研究》，吴老师在文中与我们分享了一个德育案例，这是一个反面的案例，意在告知我们在处理问题时，不能就考虑的点太窄，思考要全面。走向教育叙事研究，教师要有敏锐的“感知力”，这个感知力来自于背后专业知识的支撑，思维能力以及广阔的视野和见识等。所以对于同一件事处理方法不同，这个就是教师背后“敏锐力”的不同造成的，也就是说是
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
Rust基础知识 GRKF15 rust 开发语言后端
1.Rust语言简介1.1基础语法变量声明：let关键字用于声明变量，可以指定或不指定类型，如leta=10;和letmutc=30i32;。函数定义：使用fn关键字定义函数，并指定参数类型及返回类型，如fnadd(i:i32,j:i32)->i32{i+j}。控制流：包括if、else等，控制语句后需要使用;来结束语句。1.2数据类型整数类型：i8、i16、i32、i64、i128，以及无符号的
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
学习“论语”-第59天春峰轩
12.14子张问政。子曰：“居之无倦，行之以忠。”子张问为政之道。孔子说：“在位尽职不懈怠，执行政令要忠诚。”12.15子曰：“博学于文，约之以礼，亦可以弗畔矣夫！”孔子说：“君子广泛地学习文献，并且用礼节约束自己，也就不会离经叛道了。”12.16子曰：“君子成人之美，不成人之恶。小人反是。”孔子说：“君子成全别人的好事，而不助长别人的坏处。小人则与此相反行事。”知识点:“成人之美，不成人之恶”贯
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
广州会刊小程序开发公司哪家好｜开发多少钱费用｜专业外包服务红匣子实力推荐
在选择广州会刊小程序开发公司时，有几个关键因素需要考虑。首先，您应该确定自己的需求和目标，以便找到最合适的开发公司。其次，您需要考虑公司的经验和专业知识。最后，您还应该考虑公司的信誉和口碑。开发-联系电话：13642679953（微信同号）首先，您应该明确自己的需求和目标。会刊小程序是一种用于展示会议信息和日程安排的应用程序。在选择开发公司之前，您应该明确自己的需求，包括功能要求、设计风格和用户体
读《人间鲁迅》有感琳语读书
上周读完《闻一多传》后，我对中国近代知识分子产生了兴趣，这周继续读了《人间鲁迅》。厚厚的两本书，记录了一个人的一生，苦痛，彷徨和挣扎，虽然只读了一小部分，却也心潮澎湃。闻一多和鲁迅是完全不同的。鲁迅是沉郁的，现实的，寂寞的，抗争的。除了天生性格的不同外，环境的塑造也是非常之大。鲁迅少年经历了家庭的变故，看尽了人间冷暖，世态炎凉。这种经历促使他很早就观察思考人生，立志用文学来改变中国国民的劣根。闻一
OPENAIGC开发者大赛企业组AI黑马奖 | AIGC数智传媒解决方案 RPA中国人工智能 AIGC 传媒
在第二届拯救者杯OPENAIGC开发者大赛中，涌现出一批技术突出、创意卓越的作品。为了让这些优秀项目被更多人看到，我们特意开设了优秀作品报道专栏，旨在展示其独特之处和开发者的精彩故事。无论您是技术专家还是爱好者，希望能带给您不一样的知识和启发。让我们一起探索AIGC的无限可能，见证科技与创意的完美融合！创未来AI应用赛-企业组AI黑马奖作品名称：AIGC数智传媒解决方案参赛团队：深圳市三象智能技术
4招写出高价值文章 zhiliner
文章写得泛泛是因为思考得不够深，思考得越深文章会越有价值。拿到一个主题一定要去深入挖掘事件背后的东西，比如人物困境以及趋势性的东西。写作过程中有几个深度思考的方法一、解剖，让旧素材焕发新意作为一个写作者，我们能够做的最大贡献，就是给出自己看世界的角度。解剖其实就是把这个话题相关的信息都列出来，详细的列出来，看清楚它的内部。我们看到一个老话题或者一段旧素材的时候，不要只看这个素材或者话题本身，一定要
2022-08-28 蔚蓝一片晴
初三暑假培训收获点滴从8月25至8月27日三天两晚的培训结束了，回到家中，该静下心来整理一下触动心灵的收获，成为成长的积淀。1.在优秀团队中快速成长与提升，做一名反思成长型教师一名专业型教师的教学指导包括了教学原理知识、案例知识、策略知识。面对教学中的遇到的有趣的情形、问题会去研究其理，寻找更好的教法学法对策。从新手到成熟型教师，再走向专业型教师，需要的是觉醒与反思，多进行案例研究，从案例中观察、
2021-07-31 比峰
七月的最后一天，过了今天，就是八月，心脏在颤抖……昨天两点半才睡，一直在以两倍的语速的听之前的课程，虽然隔得时间不长，但是很多知识点已经忘了差不多了，为了让自己能够掌握的稍微全面一点，还是磨刀不误砍柴工的比较好。正因为晚上睡得晚，今天一上午的状态都不好，也可能因为上午都是待在家里，所以多数时间自己是在补觉。既然太累，那就睡觉吧，总比浪费时间的好。下午到咖啡馆做题，一道差错更正一下子让自己的实力暴露
你可能遗漏的一些C#/.NET/.NET Core知识点追逐时光者 C#.NET DotNetGuide编程指南 c#.net .netcore microsoft
前言在这个快速发展的技术世界中，时常会有一些重要的知识点、信息或细节被忽略或遗漏。《C#/.NET/.NETCore拾遗补漏》专栏我们将探讨一些可能被忽略或遗漏的重要知识点、信息或细节，以帮助大家更全面地了解这些技术栈的特性和发展方向。拾遗补漏GitHub开源地址https://github.com/YSGStudyHards/DotNetGuide/blob/main/docs/DotNet/D
2023-08-08 2023梦启支教团张牧泽
学汉字历史，行传统书法——中国矿业大学梦启支教团梦启三班开展书法文化课7月20日上午8时，中国矿业大学梦启支教团在贵州省金沙县西洛街道彩虹小学开展了“书法文化”课程。该课程意在向孩子们传授汉字演变的相关知识，围绕书法发展历史讲解不同时期的字形字体特点。此课程由梦启支教团成员王耀民讲授，梦启三班全体成员参加。中国文字的发展有数千年的历史，从早期雏形的象形文字到殷商时期的甲骨文、金文，再到西周、秦朝的
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

python爬虫知识深度巩固

1、AJAX

2、动态渲染页面

3、节点交互，点击、输入、清除；

动作链：from selenium.webdriver import ActionChains

4、执行JavaScript

5、获取节点信息

6、选项卡管理

7、Splash的使用

8、splash支持异步处理：

9、splash对象属性

10、splash对象的方法

splash api的调用：

11、splash负载均衡

12、selenium抓取淘宝商品

13、代理设置

selenium设置代理

14、cookies池搭建

15、APP的爬取

16、Charles的使用

17、APPium的基本使用

你可能感兴趣的:(python爬虫知识深度巩固)