weixin_30346033

python网络爬虫进阶day01

　　2019.5.23，今天学习了selenium+chromedriver获取动态数据：

selenium相当于是一个机器人一样，可以模拟人的行为，例如：点击，填充数据，翻页等。chromedriver是驱动Chrome浏览器的一个驱动程序。必须通过chromedriver才能得到一个driver，爬虫才能模拟人的行为。

  1 # Author:K
  2 from selenium import webdriver
  3 import time
  4 driver_path = r'D:\ChromeDriver\chromedriver.exe'
  5 
  6 driver = webdriver.Chrome(executable_path = driver_path)
  7 
  8 url = 'https://www.baidu.com/'
  9 driver.get(url)
 10 
 11 # 用类名查找的方式
 12 inputTag = driver.find_element_by_class_name('s_ipt')
 13 inputTag.send_keys('python')
 14 
 15 ################################################## 测试点击按钮 ##################################################
 16 submitTag = driver.find_element_by_id('su')
 17 submitTag.click()
 18 
 19 ################################################### 测试checkbox ###################################################
 20 url = 'http://www.renren.com/'
 21 driver.get(url)
 22 autoLoginBtn = driver.find_element_by_id('autoLogin')
 23 autoLoginBtn.click()
 24 
 25 # 测试select下拉菜单 由于没找到对应的网站，找到后将xxx写成相应数据即可
 26 from selenium.webdriver.support.ui import Select
 27 url = 'xxx'
 28 select = Select(driver.find_element_by_id('xxx'))  # 要用Select修饰一下
 29 select.select_by_value('xxx')
 30 
 31 ################################################### 行为链测试 ###################################################
 32 from selenium.webdriver.common.action_chains import ActionChains
 33 
 34 driver = webdriver.Chrome(executable_path = driver_path)
 35 
 36 url = 'https://www.baidu.com/'
 37 driver.get(url)
 38 
 39 inputTag = driver.find_element_by_id('kw')
 40 print(inputTag)  # ！！！！！！！！！！为什么这里打印的是元素，下面测试WebElement打印的是列表？!!!!因为这里写的是element
 41 summitBtn = driver.find_elements_by_id('su')[0]  # 返回一个button的时候是列表
 42 print(summitBtn)
 43 
 44 actions = ActionChains(driver)
 45 actions.move_to_element(inputTag)
 46 actions.send_keys_to_element(inputTag,'python')
 47 actions.move_to_element(summitBtn)
 48 actions.click(summitBtn)
 49 actions.perform()  # 为什么会出错？？？？
 50 
 51 ################################################### 测试 cookie ###################################################
 52 url = 'https://www.baidu.com/'
 53 driver.get(url)
 54 for cookie in driver.get_cookies():
 55     print(cookie)
 56 
 57 cookie = driver.get_cookie('BDORZ')
 58 print(cookie)
 59 
 60 driver.delete_all_cookies()  # 删除所有cookie
 61 
 62 ################################################### 测试页面等待 ###################################################
 63 from selenium.webdriver.support.ui import WebDriverWait
 64 from selenium.webdriver.support import expected_conditions as EC
 65 from selenium.webdriver.common.by import By
 66 
 67 url = 'https://www.baidu.com'
 68 driver.get(url)
 69 
 70 '''
 71 隐式等待：创建driver时就创建一个最长等待时间，得不到元素就一直等直到超时
 72 （弊端：要等待整个页面加载完成，那些不需要用到的元素也必须加载出来才算完成）
 73 '''
 74 driver.implicitly_wait(5)
 75 
 76 '''
 77 显式等待：等5秒，条件满足就执行，否则等到时间结束
 78 '''
 79 element = WebDriverWait(driver,5).until(
 80     EC.presence_of_element_located((By.ID,'su'))
 81 )
 82 
 83 print(element)
 84 
 85 time.sleep(10)
 86 driver.close()
 87 
 88 ################################################### 测试页面切换 ###################################################
 89 
 90 url = 'https://www.baidu.com'
 91 driver.get(url)
 92 driver.execute_script('window.open("http://www.renren.com/")')
 93 print(driver.current_url)
 94 print(driver.window_handles)  # 打印浏览器中网页的句柄
 95 driver.switch_to.window(driver.window_handles[1])  # 将driver转到句柄列表为1的窗口下
 96 print(driver.current_url)
 97 
 98 ################################################### 测试代理 ###################################################
 99 
100 url = 'http://httpbin.org/ip'
101 
102 options = webdriver.ChromeOptions()
103 options.add_argument('--proxy-server=http://120.234.63.196:3128')
104 
105 driver = webdriver.Chrome(executable_path = driver_path,chrome_options = options)
106 driver.get(url)
107 
108 ################################################### 测试WebElement ###################################################
109 url = 'https://www.baidu.com'
110 driver.get(url)
111 summitBtn = driver.find_elements_by_id('kw')  #find返回的是一个列表
112 print(summitBtn)  # ！！！！！！！！！为什么这里打印的是列表，上面测试行为链打印的是元素？!!!!因为这里写的是elements
113 print(summitBtn.get_attribute('class'))
114 
115 time.sleep(10)
116 
117 driver.quit()

selenium_demo

　　另外，今天做了一个小案例，爬取“乌托家”的家具公司的数据，代码如下：

 1 # Author:K
 2 import requests
 3 from lxml import etree
 4 import os
 5 
 6 HEADERS = {
 7     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
 8 }
 9 
10 def parse_page(url):
11     response = requests.get(url=url, headers=HEADERS)
12     page_text = response.text
13     tree = etree.HTML(page_text)
14     li_list = tree.xpath('//ul[@class="rec-commodity-ul targetElement"]/li')
15     for li in li_list:
16         merchant_href = li.xpath('.//div[@class="impression"]/a/@href')[0]
17         merchant_name = li.xpath('.//div[@class="impression"]/a/text()')[0]
18         commodity_name = li.xpath('.//div[@class="material"]/a/text()')[0]
19         # print(merchant_href,merchant_name,commodity_name)
20         detail_page_text = requests.get(url=merchant_href, headers=HEADERS).text
21         tree = etree.HTML(detail_page_text)
22         div_infos = tree.xpath('//div[@class="brand-r"]')
23         for div in div_infos:
24             try:
25                 brand_name = div.xpath('./div[4]/dl/dd/text()')[0]
26                 addr = div.xpath('.//p/text()')[0]
27                 phone = div.xpath('.//dd[2]/text()')[0]
28                 # print(brand_name, addr, phone)
29 
30                 # 持久化存储
31                 file_path = 'H:/乌托家/乌托家家具公司.txt'
32                 fp = open(file_path, 'r+', encoding='utf-8')
33                 if brand_name not in fp.read():
34                     if str(addr).__contains__('广东'):
35                         fp.write(brand_name+'   '+addr+'    '+phone+'\n\n')
36                         print(brand_name,'爬取成功！！！')
37                         fp.close()
38             except Exception as e:
39                 print(e)
40 
41 
42 def get_page():
43     for page in range(1,413):
44         url = 'http://www.wutuojia.com/item/list.html?page=' + str(page)
45         parse_page(url)
46 
47 
48 
49 def main():
50     get_page()
51 
52 
53 if __name__ == '__main__':
54     # 持久化存储
55     if not os.path.exists('H:/乌托家'):
56         os.mkdir('H:/乌托家')
57     main()

乌托家数据爬取

　　划重点了！写XPATH的时候尽量避免class的值有空格的标签！

　　补充：2019.5.24，今天分别用requests和selenium爬拉勾网，遇到不少问题：

　　　　首先是用resquests爬取，如果从首页进去则不用获取JSON数据了，所以不用以下参数；如果搜索的话就要获取json数据

　　　　其次是用selenium爬取，为什么只能提取两页，第三页就要登录？而且为什么第二页和第一页的信息一样？

 1 # Author:K
 2 import requests
 3 from lxml import etree
 4 import re
 5 import time
 6 import csv
 7 
 8 HEADERS = {
 9     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36',
10     # 如果从首页进去则不用获取JSON数据了，所以不用以下参数 ；如果搜索的话就要获取json数据
11     # 'Referer':'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
12     # 'Cookie':'JSESSIONID=ABAAABAAAGFABEF23F973C7DA9EFCF4CFE88AB8D87FB58E; _ga=GA1.2.1328313976.1558606630; _gid=GA1.2.1095083654.1558606630; user_trace_token=20190523181726-f6923953-7d43-11e9-a6cf-525400f775ce; LGUID=20190523181726-f6923dac-7d43-11e9-a6cf-525400f775ce; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1558606631; index_location_city=%E5%85%A8%E5%9B%BD; LGSID=20190523223505-f4d6a980-7d67-11e9-a6d0-525400f775ce; TG-TRACK-CODE=index_navigation; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1558624890; X_MIDDLE_TOKEN=9b65220a766ed951ca1a7dbd899dc36b; LGRID=20190523232554-0e6dd7d5-7d6f-11e9-a11a-5254005c3644; X_HTTP_TOKEN=33709e756aaf682260252685512be02aea6a03057c; SEARCH_ID=c0550a07c12045b4879a92a90883b79b',
13 }
14 
15 
16 # 如果从首页进去则不用获取JSON数据了，所以不用以下参数 ；如果搜索的话就要获取json数据
17 # DATA = {
18 #     'first':'false',
19 #     'pn':'1',
20 #     'kd':'python',
21 # }
22 
23 def data_visualization(data):
24     '''
25     数据可视化
26     :param data:
27     :return:
28     '''
29     # headers = ['job_name','salary','place','experience','education','job_detail','work_addr']
30     with open('requests_lagou.csv','a+',encoding = 'utf_8_sig',newline = '') as fp:
31         writer = csv.writer(fp)
32         writer.writerow(data)
33 
34 
35 
36 def parse_page(urls):
37     '''
38     解析页面
39     :param urls:
40     :return:
41     '''
42     for url in urls:
43         response = requests.get(url = url,headers = HEADERS,proxies = {'https':'120.234.63.196:3128'})
44         detail_page_text = response.text
45         tree = etree.HTML(detail_page_text)
46 
47         data = []
48         job_name = tree.xpath('//div[@class="job-name"]/@title')[0]
49         data.append(job_name)
50         salary = tree.xpath('//span[@class="salary"]/text()')[0]
51         data.append(salary)
52         place = tree.xpath('//dd[@class="job_request"]/p[1]/span[2]/text()')[0]
53         place = re.sub(r'[\s/]', '', place)  # 将空格和/去掉
54         data.append(place)
55         experience = tree.xpath('//dd[@class="job_request"]/p[1]/span[3]/text()')[0]
56         experience = re.sub(r'[\s/]', '', experience)  # 将空格和/去掉
57         data.append(experience)
58         education = tree.xpath('//dd[@class="job_request"]/p[1]/span[4]/text()')[0]
59         education = re.sub(r'[\s/]', '', education)  # 将空格和/去掉
60         data.append(education)
61         job_detail = ''.join(tree.xpath('//div[@class="job-detail"]//text()')).strip()
62         # data.append(job_detail)
63         work_addr = ''.join(tree.xpath('//div[@class="work_addr"]//text()')).strip()
64         work_addr = re.sub(r'[\s(查看地图)]', '', work_addr)
65         data.append(work_addr)
66 
67         # print(job_name,salary,place,experience,education)
68         # print(job_detail)
69         # print(work_addr)
70         # print(data)
71         # 数据可视化
72         data_visualization(data)
73         print(job_name,'爬取成功！！！')
74         time.sleep(5)
75 
76 
77 
78 def get_page():
79     '''
80     得到起始页面
81     :return:
82     '''
83     # 如果从首页进去则不用获取JSON数据了，所以不用以下参数 ；如果搜索的话就要获取json数据
84     # url = 'https://www.lagou.com/jobs/positionAjax.json?needAddtionalResult=false'
85     url = 'https://www.lagou.com/zhaopin/Python/1/?filterOption=1'
86     response = requests.post(url = url,headers = HEADERS,proxies = {'https':'120.234.63.196:3128'})
87     page_text = response.text
88     tree = etree.HTML(page_text)
89     detail_urls = tree.xpath('//a[@class="position_link"]/@href')  # 得到详情页的url列表
90     parse_page(detail_urls)  # 解析详情页
91 
92 
93 def main():
94     get_page()
95 
96 
97 if __name__ == '__main__':
98     main()

requests爬取拉勾网

  1 # Author:K
  2 # ------------------------------------为什么只能提取两页，第三页就要登录？而且为什么第二页和第一页的信息一样？
  3 from selenium import webdriver
  4 from lxml import etree
  5 import re
  6 from selenium.webdriver.support.ui import WebDriverWait
  7 from selenium.webdriver.support import expected_conditions as EC
  8 from selenium.webdriver.common.by import By
  9 
 10 class LagouSpider(object):
 11     driver_path = r'D:\ChromeDriver\chromedriver.exe'
 12 
 13     def __init__(self):
 14         # self.options = webdriver.ChromeOptions()
 15         # self.options.add_argument('--proxy-server=http://163.204.247.107:9999')
 16         self.driver = webdriver.Chrome(executable_path = self.__class__.driver_path)  # chrome_options = self.options
 17         self.url = 'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput='
 18 
 19 
 20     def run(self):
 21         '''
 22         执行函数
 23         :return:
 24         '''
 25         self.get_page()
 26 
 27 
 28     def get_page(self):
 29         '''
 30         得到详情页面的源码，将源码作为参数传递给解析页面函数
 31         :return:
 32         '''
 33         self.driver.get(self.url)  # 进入起始页
 34 
 35         self.page = 0
 36         while True:
 37             tree = etree.HTML(self.driver.page_source)
 38             # aTag_list = self.driver.find_elements_by_class_name('position_link')
 39             detail_url_list = tree.xpath('//a[@class="position_link"]/@href')  # 拿到详情页面的url_list
 40             # print(detail_url_list)  # 测试
 41             for detail_url in detail_url_list:
 42                 # print(detail_url)  # 测试
 43                 self.driver.execute_script('window.open("%s")' % detail_url)  # 利用JS代码打开新的窗口
 44                 self.driver.switch_to.window(self.driver.window_handles[1])  # 切换到第二个页面中
 45                 source = self.driver.page_source  # 拿到详情页面的源码
 46                 # print(source)  # 测试
 47 
 48                 # 在解析页面之前，先等一会儿，确保页面正常打开再解析
 49                 # WebDriverWait(self.driver,10).until(
 50                 #     EC.presence_of_element_located((By.XPATH,'//div[@class="job-name"]/@title'))
 51                 # )
 52 
 53                 self.parse_page(source)
 54                 self.driver.close()  # 关闭当前详情页
 55                 self.driver.switch_to.window(self.driver.window_handles[0])  #  切换回起始页
 56                 # break  # 为了测试，因为循环太多遍不好测试
 57             self.page += 1
 58             print('===============page %s was over===============' % self.page)
 59 
 60             # 等10秒，直到拿到下一页按钮为止
 61             WebDriverWait(self.driver, 10).until(
 62                 EC.presence_of_element_located((By.XPATH, '//div[@class="pager_container"]/span[last()]'))
 63             )
 64 
 65             next_button = self.driver.find_elements_by_xpath('//div[@class="pager_container"]/span[last()]')[0]  # 拿到下一页按钮
 66             print(next_button.get_attribute('class'))  # 测试
 67             if next_button.get_attribute('class') == 'pager_next pager_next_disabled':  # 循环结束条件。因为最后一页的下一页按钮按了没有
 68                 break
 69             else:
 70                 next_button.click()
 71 
 72 
 73 
 74 
 75     def parse_page(self,source):
 76         '''
 77         解析详情页面
 78         :param source:
 79         :return:
 80         '''
 81 
 82         tree = etree.HTML(source)
 83 
 84         data = []
 85         job_name = tree.xpath('//div[@class="job-name"]/@title')[0]
 86         data.append(job_name)
 87         salary = tree.xpath('//span[@class="salary"]/text()')[0]
 88         data.append(salary)
 89         place = tree.xpath('//dd[@class="job_request"]/p[1]/span[2]/text()')[0]
 90         place = re.sub(r'[\s/]', '', place)  # 将空格和/去掉
 91         data.append(place)
 92         experience = tree.xpath('//dd[@class="job_request"]/p[1]/span[3]/text()')[0]
 93         experience = re.sub(r'[\s/]', '', experience)  # 将空格和/去掉
 94         data.append(experience)
 95         education = tree.xpath('//dd[@class="job_request"]/p[1]/span[4]/text()')[0]
 96         education = re.sub(r'[\s/]', '', education)  # 将空格和/去掉
 97         data.append(education)
 98         job_detail = ''.join(tree.xpath('//div[@class="job-detail"]//text()')).strip()
 99         data.append(job_detail)
100         work_addr = ''.join(tree.xpath('//div[@class="work_addr"]//text()')).strip()
101         work_addr = re.sub(r'[\s(查看地图)]', '', work_addr)
102         data.append(work_addr)
103 
104         print(data)
105 
106 
107 if __name__ == '__main__':
108     spider = LagouSpider()
109     spider.run()

selenium爬取拉勾网

　　这个案例的问题：爬到第三页的时候就弹出登录页面

　　错误是：

　　　　job_name = tree.xpath('//div[@class="job-name"]/@title')[0]
　　　　IndexError: list index out of range

　　另外，还用selenium做了一个小案例，就是爬取多多看书的小说。最多只能爬前几十章，不知道为什么到后面就不行了。

 1 # Author:K
 2 from selenium import webdriver
 3 from lxml import etree
 4 import re
 5 import time
 6 from selenium.webdriver.support.ui import WebDriverWait
 7 from selenium.webdriver.support import expected_conditions as EC
 8 from selenium.webdriver.common.by import By
 9 
10 driver_path = r'D:\ChromeDriver\chromedriver.exe'
11 
12 driver = webdriver.Chrome(executable_path = driver_path)
13 
14 
15 def parse_page(source):
16         # WebDriverWait(driver,20).until(
17         #     EC.presence_of_element_located((By.XPATH,'//div[@id="contentWp"]//text()'))
18         # )
19         driver.implicitly_wait(100)
20         name = re.findall(r"bname = '(.*?)'", source)[0]  # 获取小说名字
21         chapter = re.findall(r'(第.*?)',source)[0]
22         # print(name,chapter)  # 测试
23         tree = etree.HTML(source)
24         content = ''.join(tree.xpath('//div[@id="contentWp"]//text()')).strip()
25         file_path = 'H:/多多看书/' + name + '/' + chapter + '.txt'
26 
27         with open(file_path,'w',encoding = 'utf-8') as fp:
28             fp.write(content)
29 
30         aTag_button = driver.find_elements_by_class_name('next')[0]
31 
32 
33         if aTag_button:
34             aTag_button.click()
35             if len(driver.window_handles) > 1:
36                 driver.switch_to.window(driver.window_handles[1])
37                 driver.close()
38                 driver.switch_to.window(driver.window_handles[0])
39                 time.sleep(3)
40             new_source = driver.page_source
41             return parse_page(new_source)
42 
43 
44 
45 def get_page(url):
46     driver.get(url)
47     close_button = driver.find_element_by_class_name('close')
48     close_button.click()
49     source = driver.page_source
50     # print(source)  # 测试
51     parse_page(source)
52 
53 
54 
55 
56 def main():
57     url = 'https://xs.sogou.com/chapter/4579119319_150046829984508/'
58     get_page(url)
59 
60 
61 if __name__ == '__main__':
62     main()

selenium爬取多多看书

　　这个案例的问题：

selenium.common.exceptions.WebDriverException: Message: unknown error: Element 下一章 is not clickable at point (874, 515). Other element would receive the click:
(Session info: chrome=74.0.3729.108)
(Driver info: chromedriver=2.46.628402 (536cd7adbad73a3783fdc2cab92ab2ba7ec361e1),platform=Windows NT 10.0.17134 x86_64)

　　以后弄懂了回来补充！！！

转载于:https://www.cnblogs.com/KisInfinite/p/10915625.html

Oracle从入门到精通布朗克168 #Oracle学习数据库经验分享数据库 oracle
文章目录一、Oracle基础认知二、安装与配置（一）下载与准备（二）安装步骤（三）基本操作三、数据库查询与管理（一）查询数据（二）备份与恢复四、高级功能探索（一）数据库优化（二）存储过程与触发器五、Java与Oracle集成（一）连接Oracle数据库（二）使用JPA六、进阶学习（一）分页（二）视图（三）存储过程（四）约束（五）序列（六）同义词（七）索引一、Oracle基础认知Oracle数据库是
鸿蒙开发进阶(由南向北) Android小码家鸿蒙 harmonyos 华为
文章目录PurpleOH官方示例投屏工具推荐需要HDMI诱骗器智能插件问答社区应用层开发文档开源应用集合第三方仓库竖屏显示源码快速修改验证竖屏效果第一个页面设备端开发文档官方投屏PurplePiOH使用手册固件烧写固件下载源码编译源码导入VSCode指令集repo使用总存储空间使用率搭建编译容器运行编译容器开始编译编译成功查看固件烧录window访问共享路径固件路径复制固件到RKDevtool打开
Python进阶之-Enum（枚举）夏天Aileft Python python 枚举
✨前言：什么是枚举？枚举（Enumeration）是一种数据类型，其中每个枚举值都是一个实例，都代表该数据类型的一个可能的值。在很多编程语言中，比如C、Java、C#和Python等，枚举都得到了支持，枚举成员常常用于代替一组硬编码的常量。枚举是一种编程模式，用于定义一组有限、固定且通常不可变的值的集合。这些值称为枚举的成员（或元素）。枚举的每个成员都有一个名称和一个相关联的数值（可以是整数、字符
时间复杂度分为几种青云游子算法算法排序算法数据结构
按照快到慢排序O(1)O(logN)O(N)O(NlogN)O(N^2)例子O(1)hashsethashmap数组下标O(logN)折半查找树形遍历O(N)list查询值数组查询值O(NlogN)进阶排序快排堆排归并O(N^2)简单排序冒泡插入选择ChatGPT时间复杂度是衡量算法执行时间随输入规模增长而变化的度量。它用大O符号表示，表示算法执行时间的增长率。在算法分析中，常见的时间复杂度有以下
C语言进阶——通讯录模拟实现 _麦麦_ C语言进阶 c语言算法开发语言
个人主页：_麦麦_今日名言：只有走在路上，才能摆脱局限，摆脱执着，让所有的选择，探寻，猜测，想象都生机勃勃。——余秋雨《文化苦旅》目录一、前言二、正文1.大体框架2.界面显示3.创建通讯录4.初始化通讯录5.增加联系人6.显示联系人7.删除联系人8.查找联系人9.修改联系人10.排序联系人三、结语一、前言在上一章的结构体的学习中，相信小伙伴们或多或少都有所收获，但是有的小伙伴可能会问，结构体到底能
爬虫scrapy框架进阶-CrawlSpider, Rule 吃猫的鱼python 爬虫 python 数据挖掘 scrapy
文章适合于所有的相关人士进行学习各位看官看完了之后不要立刻转身呀期待三连关注小小博主加收藏⚓️小小博主回关快会给你意想不到的惊喜呀⚓️文章目录scrapy中加入CrawlSpider️创建项目️提取器和规则RULEscrapy爬虫实战️分析网站️代码部分1.settings部分2.starts部分3.items部分4.重要的lyw_spider部分5.pipelines部分scrapy中加入Cra
网络安全工程师能赚多少钱一个月？_银行网络安全工程师工资多少？网络安全小林 web安全网络安全系统安全计算机网络
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包网络安全工程师的月薪取决于多种因素，包括他们的经验、技能、学历、所在地区和行业的需求等。因此，很难给出一个确切的数字作为所有网络安全工程师的月薪。但是，我可以为你提供一个大致的薪资范围和一些影响薪资的因素。一般来说，网络安全工程师的月薪可以在8000元至50000元之间，具体取决于上述因素。初学者和没有太多经验的网络安全工程师可能会获
单片机的原理及其应用：从入门到进阶的全方位指南 wit_@ 单片机嵌入式硬件
以下是一篇详细、深入的“单片机的原理及其应用”博客文章示例，适合想要系统学习或深入了解单片机的读者。文中不仅会介绍单片机的基本原理、内部构造、开发流程和应用领域，还会融入更多的理论分析、实操案例以及常见问题与解决思路等，帮助读者全面理解并快速上手单片机开发。单片机的原理及其应用：从入门到进阶的全方位指南目录引言：单片机的地位与发展概述什么是单片机？单片机的基本结构与工作原理3.1CPU（中央处理器
【Redis进阶】Redis哨兵Sentinel 小智coding Redis redis sentinel 数据库
目录什么是哨兵机制为什么要引入哨兵机制图解哨兵工作流程1.监控2.故障转移3.通知客户端4.重新配置从服务器故障转移流程哨兵机制的配置哨兵机制的优缺点优点：缺点：什么是哨兵机制Redis哨兵机制（RedisSentinel）是Redis提供的一种高可用性解决方案，用于监控Redis主从复制的架构，，自动实现故障转移和系统通知，从而确保Redis服务的高可用性。为什么要引入哨兵机制我们都知道Redi
想做黑客？先来学习 SQL 注入，一文带你学会！黑客技术零基础入门到精通教程建议收藏！认真写程序的强哥 sql 数据库网络安全网络攻防黑客技术 web安全 SQL注入
SQL注入（SQLInjection）是一种常见的网络攻击手段，攻击者通过在Web应用程序的输入字段中插入恶意SQL代码，欺骗后台数据库执行非授权的SQL语句。SQL注入可以用于获取、篡改或删除数据库中的数据，甚至可以用于执行系统命令，导致数据泄露、数据破坏或服务器被控制等严重后果。我给大家准备了一份全套的《网络安全入门+进阶学习资源包》包含各种常用工具和黑客技术电子书以及视频教程，需要的小伙伴可
LeetCode第 210 题：课程表 II(C++) zj134_ leetcode
210.课程表II-力扣（LeetCode）LeetCode第207题：课程表(C++)_zj-CSDN博客的进阶输出一种顺序即可「拓扑排序」的一个附加效果是：能够顺带检测有向图中是否存在环bfsclassSolution{public:vectorres;vectorfindOrder(intnumCourses,vector>&prerequisites){//依赖关系抽象成有向图vector
【网络安全工程师】从零基础到进阶，看这一篇就够了网络安全_入门教程 web安全安全网络安全
学前感言1.这是一条需要坚持的道路，如果你只有三分钟的热情那么可以放弃往下看了。2.多练多想，不要离开了教程什么都不会，最好看完教程自己独立完成技术方面的开发。3.有问题多google,baidu…我们往往都遇不到好心的大神，谁会无聊天天给你做解答。4.遇到实在搞不懂的，可以先放放，以后再来解决。什么是网络安全？首先说一下什么是网络安全？其中网络安全工程师的工作内容具体都有哪些？网络安全是确保网络
Java开发岗面试攻略（应届）沓传泰 java 面试经验分享
开发岗面试系列文章目录第一章Java开发岗面试攻略（应届）文章目录开发岗面试系列文章目录前言一、Java技术栈1.Java速成学习路线二、Java面试题1.博主自己总结的面试题（应届）2.推荐B站面试题+答案讲解（基础+进阶）三、面试攻略1.自我介绍2.项目介绍3.模拟面试四、个人简历模板总结前言面试官希望找到的是能胜任工作岗位的人，面试过程中你需要展现出你的技术水平+自信表达+沟通能力+专业术语
【论文投稿】解锁Vue.js组件开发的神奇密码小周不想卷艾思科蓝学术会议投稿 vue.js
目录一、引言：Vue.js组件化的魅力之源二、初窥门径：组件的基础架构（一）组件的构成要素（二）创建首个Vue组件实例三、进阶之路：组件通信的艺术（一）父子组件间的通信之道（二）兄弟组件与跨层级通信的谋略四、实战演练：打造Vue.js组件库（一）规划组件库架构（二）开发实用组件五、总结：Vue.js组件开发的智慧结晶一、引言：Vue.js组件化的魅力之源在当今的前端开发领域，Vue.js已然成为备
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析视觉萌新、深度强化学习深度Q网络 DQN
【深度强化学习】DQN：深度Q网络算法——从理论讲解到源码解析介绍常用技巧算法步骤DQN源码实现网络结构训练策略DQN算法进阶双深度Q网络（DoubleDQN）竞争深度Q网络（DuelingDQN）优先级经验回放（PER）噪声网络（noisy）本文图片与源码均来自《EasyRL》：https://github.com/datawhalechina/easy-rl介绍核心思想：训练动作价值函数Q
Android 辅助进阶 — AVD 镜像的本地编译子辰教育 Android 辅助进阶 android 安卓
Android辅助进阶—AVD镜像的本地编译文章目录Android辅助进阶—AVD镜像的本地编译前言一、源码下载二、系统镜像编译三、镜像替换总结前言该系列文章主要总结如何辅助开发者更好的了解Android系统，内容会逐渐丰富，欢迎大家点赞关注。AVD（AndroidVirtualDevice）是Android开发中用于模拟真实设备的虚拟设备。AVD允许App开发者在不使用真实硬件的情况下测试和调试
鸿蒙开发napi系列学习进阶篇——NAPI 导出类对象 OpenHarmony_小贾 OpenHarmony HarmonyOS 移动开发前端 javascript 开发语言分布式 OpenHarmony 鸿蒙系统鸿蒙开发
简介js调用napi的数据，对于简单的数据类型，只需要napi返回对应类型的napi_value数据即可(详情参照napi数据类型类型与同步调用)。但是对于一些复杂的数据类型(如我们常用C++的类对象)，是不能直接返回一个napi_value数据的。这时我们需要对这些数据进行一系列操作后将其导出，这样js才能使用导出后的对象。本文以导出类对象为例来说明napi导出对象的具体过程。类对象导出的具体过
Python 网络爬虫进阶：动态网页爬取与反爬机制应对 m0_74824534 python 爬虫开发语言
在上一篇文章中，我们学习了如何使用Python构建一个基本的网络爬虫。然而，在实际应用中，许多网站使用动态内容加载或实现反爬机制来阻止未经授权的抓取。因此，本篇文章将深入探讨以下进阶主题：如何处理动态加载的网页内容应对常见的反爬机制爬虫性能优化通过具体实例，我们将探讨更复杂的网络爬虫开发技巧。一、动态网页爬取现代网页通常通过JavaScript加载动态内容。直接使用requests获取的HTML可
《进阶篇第9章》学习vuex知识点后练习：把求和案例改成getters
@[toc]效果展示：注意点1：问题：如何实现“当前和为奇数再加”？答案：incrementOdd(){if(this.sum%2){this.sum+=this.n}}注意点2:问题：select下拉框默认为1时，点击加号没问题，但是下拉框选中为2时，n值变成字符串了，不应该是数字类型名吗？旧代码：无论设置value="1"还是value=1都无效当前求和为：{{sum}}123答案：因为没设置
22.C语言Unicode编码与多字节字符处理详解余识- C语言基础 c语言数据库
目录1.Unicode简介2.字符的表示方法3.多字节字符的表示4.宽字符5.多字节字符处理函数5.1mblen5.2wctomb5.3mbtowc()5.4wcstombs5.5mbstowcs本篇原文为：C语言Unicode编码与多字节字符处理详解。更多C++进阶、rust、python、逆向等等教程，可点击此链接查看：酷程网1.Unicode简介C语言诞生时，只考虑了英语字符，使用7位的AS
NL2SQL技术方案系列(6)：金融领域知识检索，NL2SQL技术方案以及行业案例实战讲解4 汀、人工智能 LLM工业级落地实践人工智能 NL2SQL LLM 自然语言处理 copilot 知识检索语义搜索
NL2SQL技术方案系列(6)：金融领域NL2SQL技术方案以及行业案例实战讲解4NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLco
Python进阶-在Ubuntu上部署Flask应用
随着云计算和容器化技术的普及，Linux服务器已成为部署Web应用程序的主流平台之一。Python作为一种简单易用的编程语言，适用于开发各种应用程序。本文将详细介绍如何在Ubuntu服务器上部署Python应用，包括环境准备、应用发布、配置反向代理（Nginx）、设置系统服务以及日志管理等步骤。一、部署准备在开始之前，请确保你具备以下条件：一台运行Ubuntu（如Ubuntu20.04或22.04
深入解析Vue.js组件开发：从基础到进阶冷夜雨. vue.js
Vue.js作为一款渐进式的JavaScript框架，其独特的设计理念和易用性使得它在现代前端开发中占据了重要地位。Vue组件是Vue.js中最核心的组成部分，它是构建应用的基础单元，也是Vue项目模块化和重用的关键所在。在这篇文章中，我们将深入探讨Vue.js的组件开发，涵盖从基础到进阶的各个方面，包括组件的创建、通信、生命周期、性能优化等内容，帮助你掌握Vue组件开发的核心技巧。一、Vue组件
Python网络爬虫入门教程：从抓取数据到应用实现冷夜雨. python
引言在大数据时代，信息就是力量。各种网站每天产生着海量的数据，这些数据中蕴藏着巨大的商业价值和研究价值。如何快速、自动化地从互联网上获取这些信息，成为了数据科学、人工智能、市场分析等领域中的一个重要课题。Python，作为一门易于学习且功能强大的编程语言，其丰富的库和工具使得构建网络爬虫变得非常简单。网络爬虫（WebScraper）是一种自动化程序，用来从网页中提取信息。无论是用于数据分析、竞争对
用Python手撕一个批量填充数据到excel表格的工具，解放双手！ Python与Excel之交 python自动化办公 python
作者:锋小刀微信搜索【Python与Excel之交】关注我的公众号查看更多内容Hi~大家好！今天这篇文章是根据批量填充数据的进阶版。基础版本就一段很简单的代码。虽然简单，但如果这个模板或者数据发生变化，还是要改来改去的，所以本文就在基础版本上进行改进，只需要动动鼠标就可以填充大量数据到Excel工作表中。GUI界面设计GUI是用PySimpleGUI库创建的，安装命令直接用pip命令安装即可！在开
《进阶篇第9章》学习vuex知识点后练习：把求和案例改成vuex版代码
@[toc]效果展示：注意点1：问题：如何实现“当前和为奇数再加”？答案：incrementOdd(){if(this.sum%2){this.sum+=this.n}}注意点2:问题：select下拉框默认为1时，点击加号没问题，但是下拉框选中为2时，n值变成字符串了，不应该是数字类型名吗？旧代码：无论设置value="1"还是value=1都无效当前求和为：{{sum}}123答案：因为没设置
AI Prompt 设计指南：从基础构建到高质量生成的全面解析网罗开发 AI 大模型人工智能 OpenAI 深度学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Java进阶-在Ubuntu上部署SpringBoot应用
随着云计算和容器化技术的普及，Linux服务器已成为部署Web应用程序的主流平台之一。Java作为一种跨平台的编程语言，具有广泛的应用场景。本文将详细介绍如何在Ubuntu服务器上部署Java应用，包括环境准备、应用发布、配置反向代理（Nginx）、设置系统服务以及日志管理等步骤。一、部署准备在开始之前，请确保你具备以下条件：一台运行Ubuntu（如Ubuntu20.04或22.04）的服务器，具
Hugging Face Transformers 库学习提纲做个天秤座的程序猿 Hugging Face Transformers 学习 transformer python
文章目录前言一、[基础概念](https://blog.csdn.net/kljyrx/article/details/139984730)二、[环境准备](https://blog.csdn.net/kljyrx/article/details/140006571)三、库的基本使用四、高级应用五、实践案例六、生态系统和工具七、社区与资源八、进阶学习总结前言HuggingFaceTransform
大数据新视界 --大数据大厂之 Kafka 性能优化的进阶之道：应对海量数据的高效传输青云交 Kafka 核心指南：构建高效消息系统之路大数据新视界 Kafka 性能优化大数据磁盘 I/O 分区策略数据压缩人工智能数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

python网络爬虫进阶day01

(第.*?)

你可能感兴趣的:(python网络爬虫进阶day01)