胜天半月子

爬虫入门概念与硬核实战巩固（一）

文章目录

前言
一、爬虫是什么？
- 1.1 robots.txt
- 1.2 http
- 1.3 https
二、request模块
- 2.1 网络请求requests
- 2.2 实战巩固⭐
- - 2.1 ruquests第一血
  - 2.2 简易网页采集器
  - 2.3 破解百度翻译
  - 2.4 爬取豆瓣带你应分类排行榜中电影详情数据 ⭐
  - 2.5 爬取肯德基餐厅查询中指定地点的餐厅数据
  - 2.6 爬取国家药品监督总局中基于中华人民共和国化妆品生产许可证相关数据⭐⭐⭐
总结

前言

你是否在夜深人静的时候，想看一些会让你更睡不着的图片却苦于没有资源…
你是否在节假日出行高峰的时候，想快速抢购火车票成功…
你是否在网上购物的时候，想快速且精准的定位到口碑质量最好的商品…

本章节所有感悟来自：Python爬虫7天速成（2020全新合集）无私分享 Python
视频是2020年，我是2021年看得视频，网站的更新速度较快，其中2.6章节中的药品监督总局网址已经不是视频中的网址我已经做个笔记和更改，希望帮助到想学习爬虫的你们

一、爬虫是什么？

通过编写程序、模拟浏览器上网，然后让其模拟浏览器去上网，然后让其去互联网上抓取数据的过程。

可以认为浏览器上网就是一个原始的、天然的爬虫工具。

爬虫的两种方式：

浏览器

编写代码

爬虫的价值
爬虫究竟是合法的还是违法的？

在法律中是不被禁止的

具有违法风险

善意爬虫恶意爬虫

爬虫带来的风险可以体现再如下两个方面：

爬虫干扰了别访问网站的正常运营

爬虫抓取了受到法律保护的特定类型的数据或信息

如何在使用编写爬虫的过程中避免进入‘橘子’的厄运呢？

时常的优化自己的程序，避免干扰被访问网站的正常运行

在使用，传播爬取到二到数据时，审查抓取到的内容，如果发现了涉及到用户隐私或者商业机密等敏感内容，需要及时停止爬取或传播

爬虫在使用场景中的分类

通用爬虫
抓取系统重要组成部分。抓取的是一整张页面数据

聚焦爬虫
是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容。

增量式爬虫⭐
检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。

爬虫的矛与盾

反爬机制
相关的门户网站，可以指定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

反反爬策略
爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中相关的数据。

1.1 robots.txt

robots.txt协议

其实就是一项君子协议。
此协议就规定了网站哪些数据可以被爬虫爬取，哪些数据不可以被爬虫爬取。
既可以保护网站隐私数据，又可以被搜索引擎收录，增加相关网站的流量。

robots.txt协议展示

1.2 http

超文本传输协议

http协议

概念：就是服务器和客户端进行数据交互的一种形式。

常用请求头信息

User-Agent：请求载体的身份标识
例如：1. 使用Google浏览器浏览一个网址，则Google浏览器的身份就是当前载体的身份标识，这个身份标识即可以使用一个字符串来表示。2. 若是使用编写代码方式发起一个url的请求则标识就不是上述字符串

Connection：请求完毕之后，是断开连接还是保持连接

close

keep live

常用响应头信息

Content-Type：服务器响应回客户端的数据类型
可以是字符串、Json等

1.3 https

http是安全的，https是不安全的额
安全的超文本传输协议，数据传输和交互的时候是经过加密的

加密方式

对称密钥加密

客户端需要把发送给服务器的数据进行加密（加密方式是由客户端自己指定的），然后传输密文和解密的密钥给服务器，服务器接收后可以根据密钥对密文进行解密，解密之后，服务器就可拿到原始数据
分析：若密文和密钥被拦截，则密文就会被密钥解密，数据就会被暴露。

非对称密钥加密

证书密钥加密

https所采用的密钥加密就是该方式

二、request模块

2.1 网络请求requests

urllib模块（古老的模块）

request模块⭐（重点学习）

request模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率极高。
作用：模拟浏览器发送请求。

如何使用？（reqests模块的编码流程）⭐

一定要严格遵从浏览器发送请求流程：

指定url（具体网址）

发起请求（类似浏览器地址栏输入网址按下回车–GET请求）

获取相应数据（回车之后，浏览器会有一页数据）

持久化存储–响应数据（request模块在互联网上爬取的页面数据）

安装

pip install requests

2.2 实战巩固⭐

2.1 ruquests第一血

爬取搜狗首页的页面数据

import  requests 

if __name__ == "__main__":
    # 1. 指定url
    url = "https://www.sogo.com/"
    # 2. 发起请求  
    response = requests.get(url=url) 
    # get方法灰返回一个响应对象
    # 3. 获取相应数据 .text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # 4. 持久化存储 --page_text
    with open('./sogo.html', 'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束')

2.2 简易网页采集器

爬取搜狗指定词条对应的都多结果页面

# 反爬机制：UA检测
# UA检测对应的反反爬策略：#UA伪装


# UA：User-Agent(请求载体的身份标识)
'''
UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识是某一款浏览器，
        那么就说明该请求是一个正常的请求。但是，如果检测到请求的载体身份标识不是基于某一款浏览器的，
        则表示该请求为不正常的请求（爬虫）,z则服务器端就很有可能拒绝该次请求
'''

#UA伪装：让爬虫对应的请求载体身份标识伪装成一款浏览器

import requests

if __name__ == '__main__':
    #UA伪装：将对应的User-Agent封装到一个字典中
    # 伪装成Google浏览器
    headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }

    # 1. 指定url
    url = 'https://www.sogou.com/sogou?'
    # 'https://www.sogou.com/sogou?query=波晓张'这样也可以的 
    # 处理url携带的参数  通常情况url不可能只携带一组参数
    # 处理：封装到字典中
    key = input('enter a word:')
    param = {
     
        'query':key
    }
    
    # 2. 对指定的url发起请求 对应的url是携带参数的，并且请求过程中处理了参数
    response = requests.get(url,params=param,headers=headers)

    # 3. 获取响应数据
    page_txt = response.text

    filename = key+'.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_txt)
    print(filename,'保存成功！！！')

出现问题
1. 解决乱码问题

处理乱码后，页面显示【异常访问请求】导致请求数据的缺失

异常访问的请求

网站后台已经检测出该次请求不是通过浏览器发起的请求而是通过爬虫程序发起的请求（不是浏览器发起的请求都是异常请求）

2.3 破解百度翻译

前期分析

录入单词之后，没有触碰任何的点击事件。当前页面就变化了，也就是进行了局部刷新（AJAX请求）

下图是录入数据前后对比：
什么是 AJAX ？

结论

通过浏览器抓包（F12）了解到：

对应请求为POST请求（携带了参数）

响应数据是一组json数据

代码

import requests
import json

if __name__ == '__main__':
    # 1. 指定url
    # post请求
    post_url = 'https://fanyi.baidu.com/sug'

    # 2. 进行UA伪装
    headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
}
    # 3. post请求参数处理（同get）
    word = input('enter a word:')
    data = {
     
        'kw':word
    }
    # 4. 请求发送
    respose = requests.post(url=post_url,data=data,headers=headers)

    # 5. 获取响应数据 由浏览器抓包工具可知返回的是json数据
    # 此处若用respose.text  则返回的是字符串
    # print("text",respose.text)
    dic_obj = respose.json()# json()方法返回的是obj(如果确认响应数据是json类型，才可以使用json())
    # print("dic_obj",dic_obj)

    # 6. 持久化存储
    filename = word+'.json'
    fp = open(filename,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False) ①# 拿到的json字符串是不能用ASCII进行编码的

    print('over!!!')

2.4 爬取豆瓣带你应分类排行榜中电影详情数据 ⭐

前期分析

局部搜索
全局搜索

如上图搜索并点击进入相应内容，进入相应页面后可以点击类型：喜剧，之后通过滑动滚轮后发现滑动到底部后发现：

地址栏没有发生变化

右边的矩形灰色栏一到底部，底部就会出现新的电影数据而且矩形灰色栏回跳动到中间位置

因此，我们判断滚轮滑动到底部，页面进行了AJAX请求

思考：基于抓包工具进行全局搜索不一定可以每次都能定位到动态加载数据对应的数据包？
原因：如果动态加载的数据是经过加密的密文数据

代码

import requests
import json

if __name__ == '__main__':
    url = 'https://movie.douban.com/j/chart/top_list'

    param = {
     
        'type': '24',
        'interval_id': '100:90',
       ' action': '',
        'start': '0', # 从库中第几部电影去取
        'limit': '20', # 第一次取出的个数
    }

    headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
}
    # 根据浏览器抓包工具进行请求类型判断
    response = requests.get(url=url,params = param,headers = headers)
    
    # 由浏览器判断返回类型是列表 
    list_data = response.json()①
    fp = open('./douban.json','w',encoding='utf8')
    json.dump(list_data,fp,ensure_ascii=False)

    print('over!!!')

2.5 爬取肯德基餐厅查询中指定地点的餐厅数据

肯德基官网

1. 前期分析

同理，进入地址搜索栏后，输入地址若地址栏没有发生变化则页面是进行的AJAX请求，反之则不是AJAX请求

结论：该页面发生了AJAX请求

抓包 ⭐
代码

爬取一页数据的代码

import requests

if __name__ == '__main__':

    # 爬取的是第一页数据
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

    data = {
     
        'cname': '',
        'pid': '',
        'keyword': '北京',
        'pageIndex': str(page),# 这里最好是字符串形式
        'pageSize': '10',
    }

    headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
}

    respose = requests.post(url=url,data=data,headers=headers)

    page_text = respose.json()
    # 打印餐厅信息 - 名字 地址
    for dic in page_text['Table1']:
        title = dic['storeName']
        addr = dic['addressDetail']

        print(title,addr)
    
    # 这只是第一页数据，如何拿到第二页、第三页数据........？

爬取多页数据的代码

import requests

if __name__ == '__main__':
    # 爬取多页
    url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

    # 拿到北京八页数据
    for page in range(1,9):
        data = {
     
            'cname': '',
            'pid': '',
            'keyword': '北京',
            'pageIndex': str(page),# 这里最好是字符串形式
            'pageSize': '10',
        }

        headers = {
     
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }

        respose = requests.post(url=url,data=data,headers=headers)

        page_text = respose.json()
        # 打印餐厅信息 - 名字 地址
        for dic in page_text['Table1']:
            title = dic['storeName']
            addr = dic['addressDetail']

            print(title,addr)

2.6 爬取国家药品监督总局中基于中华人民共和国化妆品生产许可证相关数据⭐⭐⭐

化妆品生产许可信息管理系统服务平台 - NMPA

前期分析

代码测试验证

用如下代码发起请求：

import  requests

if __name__ == "__main__":
    url = ' http://scxk.nmpa.gov.cn:81/xk/'
    
    headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }

    page_text = requests.get(url=url, headers=headers).text

    with open('./huazhuangpin.html','w',encoding='utf8') as fp:
        fp.write(page_text)

结论：页面中的数据一定不是http://scxk.nmpa.gov.cn:81/xk/这个url请求到的，是别的请求方式请求到的

(很有可能是AJAX请求)

抓包工具请求验证

利用在线JSON解析工具发现：

首页对应的企业信息数据是通过ajax请求得到的

如下图，通过点击首页的公司发现

url的域名都是一样的，只有携带的参数（id）不一样

id值可以从首页对应的ajax请求到的json串中获取

域名和id值拼接出一个完整的企业对应的详情页的url

<-------------------------------------------手动分割----------------------------------------------->

那上图获得的公司对应的化妆品生产许可证信息页面数据也是AJAX请求到的吗？
我们需要做相关验证：

代码验证（笨方法）

抓包工具验证

抓包工具验证

结论：我们不可能是通过对公司的化妆品生产许可证信息页面数据的url发请求获得数据的（看图）

详情页数据信息也是动态加载出来的

分析详细数据的由来

json解析如下：与详情页数据一致

{
     
	"businessLicenseNumber": "91320213355032183D",
	"businessPerson": "邱国忠",
	"certStr": "一般液态单元（护肤水类）；膏霜乳液单元（护肤清洁类）",
	"cityCode": "",
	"countyCode": "",
	"creatUser": "",
	"createTime": "",
	"endTime": "",
	"epsAddress": "无锡市北塘区金山四支路11-1-12号",
	"epsName": "无锡邦士立生物科技有限公司",
	"epsProductAddress": "无锡市北塘区金山四支路11-1-12号",
	"id": "",
	"isimport": "N",
	"legalPerson": "邱国忠",
	"offDate": "",
	"offReason": "",
	"parentid": "",
	"preid": "",
	"processid": "202102240853582029gbgi",
	"productSn": "苏妆20160013",
	"provinceCode": "",
	"qfDate": "",
	"qfManagerName": "江苏省药品监督管理局",
	"qualityPerson": "宗同祥",
	"rcManagerDepartName": "江苏省药品监督管理局（无锡检查分局）",
	"rcManagerUser": "王丹、冯佳超",
	"startTime": "",
	"warehouseAddress": "",
	"xkCompleteDate": null,
	"xkDate": "2026-04-20",
	"xkDateStr": "2021-04-20",
	"xkName": "张贤",
	"xkProject": "",
	"xkRemark": "",
	"xkType": "202"
}

对不同的公司进行上述操作发现：

所有的post请求的url都是一样的，只有参数id值是不同的。

如果我们可以批量获取多家企业的id后，就可以将id和url形成一个完整的详情页对应详情数据的ajax请求的url

代码

爬取第一页详情数据并存储

import  requests
import json

if __name__ == "__main__":
    # 批量获取企业id值
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
    # 参数的封装
    data = {
     
        'on': 'true',
        'page': '1',# 页码
        'pageSize': '15',# 每页显示的数据
        'productName': '',
        'conditionType': '1',
        'applyname': '',
        'applysn':'',
    }
    headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }

    id_list = [] # 存储企业的id
    all_data_list = [] # 存储所有企业的详情数据

    # 字典类型
    json_ids = requests.post(url=url, headers=headers,data=data).json()
    for dic in json_ids['list']:
        id_list.append(dic['ID'])
    # print(len(id_list))   # 15

    # 获取企业详情数据
    post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'

    for id in id_list:
        data_id ={
     
            'id':id
        }
        # 发起请求
        detail_json = requests.post(url=post_url, data=data_id,headers=headers).json()
        # print(detail_json,'---------------ending------------')
        
        # 存储到列表
        all_data_list.append(detail_json)
    # 持久化存储
    fp = open('./allCompanyData.json','w',encoding='utf-8')
    json.dump(all_data_list,fp,ensure_ascii=False)
    print('over!!!')

爬取前五页详情数据并存储

import  requests
import json

if __name__ == "__main__":
    # 批量获取企业id值
    url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'
    
    headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
    }

    id_list = [] # 存储企业的id
    all_data_list = [] # 存储所有企业的详情数据
    for page in range(1,6):
        # 参数的封装
        data = {
     
            'on': 'true',
            'page': str(page),# 页码
            'pageSize': '15',# 每页显示的数据
            'productName': '',
            'conditionType': '1',
            'applyname': '',
            'applysn':'',
        }


        # 字典类型
        json_ids = requests.post(url=url, headers=headers,data=data).json()
        for dic in json_ids['list']:
            id_list.append(dic['ID'])
        # print(len(id_list))   # 15

    # 获取企业详情数据
    post_url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById'
    for id in id_list:
        data_id ={
     
            'id':id
        }
        # 发起请求
        detail_json = requests.post(url=post_url, data=data_id,headers=headers).json()
        # print(detail_json,'---------------ending------------')
        
        # 存储到列表
        all_data_list.append(detail_json)
    print(len(all_data_list))
    # 持久化存储
    fp = open('./allCompanyData.json','w',encoding='utf-8')
    json.dump(all_data_list,fp,ensure_ascii=False)
    print('over!!!')

总结

①json.dump()

Python json.dump()用法及代码示例
json在线格式化工具


②requests.post():

交换参数不影响函数的使用

下节内容：数据解析

聚焦爬虫

正则

bs4

xpath

pycharm中使用anaconda部署python环境_pycharm部署配置anaconda环境教程 weixin_39796652
本篇文章小编给大家分享一下pycharm部署配置anaconda环境教程，小编觉得挺不错的，现在分享给大家供大家参考，有需要的小伙伴们可以来看看。pycharm部署anaconda环境Pycharm：python编辑器，社区版本Anaconda：开源的python发行版本(专注于数据分析的python版本)，包含大量的科学包环境基本指令(准备工作)：conda--version查看anaconda
Android安全通信实现 Ya-Jun android 安全
Android安全通信实现前言在移动应用开发中，网络通信安全至关重要。本文将详细介绍Android平台上的安全通信实现方案，包括HTTPS协议、证书验证、双向认证等核心技术，帮助开发者构建安全可靠的网络通信机制。一、HTTPS基础知识1.1HTTPS原理HTTPS（超文本传输安全协议）是HTTP协议的安全版本，通过SSL/TLS协议进行加密通信，确保数据传输的安全性。1.1.1SSL/TLS协议工
python poetry添加某个git仓库的某个分支 waketzheng git
命令行不太清楚怎么弄，但可以通过编辑pyproject.toml实现实例：pypika-tortoise={git="https://github.com/henadzit/pypika-tortoise",branch="do-not-use-builder"}参考：WIPDonotcopypypikaquerybyhenadzit·PullRequest#1851·tortoise/torto
The following modules are *disabled* in configure script:_sqlite3 waketzheng python
Unabletoupgradepast3.6.9-#24byRosuav-PythonHelp-DiscussionsonPython.orgsudoaptinstalllibsqlite3-devcdPython-3.13.1./configure--enable-optimizations--enable-loadable-sqlite-extensionsmakesudomakealtins
node-imap-sync-client, imap 客户端库, 同步专用 eli960 MAIL 前端 javascript node.js
node-imap-sync-client说明网址:https://gitee.com/linuxmail/node-imap-sync-client同步操作imap客户端，见例子examples本imap客户端,特点:全部命令都是promise风格主要用于和IMAPD服务器同步邮箱数据和邮件数据支持文件夹的创建/删除/移动(改名)支持邮件的复制/移动/删除/标记/上传支持获取文件夹下邮件UID列
node-ddk, electron 组件,任务栏,托盘,通知 eli960 node-ddk electron javascript node.js
node-ddk任务栏,托盘,通知https://blog.csdn.net/eli960/article/details/146207062也可以下载demo直接演示http://linuxmail.cn/go#node-ddk在渲染进程(既web端)操作importrenderer,{NODEDDK}from"node-ddk/renderer"letw=renderer.window//让托
node-ddk,electron 开发组件 eli960 node-ddk electron javascript 前端 node.js js
node-ddk-demo说明node-ddk是ELECTRON开发框架,封装常见操作npminode-ddk演示:https://live.csdn.net/v/468440本项目是一个DEMO,项目地址:https://gitee.com/linuxmail/node-ddk-demogitclonehttps://gitee.com/linuxmail/node-ddk-democdnode
pdm self update 504 gateway timeout waketzheng gateway
红军不怕远征难，万里长城今犹在，不见当年秦始皇执行如下命令：pdmselfupdate--verbose时，报了504gatewaytimeout的错误症状：使用的是内网环境的pypimirror，本地Windows有这个问题，服务器Linux系统没有这个问题。经过层层排查，发现是httpx在windows环境读取了注册表里的ProxyServer，但是没有读取ProxyOverride，导致内网
node-ddk, electron组件, 自定义本地文件协议,打开本地文件 eli960 node-ddk electron javascript 前端 node.js
node-ddk文件协议https://blog.csdn.net/eli960/article/details/146207062也可以下载demo直接演示http://linuxmail.cn/go#node-ddk安全考虑到安全,本系统禁止使用file:///在主窗口,自定义文件协议,可以多个importmain,{NODEDDK}from"node-ddk/main"main.protoc
CentOS7 python安装Ta-lib 0.6.x【talib不能直接安装，必须先安装ta_lib之c++库才可以】 weixin_43343144 服务器运维
正常流程：CentOS7python安装Ta-lib【talib不能直接安装，必须先安装ta_lib之c++库才可以】_centos7安装ta-lib-CSDN博客不同的版本参考如下！参考官方文档：ta-lib·PyPI务必下载匹配版本的【ta-lib-0.6.4-src.tar.gz】才可以正常安装$wgethttps://github.com/ta-lib/ta-lib/releases/do
【Kivy App】Pyjnius是什么？ Botiway 移动APP Kivy python
Pyjnius是一个Python库，用于在Python中访问Java类和方法，特别适用于在Kivy或其它Python应用中调用AndroidAPI。以下是Pyjnius的详细介绍、安装和使用方法：1.Pyjnius是什么？Pyjnius是一个Python-to-Java的桥接工具，允许Python代码直接调用Java类和方法。它基于JavaNativeInterface(JNI)，主要用于以下场景
conda安装R语言环境并部署至pycharm 楚门留香 r语言开发语言
优先看这个：[win10系统使用Pycharm-professional配置R语言-知乎(zhihu.com)](https://zhuanlan.zhihu.com/p/546788455)要安装R4.0.0的时候看这个：[R语言的安装（详细教程）_r语言安装教程-CSDN博客](https://blog.csdn.net/xhmico/article/details/122443660)r语言
基于Python PYQT5 的相机定时采集图像程序，GUI打包独立运行夏时summer time python qt 数码相机相机
基于PythonPYQT5编写相机定时采集图像及手动采集版本介绍Python3.6pyqt55.15.4pyqt5-tools5.15.4.3.2另外就是常用的cv2和numpy包fromPyQt5importQtCore,QtGui,QtWidgetsfromPyQt5importQtCore,QtGui,QtWidgetsimportcv2importnumpyasnpfromdatetime
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
基于Qt开发：实现对海康威视网络摄像头视频画面实时预览鱼弦 Qt学习与实践音视频开发系列实践 Linux系统编程与驱动开发 arm开发
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）介绍:本文将介绍如何基于Qt开发框架,实现对海康威视网络摄像头的二次开发应用程序。该应用程序可以实时预览摄像头视频画面,并支持控制云台的水平和垂直移动。这种二
C++在线OJ负载均衡项目平凡的小y c++开发语言
1.演示项目项目源码链接：2.项目所用技术和开发环境所用技术C++STL标准库Boost准标准库(字符串切割)cpp-httplib第三方开源网络库ctemplate第三方开源前端网页渲染库jsoncpp第三方开源序列化、反序列化库负载均衡设计MySQLCconnectAce前端在线编辑器html/css/js/jquery/ajax开发环境Ubuntu云服务器vscodeMysqlWorkben
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
Python使用minIO上传下载身似山河挺脊梁 python
前提VSCode+Python3.9minIO有Python的例子1.python生成临时文件2.写入一些数据3.上传到minIO4.获取分享出连接5.发出通知#创建一个客户端minioClient=Minio(endpoint='xx',access_key='xx',secret_key='xx',secure=False)#生成文件名current_datetime=datetime.dat
深入理解Python上下文管理器 ……-…… python 开发语言
1.什么是上下文管理器？2.with语句的魔法3.创建上下文管理器的两种方式3.1基于类的实现3.2使用contextlib模块4.异常处理1.什么是上下文管理器？上下文管理器（ContextManager）是Python中用于精确分配和释放资源的机制。它通过__enter__()和__exit__()两个魔术方法实现了上下文管理协议，确保即使在代码执行出错的情况下，资源也能被正确清理。#经典文件
【Appium】Appium征服安卓自动化：GitHub 10.5k+星开源神器，Python代码实战全解析！山河不见老 python 测试 appium android 自动化
Appium一、为什么开发者都在用Appium？二、环境搭建：5分钟极速配置2.1核心工具链2.2安卓设备连接三、脚本实战：从零编写自动化操作3.1示例1：自动登录微信并发送消息3.2示例2：动态滑动屏幕与数据抓取四、避坑指南4.1元素定位优化4.2稳定性增强4.3云真机集成五、生态扩展：超越安卓的自动化版图一、为什么开发者都在用Appium？万星认证：GitHub超10.5k+星标，活跃社区持续
基于Streamlit实现的音频处理示例大霸王龙音视频 ffmpeg
基于Streamlit实现的音频处理示例，包含录音、语音转文本、文件下载和进度显示功能，整合了多个技术方案：一、环境准备#安装依赖库pipinstallstreamlitstreamlit-webrtcaudio-recorder-streamlitopenai-whisperpython-dotx二、完整示例代码importstreamlitasstfromaudio_recorder_stre
npm错误 gyp错误 vs版本不对 msvs_version不兼容澎湖Java架构师前端 html npm node.js 前端
npm错误gyp错误vs版本不对msvs_version不兼容windowsSDK报错执行更新GYP语句第一种方案第二种方案执行更新GYP语句npminstall-gnode-gyp最新的GYP好像已经不支持Python2.7版本，npm会提示你更新都3.*.*版本安装Node.js的时候一定要勾选以下这个，会自动检测安装缺少的环境第一种方案管理员运行CMD（PowerShell也行）执行更新工具
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
android视频缓存框架 [AndroidVideoCache](https://github.com/danikula/AndroidVideoCache) 源码解析与评估 MrJarvisDong third party 源码
文章目录android视频缓存框架[AndroidVideoCache](https://github.com/danikula/AndroidVideoCache)源码解析与评估引言使用方式关键类解析HttpProxyCacheServer代理缓存服务类**java.net.ProxySelector**代理选择Pinger判断本地serverSocket是否存活GetRequest封装用于获取
一、Python入门基础 MeyrlNotFound python 开发语言
1.Python简介与环境搭建•了解Python的历史、特点和应用领域Python的历史Python是一种高级编程语言，由GuidovanRossum于1989年发明。Python语言的设计目标是让代码易读、易写、易维护，从而提高开发效率和代码质量。自其诞生以来，Python已从一个简单的系统管理工具发展成为一种广泛应用于多个领域的编程语言。Python的特点1.简单易学：Python的语法简洁明
npm error gyp info 计算机辅助工程 npm 前端 node.js
在使用npm安装Node.js包时，可能会遇到各种错误，其中gyp错误是比较常见的一种。gyp是Node.js的一个工具，用于编译C++代码。这些错误通常发生在需要编译原生模块的npm包时。下面是一些常见的原因和解决方法：常见原因及解决方法Python未安装或版本不兼容：Node.js使用Python来运行gyp。确保你的系统上安装了Python，并且版本与node-gyp兼容。通常推荐使用Pyt
计算机网络&性能优化相关内容详解 GISer_Jinger javascript 前端
1.优化页面性能：根据搜索结果，优化可以从资源加载、渲染优化、缓存策略等方面入手。网页1提到合并文件、压缩图片、使用CDN和HTTP/2。网页2和3强调了关键资源划分、减少HTTP请求、代码拆分和预加载。我需要综合这些点，分块回答。2.滚动性能优化及虚拟滚动核心：用户提到虚拟滚动是关键。网页6、8、9、10详细介绍了虚拟滚动的原理，即仅渲染可视区域元素，减少DOM操作。需要总结这些内容，并指出核心
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

爬虫入门概念与硬核实战巩固（一）

文章目录

前言

一、爬虫是什么？

1.1 robots.txt

1.2 http

1.3 https

二、request模块

2.1 网络请求requests

2.2 实战巩固⭐

2.1 ruquests第一血

2.2 简易网页采集器

2.3 破解百度翻译

2.4 爬取豆瓣带你应分类排行榜中电影详情数据 ⭐

2.5 爬取肯德基餐厅查询中指定地点的餐厅数据

2.6 爬取国家药品监督总局中基于中华人民共和国化妆品生产许可证相关数据⭐⭐⭐

总结

你可能感兴趣的:(#,python爬虫,python,ajax,http,https,爬虫)