嗯诺

【python】网络爬虫与信息提取--requests库

导学

当一个软件想获得数据，那么我们只有把网站当成api就可以

requests库:自动爬取HTML页面，自动网络请求提交

robots协议：网络爬虫排除标准（网络爬虫的规则）

beautiful soup库：解析HTML页面

工具：

IDLE:适用于python入门，功能简单直接，300+行代码以内

Sublime Text编译器：专门为程序员开发的第三方专用编程工具，专业编程体验

Wing：公司维护，工具收费；调试功能丰富；版本控制，版本同步；适合多人共同开发

PTVS：微软公司维护、调试功能丰富

PyCharm:简单，集成度高，适合较复杂工程

一、requests库

1.安装：

以管理员身份运行命令提示符,输入 pip install requests 后回车

2.使用:

启动idle(IDLE是Python自带的IDE;打开IDLE：按Win键，输入“idle”，回车;运行：F5)

测试一下(以访问百度主页为例子),状态码为200,表示访问成功

3.requests库的7个主要方法

这7个常用方法,除了第一个requests.request()方法是基础方法外,其他的6个方法都是通过调用requestsequest()方法实现的

4.requests.get(URL)

完整的使用:requests.get(url,params=None,**kwargs);其中url是拟获取页面的url链接,params指的是url中的额外参数,字典或者字节流格式,可选;kwargs是12个控制访问的参数

作用:获取一个网页 r=requests.get(url)

原理:构造一个向服务器请求资源的request对象(这个对象由requests库自动生成),返回的Response对象包含从服务器返回的所有资源.

Response对象的主要属性

r.encoding的编码方式是从http header中的charset字段获得.如果http header中有这样一个字段,说明我们访问的服务器对它的资源的编码是有要求的,这样的要求会返回回来,存在r.encoding中。但是，不是所有服务器都会对它的资源编码有相关的要求，所以，如果header中不存在charset，则默认编码为ISO-8859-1，但这样的编码并不能解析中文，所以requests库提供了一个备选编码r.apparent_encoding，实际上这个编码做的内容是根据http的内容部分而不是头部分，去分析内容文本中可能的编码方式。

5.爬取网页的通用代码框架

代码框架其实就是一组代码，它可以准确可靠的爬取网页内容。

我们爬取的时候喜欢用requests.get(url)获取url的相关内容，但是这样的语句并不是一定成立的，因为网络连接有风险，所以这样的语句它的异常处理很重要

补充一个response异常：r.raise_for_status()--判断返回的response的类型，如果不是200，产生异常requests.HTTPError

6.HTTP协议以及Requests库方法

HTTP，超文本传输协议。是一个基于“请求与响应”模式的、无状态（第一次请求与第二次请求之间并没有相关的关联）的应用层协议（指的是该协议工作在TCP协议之上）。HTTP协议采用URL作为定位网络资源的标识。

HTTP URL的理解：URL是通过HTTP协议存取资源的Internet路径，URL对应一个数据资源。

URL格式：http://host[:port][path]

host：合法的Internet主机域名或IP地址

port:端口号，缺省端口为80

path:请求资源的路径

head（）方法用来展示反馈的头部信息的内容，当我们想试图用r.text展示它的全部内容，会发现内容是空的。作用：可以用很少的网络流量获取网络资源的概要信息。

post方法可以向服务器提交新数据。这里我们首先建立了一个字典叫payload，它里面包含两个键值对，然后用post方法去提交这样的一个字典，接着看下返回的内容，发现键值对被放在form下，说明当我们post一个字典或者post键值对的时候，那么键值对会默认的被存储在表单的字段下。

当我们post一个字符串的时候，我们会发现字符串被存到了data相关的字段下。

post根据我们提交的内容不同，在服务器上会做数据的相关的整理

put方法与post方法类似。

7.Requests库主要方法解析

事实情况是，由于网络安全的限制，我们很难向一个url去发起post,put,patch,delete请求，因此我们在爬虫时，经常使用的是get和head方法。

7.1 request

完整格式：requests.request(method,url,**kwargs)

method:请求方，对应get/pu/post等七种

url：拟获取页面的url链接

**kwargs:控制访问的参数，共13个

options其实就是向服务器获取一些服务器跟客户端能够打交道的参数，这里面并不与获取资源直接相关，我们平时使用较少。

比如params=kv,可以实现一些键值对增加到url中，那么使得url再去访问时，不只访问的是这个资源，而同时代入了一些参数，那服务器就可以接受这些参数，并根据这些参数筛选部分资源。

data：向服务器提供或提交资源时使用，当构建键值对的时候，把它作为data的一部分去提交。我们所提交的键值对，并不直接放在url链接，而是放在url链接对应位置的地方。

比如，当我们用构建一个键值对，然后我们可以把它的值给json参数，那么这个键值对就复制到服务器的json域上。

headers对应了向某一个url访问时，所发起的http的头字段。简单说，我们可以用这个字段来定制访问某一个url的http协议头。我们可以定义一个字典，然后去修改HTTP协议中的user-agent字段，那么在访问一个链接时，我们可以把这样的字段赋给header，此时，header再向服务器访问时，服务器看到的user-agent字段就是修改后的内容。

cookies：指的是从http协议中解析cookie,那么它可以是字典也可以是cookieJar的形式

auth字段是一个元组类型，与cookies都是高级功能。

files:字典类型，它是向服务器传输文件时使用的字段。定义一个字典，以对应的文件为键值对，用open的方式打开这个文件，并把这个文件与file做一个关联，同时对应到相关的url上，这样的方法我们可以向某一个链接提交某一个文件。

在规定timeout时间内，我们的请求内容没有反馈回来，那么它将产生一个timeout的异常

proxies:可以为我们爬取网页设定相关的访问代理服务器。在上图中，我们增加了两个代理，一个是http访问时使用的代理，而在这个代理中我们可以增加用户名跟密码的设置，另一个是https的代理服务器，那这样我们在访问百度时，我们所使用的ip地址就是代理服务器的ip地址。使用这个字段可以有效的隐藏用户爬取网页的源ip地址信息，能有效防止对爬虫的逆追踪。

allow_redirects像是一个开关，表示允不允许对url重定向。stream也是一个开关，指对获取的内容是否进行立即下载，默认是立即下载。cert字段是保持本地ssl证书的字段。

7.2 get

7.3 head

7.4 post

7.5 put

7.6 patch

7.7 delete

二、盗亦有道

网络爬虫按尺寸可以分为三类：小规模（占了90%以上）使用requests库即可，中规模使用scrapy库，大规模你只能定制开发，第三方无法实现。

对于服务器来说，它默认是按照人数来约束它的访问能力。但是有爬虫爬取相关的内容，甚至说1秒内可以爬取10万甚至几万的情况下，服务器是很难提供那么高的性能的，因此对于某些爬虫，是受限于爬虫编写者的水平和它的目的，那么这样将会为服务器带来巨大的资源开销，从而对于网站运行着来说，爬虫形成了骚扰。
爬虫引发的问题：骚扰问题，法律风险，隐私泄露

反爬之来源审查：简单来说，作为网站的维护者，可以只响应浏览器或者已知的友好爬虫的访问。这个方法需要对维护网站的技术人员的能力有一定要求。

三、Robots协议

Robots协议：网络爬虫排除标准。

作用：

网站告知网络爬虫哪些页面可以抓取，哪些不行。

形式/使用：

在网站根目录下放置一个robots.txt文件，这个文件写明了在一个网站里的哪些目录是允许爬虫去爬取的，哪些目录是不许爬取的。

语法：

User-agent: ,Disallowed: ,(#注释，*表示所有，/表示根目录）

案例：

京东的Robots协议 https://www.jd.com/robots.txt

User-agent:*,指的是如果你对于任何的网络爬虫来源，都应该遵守如下的协议。

Disallow：/?* 表示任何爬虫都不允许访问，/?* 也就是以问好开头的路径

Disallow：/pop/*.html和 Disallow：/pinpai/*.html表示满足这些个通配符的内容都是不允许访问的。

此外，京东的Robots协议又提供了User-agent:EtaoSpider等，他们后面还跟着 Disallow：/,表示的是这四个网络爬虫是不允许爬取京东的任何资源。（可以理解为这四个是恶意爬虫，被京东发现后，因此拒绝它们对京东的任何数据访问。

其他练习链接：

qq.com/robots.txt QQ

baidu.com/robots.txt 百度

news.sina.com.cn/robots.txt 新浪微博

news.qq.com/robots.txt QQ邮箱

需注意，Robots协议一定是放在网站的根目录下。但是对于新浪来说，www.sina.com.cn和news.sina.com.cn是两个不同的根目录，所以我们看两个网站的Robots协议是不一样的。另外，不是所有网站都具有Robots协议比如我们国家的教育网站.Robots协议规定，如果一个网站不提供robots.txt文件，那么这个网站是允许所有爬虫的。

Robots协议遵守方式：

类人行为可不参照Robots协议：任何网站提供资源，它都是方便2人类获取相关的信息，如果你的网络爬虫能够和人类获取相关的信息相一致（也就是说每次访问的量很少，访问的量不大，如一天或者一小时才访问一次）

四、实战

案例1：京东商品页面的爬取

我们要做的是，提供写程序获得该商品的信息

1.首先打开京东页面选取一个商品：https://item.jd.com/10086386840914.html

2.打开idle,get刚刚的链接，查看返回的状态码，200表示链接成功，并且获得了这个链接响应的内容

3.查看encoding,这说明我们已经能从HTTP的头部分解析出这个页面的编码信息，这说明了京东页面显示了相关的编码

4.查看内容是否正确。

5.以下为京东商品页面的全代码。

案例2：亚马逊商品页面的爬取

https://www.amazon.cn/gp/product/B01M8L5Z3Y

发现返回的是503 ，查看编码

将编码改成可以阅读的相关编码后查看文本

目前，全部代码如下

事实上，当我们能从服务器上获得相关信息回来，那么这个错误已经不是网络出现的错误了。网站一般接受的是浏览器的请求，而对爬虫的请求是拒绝的。

通过r.request.headers查看我们请求的request长什么样。

通过上图，可以看见头部中的user-agent 显示的是python-requests/2.31.0，这说明我们的爬虫忠实的告诉了亚马逊的服务器，这次访问是由一个python的requests库的程序产生的，如果亚马逊提供了来源审查（反爬虫手段），它就可以使这样的访问变得错误，或者说它不支持这样的访问。

接下来尝试一下，模拟浏览器向亚马逊发送请求。

首先构造一个键值对，这样的一个键值对信息说明的是，我们重新定义了user-agent的内容。Mozilla/5.0（很标准的浏览器身份标识的字段）说明这个时候的user-agent可能是一个浏览器，这个浏览器可能是火狐，可能是Mozilla，甚至可能是IE10的浏览器。

然后我们找到刚才的url链接，修改headers后再次访问status_code,发现返回的不是503，是200，这是说明我们真真正正的获得了一个产品的页面。

再次查看user-agent的内容，发现user-agent的内容已经修改。

此时再去访问r.text就是真正的页面内容了

下面给出访问亚马逊产品的全部代码。在这个代码中与访问京东商品代码不同，我们需要通过headers字段让我们的代码模拟浏览器向亚马逊服务器提供HTTP请求。

案例3：百度360搜索关键词提交

目的：用程序自动的向百度和360这俩个搜索引擎提交关键词并且获得它的搜索结果。

百度和360的区别主要在键不一样，百度是wd,360是q

案例4：网络图片的爬取和存储

（该方式不止针对图片，对二进制的资源格式比如图片、视频、动画等，都可以用同样的代码获取它。）

练习链接如下：

http://img0.dili360.com/ga/M02/33/7C/wKgBzFSbqQyAJVAuAARB8cSWH_w695.tub.jpg@!rw14

设定保存下来的图片名字为abc.jpg,方便我们后期处理

with open(path,'wb') as f:
            f.write(r.content)

        这串代码表示先打开我们要存储的abc.jpg文件，并且把它定义为一个文件标识符f，然后我们将返回的内容（response返回的格式是二进制）写到这个文件中，即利用f.write(r.content)将返回的二进制形式写到文件中。



        f.close()表示关闭这个文件

接着我们去D盘看一下这个abc.jpg文件

图片爬取全代码：

！案例5：IP地址归属地的自动查询(之前可以成功，现会报错）

现成的查ip网站 :

我们有的时候在网站看到的人机交互方式，比如说图形与文本框的、需要点击按钮的这种方式，在正式地向后台服务器提交的时候，其实都是以链接的形式提交的，只要我们能够通过浏览器的解析，知道向后台去提交的链接形式，那就可以用python代码模拟。

用 Python 绘制独一无二的爱心：创意代码之旅敲代码的苦13 Python PyCharm python 前端开发语言
在Python的奇妙世界里，代码不仅是实现功能的工具，更是艺术创作的画笔。今天，我们将一起踏上一段充满浪漫与创意的旅程——用Python设计独特的爱心代码。无论是向心仪的人表白，还是单纯展示编程的魅力，这些独特的爱心代码都能带来惊喜与感动。接下来，就让我们从基础代码开始，逐步解锁各种创意设计，打造专属于你的Python爱心！一、Python爱心代码基础版首先，我们从最基础的Python爱心代码入手
Python爱心代码创意玩法大揭秘：带你领略 Python 爱心代码的全新魅力，让代码的浪漫指数直线飙升！敲代码的苦13 Python PyCharm pygame python
在编程的浪漫宇宙中，Python爱心代码始终是闪耀的星辰。上次我们一同探索了动态、彩色、3D等多种经典创意爱心代码，这次，我们将突破边界，解锁更多新奇独特的玩法，带你领略Python爱心代码的全新魅力，让代码的浪漫指数直线飙升！一、用Pygame打造互动爱心游戏Pygame是Python中用于开发游戏的强大库，我们可以借助它的力量，将爱心代码升级为有趣的互动游戏，让用户不再只是旁观者，而是能亲身参
环境安装教程万能小贤哥机器学习人工智能网络 python
Python小白入门之环境安装全攻略在数字化浪潮中，Python以其简洁高效、应用广泛的特性，成为众多编程爱好者踏入代码世界的首选语言。对于新手小白而言，成功搭建Python开发环境，是开启编程之旅的关键第一步。下面就为大家详细介绍Python环境的安装与配置过程。一、前期准备1.系统要求：主流操作系统均可支持Python安装，Windows建议使用Windows10及以上版本；macOS需为ma
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
Python 爬虫实战：知乎热榜趋势分析（话题生命周期 + 影响力评估） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言知乎作为国内知名的问答社区，其热榜功能汇聚了当下最受关注的话题。这些话题的热度变化反映了公众兴趣的动态，对于内容创作者、市场营销人员和数据分析师等具有极高的参考价值。本文将详细介绍如何通过Python和Scrapy技术实现知乎热榜数据的自动化爬取，并结合数据分析手段进行话题热度分析和趋势预测。二、目标网站分析（一）知乎热榜页面结构知乎热榜页面（https://www.zhihu.com/h
Python 爬虫实战：网易云音乐登录解密（加密参数逆向 + 音乐数据采集） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言网易云音乐作为国内流行的音乐平台，拥有海量的音乐资源和用户数据。通过爬取网易云音乐的数据，我们可以进行音乐推荐、用户行为分析等。本文将详细介绍如何使用Python爬取网易云音乐的数据，包括登录解密和音乐数据采集。二、准备工作1.环境搭建确保已安装Python3.7或以上版本，推荐使用VisualStudioCode作为开发工具。2.安装依赖库在命令行中安装爬虫和数据分析所需的库：pipin
Python 爬虫实战：解析接口爬取搜狐新闻评论（评论情感极性判断） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、项目概述在信息爆炸的时代，新闻评论成为公众表达意见和情感的重要渠道。搜狐新闻作为国内领先的新闻平台，积累了海量的用户评论数据。本项目旨在通过Python爬虫技术解析搜狐新闻评论接口，高效抓取评论数据，并借助情感分析算法判断评论情感极性，洞察公众舆论倾向，为舆情分析、内容优化等提供数据支撑。二、环境搭建与技术选型（一）Python环境配置安装Python：推荐使用Python3.8+版本，确保兼
Python 爬虫实战：爬取掘金平台文章（列表解析 + 技术领域分类统计） Python核芯 Python爬虫实战项目 python 爬虫开发语言
摘要：掘金平台汇聚了大量优质的编程技术和行业资讯文章。本文将深入讲解如何利用Python爬虫抓取掘金平台文章数据，解析文章列表信息，并进行技术领域分类统计，助力开发者了解技术热点和内容分布。一、引言掘金平台作为技术分享社区，专注于数字创业、编程技术和产品设计等领域。平台上的文章由开发者、创业者和设计者撰写，涵盖了从入门教程到前沿技术解析的丰富内容。通过爬取和分析这些文章数据，可以洞察当前技术领域的
使用Python爬虫雪球APP基金数据暖樱爬虫 python
介绍在本篇博客中，我们将介绍如何使用Python编程语言和一些常用库来爬取雪球网站的数据。雪球网站是一个提供股票、基金等金融信息的平台，我们将通过调用其API来获取用户和标题信息，并将数据保存到CSV文件中。爬虫实现流程一、数据来源分析1、明确需求：明确采集的网站以及数据内容（1）网址：雪球网-https://xueqiu.com（2）数据：基金数据2、抓包分析：分析基金数据；打开开发者工具：F1
一文看懂Python协程asyncio模块的演变及高级用法大江狗列表 python 多线程 java 编程语言
网上很多关于Python协程asyncio模块的教程都是基于老版Python的,本文将以对比方式展示新老Python版本下协程的写法有什么不同并总结了asyncio的一些高级用法,包括如何获取协程任务执行结果，gather和wait方法的区别以及如何给任务添加回调函数。Python协程及asyncio基础知识协程(coroutine)也叫微线程，是实现多任务的另一种方式，是比线程更小的执行单元，一
深入探索 Vanna：让数据库交互更智能从零开始学习人工智能数据库交互
深入探索Vanna：让数据库交互更智能在数字化时代，与数据库进行高效交互是许多开发者、数据分析师和企业面临的挑战。传统的SQL查询编写不仅需要对数据库结构有深入的了解，还需要花费大量的时间和精力来调试和优化。Vanna，一个基于Python的开源工具，通过结合检索增强（RetrievalAugmentation）和大型语言模型（LLM），为这一问题提供了一个创新的解决方案。本文将深入探讨Vanna
asyncio基本用法介绍遮天华月 python 算法
目录一、`asyncio`的核心概念二、`asyncio`的常见用法三、`asyncio`中的同步原语四、`asyncio`中的网络操作五、`asyncio`的调试工具总结asyncio是Python标准库中用于异步编程和并发任务管理的核心库。它的基础是事件循环，用来调度协程（coroutines），让它们能够非阻塞地并发执行。这种编程模型在处理大量I/O密集型任务时非常高效，如网络操作、文件读写
python实现数据库两个表之间的更新操作（模糊匹配）示例半吊子的程序狗 python
frompymongoimportMongoClientimportpandasaspd#连接到MongoDB（这里假设MongoDB运行在本地默认端口上）mgclient=MongoClient('localhost',27017)#选择数据库（如果你没有指定数据库，MongoDB会使用默认的'test'数据库）db=mgclient['test']#替换'your_database_name'
嵌套列表与二维列表的遍历方法
在Python的世界中，列表（list）是最为基础而强大的数据结构之一。而当一个列表的元素本身又是列表时，我们便进入了嵌套列表（NestedList）或更通用的二维列表（2DList）的语境中。无论是在软件开发、测试数据构造、数据分析、机器学习、自动化运维还是教育教学场景中，嵌套结构的遍历与处理都是工程能力的一项基本功。本文将系统剖析Python中处理嵌套列表和二维列表的常用遍历方式，从基础语法到
深入理解Python asyncio：从入门到实战，掌握异步编程精髓 Bruce-li__ Python python 网络数据库
文章目录前言一、asyncio基础概念1.1什么是异步编程？1.2asyncio核心组件二、asyncio核心用法详解2.1事件循环管理2.2协程与任务2.3异步上下文管理器三、asyncio高级特性3.1异步生成器3.2异步队列3.3异步锁和信号量四、asyncio实战项目4.1高性能Web爬虫4.2异步Web服务器五、性能对比与最佳实践5.1同步与异步性能对比5.2asyncio最佳实践六、常
Python异步编程：asyncio和aiofiles 人工干智能 Python的高级知识 python 开发语言
asyncioasyncio是Python的标准库之一，用于编写单线程的并发代码。它使用协程（coroutines）和事件循环（eventloop）来实现异步编程。协程是Python中一种特殊的函数，可以使用asyncdef定义，并通过await表达式来挂起和恢复执行。假设我们有两个任务：下载网页内容和计算数字的平方。在异步编程中，我们可以同时启动这两个任务，而不需要等待一个任务完成后再开始另一个
下完安装好python后，想查看python的安装位置的几种方法大模型猫叔 python 开发语言爬虫
查看python的路径基于windows系统，按下win+r（也就是命令提示符），输入cmd，进入查看当前的python的版本的话输入python-V1，查看当前下载的python类型和路径则可以输入py-0(加*的是你使用python的默认版本)2，还可以使用命令wherepython查看路径（这样就不会显示你python默认使用的是哪个）小技巧：如果想清除命令行的话可以输入命令cls然后ent
雪球股票信息超级爬虫：开源项目指南及新手问题解决方案柏克栋
雪球股票信息超级爬虫：开源项目指南及新手问题解决方案XueQiuSuperSpider雪球股票信息超级爬虫项目地址:https://gitcode.com/gh_mirrors/xu/XueQiuSuperSpider雪球股票信息超级爬虫是一个强大的股票数据爬取工具，专门设计用于从雪球网提取丰富的股票市场信息。本项目采用Java语言编写，充分利用了JDK8的函数式编程特性，旨在提供灵活且高效的股市
Python爬虫实战：如何爬取雪球网的股票数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言自动化区块链
引言雪球网（Xueqiu）是中国知名的股票投资社交平台，它提供了丰富的股票数据、投资者的评论和分析，并允许用户进行股票交易的模拟。雪球平台集成了大量的股市数据，包括个股的实时行情、财务数据、投资者分析以及论坛社区内容。许多投资者和金融分析师都在该平台上进行股票研究、讨论和数据挖掘。在本文中，我们将介绍如何通过Python爬虫抓取雪球网的股票数据。通过分析雪球网提供的API和网页结构，获取个股的实时
Python 爬虫实战：爬取雪球股票讨论（投资者情绪分析 + 热点板块追踪） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言雪球网作为国内知名的投资者社区，汇聚了海量的股票讨论、行情数据和用户观点。通过爬取雪球股票讨论数据，我们可以挖掘投资者情绪和热点板块，为投资决策提供数据支持。本文将详细讲解如何利用Python爬虫抓取雪球股票讨论数据，并进行投资者情绪分析和热点板块追踪。二、准备工作1.环境搭建确保已安装Python3.7或以上版本，推荐使用VisualStudioCode作为开发工具。2.安装依赖库在命令
Python内置模块之asyncio详细功能介绍及示例
Pythonasyncio模块详解及使用示例asyncio是Python用于编写并发代码的库，使用async/await语法。它是Python异步编程的核心库，特别适合I/O密集型和高并发网络应用。主要方法及功能1.事件循环管理asyncio.run(coro,*,debug=False)-运行异步程序的主入口asyncio.get_event_loop()-获取当前事件循环asyncio.set
Python 并发编程：同步原语精要指南 Yant224 python #并发编程 python 同步原语并发控制线程安全 Python锁机制互斥锁信号量
一、同步原语的核心价值在多线程/多进程环境中，当多个执行单元访问共享资源时，同步原语提供了控制访问顺序和协调执行的机制，防止竞争条件和数据不一致问题。并发问题数据竞争死锁资源饥饿同步原语互斥访问执行协调顺序控制锁/Lock事件/Event屏障/Barrier二、关键同步机制详解1.互斥锁(Lock)核心功能：确保同一时刻只有一个线程访问共享资源
ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）
1.服务器CUDA11.72.依赖condacreate-nrebel_envpython=3.10-ycondaactivaterebel_env#安装PyTorch（建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers和
全平台QQ聊天数据库解密项目常见问题解决方案管旭韶
全平台QQ聊天数据库解密项目常见问题解决方案qq-win-db-keyQQNT/WindowsQQ聊天数据库解密项目地址:https://gitcode.com/gh_mirrors/qq/qq-win-db-key项目基础介绍本项目是一个开源项目，旨在为用户提供全平台QQ聊天数据库的解密方法。项目主要使用Python、JavaScript和C++等编程语言实现。新手常见问题及解决步骤问题一：如何
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa