人间试炼游戏

python爬虫基础-requests库

python爬虫

1.什么是爬虫？

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

注意：浏览器抓取的数据对应的页面是一个完整的页面。

为什么是模拟浏览器上网？

我们日常使用百度进行搜索时，在浏览器输入了指定关键词，之后浏览器就会显示某一张完整的页面数据。

可以理解为浏览器是一个天然的爬虫工具。这个过程可以抽象理解为百度浏览器根据关键词检索指定页面数据之后，将对应的数据显示出来。

模拟浏览器上网是爬取数据的一个重要步骤，只有进行模拟浏览器上网的一个流程，才能将指定数据显示出来。

浏览器抓取数据的特性

浏览器抓取数据所对应的页面是一个完整的页面

如何在互联网中抓取数据？

根据抓取数据对象分为两种选择：

（1）互联网中某一张完整的页面数据进行抓取

（2）互联网中某一张页面的局部数据进行抓取

爬取方式

可以利用浏览器进行爬取，也可以通过编写一段代码程序爬取。

2.爬虫的价值

可以抓取互联网上的数据，为我们所用，有了大量的数据，就如同有了一个数据银行一样，下一步做的就是如何将这些爬取的数据产品化、商业化。

3.爬虫究竟是合法还是违法？

（1）爬虫在法律中是不被禁止的

（2）具有违法风险

（3）爬虫一般而言是获取网页展示的信息，即前端信息，若利用爬虫程序+相关黑客技术用来攻击网站后台来获取网站的后台数据，这个行为是法律禁止的。

（4）根据爬虫所带来的后果，可将其分为善意爬虫和恶意爬虫。例如，谷歌、360、百度等浏览器都会有一个爬虫程序，每隔一定时间就会爬取网站信息，爬取到的网站信息将会被用户搜索并显示，提高了浏览量，被爬取的这些网站会很开心，故称为善意爬虫。而例如逢年过节需要回家时，利用爬虫对着12306进行爬虫抢票，对于12306而言会提升网站的用户量，使其网站可能无法承受这些大流量数据，最终可能会导致网站崩溃（例如双十一付尾款），这种爬虫程序可称为恶意爬虫。

爬虫所带来的风险可以体现在如下两个方面：

（1）爬虫干扰了被访问网站的正常运营，这种爬虫也被定义为恶意爬虫，需要承担相关法律责任。

（2）爬虫抓取了受到法律保护的特定类型的数据或信息，也需要承担相关的法律责任。

如何在使用编写爬虫的过程中避免进入局子的厄运呢?

（1）时常的优化自己的程序，避免干扰被访问网站的正常运营

（2）在使用、传播爬取到的数据时，审查抓取到的内容，如果发现了涉及到用户隐私、商业机密等敏感内容需要及时停止这类数据的爬取或传播

爬虫开发者的道德自持以及企业经营者的良知，才是避免我们触碰法律底线的根本所在（技术本身是无罪的。趋利避害）。

4.爬虫在使用场景中的分类

4.1 通用爬虫

它是搜索引擎抓取系统的重要组成部分。

常见的搜索引擎有百度、谷歌、雅虎等，抓取系统可以理解为这些搜索引擎自己封装的一套爬虫程序。这套抓取系统可以在互联网中爬取所有的网站中的移民数据。

特性：抓取的是一整张页面数据。

4.2 聚焦爬虫

是建立在通用爬虫的基础之上的一个爬虫。

特性：抓取的是页面中特定的局部内容。

使用方法：先使用通用爬虫抓取到网站中一整张的页面数据，之后再使用聚焦爬虫对这些数据进行指定数据爬取。

使用场景举例：想爬取某个用户微博下的所有评论信息。获取的数据不是这个微博用户对应的一整张页面信息，而是这个页面下的所有评论信息。

4.3 增量式爬虫

检测网站中数据更新的情况。

特性：只会抓取网站中最新更新出来的数据。

当网页中有数据更新，增量式爬虫会对更新出来的数据进行爬取，并对其进行排序。

5.爬虫的矛与盾

以电商网站举例，很多电商网站是希望一些比价网站对自己的电商网站的商品信息进行爬取，这让会增加这个电商网站商品的流量，但是电商网站又不希望被自己的同行（竞争对手）对自己商品信息进行爬取，一方面是为了避免各个网站之间同一商品的恶意比价，另一方面是不希望自家商品描述被其他网站同一商品进行恶意抄袭，两者之间尤为矛盾。

6.反爬机制

门户网站（即互联网中的网站，如淘宝、京东等），可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取。

7.反反爬策略

与反爬机制对立，爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站中的数据。

8. robots.txt协议（第一种反爬机制）

一些搜索引擎的开发人员和网站的站长通过邮件讨论定制出来的一项君子协议（robots.txt协议）。

规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取。

并未采用强硬的技术手段或者语法格式强制要求，也因此被称为君子协议。

查看方式：在域名后加"/robots.txt"即可。如: “https://www.taobao.com/robots.txt”,其中的allow为可允许爬虫的数据，disallow后为不允许爬虫的数据，若爬取了robots.txt协议中明令禁止爬取的数据，需要承担相应的法律责任。

9.HTTP协议与HTTPS协议

9.1 http协议

概念：就是服务器和客户端进行数据交互的一种形式。（可简单理解为两个人（服务器和客户端）如何沟通）

举例：天王盖地虎，宝塔镇河妖。只有双方都遵从了某种协议（商定了暗号），在根据协议发出信号（对暗号）且匹配成功（成功对上暗号），双方才知道对方下一步想做什么（协议内容）。以此类推，http协议可简单理解为服务器和客户端都遵从了http协议，才能进行数据交互。

爬虫中常用请求头信息：

User-Agent: 请求载体的身份标识。此类信息一般会包含当前的操作系统版本，当前浏览器的版本等。

如：在谷歌浏览器中发送了查询B站的请求，此时请求载体就是谷歌浏览器；在火狐浏览器中发送了查询粉笔网的请求，此时请求载体就是火狐浏览器；在IE浏览器中发送了查询虎牙网的请求，此时请求载体就是IE浏览器。

注意：如果使用浏览器发送请求对网站进行爬取，则user-agent为对应的浏览器的身份标识；若通过编写的爬虫程序对某个url进行爬取，则user-agent为爬取这个url所对应的代码的身份标识（可简单理解为user-agent表示的是爬取代码（或浏览器）的身份证）
Connection ：请求完毕后是断开连接（close）释放连接资源还是保持连接（keep alive）。

爬虫中常用响应头信息：

Content-Type : 服务器响应回客户端的数据类型

9.2 HTTPS协议

概念：安全的超文本传输协议（s意味着security,安全）。

这意味着使用HTTPS协议进行数据交互会涉及到数据加密。

注意：HTTPS协议与http协议的区别就是在使用HTTPS协议进行数据传输时，发送方会对数据进行加密，而使用http协议进行数据传输不会对数据进行加密。

基于数据的加密方式：对称秘钥加密、非对称秘钥加密和证书密钥加密（HTTPS协议使用的加密方式）。

（1）对称秘钥加密

当客户端向服务器发送请求时，客户端可以向服务器端传递一些数据(这些数据通过参数形式传递给服务器端)，此时客户端可对即将发送给服务器端的数据进行对称秘钥加密处理，将加密后的数据发送给服务器端。

加密流程：

客户端制定加密方式----->客户端采用自己制定的某一种加密方式对即将要传递给服务器端的数据进行加密----->客户端将加密成功后的密文和解密的方式（密钥）一并发送给服务器端---->服务器端接收到解密的秘钥和密文----->服务器端使用客户端发送的密钥对密文进行解密，获得客户端发送过来的数据内容

简单来说，就是：客户端加密---->客户端发送密文（数据）以及密钥----->服务器端接收---->服务端解密，获得原文数据

缺点：密钥和密文传输过程中，容易被第三方机构拦截，导致数据泄露，存在安全隐患

（2）非对称密钥加密

为了解决对称秘钥加密时存在的安全隐患，推出了非对称密钥加密方法，涉及到两把钥匙（公钥以及私钥）。

解决原理：从源头上根治密钥和密文被拦截的情况

加密流程：服务器端先制定数据加密的某种方式（公钥）---->服务器端向客户端传递自己制定的加密方式（公钥）---->客户端根据服务器端制定的加密方式（公钥），对需要传递给服务器端的数据进行加密处理---->客户端将加密之后的数据（密文）发送给服务器端---->服务器端**根据自己私有的解密方式（私钥）**对获取的数据进行解密，获得原文数据

两把钥匙的好处：避免了密文以及密钥同时进行传输，即使传输的密文被第三方机构截取，但因没有解密方式，也在一定程度上保障了数据安全。

缺点：①效率低，处理更为复杂，对通信速度有一定影响。

②没有办法保证客户端接收到的公钥一定是由服务器端所创建的。不能保证服务器端向客户端传输公钥时的数据安全，若此时公钥被第三方机构拦截并篡改，之后第三方机构再将篡改后的公钥发送给客户端，那么也会引发客户端发送数据的安全隐患。

（3）证书密钥加密

为了解决非对称密钥加密存在的安全隐患（无法保证客户端接收到的公钥一定是由服务器端所创建的），推出了证书密钥加密方法。

解决方式：加入了证书认证机构（第三方机构），是客户端以及服务器端完全信任的第三方机构。

加密流程：服务器端制定加密方式（公钥）-----> 服务器端将制定的加密方式（公钥）发送给证书认证机构（中间机构）进行审核 -----> 审核通过后该机构（证书认证机构）会对该公钥进行数字签名（主要用来防伪）-----> 该机构会将已经携带了数字签名的公钥封装在证书中 -----> 将处理好的证书一并发送给客户端 -----> 客户端接收到公钥以及证书后，确认公钥是由服务器端制定并发送的，将需发送的数据使用该公钥进行加密传输给服务器端 -----> 服务器端根据已有私钥对获取的密文进行解密，获得原文数据

注意：只有客户端接收到的公钥有数字签名，客户端才会使用公钥对数据进行加密传输。

10.requests模块

与爬虫相关的模块有urllib模块以及requests模块，但由于urllib模块有些古老，处理过程相对复杂，requests模块逐渐被大众所接受。

概念：requests模块是python中原生的一款基于网络请求的模块

特点：功能非常强大，简单便捷，效率极高

作用：模拟浏览器发送请求

使用流程（requests的编码流程）：

① 指定URL ② 发起请求 ③ 获取响应数据 ④ 持久化存储（将获取的互联网数据保存至本地）

注意环境安装（需安装requests库）： pip install requests

实战编码：

---- 需求：爬取搜狗首页的页面数据

# 需求：爬取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    # step_1 : 指定url
    url = "https://www.sogou.com/"
    # step_2 : 发起请求
    # get方法会返回一个响应对象
    response = requests.get(url=url)
    # step_3 : 获取响应数据，text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # step_4 : 持久化存储
    with open("./sogou.html",'w',encoding="utf-8") as f:
        f.write(page_text)
    print("爬取数据结束！！！")

案例：网页采集器（处理单参数的网页请求）

此案例中可能会涉及到的反爬机制：UA伪装

UA：即User-Agent（请求载体的身份标识），当使用requests库进行爬取时，请求对象为代码，而不是浏览器，此时User-Agent的身份标识并不是浏览器，服务器可根据这个信息对爬取的程序进行拦截。

UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份表示为某一款浏览器，说明该请求是一个正常的请求。但是，若检测到请求的载体身份标识不是基于某一款浏览器的，则表示该请求为不正常的请求（爬虫），则服务器端很可能会拒绝该次请求。

UA伪装：让爬虫的请求载体身份标识伪装成某一款浏览器

import requests
if __name__ == "__main__":
    url = "https://www.sogou.com/web"
    # 处理url携带的参数：封装到字典中
    kw = input("请输入关键字：")
    param = {
        'query':kw
    }
    # 对指定的url发起请求，该url是携带参数的，且请求过程中处理了参数
    response = requests.get(url=url,params=param)

    # 获取响应数据
    page_text = response.text
    fileName = kw + '.html'
    # 将获取的数据保存至对应HTML文件中
    with open(fileName,'w',encoding="utf-8") as fp:
        fp.write(page_text)
    print(fileName,'保存成功！！！')

爬虫程序编写思路：

① 确定需爬取的url

② 分析爬取url所需的数据（是否需要参数），请求类型（get or post等），响应数据类型（html or json or string等），是否需要UA伪装，数据保存位置（文件路径等）

③ 编写爬虫程序（发送请求，获取数据，分析数据，保存数据，完成爬虫）

案例：爬取异步数据-百度翻译

# 需求：破解百度翻译
# 分析：① post请求（携带了参数）
#      ② 响应数据是一组json数据
import requests
import json
# 将获取的json数据持久化保存
if __name__ == '__main__':
    # 1.指定url
    post_url = 'https://fanyi.baidu.com/sug'
    # 2.进行UA伪装
    header = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/110.0'
    }
    # 3.post请求参数处理（同get请求一致）
    word = input('请输入需查询单词：')
    data = {
        'kw':word  # 注意，此时的kw是经过百度翻译抓包获取的
    }
    # 4.请求发送
    response = requests.post(url=post_url,data=data,headers=header)
    # 5.获取响应数据：json()方法返回的是对象（obj）（如果确认响应数据是json类型的，才可以使用json()）
    dic_obj = response.json()
    # 6.持久化存储
    fileName = word + '.json'
    fp = open(fileName,'w',encoding='utf-8')
    json.dump(dic_obj,fp=fp,ensure_ascii=False) # 注意，因获取的数据包含中文，中文不可使用ASCII码编码，会导致乱码，故ensure_ascii设为False
    # 关闭文件
    fp.close()
    print('over!!!')

Python 安装scipy失败 _不二_ python python
在使用pip安装scipy时会报错OSError:[Errno13]Permissiondenied:'/usr/local/lib/python2.7/dist-packages/scipy'网上查了，说是由于墙的原因，但我已经翻了墙的，任然报这个错误，下载速度特别慢，到11%或者27%就挂啦，最后很无赖，直接手动安装吧。先去官网搜索scipy选择合适的版本如下图下载完成后pipinstalls
win7下python3.6通过pip安装scipy报错的解决办法青松一夏 python
一、问题描述通过pip方式安装了numpy和sklearn，但是sklearn需要依赖于scipy，但当通过pip方式安装scipy时，报错：numpy.distutils.system_info.NotFoundError:nolapack/blasresourcesfound按照网上的教程，并没有找到真正的解决办法，后来我是通过如下方式解决的。二、我的解决方案（1）首先卸载numpypipun
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
numpy学习笔记10：arr *= 2向量化操作性能优化宁宁可可 #机器学习 #Python基础与进阶 numpy 学习笔记
numpy学习笔记10：arr*=2向量化操作性能优化在NumPy中，直接对整个数组进行向量化操作（如arr*=2）的效率远高于显式循环（如foriinrange(len(arr)):arr[i]*=2）。以下是详细的解释：1.性能差异的原理(1)底层实现不同显式循环（错误示范）：Python的for循环是解释执行的，每次迭代需要动态解析变量类型、执行函数调用等操作。对每个元素的操作会触发多次Py
Python前端开发 PITSU 正则表达式 html css3 mysql
Python前端开发1.前端三剑客（HTML，CSS和JavaScript）1.1HTML1.1.1HTML简介HyperTextMark-upLanguage,指的是超文本标记语言；html是开发网页的语言；html中的标签大多数都是成对出现的,格式:1.1.2HTML结构第一行是文档声明部分HTML：分为页头，页身和页脚。标签大部分是成对出现1.1.3第一行文档声明部分HTML在vscode中
AIGC与教育行业的邂逅--其在数学领域的应用与实现想成为高手499 AIGC
引言在数学教学中，教师往往需要大量的时间准备练习题和答案解析，而学生则需要定制化的练习来满足不同的学习需求。AIGC技术可以通过自动生成数学题目、定制化学习内容、即时反馈等方式，极大地提升数学学习的效率与质量。本文将深入探讨AIGC在数学领域的几种应用场景，并通过Python代码展示具体实现方式。1.自动生成数学题目与解析数学题目生成是AIGC在数学教学中的主要应用之一。通过生成不同难度和类型的题
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
python中strip()，lstrip()，rstrip()函数的讲解使用方法高质量海王哦 python python
在Python中，strip()、lstrip()和rstrip()是用于处理字符串的三个常用方法，它们的作用都是去除字符串两端的空白字符或指定字符，但它们的去除位置有所不同。下面是它们的详细讲解：1.strip()方法strip()方法用于去除字符串两端的空白字符（默认情况下，包括空格、换行符、制表符等），或者去除指定的字符序列。语法：string.strip([chars])chars：可选参
疯狂python讲义学习日志06——异常处理静笃归心方得平和心气 Python学习日志异常处理 python学习 python笔记 python速成
疯狂python讲义学习日志06——异常处理引言1异常处理机制1.1使用try...except处理异常1.2异常类的继承体系1.3多异常捕获1.4访问异常信息1.5else块1.6使用finally回收资源2使用raise处理异常2.1引发异常2.2自定义异常类2.3except和raise同时使用3.python的异常传播轨迹4.异常处理规则4.1不要过度使用异常4.2不要忽略异常引言异常机制
Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
计算机专业毕业设计题目推荐（新颖选题）本科计算机科学专业相关毕业设计选题大全✅ 会写代码的羊毕设选题课程设计计算机网络毕设选题毕设系统毕设题目计算机科学专业
文章目录前言最新毕设选题（建议收藏起来）本科计算机科学专业相关的毕业设计选题毕设作品推荐前言2025全新毕业设计项目博主介绍：✌全网粉丝10W+,CSDN全栈领域优质创作者，博客之星、掘金/华为云/阿里云等平台优质作者。技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、大数据、机器学习等设计与开发。主要内容：免费功能设计
Python中 rstrip()、 lstrip（）、 strip() 的用法和区别一只小小的土拨鼠深度学习面试前端 java python 深度学习
目录：题目一：Python中rstrip()、lstrip（）、strip()的用法和区别题目二：python中append（）、expend（）函数的用法和区别题目三：Python中zip()、zip(*zipped)、*zip()函数的用法和区别题目一：Python中rstrip()、lstrip（）、strip()的用法和区别考点这三个函数都是去除头尾字符、空白符的函数strip：用来去除头
Python个人学习笔记（17）：模块（sys、pickle&json） NEET_LH 樵夫老师Python零基础课程个人学习笔记 python 学习笔记
五、sys模块sys.exit()：退出while1:print(123)sys.exit(0)#程序退出，0是正常退出，1是非正常退出，记录在日志中sys.version：得到当前解释器的运行环境sys.platform：运行平台，win32=windows代码：print(sys.version)print(sys.platform)结果：3.13.0(tags/v3.13.0:60403a5
python学习笔记之异常（内置标准异常总结） Molly_DD Python学习笔记 python 软件测试
python异常处理机制异常处理是python的一种高级工具，当异常发生时，程序会停止当前的所有工作，跳转到异常处理部分去执行。异常既可以是程序错误引发的，也可以由代码主动触发。异常处理基本结构try:可能引发异常的代码except异常类型名称：异常处理代码else：没有发生异常时执行的代码异常报错：try：classtest:defgetdata(self):returnself.datay=t
python strip/rstrip/lstrip详细讲解（涵盖许多例子、作用以及复杂行为处理） zilan23 Python python
pythonstrip/rstrip/lstrip详细讲解：在Python中，strip、lstrip、rstrip是用于字符串处理的常用方法，主要功能是去除字符串首尾的指定字符。它们的区别如下：1.strip([chars])作用：删除字符串开头和结尾处所有属于chars的字符，直到遇到不属于chars的字符为止。默认行为：若未提供chars参数，默认去除空白符（空格、换行\n、制表符\t等）。
Python逆向爬取Tik Tok，MsToken,X-Bogus以及signature 才华是浅浅的耐心 python javascript 前端
自5月起，抖音正式开放Web接口，并不断升级风控机制。从最初的_signature参数，到增加滑块验证，再到如今的JSVM混淆处理，以及mstoken和x-bougs等参数的引入。分析发现，部分国内接口仅需提供Cookie即可访问，无需额外验签，而获取Cookie的方式多种多样，其中利用OpenCV识别滑块验证码是一种简单可行的方法。相比之下，TikTok的接口无需Cookie，但对签名的校验更加
Browser-Use WebUI项目启动指南思考在马桶上人工智能 chatgpt 经验分享 python
摘要此前发布《Browser-UseWebUI使用体验》博文后，鉴于部分朋友运行时出现问题，重新运行并整理相关内容。本文详细记录WebUI项目启动全过程，涵盖Python3.11+、Chrome浏览器及APIKeys等环境要求，Python环境检查、依赖安装等环境配置步骤，.env文件中环境变量的设置方法。同时，针对启动中如lxml.html.clean依赖缺失、连接被拒等问题给出解决方案，介绍启
Linux篇1-初识Linux 逃跑的机械工 Linux linux
1.Linux能干什么Linux能够进行各种语言的开发工作，基本主要以后端语言为主C++，JAVA,python;Linux能进行各种指令操作，从而完成各种的文件相关的管理工作2.Linux基本指令2.1ls指令在Linux中，以.开头的文件，叫做隐藏文件；ls-a显示隐藏文件隐藏文件：Linux配置文件，可以隐藏起来，防止误操作，起到保护作用；ls-l列出文件的详细信息-d将目录象文件一样显示，
Python获取tiktok视频数据信息 api 爬虫程序媛了了 python 开发语言
Tiktok通过ID爬取视频信息api采集页面如图：https://www.tiktok.com/@basketwithball2.0/video/7273119444522650912?q=irving&t=1706683319923请求APIhttp://api.xxxx.com/tt/video/info?video_id=7273119444522650912&token=test请求参数
【初学者】用Python语言来解释指针的用例与应用场景 lisw05 python python 开发语言
李升伟整理Python本身并不直接支持指针的概念，因为Python是一种高级语言，内存管理由解释器自动处理。不过，Python提供了一些机制（如引用、可变对象等）来实现类似指针的功能。以下是Python中“指针”的用例和应用场景。1.引用机制（类似指针）在Python中，变量是对对象的引用，而不是直接存储对象的值。这种引用机制类似于指针的概念。示例：a=10#a是对整数对象10的引用b=a#b也引
python、JavaScript 、JAVA等实例代码演示教你如何免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档详解参数说明蝶澈乐乐 python javascript java 股票数据接口 api 开发语言
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
31天Python入门——第7天:集合·字典你真的懂了吗? 安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.集合1.1集合的定义1.2集合的常用操作1.3集合练习2.字典2.1字典的定义2.2嵌套字典和字典的取值2.3字典的常用操作补充知识:字典的优势是查找值效率高2.4字典推导式2.5字典练习很重要的补充练习:希望你能掌握练习一练习二1.集合在之前的章节中,我们学习了列表,元组,字符串.已经可以覆盖七成的使用场景了.那么为什么还要学习集合类型呢.列表:有序可变,元素可重
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归 OverlordDuke 聚类算法数据可视化爬虫线性回归算法
打造城市二手房分析与可视化系统+聚类分析+58爬虫+线性回归利用数据实现全面分析数据分析与可视化功能创新的聚类分析功能结语在如今房地产市场日益复杂的背景下，对于投资者、购房者和市场分析师来说，了解市场动态并做出明智的决策至关重要。基于此，我们开发了一款基于Python的城市二手房分析与可视化系统，为用户提供了强大的工具，帮助他们深入了解当地房地产市场。利用数据实现全面分析我们的系统利用爬取的58同
centos7输入python -m bitsandbytes报错CUDA Setup failed despite GPU being available. Please run the follo 小太阳，乐向上 python 开发语言
在centos7.9系统中安装gpu驱动及cuda，跑大模型会报错，提示让输入python-mbitsandbytes依然报错：CUDASETUP:Loadingbinary/usr/local/python3/lib/python3.9/site-packages/bitsandbytes/libbitsandbytes_cuda117.so.../lib64/libstdc++.so.6:ve
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
python-56-基于Vue和Flask进行前后端分离的项目开发示例实战皮皮冰燃 python3 python vue.js flask
文章目录1创建Vue前端项目1.1运行demo1.2实现需求2flask部署上述dist(前后端未分离)2.1代码app.py2.2运行访问3nginx部署(前后端分离)3.1nginx前端服务3.3.1windows安装nginx3.3.2修改nginx.conf配置文件3.3.3启动nginx3.3.3停止nginx3.2启动后端服务3.2.1app.py(去除前端渲染)3.2.2启动flas
爬虫基础--request库详解 amo的代码园_毕设 Java基础爬虫 java spring boot vue.js python 开发语言
爬虫基础–request库详解1.requests模块介绍request库中文文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlrequests是一个非常流行的PythonHTTP第三方库，它允许你发送各种HTTP请求，处理cookies、会话、连接池、重定向、多种认证方式等，使得处理HTTP请求变得非常便捷，
电商API接口防爬虫实战：日均拦截千万级恶意请求的技术揭秘 lovelin+vI7809804594 python 人工智能 java 大数据数据库
在电子商务蓬勃发展的今天，API（应用程序编程接口）接口作为电商平台与外部系统交互的桥梁，承载着商品管理、订单处理、支付结算、用户管理、数据分析等重要功能。然而，这些功能也使电商API接口成为攻击者的目标，面临着来自多个方面的安全挑战。本文将深入探讨电商API接口防爬虫的策略与技术，揭秘日均拦截千万级恶意请求的实践过程。一、电商API接口的重要性与风险1.API接口的定义与作用API接口是一种定义
基于百度翻译的python爬虫示例魂万劫 python 爬虫开发语言百度翻译
(今年java工作真难找啊，有广州java高级岗位招人的好心人麻烦推一下，拜谢。。）花了一周时间，从零基础开始学习了python，学有所获之后，就总想爬些什么，不然感觉不得劲，所以花了一天时间整出了个百度翻译的爬虫示例，主要卡点花在了找token、sign以及调试请求上。代码有点乱，毕竟是demo，但是功能是实现了的。importrequestsimportjs2pyimportrefromurl
关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin