python入门教程

Python爬虫入门教程2024年最新版（非常详细）

初学Python之爬虫的简单入门

一、什么是爬虫？

1.简单介绍爬虫

爬虫的全称为网络爬虫，简称爬虫，别名有网络机器人，网络蜘蛛等等。

网络爬虫是一种自动获取网页内容的程序，为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术，将互联网中丰富的网页信息保存到本地，形成镜像备份。我们熟悉的谷歌、百度本质上也可理解为一种爬虫。

如果形象地理解，爬虫就如同一只机器蜘蛛，它的基本操作就是模拟人的行为去各个网站抓取数据或返回数据。

2.爬虫的分类

网络爬虫一般分为传统爬虫和聚焦爬虫。

传统爬虫从一个或若干个初始网页的URL开始，抓取网页时不断从当前页面上抽取新的URL放入队列，直到满足系统的一定条件才停止，即通过源码解析来获得想要的内容。

聚焦爬虫需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入待抓取的URL队列，再根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到满足系统的一定条件时停止。另外，所有被爬虫抓取的网页都将会被系统存储、分析、过滤，并建立索引，以便之后的查询和检索;对于聚焦爬虫来说，这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

防爬虫:KS-WAF（网站统一防护系统）将爬虫行为分为搜索引擎爬虫及扫描程序爬虫，可屏蔽特定的搜索引擎爬虫节省带宽和性能，也可屏蔽扫描程序爬虫，避免网站被恶意抓取页面。使用防爬虫机制的基本上是企业，我们平时也能见到一些对抗爬虫的经典方式，如图片验证码、滑块验证、封禁 IP等等。

3.爬虫的工作原理

下图是一个网络爬虫的基本框架：

对应互联网的所有页面可划分为五部分：

1.已下载未过期网页。

2.已下载已过期网页：抓取到的网页实际上是互联网内容的一个镜像文件，互联网是动态变化的，一部分互联网上的内容已经发生了变化，这时，这部分抓取到的网页就已经过期了。

3.待下载网页：待抓取URL队列中的页面。

4.可知网页：既没有被抓取也没有在待抓取URL队列中，但可通过对已抓取页面或者待抓取URL对应页面进行分析获取到的URL，认为是可知网页。

5.不可知网页：爬虫无法直接抓取下载的网页。

待抓取URL队列中的URL顺序排列涉及到抓取页面的先后次序问题，而决定这些URL排列顺序的方法叫做抓取策略。下面介绍六种常见的抓取策略：

1.深度优先遍历策略

深度优先遍历策略是指网络爬虫从起始页开始，由一个链接跟踪到另一个链接，这样不断跟踪链接下去直到处理完这条线路，之后再转入下一个起始页，继续跟踪链接。以下图为例：

遍历路径：A-F-G E-H-I B C D

需要注意的是，深度优先可能会找不到目标节点（即进入无限深度分支），因此，深度优先策略不一定能适用于所有情况。

2.宽度优先遍历策略

宽度优先遍历策略的基本思路是，将新下载网页中发现的链接直接插入待抓取URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。还是以上图为例：

遍历路径：第一层：A-B-C-D-E-F，第二层：G-H，第三层：I

广度优先遍历策略会彻底遍历整个网络图，效率较低，但覆盖网页较广。

3.反向链接数策略

反向链接数是指一个网页被其他网页链接指向的数量。反向链接数反映一个网页的内容受到其他人推荐的程度。因此，很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度，从而决定不同网页的抓取先后顺序。

而现实是网络环境存在各种广告链接、作弊链接的干扰，使得许多反向链接数反映的结果并不可靠。

4.Partial PageRank策略

Partial PageRank策略借鉴了PageRank算法的思想：对于已下载网页，连同待抓取URL队列中的URL，形成网页集合，计算每个页面的PageRank值，然后将待抓取URL队列中的URL按照PageRank值的大小进行排列，并按照该顺序抓取页面。

若每次抓取一个页面，就重新计算PageRank值，则效率太低。

一种折中方案是：每抓取K个页面后，重新计算一次PageRank值。而对于已下载页面中分析出的链接，即暂时没有PageRank值的未知网页那一部分，先给未知网页一个临时的PageRank值，再将这个网页所有链接进来的PageRank值进行汇总，这样就形成了该未知页面的PageRank值，从而参与排序。以下图为例：

设k值为3，即每抓取3个页面后，重新计算一次PageRank值。

已知有{1,2,3}这3个网页下载到本地，这3个网页包含的链接指向待下载网页{4,5,6}（即待抓取URL队列），此时将这6个网页形成一个网页集合，对其进行PageRank值的计算，则{4,5,6}每个网页得到对应的PageRank值，根据PageRank值从大到小排序，由图假设排序结果为5,4,6，当网页5下载后，分析其链接发现指向未知网页8，这时先给未知网页8一个临时的PageRank值，如果这个值大于网页4和6的PageRank值，则接下来优先下载网页8，由此思路不断进行迭代计算。

5.OPIC策略

此算法其实也是计算页面重要程度。在算法开始前，给所有页面一个相同的初始现金（cash）。当下载了某个页面P之后，将P的现金分摊给所有从P中分析出的链接，并且将P的现金清空。对于待抓取URL队列中的所有页面按照现金数大小进行排序。

6.大站优先策略

对于待抓取URL队列中的所有网页，根据所属的网站进行分类。待下载页面数多的网站优先下载。

二、爬虫的基本流程

首先简单了解关于Request和Response的内容：

Request：浏览器发送消息给某网址所在的服务器，这个请求信息的过程叫做HTTP Request。

Response:服务器接收浏览器发送的消息，并根据消息内容进行相应处理，然后把消息返回给浏览器。这个响应信息的过程叫做HTTP Response。浏览器收到服务器的Response信息后，会对信息进行相应处理，然后展示在页面上。

根据上述内容将网络爬虫分为四个步骤：

1.发起请求：通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。

常见的请求方法有两种，GET和POST。get请求是把参数包含在了URL（Uniform Resource Locator,统一资源定位符）里面，而post请求大多是在表单里面进行，也就是让你输入用户名和秘密，在url里面没有体现出来，这样更加安全。post请求的大小没有限制，而get请求有限制，最多1024个字节。

2.获取响应内容：如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（如图片视频）等类型。

3.解析内容：得到的内容可能是HTML，可以用正则表达式、网页解析库进行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理。

在Python语言中，我们经常使用Beautiful Soup、pyquery、lxml等库，可以高效的从中获取网页信息，如节点的属性、文本值等。

Beautiful Soup库是解析、遍历、维护“标签树”的功能库，对应一个HTML/XML文档的全部内容。安装方法非常简单，如下：

#安装方法
pips install beautifulsoup4

#验证方法
from bs4 import BeautifulSoup

4.保存数据：如果数据不多，可保存在txt 文本、csv文本或者json文本等。如果爬取的数据条数较多，可以考虑将其存储到数据库中。也可以保存为特定格式的文件。

保存后的数据可以直接分析，主要使用的库如下：NumPy、Pandas、 Matplotlib。

NumPy：它是高性能科学计算和数据分析的基础包。

Pandas : 基于 NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。它可以算得上作弊工具。

Matplotlib：Python中最著名的绘图系统Python中最著名的绘图系统。它可以制作出散点图，折线图，条形图，直方图，饼状图，箱形图散点图，折线图，条形图，直方图，饼状图，箱形图等。

三、爬虫简单实例

运行平台： Windows

Python版本： Python3.7

首先查看网址的源代码，使用google浏览器，右键选择检查，查看需要爬取的网址源代码，在Network选项卡里面，点击第一个条目可看到源代码。

第一部分是General，包括了网址的基本信息，比如状态 200等，第二部分是Response Headers,包括了请求的应答信息,还有body部分，比如Set-Cookie,Server等。第三部分是，Request headers，包含了服务器使用的附加信息，比如Cookie,User-Agent等内容。

上面的网页源代码，在python语言中，我们只需要使用urllib、requests等库实现即可，具体如下。

import urllib.request
import socket
from urllib import error
try:
    response \= urllib.request.urlopen('https://www.python.org')
    print(response.status)
    print(response.read().decode('utf-8'))
except error.HTTPError as e:
    print(e.reason,e.code,e.headers,sep='\\n')
except error.URLError as e:
    print(e.reason)
else:
print('Request Successfully')

运行结果如下：

四、关于入门爬虫

在如今这个信息爆炸的大数据时代，数据的价值是可观的，而网络爬虫无疑是一个获取数据信息的便捷途径。合理利用爬虫爬取有价值的数据，可以为我们的生活提供不少帮助。

实际上，关于网络爬虫，我完全是一个新手，写下这篇博客的途中也同时在零基础学习。

首先，我了解到python3的语法是需要掌握的，因为要打好基础。不过python3语法很简洁，学起来应该不会过分吃力。

接着是python的各种库，目前接触的不多，像我这种还是从基础的库开始学习会比较好，比如urlib、requests。

在学习过程中也了解到现在很多大型企业在使用反爬虫机制，爬虫过程中可能会返回非法请求，需要使用代理防止封禁IP，爬取网页需要伪装成平时正常使用浏览器那样。这又是另外要解决的问题了。

总之，对于新手来说是需要一步一步花时间深入学习的，平时也得多加练习，毕竟学习之事并非一朝一夕就能促成，重要的是坚持吧。

这里给大家分享一份Python全套学习资料，包括学习路线、软件、源码、视频、面试题等等，都是我自己学习时整理的，希望可以对正在学习或者想要学习Python的朋友有帮助！

CSDN大礼包：全网最全《全套Python学习资料》免费分享

朋友们如果有需要的话，可以扫描下方二维码免费领取

1️⃣零基础入门

① 学习路线

对于从来没有接触过Python的同学，我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

② 路线对应学习视频

还有很多适合0基础入门的学习视频，有了这些视频，轻轻松松上手Python~

③练习题

每节视频课后，都有对应的练习题哦，可以检验学习成果哈哈！

因篇幅有限，仅展示部分资料

2️⃣国内外Python书籍、文档

① 文档和书籍资料

3️⃣Python工具包+项目源码合集

①Python工具包

学习Python常用的开发软件都在这里了！每个都有详细的安装教程，保证你可以安装成功哦！

②Python实战案例

光学理论是没用的，要学会跟着一起敲代码，动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。100+实战案例源码等你来拿！

③Python小游戏源码

如果觉得上面的实战案例有点枯燥，可以试试自己用Python编写小游戏，让你的学习过程中增添一点趣味！

4️⃣Python面试题

我们学会了Python之后，有了技能就可以出去找工作啦！下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

5️⃣Python兼职渠道

而且学会Python以后，还可以在各大兼职平台接单赚钱，各种兼职渠道+兼职注意事项+如何和客户沟通，我都整理成文档了。

上述所有资料 ⚡️ ，朋友们如果有需要《全套Python学习资料》的，可以扫描下方二维码免费领取

安全见闻（3） Bulestar_xx 泷羽sec学习笔记安全网络 windows
摘要脚本程序主要讨论的是安全性问题。脚本语言因其源代码可见、可复制性高而具有脚本性质。常见的脚本语言包括：-Lua-PHP-Go-Python-JavaScript脚本语言可以编写病毒和木马，例如Python可以编写木马，PHP可以编写一句话木马。编写脚本病毒需要了解脚本语言基础和病毒构成。宏病毒（macro）可以通过工具如metasploit生成，并植入Office文件中，如Word和PPT。宏
用Python写一个ai agent采集，分析，预测工厂生产计划朗韶智光 python 人工智能
为了实现一个AI代理，我们需要使用Python的一些库，如pandas，numpy和scikit-learn。以下是一个简化的工厂生产计划采集、分析和预测的示例。首先，我们需要安装所需的库：```bashpipinstallpandasnumpyscikit-learn```然后，我们可以编写一个简单的AI代理，如下所示：```pythonimportpandasaspdimportnumpyas
python:遍历文件夹下的文件 OceanStar的学习笔记 python python
importosdeftest_findfile(directory,fileType,file_prefix):fileList=[]forroot,subDirs,filesinos.walk(directory):forfileNameinfiles:iffileName.endswith(fileType)andfileName.startswith(file_prefix):fileLi
Python3 连接MySQL8 在奋斗的大道 python 学习笔记
第一步：安装pymysql，记住（大于python3.X）的版本：pipinstallpymysql第二步：验证pymysql是否安装成功：importpymysql#打开数据库连接#localhost为本地连接#root为用户名#password为密码#test_data为数据库db=pymysql.connect("localhost","root","123456","blog")#使用cu
python3 mysql8_python3连接MySQL8.0的两种方式 weixin_39872123 python3 mysql8
python3连接MySQL8.0的两种方式发布时间：2020-09-1913:15:14来源：脚本之家阅读：111作者：兔猪合家欢1、下载MySQL官方的mysql-connector-python-8.0.17-py3.7-windows-x86-64bit.msi，直接点击安装；2、安装完毕后直接可以导入mysql.connnector模块连接方式一：importmysql.connecto
Python: 遍历给定目录下的pdf文档并进行重命名牵着蜗牛去爬山 python coding python
文章目录编程目的参考代码(一)代码(二)编程目的因需要大量重命名pdf文档为[0…n].pdf,就搜集了资料写了代码，并解决自己的问题。参考感谢各位分享的资源。python3.3遍历文件夹及文件小例python文件重命名一文看懂Python对文件和文件夹的操作:含os,shutil和glob模块详解代码(一)importglobimportos.path#找到给定的root_dir下的pdf文档并
简述Apache Airflow：分布式工作流调度与管理利器心上之秋 apache 分布式
目录什么是ApacheAirflow?核心概念与架构DAGOperatorsTasksExecutorsAirflow的安装与配置环境要求安装步骤Airflow示例项目简单任务调度使用PythonOperator实现数据处理任务集成外部工具：MySQL和S3Airflow的高级功能自定义Operators使用Sensors实现动态依赖分布式调度Airflow的优缺点总结什么是ApacheAirfl
Nonebot2部署 QQ机器人成品一键部署影心_ windows python 机器人 virtualenv
前言想在服务器上搞个机器人玩玩，发现这个派蒙的还挺不错，算是一键部署级别的机器人了，内置的功能比较多也比较方便还可以去添加插件，就选择这个来部署，本文记录一下安装的过程，方便自己以后看的同时也尽可能的写的详细一点方便有相同想法但没什么基础的朋友们参考一下资源需求所需资源：python3.8.0安装包、vs_buildtools、git、ffmpeg.zip、go-cqhttp、qsign服务器、j
BUUCTF：[ISITDTU 2019]EasyPHP --- rce 超级异或，，，吐了，，，字符之间异或，成型的异或payload！！！ Zero_Adam BUUCTF刷题记录 RCE python
目录:一、自己做：二、学的的三、学习WP1.这里先来个不限制字符个数的关于这个%ff以及异或的事情，咱们好好唠唠1.生成异或中间值的python脚本2.看有字符限制的时候，：参考：末初一、自己做：0xd)die('youaresoclose,omg');eval($_);?>过滤了，不少，我一般碰到rce的题，就看自己的笔记，然后把payload一股脑的网上怼，，，二、学的的正则看不明白的时候，可
【漏斗图】——4 花花 Show Python pyecharts—从0到精通信息可视化 python 数据分析
解锁数据可视化的魔法钥匙——pyecharts实战指南在这个数据为王的时代，每一次点击、每一次交易、每一份报告背后都隐藏着无尽的故事与洞察。但你是否曾苦恼于如何将这些冰冷的数据转化为直观、吸引人的视觉盛宴？欢迎来到《pyecharts图形绘制大师班》在这里，你将不再受限于单调的表格和图表，而是学会如何运用pyecharts这一强大的Python数据可视化库，将复杂的数据转化为令人惊叹的交互式图形。
【Python】一文教你快速遍历文件夹下所有文件鸽芷咕 python 开发语言
鸽芷咕：个人主页个人专栏:《C++干货基地》《粉丝福利》⛺️生活的理想，就是为了理想的生活!博主简介博主致力于嵌入式、Python、人工智能、C/C++领域和各种前沿技术的优质博客分享，用最优质的内容带来最舒适的阅读体验！在博客领域获得C/C++领域优质、CSDN年度征文第一、掘金2023年人气作者、华为云享专家、支付宝开放社区优质博主等头衔。个人社区&个人社群加入点击即可介绍加入链接个人社群社群
Python 函数专题：深入探讨嵌套函数圣逸从入门到精通Python语言 python 开发语言 Python入门数据结构精通python 数据库
在Python编程中，函数是最基本的构建块之一。它们不仅能够帮助我们组织代码，还能提高代码的可读性和可复用性。与普通函数相比，嵌套函数（或称为内部函数）是一种更为灵活的构造，能够在某些情况下极大地增强函数的能力和作用。本文将深入探讨嵌套函数的概念、用法、优缺点以及实际应用，帮助读者全面理解这个重要的编程概念。什么是嵌套函数？嵌套函数是指在一个函数的内部定义另一个函数。在Python中，嵌套函数具有
Python 函数专题：深入探讨匿名函数圣逸从入门到精通Python语言 python 开发语言数据结构 Python入门精通python
在Python中，函数是一种重要的编程构造。函数不仅可以让我们的代码更具可读性和可重用性，还可以帮助我们更高效地组织和管理我们的代码。而在函数的世界里，匿名函数（也称为lambda函数）无疑是一个非常有趣的主题。本文将深入探讨Python中的匿名函数，包括其定义、用途、与普通函数的对比、应用场景等。1.什么是匿名函数匿名函数是指没有名称的函数，它能够接受任意数量的参数，但只能返回一个表达式的值。在
python字典是无序的吗_Python 有序字典 OrderedDict 和无序字典 Dict weixin_39667509 python字典是无序的吗
Python默认的字典是无序的，如果我们需要让他变成有序，很简单，使用有序字典即可，会按照添加顺序自动排序，先添加的在前面，后添加的在后面。Python中有一个OrderedDict，刚好就是实现这个功能的，下面进行介绍Python有序字典OrderedDict。一、Python普通字典Dictmy_dict=dict()my_dict["name"]="lowman"my_dict["age"]
python 用matplotlib作图，报错not Qt platform plugin could be initialized aLagrange python bug
重装Pycharm后，用matplotlib画图ThisapplicationfailedtostartbecausenotQtplatformplugincouldbeinitialized.##标题背景：重新安装pycharm后使用matplotlib画图弹出错误窗口全程又没有调用过Pyside2或pyqt5.新建了一个Project,导入matplolib，运行一个最简单的程序importm
tf.Keras (tf-1.15)使用记录4-model.fit方法及其callbacks参数普通攻击往后拉 NN技巧 tf.keras keras 人工智能深度学习
model.fit()方法是TensorFlowKeras中用于训练模型的核心方法。其中里面的callbacks参数是实现模型保存、监控、以及和tensorboard联动的重要API1model.fit()方法的参数及使用必需参数x:训练数据的输入。可以是NumPy数组、TensorFlowtf.data.Dataset、Python生成器或keras.utils.Sequence实例。y:训练数
macbook自带python保存文件夹_在mac下查找python包存放路径site-packages的实现方法在Mac系统下python如何安装第三方函数库?... Charnychi
mac怎么查看python的site-package位置世界上最伤心的事，不是你爱的人不爱你，而是他爱你过后，最后却不爱你。可以通过find命令查看，参考demo如下：sudofind/-name"site-package"小编们总是对最亲近的家人视而不见，甚至还有许多抱怨，却对外人”的一点小惠感激不已。mac自带的python安装在/usr/bin/python目录下进入终端直接键入python
python exe site-package weixin_33735077 python
2019独角兽企业重金招聘Python工程师标准>>>pythonexesite-package:http://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow转载于:https://my.oschina.net/zuoan001/blog/346126
python 分享site-package CbdFocus Python
导出列表pipfreeze>requirements.txt安装列表pipinstall-rrequirements.txt
Python 框架之 Anaconda 下 Django 环境的快速搭建与验证的相关说明仙魁XAN python python anaconda django
Python框架之Anaconda下Django环境的快速搭建与验证的相关说明目录Python框架之Anaconda下Django环境的快速搭建与验证的相关说明一、简单介绍二、实现原理三、环境四、涉及命令五、搭建具体步骤1、打开AnacondaNavigator2、Create构建一个环境，选择自己需要的python版本即可3、AnacondaPrompt打开命令行操作4、condainfo--e
SQLAlchemy 介绍与实践 cliffordl python python 数据库
postgresql实践pydantic实践1.SQLAlchemy介绍SQLAlchemy是一个ORM框架。SQLAlchemy是一个用于Python的SQL工具和对象关系映射（ORM）库。它允许你通过Python代码来与关系型数据库交互，而不必直接编写SQL语句。简单介绍一下对象关系映射吧，对象关系映射（英语：ObjectRelationalMapping，简称ORM，或O/RM，或O/Rma
python dist-packages 和 site-packages ECHOutopia linux python site-packages dist-packages ubuntu python
dist-packages和site-packages在我的ubuntu12上都在/usr/local/lib/python2.7目录下今天安装django时发现一个奇怪的现象：我使用pipinstallDjango==1.8.4安装的django，安装成功，直接在终端使用django-admin也成功，但是进入python：importdnango，却提示nomodulenameddjango，
编程语言“鄙视链”：为何Python会处于这样的位置？宝码香车 #话题 python 开发语言
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录编程语言“鄙视链”：为何Python会处于这样的位置？引言一、Python被视为新手友好型语言的原因（二）丰富的学习资源（三）广泛的应用领域二、Python在某些方面被“轻视”的因素（一）性能方面的局限（二）代码的安全性与保密性（三）行业传统
python 安装包 site-packages cliffordl 综合 python python 开发语言
1.site-packages文件夹的位置当我们通过pip或其他方式安装一个Python包时，这些包的文件就会被复制到site-packages文件夹下。site-packages文件夹通常位于Python的安装目录下的Lib文件夹内。具体的路径会根据你使用的操作系统和Python版本的不同而有所不同。下面是一些常见操作系统下site-packages文件夹的默认位置：1.1.在Windows系统
基于TensorFlow 2.0的DBN故障诊断程序 ydlhnust 深度学习
以下是一个基于TensorFlow2.0的DBN故障诊断程序，包含特征可视化和结果分析。程序使用合成振动数据进行演示，可直接运行。```pythonimportnumpyasnpimportmatplotlib.pyplotaspltimporttensorflowastffromtensorflow.kerasimportlayers,modelsfromsklearn.model_select
使用PyInstaller将Python项目代码打包成exe 培根芝士 Python python 开发语言
PyInstaller是一个非常强大的工具，用于将Python脚本打包成独立的可执行文件（如.exe文件），使得Python应用程序可以在没有安装Python环境的机器上运行。工作原理PyInstaller的核心目标是将Python脚本及其依赖的模块打包成一个独立的可执行文件。它的工作原理可以分为以下几个步骤：（1）分析脚本依赖PyInstaller会分析你的Python脚本，找出所有导入的模块（
python yfinance 下载金融数据，股票数据 waterHBO python 金融开发语言 1024程序员节
起因，目的:代码比较少，但是估计很常用。需要开启全局代理:1.获取国内股票数据tushareimporttushareasts#pipinstalltushare#设置Tusharetoken，需要在Tushare官网注册并获取，免费的ts.set_token('22b5a5b550------****23f815a22c97')#初始化pro接口pro=ts.pro_api()#股票代码stoc
yfinance的使用 ilikework python 量化交易
最近想学习一下量化交易，就找了些python的库，yfinance这个是比较靠谱的库。功能有哪些还不是太清楚，似乎不支持多年的PE指标获取。下面是外汇历史数据的取得data=yf.download(tickers='USDJPY=X',#通貨ペアperiod='1d',#データ取得期間interval='1m',#データ表示間隔)下面是股票数据的取得tickers=['600875.SS']for
基于python的Kimi AI 聊天应用 hunter206206 python python 自然语言处理
因为这几天deepseek有点状况，导致apikey一直生成不了，用kimi练练手。这是一个基于MoonshotAI的Kimi接口开发的聊天应用程序，使用PythonTkinter构建图形界面。项目结构项目由三个主要Python文件组成：1.main_kimi.py主程序入口文件，继承了ChatWindow类并实现了问答逻辑：创建主应用程序窗口初始化聊天逻辑实现提交问题的处理函数2.gui.py图
Command ‘“/opt/homebrew/opt/[email protected]/bin/python3.9“ -u build.py build‘ failed with exit code 1. hunter206206 python ubuntu chrome linux
这个错误表明在安装wxPython时遇到了问题。wxPython是一个用于创建图形用户界面（GUI）的Python库，但由于其依赖的复杂性，安装时可能会失败。以下是解决此问题的几种方法：1.确保Python和pip是最新版本wxPython可能需要较新版本的Python和pip。运行以下命令更新pip：python-mpipinstall--upgradepip2.安装依赖库wxPython依赖于
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象