创建一个工程
[img]http://dl.iteye.com/upload/attachment/0063/5605/7abba411-ab62-3120-839e-8764299413c2.png[/img]
在你开始编写Scrapy的程序钱,你首先应该建立一个新的Scrapy工程.首先,进入你要创建工程的文件夹
scrapy startproject dmoz这样将会在dmoz目录下创建如下结构
dmoz/
scrapy.cfg
dmoz/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...其中的含义为:
» scrapy.cfg:项目的配置文件
» dmoz/: 项目的主模块,待会你将会从这里导入代码
» dmoz/items.py: 项目的item文件
» dmoz/pipelines.py: 项目的管道文件
» dmoz/settings.py: 项目设置文件
» dmoz/spiders/:待会你会将你的爬虫代码放在这里
定义我们的条目条目(Items)是一个我们与抓取的数据中间的一个交互,它的工作方式比较像Python的字典,但是它提供更多附加的特性比如提供默认值.
它通过建立一个scrapy.item.Item的类来生命,定义它的属性为scrpiy.item.Field对象,就像你在一个ORM中.
我们通过将我们需要的条目模型化来控制从dmoz.org获得的数据,比如我们要获得网站的名字,url和网站描述,我们定义这三种属性的范围,为了达到目的,我们编辑在dmoz目录下的items.py文件,我们的Item类将会是这样
# Define here the models for your scraped items
from scrapy.item import Item, Field
class DmozItem(Item):
title = Field()
link = Field()
desc = Field()
开始看起来可能会有些困惑,但是定义这些条目让你用其他Scrapy的组件的时候你能够知道你的 items到底是如何定义。
第一个爬虫爬虫是一个用户用来从一个玩站或者多个网站上获取信息的类。
它定义一个 url列表来下载,如何跟踪链接,如何解析这些网页来获取条目。为了建立一个爬虫,你必须为scrapy.spider.BaseSpider创建一个子类,定义这三个属性:
» name: 爬虫的识别名,它必须是唯一的,在不同的爬虫中你必须定义不同的名字.
» start_urls:这是一个URL列表,爬虫从这里开始抓取数据,所以,第一次下载的数据将会从这些URLS开始。 下面计算的所有子URL将会从这些URL中开始计算
» parse() 爬虫的方法,调用时候传入从每一个URL传回的Response对象作为参数,response将会是parse方法的唯一的一个参数,这个方法负责解析返回的response数据匹配抓取的数据(解析为item)和其他的URL
The parse() method is in charge of processing the response and returning scraped data (as Item objects) and more URLs to follow (as Request objects).
这是我们的第一个爬虫, 将它保存名为 dmoz_spider.py 在dmoz/spiders 文件夹下
from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
name = "dmoz.org"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
抓取为了抓取网站,我们返回项目主目录执行以下命令
scrapy crawl dmoz.org这个 crawl dmoz.org 命令负责启动给 dmoz.org 的爬虫代码. 你将会获得如下输出
2008-08-20 03:51:13-0300 [scrapy] INFO: Started project: dmoz
2008-08-20 03:51:13-0300 [dmoz] INFO: Enabled extensions: ...
2008-08-20 03:51:13-0300 [dmoz] INFO: Enabled scheduler middlewares: ...
2008-08-20 03:51:13-0300 [dmoz] INFO: Enabled downloader middlewares: ...
2008-08-20 03:51:13-0300 [dmoz] INFO: Enabled spider middlewares: ...
2008-08-20 03:51:13-0300 [dmoz] INFO: Enabled item pipelines: ...
2008-08-20 03:51:14-0300 [dmoz.org] INFO: Spider opened
2008-08-20 03:51:14-0300 [dmoz.org] DEBUG: Crawled
(referer:
)
2008-08-20 03:51:14-0300 [dmoz.org] DEBUG: Crawled (referer: )
2008-08-20 03:51:14-0300 [dmoz.org] INFO: Spider closed (finished)注意有 [dmoz.org]的输出 ,对我们的爬虫做出的结果(identified by the domain "dmoz.org"). 你可以看见在start_urls中定义的一些URL的一些输出。因为这些URL是起始页面,所以他们没有引用(referrers),所以在每行的末尾你会看到 (referer: ).
有趣的是,在我们的 parse 方法的作用下,两个文件被创建 Books 和 Resources, 这两个文件中有着URL的页面内容。
发生了什么事情?Scrapy为爬虫属性中的 start_urls中的每个URL创建了一个 scrapy.http.Request 对象 , 为他们指定爬虫的 parse 方法作为回调。
这些 Request首先被计划,然后被执行, 之后 scrapy.http.Response 对象通过parse() 方法返回给爬虫.
提取 Items Selectors入门为了从网站中提取数据,我们有很多方法. Scrapy 使用基于 XPath 的名字叫做 XPath selectors的机制。如果你想了解更多selectors和其他机制你可以查阅资料http://doc.scrapy.org/topics/selectors.html#topics-selectors
这是一些XPath表达式的例子和他们分别的含义
» /html/head/title: 选择HTML文档下面的 标签。
» /html/head/title/text(): 选择在 元素下面的标签内容.
» //td: 选择所有 标签
» //div[@class="mine"]: 选择所有 class="mine" 属性的div 标签元素
这些只是你可以通过XPath可以做的简单例子,但是XPath实际上非常强大,如果你想了解更多XPATH的内容,我们给你推荐这个教程http://www.w3schools.com/XPath/default.asp
为了方便使用XPaths, Scrapy提供XPathSelector 类, 一共有两种, HtmlXPathSelector (HTML数据解析) 和XmlXPathSelector (XML数据解析). 为了使用他们你必须通过一个 Response 对象对他们进行实例化操作.
你会发现Selector对象展示了文档的节点结构.所以,首先被实例化的selector与跟节点或者是整个目录有关 。
Selectors 有三种方法
» select(): 返回selectors列表, 每一个战士了通过xpath参数表达式而
选择的节点.http://doc.scrapy.org/topics/selectors.html#scrapy.selector.XPathSelector.select
»
extract(): 返回通过XPath选择器选择返回的数据的unicode字符串
» re(): 返回根据正则表达式匹配的一个unicode编码字符串列表
尝试在交互环境中使用Selectors为了举例说明Selectors的用法我们将用到 Scrapy shell, 需要使用ipython (一个扩展python交互环境) 。
为了使用交互环境,你首先应该进入你的项目目录,然后输入
scrapy shell http://www.dmoz.org/Computers/Programming/Languages/Python/Books/输出结果就像这样:
[ ... Scrapy log here ... ]
[s] Available Scrapy objects:
[s] 2010-08-19 21:45:59-0300 [default] INFO: Spider closed (finished)
[s] hxs
[s] item Item()
[s] request
[s] response <200 http://www.dmoz.org/Computers/Programming/Languages/Python/Books/>
[s] spider
[s] xxs
[s] Useful shortcuts:
[s] shelp() Print this help
[s] fetch(req_or_url) Fetch a new request or URL and update shell objects
[s] view(response) View response in a browser
In [1]:交互环境载入后,你将会有一个在本地变量 response 中提取的response , 所以如果你输入 response.body 你将会看到response的body部分,或者你可以输入 response.headers 来查看它的 headers.
交互环境也实例化了两种selectors, 一个是解析HTML的 hxs 变量 一个是解析 XML 的 xxs 变量 :
In [1]: hxs.select('/html/head/title')
Out[1]: []
In [2]: hxs.select('/html/head/title').extract()
Out[2]: [u'Open Directory - Computers: Programming: Languages: Python: Books']
In [3]: hxs.select('/html/head/title/text()')
Out[3]: []
In [4]: hxs.select('/html/head/title/text()').extract()
Out[4]: [u'Open Directory - Computers: Programming: Languages: Python: Books']
In [5]: hxs.select('/html/head/title/text()').re('(\w+):')
Out[5]: [u'Computers', u'Programming', u'Languages', u'Python']提取数据现在我们尝试从网页中提取数据.
你可以尝试在控制台输入 response.body , 检查这些 XPaths 来查找你需要的内容.然而,去检查这些节点是一件很枯燥的事情,为了使事情变得简单,你可以使用一些浏览器的扩展工具(比如Firefox中的firebug).
参考如下文档:http://doc.scrapy.org/topics/firefox.html#topics-firefox
http://doc.scrapy.org/topics/firebug.html#topics-firebug
检查源代码后,你会发现我们需要的数据在一个 元素中 事实是第二个元素。
我们可以通过如下命令选择每个在网站中的 - 元素:
hxs.select('//ul/li')
然后是网页描述:
hxs.select('//ul/li/text()').extract()
网站标题:
hxs.select('//ul/li/a/text()').extract()
网站超级链接:
hxs.select('//ul/li/a/@href').extract()
每个 select() 调用返回一个selectors列表, 所以我们可以结合 select() 调用去查找更深的节点. 我们将会用到这些特性,所以:
sites = hxs.select('//ul/li')
for site in sites:
title = site.select('a/text()').extract()
link = site.select('a/@href').extract()
desc = site.select('text()').extract()
print title, link, desc
Note
了解更多关于选择器的内容参考 Nesting selectors and Working with relative XPathsin the XPath Selectors documentation
让我们在spider爬虫中加入:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
name = "dmoz.org"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
for site in sites:
title = site.select('a/text()').extract()
link = site.select('a/@href').extract()
desc = site.select('text()').extract()
print title, link, desc
现在我们再次尝试抓去dmoz.org
scrapy crawl dmoz.org使用条目(Item)Item 实质是python中的字典; 你可以查看某个字典的特定值,通过像下面这样的简单的语法:
>>> item = DmozItem()
>>> item['title'] = 'Example title'
>>> item['title']
'Example title'
Spiders将会返回在 Item 中抓取的信息 ,所以为了返回我们抓取的信息,spider的内容应该是这样:
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from dmoz.items import DmozItem
class DmozSpider(BaseSpider):
name = "dmoz.org"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
items = []
for site in sites:
item = DmozItem()
item['title'] = site.select('a/text()').extract()
item['link'] = site.select('a/@href').extract()
item['desc'] = site.select('text()').extract()
items.append(item)
return items
现在我们再次抓取 :
[dmoz.org] DEBUG: Scraped DmozItem(desc=[u' - By David Mertz; Addison Wesley. Book in progress, full text, ASCII format. Asks for feedback. [author website, Gnosis Software, Inc.]\n'], link=[u'http://gnosis.cx/TPiP/'], title=[u'Text Processing in Python']) in
[dmoz.org] DEBUG: Scraped DmozItem(desc=[u' - By Sean McGrath; Prentice Hall PTR, 2000, ISBN 0130211192, has CD-ROM. Methods to build XML applications fast, Python tutorial, DOM and SAX, new Pyxie open source XML processing library. [Prentice Hall PTR]\n'], link=[u'http://www.informit.com/store/product.aspx?isbn=0130211192'], title=[u'XML Processing with Python']) in 保存抓取的信息最简单的保存信息的方法是通过 Feed exports, 命令如下:
scrapy crawl dmoz.org --set FEED_URI=items.json --set FEED_FORMAT=json将会计算出一个包含所有抓取items的 items.json 文件, 已经被JSON化.
在像本文一样的小型project中,这些已经足够. 然而,如果你想用抓取的items做更复杂的事情, 你可以写一个 Item Pipeline(条目管道). 因为在建立一个条目的时候,一个专门为项目的一个管道文件已经为这些items建立,目录在 dmoz/pipelines.py. 这样,如果你只是打算将这些抓取后的items博啊村的话你就不需要去检查任何的条目pipeline.
结束语教程简要介绍了Scrapy的使用,但是远远不够. 我们建议你继续查阅 Scrapy 0.12 documentation.
你可能感兴趣的:(scrapy,python,scrapy,python,tutorial)
- scrapy学习之爬虫练习平台爬取
LLLibra146
爬虫python
本文章首发于个人博客,链接为:https://blog.d77.xyz/archives/35dbd7c9.html前言为了练习Scrapy,找了一个爬虫练习平台,网址为:https://scrape.center/,目前爬取了前十个比较简单的网站,在此感谢平台作者提供的练习平台。环境搭建开始爬取前,首先要先把环境搭建起来,Pycharm新建项目learnscrapy和对应的虚拟环境,安装好Scr
- 抽取网易云音乐热门评论(附代码):html+css+python+js 音乐与灵魂的碰撞
爱玩游戏的jason
otherhtmlcsspython
抽取网易云音乐热门评论:html+css+python+js音乐与灵魂的碰撞代码链接不说废话,上代码!!!get.py#get.pyimporturllib.requestimporturllib.errorimporturllib.parseimportjson#抓取网易云音乐指定url的热评defget_hotComments(id):url='https://music.163.com/we
- python常见绘图及代码
CodeJourney.
算法人工智能python
一、引言在数据驱动的时代,将数据转化为直观的图形对于理解数据、发现模式和传达信息至关重要。Python作为一种功能强大且广受欢迎的编程语言,拥有丰富的绘图库,能满足不同场景下的数据可视化需求。本文将深入探讨Python中常见的绘图程序,包括Matplotlib、Seaborn、Plotly和Bokeh,并提供详细的代码示例。二、Matplotlib:基础绘图的基石2.1简单折线图Matplotli
- Python用 subprocess编写超时进程控制脚本
Steffen
Python
一直都寻找在Python下方便控制子进程运行时间的脚本。虽然网上有很多的好方法,但是都不能满足我的需求(也是我资质太低看别人的脚本总感觉太吃力,总有些看不明白的地方)。下面这个脚本和网上一样利用了subprocess函数创建一个子进程控制脚本。(闲话少说,直接上菜!!!)#!/usr/bin/pythonimportsubprocess,timedefTest_ilo():ilo_ip='10.2
- 25/1/21 算法笔记<ROS2> 编译ROS2 c++节点文档步骤
青椒大仙KI11
c++开发语言
在ROS2中,创建节点是指编写一个程序(通常是C++或Python代码),这个程序能够与ROS2系统进行交互,执行特定的任务。节点是ROS2中最基本的执行单元,每个节点通常负责完成一个特定的功能,例如控制机器人、处理传感器数据或执行计算。完整步骤:编译ROS2C++节点1.准备工作有ROS2安装colcon构建工具安装turtlesim包2.创建工作空间创建工作空间:ROS2的工作空间是一个目录结
- Python中实现多层感知机(MLP)的深度学习模型
Echo_Wish
Python笔记从零开始学Python人工智能python深度学习开发语言
深度学习已经成为机器学习领域的一个热门话题,而多层感知机(MLP)是最基础的深度学习模型之一。在这篇教程中,我将向你展示如何使用Python来实现一个简单的MLP模型。什么是多层感知机(MLP)?多层感知机(MLP)是一种前馈神经网络,它包含一个输入层、一个或多个隐藏层以及一个输出层。每个层都由一系列的神经元组成,神经元之间通过权重连接。MLP能够学习输入数据的非线性特征,因此在复杂问题的建模中非
- Python异常处理:从基础到进阶
傻啦嘿哟
python开发语言
目录一、异常处理基础1.1什么是异常1.2捕获异常1.3多个异常处理1.4else和finally子句二、进阶应用2.1自定义异常2.2异常链2.3使用contextlib进行上下文管理2.4捕获所有异常(慎用)2.5异常处理与函数返回值三、实战案例3.1文件读写异常处理3.2网络请求异常处理四、总结在编程过程中,我们经常会遇到各种运行时错误,比如除零错误、文件未找到错误等。为了处理这些错误,Py
- Python识别处理验证码技术详解
傻啦嘿哟
python开发语言
目录一、验证码的种类二、OCR技术简介三、使用OCR技术识别验证码1.安装所需库2.下载和处理验证码图片3.使用OCR进行识别4.完整代码示例四、处理复杂验证码五、案例:识别古诗文网验证码六、总结验证码作为一种常见的安全手段,广泛应用于各种网站和应用中,以防止自动化脚本的恶意攻击。然而,在自动化测试或数据抓取过程中,识别验证码成为了一个不得不面对的问题。本文将详细介绍如何使用Python来识别和处
- python超时退出进程_长时间运行进程的超时和Windows服务(Python)
拉菲雪球兔
python超时退出进程
将服务用作具有多个线程的控制器。一个线程(Main)应该同步和排队命令,并使用win32serviceframework进行通信、注册到系统等。另一个线程(Worker)应该等待来自队列的命令并执行它们。如果您将任意代码作为单独的进程执行,那么您可以从工作线程中派生这些代码,并在它们完成后简单地读回结果并进行清理。在这样,当一个stop到达时,您的主线程将把它注册到它队列中的worker,它将唤醒
- A股程序化交易接口有哪些?不同接口在功能和稳定性上有何差异?
财云量化
python炒股自动化量化交易程序化交易a股程序化交易接口功能股票量化接口股票API接口
炒股自动化:申请官方API接口,散户也可以python炒股自动化(0),申请券商API接口python炒股自动化(1),量化交易接口区别Python炒股自动化(2):获取股票实时数据和历史数据Python炒股自动化(3):分析取回的实时数据和历史数据Python炒股自动化(4):通过接口向交易所发送订单Python炒股自动化(5):通过接口查询订单,查询账户资产股票量化,Python炒股,CSDN
- ssti注入
m0_73818134
flaskpython
flask有个明显的特征就是服务器模板,把用户输入的回显到web页面,一般在用户交互的地方(输入/输出),这个要用python去构造链子去执行python命令,来getshell。一般的注入是get型的如{{7*7}},{%7*7%},{#7*7#},还有{%print(7*7)%}.一般的链子1().__class__.__base__.__subclasses__()[140].__init_
- python之.pyc文件
diantuge7474
java运维python
.pyc是个什么呢?计算机是不能够识别高级语言的,所以当我们运行一个高级语言程序的时候,就需要一个“翻译机”来从事把高级语言转变成计算机能读懂的机器语言的过程。这个过程分成两类,第一种是编译,第二种是解释。编译型语言在程序执行之前,先会通过编译器对程序执行一个编译的过程,把程序转变成机器语言。运行时就不需要翻译,而直接执行就可以了。最典型的例子就是C语言。解释型语言就没有这个编译的过程,而是在程序
- 【人工智能】Python常用库-Keras:高阶深度学习 API
IT古董
深度学习人工智能Python人工智能python深度学习
Keras:高阶深度学习APIKeras是一个高效、用户友好的深度学习框架,作为TensorFlow的高级API,支持快速构建和训练深度学习模型。它以模块化、简单和灵活著称,适合研究和生产环境。Keras的发音为[ˈkerəs],类似于“凯拉斯”或“克拉斯”。这个名字来源于希腊语κέρας(kéras),意思是“角”或“角质物”。这个词与深度学习的灵感来源——大脑的神经网络结构有一定联系。Kera
- 【Node.js]
ADFVBM
面试学习路线阿里巴巴node.js
一、概述Node.js是一个基于ChromeV8引擎的JavaScript运行环境,使用了一个事件驱动、非阻塞式I/O模型,让JavaScript运行在服务端的开发平台,它让JavaScript成为与PHP、Python、Perl、Ruby等服务端语言平起平坐的脚本语言。官网地址:https://nodejs.org/zh-cnNode.js学习路线:JavaScript基础语法+Node.js内
- SAP UI5 初学者教程之十三 - 如何添加自定义 CSS 类试读版
Python中的class体内定义方法时,如果没有显式地包含self参数,有时候依然可以被调用。这是一个非常有趣的话题,因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用,我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
- 那些年我用过的SAP IDE
Python中的class体内定义方法时,如果没有显式地包含self参数,有时候依然可以被调用。这是一个非常有趣的话题,因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用,我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
- python代码转exe
xuaman
pythonpythonexe编译
1.打开cmd控制台,跳转之python目录下的scripts.2.输入:pipinstallnumpy3.第二步成功后,输入:pipinstallPyInstaller4.第三步完成后,输入:pyinstaller-Fpy文件路径5.第四步完成后,在当前目录下出现,dist文件夹,里面就是编译成功的同名exe文件如有问题可以留言。
- python将excel表数据可视化,python对excel数据可视化
www55597
信息可视化人工智能
大家好,小编来为大家解答以下问题,利用python处理excel文件并可视化处理,用python对excel表进行可视化分析,现在让我们一起来看看吧!一.需求最近我们数据可视化的老师让我们把广州历史房价中的房价数据可视化,然后给我们发了广州历史房价.xls,然后看了一下数据确实有点小多,反正复制粘贴是有点费劲的,所以就想借用python帮我把数据修改成我一键复制的模样。二.安装xlrd模块pipi
- Python集合运算:数据处理的强大工具
清水白石008
pythonPython题库python开发语言算法
Python集合运算:数据处理的强大工具集合(Set)是Python中一种非常有用的数据结构,它用于存储无序且唯一的元素。集合支持各种数学运算,例如并集、交集、差集和对称差集,这些运算在数据处理、数据分析和算法实现中都非常有用。本文将以实用性为导向,深入讲解如何在Python中创建集合并进行各种集合运算,力求内容丰富、条理清晰、操作性强,帮助读者充分掌握Python集合的强大功能。一、集合的基本概
- [287]python获取操作系统平台、版本及架构
周小董
Python前行者
platform模块提供了底层系统平台的相关信息系统架构32位还是64位>>>importplatform>>>platform.architecture()('64bit','ELF')#python3.3.2+64bitsondebianjessie64bits('32bit','WindowsPE')#python3.3.232bitsonwindows8.164bits('64bit','
- Python打包脚本为EXE可执行文件
Ethan Hunt丶
开发pythonbash
Python打包脚本为EXE可执行文件1.打包原理2.代码示例2.1项目需求2.2项目结构2.3文件内容2.4安装依赖库2.5使用Pyinstaller进行打包3.注意事项3.1新建虚拟环境3.2替换EXE文件图标4.效果展示1.打包原理Python脚本打包为EXE的过程,主要是通过将Python代码、依赖库和Python解释器一起打包成一个可执行文件,从而实现不依赖于Python环境的独立执行。
- python3.6 split用法_对sklearn的使用之数据集的拆分与训练详解(python3.6)
weixin_39849054
python3.6split用法
研修课上讲了两个例子,融合一下。主要演示大致的过程:导入->拆分->训练->模型报告以及几个重要问题:①标签二值化②网格搜索法调参③k折交叉验证④增加噪声特征(之前涉及)fromsklearnimportdatasets#从cross_validation导入会出现warning,说已弃用fromsklearn.model_selectionimporttrain-test_splitfromsk
- python datasets_python基础之sklearn.datasets
weixin_39897887
pythondatasets
sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法,可以通过dir或help命令查看,我们会发现主要有三种形式:load_、fetch_及make_的方法(1)datasets.load_:sklearn包自带的小数据集In[2]:datasets.load_*?datasets.load_boston#波士顿房价数据集datasets.load_breast_
- python 架构简介(转)
weixin_34367845
python数据库
前言:开发语言python越来越火,作为开发比较火的语言,python对网页等的支持也很好,当你想用python来写网页的时候你就要选择框架了。到底要选择呢什么样子的框架,最适合你的项目能力。介绍:Django:PythonWeb应用开发框架Django应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是走大而全的方向,它最出名的是其全自动化的管理后台:只需要使用
- Python第三方库GDAL 安装
一名写前端的GISer
pythonpython开发语言
安装GDAL的方式多种,包括pip、Anaconda、OSGeo4W等。笔者在安装过程中,唯独使用pip安装遇到问题。最终通过轮子文件(.whl)成功安装。本文主要介绍如何下载和安装较新版本的GDAL轮子文件。一、GDAL轮子文件下载打开Github网站(https://github.com/sion258/geospatial-wheels?tab=readme-ov-file#release-
- Linux Shell脚本自动化编程实战【1.2 java python shell执行方式对比 】
wallacegen
linux自动化运维
lsecho$?lsxxxecho$?每一个命令都有一个返回值,如果执行成功,返回0,如果失败就返回非0ping114.114.114.114&&echo“success”ping114.114.114.114;echo“success”&&前面一个命令执行成功之后才能执行后面的命令;只是一个命令的排序,前后执行成功没有关系创建一个ping01.sh脚本文件#!/usr/bin/bashping-
- 反转字符串中的单词 II:Swift 实现与详解
网罗开发
Swiftvue.js
网罗开发(小红书、快手、视频号同名) 大家好,我是展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者:《ESP32-C3物联网工程开发实战》图书作者:《SwiftUI入门,进阶与实战》超级个体:CO
- python 程序构架浅析
heyabo
Python
一、概念定义:通常的Python程序的构架是指:将一个程序分割为源代码文件的集合以及将这些部分连接在一起的方法。python的程序构架可表示为:一个python程序就是一个模块的系统。它有一个顶层文件(启动后可运行程序)以及多个模块文件(用来导入工具库)。注:标准库模块:python中自带的实用模块,也称为标准链接库。则个集合体大约有200多个模块,包含于平台不相关的常见程序设计任务:操作系统接口
- TA-Lib的whl文件下载
姚钰雅Gwynne
TA-Lib的whl文件下载项目地址:https://gitcode.com/open-source-toolkit/e5ce1简介由于近期TA-Lib的资源网站https://www.lfd.uci.edu/~gohlke/pythonlibs/无法找到相应的文件,本仓库整理了从Python3.7到Python3.11的TA-Libwhl文件,方便开发者下载使用。文件列表TA_Lib‑0.4.2
- 【Python】已解决ModuleNotFoundError: No module named ‘tensorflow‘
屿小夏
pythontensorflowneo4j
个人简介:某不知名博主,致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验!文末获取免费IT学习资料!文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径,对于IT从业者来说更是不可或缺的资源。不定期更新IT图书,并在评论区抽取随机粉丝,书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新,涵盖机器学习、深度学习、自然
- Java开发中,spring mvc 的线程怎么调用?
小麦麦子
springmvc
今天逛知乎,看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题,觉得挺有意思的,那哥们儿问的也听仔细,下面的回答也很详尽,分享出来,希望遇对遇到类似问题的Java开发程序猿有所帮助。
问题:
在用spring mvc架构的网站上,设一线程在虚拟机启动时运行,线程里有一全局
- maven依赖范围
bitcarter
maven
1.test 测试的时候才会依赖,编译和打包不依赖,如junit不被打包
2.compile 只有编译和打包时才会依赖
3.provided 编译和测试的时候依赖,打包不依赖,如:tomcat的一些公用jar包
4.runtime 运行时依赖,编译不依赖
5.默认compile
依赖范围compile是支持传递的,test不支持传递
1.传递的意思是项目A,引用
- Jaxb org.xml.sax.saxparseexception : premature end of file
darrenzhu
xmlprematureJAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误:
org.xml.sax.saxparseexception : premature end of file
很有可能时你直接读取文件为inputstream,然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
- CSS Specificity
周凡杨
html权重Specificitycss
有时候对于页面元素设置了样式,可为什么页面的显示没有匹配上呢? because specificity
CSS 的选择符是有权重的,当不同的选择符的样式设置有冲突时,浏览器会采用权重高的选择符设置的样式。
规则:
HTML标签的权重是1
Class 的权重是10
Id 的权重是100
- java与servlet
g21121
servlet
servlet 搞java web开发的人一定不会陌生,而且大家还会时常用到它。
下面是java官方网站上对servlet的介绍: java官网对于servlet的解释 写道
Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
- eclipse中安装maven插件
510888780
eclipsemaven
1.首先去官网下载 Maven:
http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz
下载完成之后将其解压,
我将解压后的文件夹:apache-maven-3.2.3,
并将它放在 D:\tools目录下,
即 maven 最终的路径是:D:\tools\apache-mave
- jpa@OneToOne关联关系
布衣凌宇
jpa
Nruser里的pruserid关联到Pruser的主键id,实现对一个表的增删改,另一个表的数据随之增删改。
Nruser实体类
//*****************************************************************
@Entity
@Table(name="nruser")
@DynamicInsert @Dynam
- 我的spring学习笔记11-Spring中关于声明式事务的配置
aijuans
spring事务配置
这两天学到事务管理这一块,结合到之前的terasoluna框架,觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容,对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种,我承认后两种的内容很好,很强大。但是实际的项目当中
- java 动态代理简单实现
antlove
javahandlerproxydynamicservice
dynamicproxy.service.HelloService
package dynamicproxy.service;
public interface HelloService {
public void sayHello();
}
dynamicproxy.service.impl.HelloServiceImpl
package dynamicp
- JDBC连接数据库
百合不是茶
JDBC编程JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库,就要首先下载oralce公司的驱动程序,将这个驱动程序的jar包导入到我们工程中;
JDBC链接数据库的代码和固定写法;
1,加载oracle数据库的驱动;
&nb
- 单例模式中的多线程分析
bijian1013
javathread多线程java多线程
谈到单例模式,我们立马会想到饿汉式和懒汉式加载,所谓饿汉式就是在创建类时就创建好了实例,懒汉式在获取实例时才去创建实例,即延迟加载。
饿汉式:
package com.bijian.study;
public class Singleton {
private Singleton() {
}
// 注意这是private 只供内部调用
private static
- javascript读取和修改原型特别需要注意原型的读写不具有对等性
bijian1013
JavaScriptprototype
对于从原型对象继承而来的成员,其读和写具有内在的不对等性。比如有一个对象A,假设它的原型对象是B,B的原型对象是null。如果我们需要读取A对象的name属性值,那么JS会优先在A中查找,如果找到了name属性那么就返回;如果A中没有name属性,那么就到原型B中查找name,如果找到了就返回;如果原型B中也没有
- 【持久化框架MyBatis3六】MyBatis3集成第三方DataSource
bit1129
dataSource
MyBatis内置了数据源的支持,如:
<environments default="development">
<environment id="development">
<transactionManager type="JDBC" />
<data
- 我程序中用到的urldecode和base64decode,MD5
bitcarter
cMD5base64decodeurldecode
这里是base64decode和urldecode,Md5在附件中。因为我是在后台所以需要解码:
string Base64Decode(const char* Data,int DataByte,int& OutByte)
{
//解码表
const char DecodeTable[] =
{
0, 0, 0, 0, 0, 0
- 腾讯资深运维专家周小军:QQ与微信架构的惊天秘密
ronin47
社交领域一直是互联网创业的大热门,从PC到移动端,从OICQ、MSN到QQ。到了移动互联网时代,社交领域应用开始彻底爆发,直奔黄金期。腾讯在过去几年里,社交平台更是火到爆,QQ和微信坐拥几亿的粉丝,QQ空间和朋友圈各种刷屏,写心得,晒照片,秀视频,那么谁来为企鹅保驾护航呢?支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢?本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
- java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个排好序的数组的一个旋转,输出旋转数组的最小元素
bylijinnan
java
public class MinOfShiftedArray {
/**
* Q69 旋转数组的最小元素
* 把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转。输入一个排好序的数组的一个旋转,输出旋转数组的最小元素。
* 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转,该数组的最小值为1。
*/
publ
- 看博客,应该是有方向的
Cb123456
反省看博客
看博客,应该是有方向的:
我现在就复习以前的,在补补以前不会的,现在还不会的,同时完善完善项目,也看看别人的博客.
我刚突然想到的:
1.应该看计算机组成原理,数据结构,一些算法,还有关于android,java的。
2.对于我,也快大四了,看一些职业规划的,以及一些学习的经验,看看别人的工作总结的.
为什么要写
- [开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖
comsci
开源项目
为什么这样说呢? 因为科学和技术的发展有时候需要一个平缓和长期的积累过程,但是行政和商业体系本身充满各种不稳定性和不确定性,如果你希望长期从事某个科研项目,但是却又必须依赖于某种行政和商业体系,那其中的过程必定充满各种风险。。。
所以,为避免这种不确定性风险,我
- 一个 sql优化 ([精华] 一个查询优化的分析调整全过程!很值得一看 )
cwqcwqmax9
sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011
Web翻页优化实例
提交时间: 2004-6-18 15:37:49 回复 发消息
环境:
Linux ve
- Hibernat and Ibatis
dashuaifu
Hibernateibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架,当前版本是3.05。它出身于sf.net,现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架,当前版本是2.0。目前属于apache的一个子项目了。 相对Hibernate“O/R”而言,iBATIS 是一种“Sql Mappi
- 备份MYSQL脚本
dcj3sjt126com
mysql
#!/bin/sh
# this shell to backup mysql
# [email protected] (QQ:1413161683 DuChengJiu)
_dbDir=/var/lib/mysql/
_today=`date +%w`
_bakDir=/usr/backup/$_today
[ ! -d $_bakDir ] && mkdir -p
- iOS第三方开源库的吐槽和备忘
dcj3sjt126com
ios
转自
ibireme的博客 做iOS开发总会接触到一些第三方库,这里整理一下,做一些吐槽。 目前比较活跃的社区仍旧是Github,除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流,这里主要介绍一下Github里面流行的iOS库。 首先整理了一份
Github上排名靠
- html wlwmanifest.xml
eoems
htmlxml
所谓优化wp_head()就是把从wp_head中移除不需要元素,同时也可以加快速度。
步骤:
加入到function.php
remove_action('wp_head', 'wp_generator');
//wp-generator移除wordpress的版本号,本身blog的版本号没什么意义,但是如果让恶意玩家看到,可能会用官网公布的漏洞攻击blog
remov
- 浅谈Java定时器发展
hacksin
java并发timer定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor,从后者的表现来看,可以考虑完全替代Timer了。
Timer与ScheduleThreadPoolExecutor对比:
1.
Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
- 移动端页面侧边导航滑入效果
ini
jqueryWebhtml5cssjavascirpt
效果体验:http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js,该版本的jQuery库是用于支持HTML5的浏览器上,不再兼容IE8以前的浏览器,现在移动端浏览器一般都支持HTML5,所以使用该jQuery没问题。HTML文件代码:
<!DOCTYPE html>
<h
- AspectJ+Javasist记录日志
kane_xie
aspectjjavasist
在项目中碰到这样一个需求,对一个服务类的每一个方法,在方法开始和结束的时候分别记录一条日志,内容包括方法名,参数名+参数值以及方法执行的时间。
@Override
public String get(String key) {
// long start = System.currentTimeMillis();
// System.out.println("Be
- redis学习笔记
MJC410621
redisNoSQL
1)nosql数据库主要由以下特点:非关系型的、分布式的、开源的、水平可扩展的。
1,处理超大量的数据
2,运行在便宜的PC服务器集群上,
3,击碎了性能瓶颈。
1)对数据高并发读写。
2)对海量数据的高效率存储和访问。
3)对数据的高扩展性和高可用性。
redis支持的类型:
Sring 类型
set name lijie
get name lijie
set na
- 使用redis实现分布式锁
qifeifei
在多节点的系统中,如何实现分布式锁机制,其中用redis来实现是很好的方法之一,我们先来看一下jedis包中,有个类名BinaryJedis,它有个方法如下:
public Long setnx(final byte[] key, final byte[] value) {
checkIsInMulti();
client.setnx(key, value);
ret
- BI并非万能,中层业务管理报表要另辟蹊径
张老师的菜
大数据BI商业智能信息化
BI是商业智能的缩写,是可以帮助企业做出明智的业务经营决策的工具,其数据来源于各个业务系统,如ERP、CRM、SCM、进销存、HER、OA等。
BI系统不同于传统的管理信息系统,他号称是一个整体应用的解决方案,是融入管理思想的强大系统:有着系统整体的设计思想,支持对所有
- 安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题
wudixiaotie
function
1.在~/.bashrc最后加入
[[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm"
2.重新启动terminal输入:
rvm use ruby-2.2.1 --default
把当前安装的ruby版本设为默
|