qformat

Python爬虫系列总结

Python爬虫系列总结包含（Scrapy框架介绍）

文章目录

Python爬虫系列总结包含（Scrapy框架介绍）
- - 一、前言
  - 二、Python爬虫的基础
  - 三、Python爬虫进阶
  - 四、简易爬虫总结
  - 五、Python爬虫框架
  - 六、爬虫部署

一、前言

随着WEB2.0时代的到来，网络已经成为了人们获取信息的重要途径，而爬虫技术可以让我们从海量的网络数据中快速地获取我们想要的信息。Python是一种简单易学、功能强大的编程语言，特别适用于爬虫开发。本篇教程将分享Python爬虫进阶方面的知识，帮助大家更好地掌握Python爬虫技术。

二、Python爬虫的基础

了解Python爬虫的基础是进阶的必要前提。Python爬虫的基本过程通常包括以下几个步骤：

发送请求

我们可以使用Requests库发送GET、POST等HTTP请求，以请求网站数据。

获取响应

服务器会返回一个包含HTML、JSON等格式数据的响应，我们需要从中提取出需要的信息。

解析数据

我们可以通过使用第三方库（例如：BeautifulSoup库）对HTML、XML等格式的文档进行解析，以获取需要的信息。

保存数据

最终，我们需要将从网站获取的信息进行保存。

以上是爬虫基础的流程，接下来我们将介绍Python爬虫进阶的知识。

三、Python爬虫进阶

User-Agent 伪装

爬虫程序通常需要伪装成浏览器去请求目标网站，以免被服务器防护机制拦截。我们可以通过给Requests库的headers部分中的User-Agent字段传入浏览器标识字符串，来实现请求伪装。示例代码如下：

import requests

url = "https://www.baidu.com"

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}

response = requests.get(url, headers=headers)

print(response.text)

Cookie 处理

有一些网站需要我们使用登录状态才能访问需要爬取的页面。我们可以使用Cookie维持登录状态。可以使用Requests库的cookies模块来管理cookies。示例代码如下：

import requests

cookie = {"name1": "value1", "name2": "value2"}

url = "https://www.baidu.com"

response = requests.get(url, cookies=cookie)

print(response.text)

IP代理

如果爬虫程序爬取速度过快，服务器可能会检测到我们的程序并加以限制。为了解决这个问题，我们可以使用IP代理，给我们的爬虫程序提供不同的IP地址。可以使用第三方代理服务商（例如：阿布云代理）提供的代理API，或者使用免费代理池（例如：GitHub上的ProxyPool）。示例代码如下：

import requests

proxies = {
  "http": "http://10.10.1.10:3128",
  "https": "https://10.10.1.10:1080",
}

url = "https://www.baidu.com"

response = requests.get(url, proxies=proxies)

print(response.text)

防止反爬机制

很多网站会存在反爬机制，例如设置验证码、限制访问频率、隐藏关键信息等。为了避免这些问题，我们可以使用一些技巧：

（1）使用代理IP

（2）使用随机IP访问同一网站

（3）使用动态UA随机访问

（4）设置爬取时间间隔

（5）模拟登陆

（6）使用XPath选择器、正则表达式等复杂的页面抓取技术

异步爬虫

异步爬虫指同时进行多个请求，并且不需要等待前一个请求返回结果才发送下一个请求。Python异步处理的库有asyncio、aiohttp、asyncpg等。使用异步爬虫技术，可以大幅度提高爬虫的效率。示例代码如下：

import asyncio
import aiohttp

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'https://www.baidu.com')
        print(html)

loop = asyncio.get_event_loop()
loop.run_until_complete(main())

BeautifulSoup解析

BeautifulSoup是最流行的解析库，它可以解析HTML、XML等格式的文档，并提供了非常方便的API，例如find()、findAll()等。一个例子代码展示如下：

from bs4 import BeautifulSoup
import requests

url = 'http://example.com'

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

print(soup.title.string)

四、简易爬虫总结

Python爬虫技术已经越来越成熟，使用Python爬虫可以轻松地获取需要的网络数据。本篇教程我们分享了Python爬虫进阶方面的一些知识点，希望能够帮助大家更好地掌握Python爬虫技术。在实际开发中，我们需要考虑一些非常实际的问题，例如服务器反爬虫机制、数据安全性等，因此在编写爬虫程序的时候应该谨慎对待这些问题。

五、Python爬虫框架

在实际的爬虫开发中，我们可能会需要针对特定的问题进行爬虫技术的深入研究，以此来制定更加高效、稳定的爬虫策略。面对繁杂的爬虫任务，我们的单个脚本便无法再适应全部情况，这时候，Python爬虫框架可以帮助我们更好地管理代码，提高开发效率和代码质量。

Scrapy

Scrapy是一个开源的，基于Python的网络爬虫框架。它设计出色，可用于采集包括HTML、XML、JSON等多种格式的数据，支持自定义网站解析规则。通过内置的中间件、插件和扩展机制，Scrapy可以非常灵活地满足各种爬虫任务的需求。

Scrapy框架的核心架构包括：

（1）引擎（engine）：负责控制整个爬虫系统的运行流程，处理输入的URL，调度下载器、分发响应等任务。

（2）调度器（scheduler）：负责管理向引擎发起的请求，将请求缓存下来，并根据请求的优先级进行排序。Scrapy的去重策略也是在调度器中实现的。

（3）下载器（downloader）：当引擎将请求发送到下载器，下载器就会根据请求中包含的URL下载响应，并交由引擎返回。

（4）爬虫器（spider）：负责解析下载器返回的响应，提取出目标数据并生成相关数据的Item。封装爬虫的逻辑。

（5）项目管道（pipeline）：通过管道将爬虫中获取到的数据持久化，大多数使用数据库作为数据存储方式，例如mysql、MongoDB等。

使用Scrapy开发爬虫时，通常会编写自定义爬虫类，并继承Scrapy提供的Spider类。Spider类中提供了一些方法，你可以覆盖重写这些方法，以实现自定义业务逻辑。下面是一个简单的示例：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['https://www.baidu.com']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        print(title)

PySpider

PySpider是Python爬虫的另一个流行的框架，它的设计理念是“简单易用，做最好的爬虫工具”。PySpider可以快速开发、调试爬虫工具。它使用了Signal/Slot机制，可以方便地管理和处理爬取过程的各种事件。

PySpider框架的核心架构包括：

（1）爬虫调度器（Scheduler）

（2）下载器（Downloader）

（3）Spider

（4）处理管线（Pipeline）

在PySpider中，Spider是开发的核心，它用于编写自定义的爬虫逻辑。下面是一个简单的示例：

from pyspider.libs.base_handler import *

class MySpider(BaseHandler):
    crawl_config = {
        "headers": {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"},
        "timeout": 30
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://www.baidu.com', callback=self.index_page)

    @config(age=24 * 60 * 60)
    def index_page(self, response):
        self.crawl(response.url, callback=self.detail_page)

    @config(priority=2)
    def detail_page(self, response):
        title = response.doc('title').text()
        print(title)

Django + Scrapy

Django + Scrapy结合开发也是一种很实用的爬虫开发方式。Django是一个开发Web应用的高级Python Web框架，通过使用Django的ORM与Scrapy的数据库管道，我们可以使用Django提供的各种数据库操作方式来处理爬取的数据。这种方式不仅可以方便地对数据进行管理，还有助于应对与Web应用合作的情况。

下面是一个简单的用Django + Scrapy的方式来开发爬虫程序的示例：

import scrapy
from myapp.models import News

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['https://www.baidu.com']

    def parse(self, response):
        title = response.css('title').extract_first()
        News.objects.create(title=title)

六、爬虫部署

爬虫部署是爬虫开发中一个重要的环节。爬虫部署一般分为两种方式：

云主机方案

云主机方案是指把爬虫程序部署到云主机上运行的方式。云主机可以选择使用AWS EC2、Google Cloud、腾讯云等云服务商，他们提供了丰富的应用程序部署解决方案。云主机的好处在于，可以灵活地对主机配置进行调整，处理无法在本地解决的爬虫任务，也利用了主机稳定的特性。

Serverless方案

Serverless方案是指无需管理服务器，可以按需执行代码的一种部署方式，可以将我们编写的代码放到云函数平台（例如：AWS Lambda，阿里云函数计算云）上，不用关心服务器和底层框架的管理，系统可以自动帮助用户根据请求进行资源分配和函数执行，提高资源利用率。

爬虫部署需要注意以下几个方面：

（1）保证爬取的质量稳定，安装两个Python环境，一个用于开发，一个用于部署，使得部署环境与开发环境隔离开来。

（2）将settings.py文件从代码中解耦出来，使其单独的存在于一个文件中，便于管理与配置。

（3）监控爬虫运行结果及异常处理，记录日志，方便检查与分析及持续追踪问题。

（4）以Crontab定时运行爬虫，稳定高效地获取目标网站数据。

七、爬虫反爬机制

爬虫反爬是网站建设和维护者采取的措施，用于限制爬虫程序的访问和获取目标信息。反爬机制常见的手段包括：

（1）user-agent检测

检测来访爬虫的user-agent，如果其不是正常的浏览器访问（即非备案的蜘蛛），就会认为其是爬虫，并将其阻止。

对策：使用随机化的user-agent，设置随机化访问头部信息。

（2）IP封禁

对于一些恶意大数据抓取者，网站维护者也会采取封禁IP、时间限制登录等措施。

对策：使用代理IP池，通过随机IP访问同一网站，同时设置遵循访问规则的时间间隔。

（3）动态页面的抓取

有些网站使用了比较复杂的动态页面，难以通过已知url地址直接访问爬取。

对策：使用Selenium来模拟真实用户的行为，使得页面的完全渲染后再获取数据。

（4）字体反爬虫

字体反爬虫是随着反爬技术不断发展而出现的一种新的反爬手段。在很多行业的网站（例如：电商、金融等）中，往往会对数据重要的部分使用字体呈现，信息化程度高，具有很好的屏蔽蜘蛛的效果。

对策：通过爬虫库的特性，提取样式文件与加密文件，独立编写一个字体解析库，破解字体反爬。

总之，爬虫技术的开发与应用领域越来越广泛，通过了解和掌握上述的框架和反爬机制，可以提高爬虫工程师的技术水平和职业竞争力。

宝藏级站点推荐

【前沿聚焦】机器学习的未来版图：从自动化到隐私保护的技术突破网罗开发人工智能 AI 大模型机器学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
def __init__(self)是什么意思_通俗的告诉你Python中 init_ 到底是什么含义？ cjz0422 python
Python是面向对象的编程语言，因此我从Class、Instance以及属性(property/attribute)的角度出发解释。_init_根据其英文意思(initialize)，用来初始化一个类(class)的新成员(instance)，它是一个constructor.当新成员被创建时，这个方程会自动被调用。举个栗子1，使用_init_方程我们创建了一个叫做“人类”(Person)的类别，
python学习-def __init__(self)理解（1）哦里哦里哦里给深度学习
python中__init__()的作用在python中创建类后，通常会创建一个init__()方法，这个方法会在创建类的实例的时候自动执行。实例1:【实例化Bob这个对象的时候，__init__()方法会自动执行】：在下面的示例中，我们在实例化Bob这个对象的时候，__init__()方法就已经自动执行了，如果不是__init__()方法，比如说eat()方法，那就只有在调用时才会执行。clas
PyQT5 键盘模拟/鼠标连点器的实现一个爱折腾的小人物 python qt 开发语言游戏程序 python 开源经验分享
近来在玩一个游戏，找不到合适的鼠标连点器，不是有广告就是功能太复杂，自己写了一个，分享出来，如果有需要的可以自行运行研究。准备工作Python版本：Python3.12.3；运行前确保pyQT5已经安装：pipinstallPyQt5程序运行界面：程序代码：通过引入单独的常量和变量文件，并为每个元素增加中文注释来实现界面语句、变量和常量的统一规划。代码：常量定义文件（constants.py）#c
【华为OD-E卷 - 字符串解密 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-字符串解密100分（python、java、c++、js、c）】题目给定两个字符串string1和string2。string1是一个被加扰的字符串。string1由小写英文字母（’a’~’z’）和数字字符（’0’~’9’）组成，而加扰字符串由’0’~’9’、’a’~’f’组成。string1里面可能包含0个或多个加扰子串，剩下可能有0个或多个有效子串，这些有效子串被加扰子串隔开
Python学习日记------def __init__( ):函数 Canliays 学习 python
在Python中，__init__方法是类的构造函数，用于在创建对象时进行初始化。它可以接受参数也可以不接受参数，具体的选择取决于你是否希望在创建对象时传入初始值。无参数的__init__方法无参数的__init__方法通常在类定义时使用默认值来初始化属性，而不需要在创建对象时传入任何参数。classStudent:def__init__(self):self.name="Unknown"#默认值
Python Flask教程洒脱的六边形战士加辣 python python flask 开发语言
一、前言Flask是一个用Python编写的轻量级的Web应用框架。Flask基于WSGI（WebServerGatewayInterface）和Jinja2模板引擎，旨在帮助开发者快速、简便地创建Web应用。Flask被称为"微框架"，因为它使用简单的核心，用扩展增加其他功能。1.HelloWorld以下的Flask程序会在网页输出HelloWorld：fromflaskimportFlaska
LeetCode - #195 Swift 实现打印文件中的第十行网罗开发 Swift vue.js leetcode swift
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
python windows 外部usb设备检测 myzzb python windows 后端驱动开发交互
importwin32com#测试使用KINGSTON金士顿u盘list_name=["KINGSTON"]#windows外部设备检测defdetect():"""检测windows的外部设备通过全局变量把控，用的是匹配不是相等return获取到文件列表"""wmi=win32com.client.Dispatch("WbemScripting.SWbemLocator")service=wmi
python 双端口截图数据传输显示 myzzb 网络 python 图像处理 tkinter 学习
importioimporttimeimportsocketimportpyautoguidefcapture_and_send_image():whileTrue:try:#pil_image=Image.new("RGB",(160,90),(255,255,255))##截图screenshot=pyautogui.screenshot()##缩小图片new_size=(screenshot
python里permission denied错误是什么_Python错误：PermissionError: [Errno 13] Permission denied 如何解决... weixin_39954889 denied错误是什么
相关推荐2019-12-2014:41−zabbix启动报错cannotsetresourcelimit:[13]Permissiondenied1、zabbix-server启动报错报错信息如下：1668:20191220:140823.988usingconfiguratio...02152019-12-0914:59−作者：warm3snow出处：http://www.cnblogs.com
python权限不够无法写入_解决python使用pip安装模块的权限问题 weixin_39922929 python权限不够无法写入
ubuntu16.04下默认的python和pip1.ubuntu16.04默认安装了两个版本的python,python2.7和python3.5,可以使用python-V查看版本命令行中python是2.7版本,python3是python3.5版本请注意，系统自带的python千万不能卸载！2.ubuntu默认没有装pip,我们一般用sudoapt-getinstallpip,这样安装的是p
python 只用opencv吗,python – OpenCV：使用solvePnP来确定单应性 weixin_39934296 python 只用opencv吗
在过去的几周里,我尝试学习纠正图像,并在这里的人们的帮助下,我已经设法更好地理解它.大约一个星期前,我设置了一个我想要纠正的测试示例(从上面查看图像).这很好(原始：http://sitedezign.net/original.jpg和纠正：http://sitedezign.net/rectified.jpg)功能T=cv2.getPerspectiveTransform(UV_cp,XYZ_g
opencv python视频教程-OpenCV视频操作 weixin_37988176
使用工具Python3.5，使用库numpy；opencv1.用摄像头捕获视频cv2.VideoCapture()：0为默认计算机默认摄像头，1可以更换来源；~~~importnumpyasnpimportcv2cap=cv2.VideoCapture(0)while(True):#captureframe-by-frameret,frame=cap.read()#ouroperationonth
ARC碱金属Rydberg状态计算器软件包-2.0.1 夏勇兴
本文还有配套的精品资源，点击获取简介：此标题"ARC_Alkali_Rydberg_Calculator-2.0.1-cp27-macosx_10_6_x86_64.whl"为一个特定版本的PythonWheel软件包，旨在计算碱金属原子的Rydberg状态。适用于Python2.7版本，专为macOS10.6（SnowLeopard）64位架构设计。Rydberg状态是原子物理学中的一个重要概念
Pycharm报错Python error: PermissionError: [Errno 13] Permission denied: 码农界的小小学生 python
Pycharm报错Pythonerror:PermissionError:[Errno13]Permissiondenied:在pycharm中读取csv文件时，出现错误PermissionError:[Errno13]Permissiondenied:。看了大部分博客说是因为文件权限问题，或者文件被手动打开，这两个方法都试了试后，无效。解决问题的方法：配置Python编译器时将ScriptPat
pymoo：Python中的多目标优化框架葛梓熙
pymoo：Python中的多目标优化框架pymoo项目地址:https://gitcode.com/gh_mirrors/pym/pymoo项目介绍pymoo是一个开源的多目标优化框架，专为Python开发者设计。它提供了最先进的单目标和多目标优化算法，以及与多目标优化相关的多种功能，如可视化和决策支持。无论你是学术研究者还是工业应用开发者，pymoo都能帮助你轻松实现复杂的多目标优化任务。项目
chatgpt赋能Python-python_pyomo atest166 ChatGpt python chatgpt 开发语言
PythonPyomo:优化问题解决利器PythonPyomo是一个开源的Python优化建模语言工具箱。它提供了一种简单灵活的方法来描述优化问题，并在可行性、线性、非线性、混合整数和二次规划等方面提供广泛的建模和求解功能。优点灵活:Pyomo可以通过对象导向编程方式来描述优化问题，而无需使用特定的语法或格式。它提供了一种比传统表格方式更灵活的方式来表示问题。可扩展:Pyomo的建模框架可以很容易
使用Python调用OpenCV中的solvePnP函数 WzisTypescript python opencv 开发语言 OpenCV
OpenCV是一个广泛使用的计算机视觉库，它提供了许多用于处理图像和视频的功能。其中一个重要的功能是解决透视投影问题，也就是通过已知的3D点和对应的2D图像点来计算相机的位姿。在OpenCV中，solvePnP函数就是用于解决这个问题的。solvePnP函数使用了一种称为Perspective-n-Point（PnP）问题的算法，它可以估计相机的旋转和平移向量，从而确定相机在3D空间中的位置。这对
python-leetcode-翻转二叉树 Joyner2018 leetcode 算法职场和发展
226.翻转二叉树-力扣（LeetCode）#Definitionforabinarytreenode.#classTreeNode:#def__init__(self,val=0,left=None,right=None):#self.val=val#self.left=left#self.right=rightclassSolution:definvertTree(self,root:Opti
python2 中使用pip2 install package_name的时候报错：AttributeError: ‘int‘ object has no attribute ‘endswith‘ 点亮~黑夜 16—各种错误和bug（你的痛我的痛痛痛痛）python
文章目录1错误说明2错误解决方式1错误说明1、在python2的环境下使用pip2install安装库包的时候报错：AttributeError:'int'objecthasnoattribute'endswith'2、具体报错信息如下(base)shl@zhihui-mint:~/tools$pip2installpyquaternionException:Traceback(mostrecen
OpenCV实现Python视频播放控制详解夏勇兴
本文还有配套的精品资源，点击获取简介：本文详细介绍了如何使用OpenCV库在Python环境中播放视频，并展示了实现视频快进、后退控制的方法。首先通过cv2.VideoCapture()函数实现基础播放，然后利用set(cv2.CAP_PROP_FPS)函数控制播放速度实现快进和慢速播放，最后结合cv2.CAP_PROP_POS_MSEC属性实现精确的快进和后退。开发者可以根据实际需求选择合适的方
CentOS7 编译安装Python3.12 topxiasz linux python
Tom更新于2024.8.201.说明CentOS7已成为历史，不过很多人还在这段是历史奋战。Python2的Python2.7.5是CentOS7默认安装的版本;Python3的Python3.6.8是CentOS7可以通过默认repo，直接用yum安装的版本。yuminstall-ypython3本文主要针对CentOS7中较高版本如3.12的编译安装。2.安装OpenSSL-1.1.1根据P
note: This error originates from a subprocess，and is likely not a problem with pip异常嚯呀怪怪怪 pip 后端 python 运维 pycharm 服务器
note:Thiserrororiginatesfromasubprocess，andislikelynotaproblemwithpip异常这个错误提示表明问题可能源自pip所调用的子进程，而不是pip本身的问题。可能的原因包括：环境问题：Python环境（如虚拟环境）没有正确配置。库或Python版本之间的冲突。权限问题，导致pip无法执行子进程。系统问题：系统依赖或工具（如gcc、make）
【问题解决】| 关于This error originates from a subprocess, and is likely not a problem with pip问题 Qodicat 问题解决 pip
写代码配环境的时候，无意间碰到这样一个问题Thiserrororiginatesfromasubprocess,andislikelynotaproblemwithpip查了网上的博客之后，大概的意思是——这个库和python版本不兼容，python版本过高导致一般只需要降低python版本，或者升高库的版本即可解决问题的过程中收获两个小的知识点1、pip可以搜索到很多版本，比如我们输入pipin
Python 3.12安装库报错 m0_47156047 python 开发语言
报错如下：AttributeError:module'pkgutil'hasnoattribute'ImpImporter'.Didyoumean:'zipimporter'?这是因为Python3.12移除了对pkgutil.ImpImporter的支持，而某些库（例如setuptools或numpy的旧版本）依赖于旧的导入机制。解决方案1.降级到兼容的Python版本numpy和一些旧的依赖库
机器视觉python+opencv函数库：一二师弟_k opencv python
对此图片进行操作：代码部分：第一步：importcv2#导入opencv函数库img_test=cv2.imread(r"C:\Users\12044\Desktop\test.png")#读取图像，img_test为原图名称cv2.imshow("image",img_test)#显示图像，引号中的内容为图像显示窗口的名称，即“image”cv2.waitKey(0)#等待事件触发，参数0表示永
超实用的 30 段 Python 案例（上） Python之栈 python 开发语言
Python是目前最流行的语言之一，它在数据科学、机器学习、web开发、脚本编写、自动化方面被许多人广泛使用。它的简单和易用性造就了它如此流行的原因。如果你正在阅读本文，那么你或多或少已经使用过Python或者对Python感兴趣。在本文中，我们将会介绍30个简短的代码片段，你可以在30秒或更短的时间里理解和学习这些代码片段。1.检查重复元素下面的方法可以检查给定列表中是否有重复的元素。它使用了s
cv python_python里面cv是什么意思 weixin_40004659 cv python
OpenCV(OpenSourceComputerVisionLibrary)开放源代码计算机视觉库，主要算法涉及图像处理、计算机视觉和机器学习相关方法。OpenCV其实就是一堆C和C++语言的源代码文件，这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV由一系列C函数和C++类构成，它有C，C++，Python和java接口，当前SDK(SoftwareDevelopmentKit软件
python实现坐标系转换_python – 执行坐标系转换的库？ weixin_39622150 python实现坐标系转换
您可以使用shapely库：http://toblerity.org/shapely/manual.htmlfromshapely.geometryimportPointfromfunctoolsimportpartialimportpyprojfromshapely.opsimporttransformpoint1=Point(9.0,50.0)print(point1)project=part
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的