Scrapy框架介绍之Puppeteer渲染的使用

1、Scrapy框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

2、Puppeteer渲染

Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包，用来模拟 Chrome 浏览器的运行。
为了爬取js渲染的html页面，我们需要用浏览器来解析js后生成html。在scrapy中可以利用pyppeteer来实现对应功能。
完整代码 scrapy-pyppeteer.zip
我们需要新建项目中middlewares.py文件(./项目名/middlewares.py)

import websockets
from scrapy.http import HtmlResponse
from logging import getLogger
import asyncio
import pyppeteer
import logging
from concurrent.futures._base import TimeoutError
import base64
import sys
import random

pyppeteer_level = logging.WARNING
logging.getLogger('websockets.protocol').setLevel(pyppeteer_level)
logging.getLogger('pyppeteer').setLevel(pyppeteer_level)

PY3 = sys.version_info[0] >= 3


def base64ify(bytes_or_str):
  if PY3 and isinstance(bytes_or_str, str):
    input_bytes = bytes_or_str.encode('utf8')
  else:
    input_bytes = bytes_or_str

  output_bytes = base64.urlsafe_b64encode(input_bytes)
  if PY3:
    return output_bytes.decode('ascii')
  else:
    return output_bytes


class ProxyMiddleware(object):
  USER_AGENT = open('useragents.txt').readlines()

  def process_request(self, request, spider):
    # 代理服务器
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理隧道验证信息
    proxyUser = "username"
    proxyPass = "password"

    request.meta['proxy'] = "http://{0}:{1}".format(proxyHost, proxyPort)

    # 添加验证头
    encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
    request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

    # 设置IP切换头(根据需求)
    tunnel = random.randint(1, 10000)
    request.headers['Proxy-Tunnel'] = str(tunnel)
    request.headers['User-Agent'] = random.choice(self.USER_AGENT)


class PyppeteerMiddleware(object):
  def __init__(self, **args):
    """
    init logger, loop, browser
    :param args:
    """
    self.logger = getLogger(__name__)
    self.loop = asyncio.get_event_loop()
    self.browser = self.loop.run_until_complete(
      pyppeteer.launch(headless=True))
    self.args = args

  def __del__(self):
    """
    close loop
    :return:
    """
    self.loop.close()

  def render(self, url, retries=1, script=None, wait=0.3, scrolldown=False, sleep=0,
        timeout=8.0, keep_page=False):
    """
    render page with pyppeteer
    :param url: page url
    :param retries: max retry times
    :param script: js script to evaluate
    :param wait: number of seconds to wait before loading the page, preventing timeouts
    :param scrolldown: how many times to page down
    :param sleep: how many long to sleep after initial render
    :param timeout: the longest wait time, otherwise raise timeout error
    :param keep_page: keep page not to be closed, browser object needed
    :param browser: pyppetter browser object
    :param with_result: return with js evaluation result
    :return: content, [result]
    """

    # define async render
    async def async_render(url, script, scrolldown, sleep, wait, timeout, keep_page):
      try:
        # basic render
        page = await self.browser.newPage()
        await asyncio.sleep(wait)
        response = await page.goto(url, options={'timeout': int(timeout * 1000)})
        if response.status != 200:
          return None, None, response.status
        result = None
        # evaluate with script
        if script:
          result = await page.evaluate(script)

        # scroll down for {scrolldown} times
        if scrolldown:
          for _ in range(scrolldown):
            await page._keyboard.down('PageDown')
            await asyncio.sleep(sleep)
        else:
          await asyncio.sleep(sleep)
        if scrolldown:
          await page._keyboard.up('PageDown')

        # get html of page
        content = await page.content()

        return content, result, response.status
      except TimeoutError:
        return None, None, 500
      finally:
        # if keep page, do not close it
        if not keep_page:
          await page.close()

    content, result, status = [None] * 3

    # retry for {retries} times
    for i in range(retries):
      if not content:
        content, result, status = self.loop.run_until_complete(
          async_render(url=url, script=script, sleep=sleep, wait=wait,
                 scrolldown=scrolldown, timeout=timeout, keep_page=keep_page))
      else:
        break

    # if need to return js evaluation result
    return content, result, status

  def process_request(self, request, spider):
    """
    :param request: request object
    :param spider: spider object
    :return: HtmlResponse
    """
    if request.meta.get('render'):
      try:
        self.logger.debug('rendering %s', request.url)
        html, result, status = self.render(request.url)
        return HtmlResponse(url=request.url, body=html, request=request, encoding='utf-8',
                  status=status)
      except websockets.exceptions.ConnectionClosed:
        pass

  @classmethod
  def from_crawler(cls, crawler):
    return cls(**crawler.settings.get('PYPPETEER_ARGS', {}))

然后修改项目配置文件 (./项目名/settings.py)

DOWNLOADER_MIDDLEWARES = {
    'scrapypyppeteer.middlewares.PyppeteerMiddleware': 543,
    'scrapypyppeteer.middlewares.ProxyMiddleware': 100,    
  }

然后我们运行程序

到此这篇关于Scrapy框架介绍之Puppeteer渲染的使用的文章就介绍到这了,更多相关Scrapy Puppeteer渲染内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

你可能感兴趣的:(Scrapy框架介绍之Puppeteer渲染的使用)

Python 爬虫实战：微博用户数据爬取 Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言微博作为国内最大的社交媒体平台之一，蕴含着大量有价值的公开数据。本文将详细介绍如何使用Python爬取微博数据，包括环境搭建、登录模拟、数据抓取、反爬应对、数据存储等完整流程。二、准备工作1.环境准备与工具选择1.1必需工具包安装爬虫所需的库：pipinstallrequestspandasbeautifulsoup4requests：发送HTTP请求。pandas：数据处理和分析。bea
android原生睡死,Android消息推送关键技术之休眠唤醒
为了节省电量，Android系统在一段时间不操作后，会进入休眠状态，Android6.0之后更是引入了Doze和Standby两种省电模式，达到进一步省电的目的。在这些省电模式下，会挂起一些设备的电源，限制网络访问和一些其它的后台操作，因此休眠自然也会影响到后台的推送服务。Android休眠机制由于Android系统是基于Linux内核的，所以Android系统地休眠机制也继承自Linux，并且在
安卓高版本HTTPS抓包：终极解决方案泡泡以安爬虫技术 #安卓逆向爬虫安卓逆向安卓抓包 https
尽管市场上存在众多抓包工具，但针对Android高版本设备进行HTTPS协议的数据包捕获时，通常需要将该工具的根证书安装至系统的特定目录中。本文将以Charles为例，介绍如何在Android系统中正确安装其根证书以实现HTTPS流量的拦截。一、修改证书名称首先启动Charles软件，通过访问菜单栏中的“Help”→“SSLProxying”→“SaveCharlesRootCertificate
熟练掌握RabbitMQ和Kafka的使用及相关应用场景。异步通知与解耦，流量削峰，配合本地消息表实现事务的最终一致性并解决消息可靠、顺序消费和错误重试等问题老三牛擦 skywalking
RabbitMQstock.#.nyse，#匹配多个字符，*匹配一个字符。ConfirmCallback到达exchange的回调。ReturnCallback到达queue失败的回调。KafkaKafka生产端分区器：1.直接指定partition指定0,1。2.设置hashkey，计算key的hash值进行取模分区。3.不设置分区键，采用粘性发送，即往某个分区发送至batchSize16K大小
Linux SSD 4k对齐 frank0060071 linux 运维服务器
简介：固态硬盘（SSD）在现代计算机中扮演关键角色，4K对齐是优化SSD性能和延长其寿命的重要步骤。本文介绍了4K对齐的概念、重要性、检查方法及对齐工具的使用。4K对齐涉及将数据扇区调整到4KB边界，以便提升读写速度和减少磨损。使用专门的磁盘管理工具和SSD对齐工具为什么SSD必须4K对齐？1.物理结构与读写机制擦除机制：SSD写入前需先擦除整个块（Block）（由多个页组成，如128页=512K
自动化工具ansible,以及playbook剧本
自动化工具ansible,以及playbook剧本这篇博客主要说的是，ansible,以及playbook和常用的模块首先先介绍ansibleansible是一个自动化的运维工具，基于python开发主要的功能，可以实现批量的部署程序，批量的执行命令ansible默认通过的是ssh的协议管理机器，无需配置任何服务，管理端部署好后就可以使用。应用的环境应用代码的自动化部署系统管路配置自动化支持持续交
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
Excel文件解析：操作系统与应用程序的分工你一身傲骨怎能输游戏工具链 excel
文章摘要本文介绍了操作系统和应用程序在Excel文件处理中的分工。操作系统仅负责文件存储管理和类型识别，不解析内容；而应用程序则负责解析Excel文件的具体格式。对于.xlsx文件，应用程序会先解压zip包，再解析其中的XML文件（如workbook.xml）重建表格数据。文章以C#的ExcelDataReader库为例，展示了从文件打开到数据读取的具体流程。总结指出：操作系统管文件存取，应用程序
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
CppCon 2018 学习:A Semi Compile/Run-time Map with (Nearly) Zero Overhead Looup 虾球xz CppCon 学习开发语言 c++
介绍一个C++和Java之间桥接（Bridge）系统的示例代码，它说明了如何在C++中调用Java类（如java.io.InputStream）的方法。下面是详细解读：一、内容来源说明《C++↔JavaBridge》目的：演示如何通过桥接层让C++直接调用Java方法（JNI背后封装）二、代码结构解读classInputStream//java.io.InputStream{public:inli
战损版JavaAgent方法耗时统计工具实现小满只想睡觉 jvm java 开发语言
前言本篇文章将实现一个超绝战损版的基于JavaAgent的方法耗时统计工具。整体内容分为：JavaAgent原理简析；方法耗时统计工具实现；方法耗时工具的Springboot的starter包实现。正文一.JavaAgent原理简析理解啥是JavaAgent前，需要先介绍一下JVMTI（JVMToolInterface）。JVMTI是JVM提供的用于访问JVM各种状态的一套编程接口。基于JVMTI
select、poll和epoll的区别 pigfu linux基础 linux select linux poll linux epoll select和epoll区别
文章目录概要一、多路复用I/O模型的诞生1.1多线程或进程方式1.2通过数组，链表等方式保存socketfd，不断轮询二、select三、poll四、epoll五、小结六、参考概要在Unix五种I/O模型一文中，提到了I/O多路复用模型，其在Linux下有3种实现方式：select、poll、epoll，本文主要深入介绍下它们各自特点。事先说明：I/O多路复用模型，select和poll核心就是【
window.location.href的介绍及使用じòぴé南冸じょうげん chrome 前端
目录介绍：获取当前URL设置新的URLURL的组成部分解析URL参数什么是片段标识符的URL？使用newURL：输出的部分解释：假如我们需要获取路径上的最后一级的路径名：介绍：window.location.href是JavaScript中一个非常常用的属性，它用于获取或设置当前窗口或标签页的URL。这个属性返回的是完整的URL。获取当前URL简单地使用获取当前页面的URL：console.log
[ 渗透测试面试篇 ] 渗透测试面试题大集合(详解)（4-2）XSS注入相关面试题寒蝉听雨[原ID_PowerShell] 面试总结渗透测试自学篇渗透测试面试分享渗透测试升职加薪网络安全 XSS注入面试题网络安全面试题 1024程序员节
博主介绍‍博主介绍：大家好，我是_PowerShell，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】点赞➕评论➕收藏==养成习惯（一键三连）欢迎关注一起学习一起讨论⭐️一起进步文末有彩蛋作者水平有限，欢迎各位大佬指点，相互学习进步！渗透方向的岗位，涉及到的知识点是很广泛的。这里我总结了整个一系列的面试题，可能没有覆盖到全部的知识面，但是应该是比较全面的
py每日spider案例之某website之古籍搜索我不是程序员~~~~ 爬虫项目实战 py
importrequestsheaders={"accept":"application/json,text/plain,*/*","accept-language":"zh-CN,zh;q=0.9","cache-control":"no-cache","cont
玄机-linux实战-挖矿无中生章 linux 运维服务器
玄机-linux实战-挖矿一，前言应急响应工程师在内网服务器发现有台主机cpu占用过高，猜测可能是中了挖矿病毒，请溯源分析，提交对应的报告给应急小组虚拟机账号密码rootwebsecyjxyweb端口为8081二，介绍1、黑客的IP是？flag格式：flag{黑客的ip地址}，如：flag{127.0.0.1}2、黑客攻陷网站的具体时间是？flag格式：flag{年-月-日时:分:秒}，如：fla
数据库领域数据仓库的星型模型与雪花模型对比数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent SQL实战数据库数据仓库 ai
数据库领域数据仓库的星型模型与雪花模型对比关键词：数据仓库、星型模型、雪花模型、数据建模、对比分析摘要：本文深入探讨了数据库领域数据仓库中的星型模型与雪花模型。首先介绍了数据仓库建模的背景知识，包括目的、预期读者和文档结构等。接着详细阐述了星型模型和雪花模型的核心概念、联系以及各自的架构特点，并通过Mermaid流程图进行直观展示。然后对两种模型的核心算法原理展开分析，结合Python源代码进行说
vue路由，本地存储，刷新页面（学习心得） 2301_78876497 vue.js 前端 javascript
简介：在使用vue单独做一个网站时，会使用到路由和本地存储，这次主要介绍我在学习路由和本地存储使用到的一种方法。路由：vue里面的路由类似于html内的a标签，使用前需要导入路由的包；这个一般使用了路由后会自动导入的，可以去main.js内查看是否有router的包导入。那么使用路由可以有三种方法:第一种：使用name+params的方法，这里的name是index.js内路由的namethis.
django form组件 fightingwy python django
djangoform组件：校验数据：校验数据，是后端的Form类对象通过render先渲染到前端，然后浏览器用户输入数据提交到后端，后端根据类中的字段设置的属性来判断数据是否合法。校验数据的步骤：第一步需要一个form类,其实就是表单类啦，我们不设置就是text：classMyForm(forms.Form):name=forms.CharField(max_length=8,min_length
Servlet 自动刷新页面沐知全栈开发开发语言
Servlet自动刷新页面引言在Web开发中，实现页面的自动刷新是一个常见的需求。这种需求通常出现在需要实时更新信息显示的场景中，例如股票行情、新闻资讯等。Servlet技术作为一种成熟的JavaWeb技术，为我们提供了实现这一需求的有效途径。本文将详细介绍如何利用Servlet技术实现自动刷新页面的功能。Servlet简介Servlet是Java平台的一部分，它允许Java代码运行在Web服务器
探索《非官方知乎 API》：解锁知乎数据潜能指南
探索《非官方知乎API》：解锁知乎数据潜能指南Unofficial-Zhihu-API深度学习模型自动识别验证码，python爬虫库自动管理会话，通过简单易用的API，实现知乎数据的爬取项目地址:https://gitcode.com/gh_mirrors/un/Unofficial-Zhihu-API项目介绍非官方知乎API是一个由社区贡献的开源工具，位于https://github.com/l
Linux编程——Makefile 使用
在先前的文章中，我们已经学习了gcc和gdb的使用。本节，我们将介绍Makefile的使用。Makefile带来的好处就是——“自动化编译”，一但写好，只需要一个make命令，整个工程便可以完全编译，极大的提高了软件的开发效率（特别是对于那些项目较大、文件较多的工程）。make是一个命令工具，最主要也是最基本的功能就是根据makefile文件中描述的源程序至今的相互关系来完成自动编译、维护多个源文
使用Python爬虫抓取免费音乐下载网站：从数据抓取到下载 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言
目录：前言爬虫基础知识什么是Web爬虫爬虫的工作原理抓取音乐下载网站的目标目标网站分析确定抓取数据的元素爬虫技术栈介绍Python爬虫的常用库requests库BeautifulSoup库Selenium库aiohttp和异步抓取抓取音乐下载网站的步骤选择目标网站并分析页面结构使用requests获取网页内容使用BeautifulSoup解析HTML解析音频文件下载链接使用Selenium抓取动态
WebRTC基础介绍
WebRTC全称为：WebReal-TimeCommunication。它是为了解决Web端无法捕获音视频的能力，并且提供了peer-to-peer（就是浏览器间）的视频交互。WebRTC汇集了先进的实时通信技术，包括：先进的音视频编解码器（Opus和VP8/9），强制加密协议（SRTP和DTLS）和网络地址转换器（ICE＆STUN）。根据最初的定义，WebRTC被指定为P2P（peer-to-p
【网络编程】EPOLL 事件触发机制的服务器啟明起鸣网络服务器运维
文章目录业务拆解EPOLL机制介绍EPOLL的核心变量和函数EPOLL程序流程图C代码实现准备工作服务器代码代码运行效果总结推荐一个零声教育学习教程，个人觉得老师讲得不错，分享给大家：[Linux，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK等技术内容，点击立即学习:https:/
Disruptor 介绍三石成山 java
Disruptor是由LMAX(一个金融交易平台)开发的一种高性能、低延迟的消息队列框架。它专为高吞吐量、低延迟的并发处理设计，能够极大地提升事件驱动架构的性能。Disruptor在许多实时系统中被广泛使用，尤其是在金融、游戏、日志处理等领域，具有与传统消息队列（如Kafka、RabbitMQ）不同的设计哲学和实现方式。链接LMAX-Exchange/disruptor:HighPerforman
【C#】【Unity 五子棋 2D 游戏技术实现】小李菜鸟 unity 游戏游戏引擎
一、系统概述该五子棋游戏基于Unity引擎开发，实现了15x15标准棋盘的2D对战功能，包含棋盘渲染、落子交互、胜负判定、悔棋和重新开始等核心功能。系统由两个主要脚本组成：Board2DSetup：负责棋盘界面的初始化，包括背景图像和网格线的生成Gobang2DGameManager：核心游戏逻辑管理，处理落子、胜负判定、UI交互等二、核心流程架构1.棋盘初始化流程1.加载棋盘背景图像，设置Rec
从零玩转CanMV-K230（9）-Timer、RTC、ADC、WDT、File 叶与花语 K230 人工智能 AI K230 python
文章目录前言一、Timer构造函数初始化销毁函数示例代码二、RTC构造函数initdatetime示例代码三、ADCAPI示例代码四、WDTAPI示例代码五、File示例代码总结前言本章介绍K230常用外设的使用方法，相关内容的详细介绍可以参考K210的教程，这里主要展示K230的使用代码一、Timer定时器（Timer）的作用在于生成精确的计时，当达到预设的时间点时，提醒我们进行特定的操作。Ti
泛型编程之完美转发发如雪-ty 模板与泛型编程 c++算法开发语言
首先简单介绍一下几个概念（1）直接调用：比如从main()主函数中调用funcLast()函数，这其实就叫做直接调用。（2）转发：从main()函数中调用funcMiddle()函数，通过funcMiddle()函数调用funcLast()函数，这就叫做转发，funcMiddle()函数被当作一个跳板函数。一般情况下跳板函数都写成一个函数模板。templatevoidfunc(T¶m){c
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他