Python使用xpath实现图片爬取

高性能异步爬虫

目的：在爬虫中使用异步实现高性能的数据爬取操作

异步爬虫的方式：

- 多线程、多进程（不建议）：

好处：可以为相关阻塞的操作单独开启多线程或进程，阻塞操作就可以异步执行;

弊端：无法无限制的开启多线程或多进程。

- 线程池、进程池（适当的使用）：

好处：我们可以降低系统对进程或线程创建和销毁的一个频率，从而很好的降低系统的开销；

弊端：池中线程或进程的数据是有上限的。

代码如下

# _*_ coding:utf-8 _*_
"""
@FileName  :6.4k图片解析爬取（异步高性能测试）.py
@CreateTime :2020/8/14 0014 10:01
@Author   : Lurker Zhang
@E-mail   : [email protected]
@Desc.   :
"""

import requests
from lxml import etree
from setting.config import *
import json
import os
import time
from multiprocessing.dummy import Pool


def main():
  # 图片采集源地址
  # source_url = 'http://pic.netbian.com/4kmeinv/'
  # temp_url = 'http://pic.netbian.com/4kmeinv/index_{}.html'
  # source_url = 'http://pic.netbian.com/4kdongman/'
  # temp_url = 'http://pic.netbian.com/4kdongman/index_{}.html'
  source_url = 'http://pic.netbian.com/4kmingxing/'
  temp_url = 'http://pic.netbian.com/4kmingxing/index_{}.html'
  # 本此采集前多少页,大于1的整数
  page_sum = 136
  all_pic_list_url = []
  if page_sum == 1:
    pic_list_url = source_url
    print('开始下载:' + pic_list_url)
    all_pic_list_url.append(pic_list_url)
  else:
    # 先采集第一页
    pic_list_url = source_url
    # 调用采集单页图片链接的函数
    all_pic_list_url.append(pic_list_url)
    # 再采集第二页开始后面的页数
    for page_num in range(2, page_sum + 1):
      pic_list_url = temp_url.format(page_num)
      all_pic_list_url.append(pic_list_url)
  # 单页图片多线程解析
  pool1 = Pool(10)
  pool1.map(down_pic, all_pic_list_url)

  print('采集完成，本地成功下载{0}张图片,失败{1}张图片。'.format(total_success, total_fail))
  # 存储已下载文件名列表：
  with open("../depository/mingxing/pic_name_list.json", 'w', encoding='utf-8') as fp:
    json.dump(pic_name_list, fp)


def down_pic(pic_list_url):
  print("准备解析图片列表页：",pic_list_url)
  # 获取图片列表页的网页数据
  pic_list_page_text = requests.get(url=pic_list_url, headers=headers).text
  tree_1 = etree.HTML(pic_list_page_text)
  # 获取图片地址列表
  pic_show_url_list = tree_1.xpath('//div[@class="slist"]/ul//a/@href')
  pic_url_list = [get_pic_url('http://pic.netbian.com' + pic_show_url) for pic_show_url in pic_show_url_list]

  # 开始下载并保存图片(多线程)
  pool2 = Pool(5)
  pool2.map(save_pic, pic_url_list)


def save_pic(pic_url):
  print("准备下载图片：",pic_url)
  global total_success, total_fail, pic_name_list,path
  picname = get_pic_name(pic_url)
  if not picname in pic_name_list:
    # 获取日期作为保存位置文件夹

    pic = requests.get(url=pic_url, headers=headers).content
    try:
      with open(path + picname, 'wb') as fp:
        fp.write(pic)
    except IOError:
      print(picname + "保存失败")
      total_fail += 1
    else:
      pic_name_list.append(picname)
      total_success += 1
      print("成功保存图片:{0},共成功采集{1}张。".format(picname, total_success))

  else:
    print("跳过，已下载过图片：" + picname)
    total_fail += 1


def get_pic_name(pic_url):
  return pic_url.split('/')[-1]


def get_pic_url(pic_show_url):
  tree = etree.HTML(requests.get(url=pic_show_url, headers=headers).text)
  return 'http://pic.netbian.com/' + tree.xpath('//div[@class="photo-pic"]/a/img/@src')[0]


if __name__ == '__main__':
  # 读入已采集图片的名称库，名称存在重复的表示已经采集过将跳过不采集
  if not os.path.exists('../depository/mingxing/pic_name_list.json'):
    with open("../depository/mingxing/pic_name_list.json", 'w', encoding="utf-8") as fp:
      json.dump([], fp)
  with open("../depository/mingxing/pic_name_list.json", "r", encoding="utf-8") as fp:
    pic_name_list = json.load(fp)
  path = '../depository/mingxing/' + time.strftime('%Y%m%d', time.localtime()) + '/'
  if not os.path.exists(path):
    os.mkdir(path)
  # 记录本次采集图片的数量
  total_success = 0
  total_fail = 0
  main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

你可能感兴趣的:(Python使用xpath实现图片爬取)

NAT的核心原理以及配置 YC运维华三运维实验服务器网络华三NAT
NAT（NetworkAddressTranslation，网络地址转换）是解决IPv4地址资源枯竭的关键技术，其核心作用是在私有网络（内部网络）与公共网络（外部网络）的边界设备上，对数据包的IP地址和端口信息进行转换，实现私有IP地址与公网IP地址的映射，从而让多个内部主机共享少量公网IP访问外部网络，或让外部网络访问内部特定服务。一、NAT核心原理概述1.NAT的核心作用节省公网IP资源：通过
STM32与树莓派通信 bing_feilong 硬件嵌入式硬件
STM32与树莓派（RaspberryPi）的通信常见方案及实现步骤：1.UART串口通信（最简单）适用场景：短距离、低速数据交换（如传感器数据、调试信息）。硬件连接：STM32引脚树莓派引脚备注TXRX(GPIO15)交叉连接RXTX(GPIO14)交叉连接GNDGND共地软件配置：STM32端（使用HAL库）：UART_HandleTypeDefhuart1;huart1.Instance=U
2018-06-27 Sammy_S
天气越来越炎热，身体的反应也越来越严重，支撑我的是小伙伴们的能量和信念。吃碗长寿面，明天继续…图片发自App
【人工智能之深度学习】1. 深度学习基石：神经元模型与感知机的数学本质（附代码实现与收敛性证明） AI_DL_CODE 人工智能之深度学习人工智能深度学习神经元模型感知机赫布法则深度学习基础线性可分
摘要：作为深度学习的基础单元，神经元模型与感知机承载着从生物智能到人工神经网络的桥梁作用。本文从生物神经元的工作机制出发，系统剖析数学建模过程：详解赫布法则的权重更新原理（Δwi=η·xi·y），推导McCulloch-Pitts神经元模型的数学表达（y=Θ(∑wixi−b)），重点证明感知机在linear可分情况下的收敛性——通过Novikoff定理严格推导迭代次数上界，揭示间隔γ对收敛速度的影
如果生命注定不能富裕，请依旧坚持你的温度期待命运发生转折
“勿忘初心，方得始终。”什么时候我们开始忘了自己来时的初衷?图片发自App社会不同于学校，她比学校色彩更丰富。也正是因为这样，社会的深色调更像极了黑色，再纯洁的人一不小心也会被晕染，从而让他人觉得冷冰冰。壹前几天，因为廖姐管理不当，不得不将出租屋交回。其实这个出租屋是廖姐出于信任从朋友手里接来的，后来才知道被这个朋友坑了一大笔。整件事中介也是心知肚明的。现在她却又遭到了中介的一顿变态式的折磨。因为
《那时曾年少》：第四十八章变故紫陌欣妍
图片来源：堆糖网听苏妍妈妈讲完后，陈思语的心情有点沉重。按理来说这是家事，不会到处宣扬的，但苏妍妈妈应该是太难受了，苏妍爸爸现在不在家，只有她一个人，电话响了都不敢接的，她都快被逼疯了，最后接了电话发现是苏妍的同学，这才松了一口气。苏妍妈妈对陈思语还有印象，知道这是女儿最好的朋友，再加上陈思语打电话过来也是关心苏妍，她便卸下防备，把事情和陈思语说了，并且希望陈思语可以帮忙劝劝苏妍，让她千万想开点。
深入理解备忘录模式：状态保存与恢复的艺术 vvilkin的学习备忘设计模式备忘录模式
备忘录模式（MementoPattern）是一种强大的行为设计模式，它允许我们在不破坏封装性的前提下捕获并外部化对象的内部状态，以便后续能够将对象恢复到先前的状态。这种模式在需要实现撤销操作、历史记录或状态恢复功能的系统中具有重要价值。一、备忘录模式概述备忘录模式由三个核心角色组成：Originator（发起人）：需要保存和恢复状态的对象Memento（备忘录）：存储Originator内部状态的
《宋词三百首》73 顧勇詩書
图片发自App苏轼水龙吟·次韵章质夫杨花词似花还似非花，也无人惜从教坠。抛家傍路，思量却是，无情有思。萦损柔肠，困酣娇眼，欲开还闭。梦随风万里，寻郎去处，又还被莺呼起。不恨此花飞尽，恨西园，落红难缀。晓来雨过，遗踪何在？一池萍碎。春色三分，二分尘土，一分流水。细看来，不是杨花，点点是离人泪。
企业未来的创新方向沐希sun
现如今人们日常生活的需求几乎已经得到满足，甚至有些已是供大于需的状态。我们会发现越来越多同类企业崛起，和大量同质化商品被生产，而一个新产品要想完全从0到1被创造出来的可能性是微乎极微的。嘿，但我们也不用感到沮丧，这并不意味着没有生存发展的机会了。图片发自App细想中国乃至全球现社会，几乎所有的产业都处于变革重组的过程中，今年一直反复无常的经济市场就正好侧面的印证了这一点。当然由于各国实际情况的不同
match_phrase_prefix实现search-time搜索推荐 Shaw_Young
搜索推荐，searchasyoutype，搜索提示，解释一下什么意思hellow-->搜索helloworldhellowehellowinhellowindhellodoghellocathellow-->helloworldhellowehellowinhellowind搜索推荐的功能百度-->elas-->elasticsearch-->elasticsearch权威指南GET/my_ind
Agora_Unity_WebGL：实时互动的WebGL解决方案
Agora_Unity_WebGL：实时互动的WebGL解决方案项目介绍Agora_Unity_WebGL是一个开源的UnityWebGL插件，它是对AgoraWebSDK4.x版本的封装。这个项目旨在为开发者提供一种在Unity中轻松集成实时音视频互动功能的方法，特别适用于需要在Web平台运行的Unity项目。通过这个插件，开发者可以快速地实现实时音频、视频通信以及直播等功能。项目技术分析Ago
Kubernetes存储入门
目录前言一、Volume的概念二、Volume的类型常见的卷类型Kubernetes独有的卷类型三、通过emptyDir共享数据1.编写emptyDir的Deployment文件2.部署该Deployment3.查看部署结果4.登录Pod中的第一个容器5.登录Pod中的第二个容器查看/mnt下的文件6.删除此Pod四、使用HostPath挂载宿主机文件1.编写Deployment文件，实现Host
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
事务注解可能失效的几种可能原因 ℡余晖^ 黑马点评项目相关问题和笔记 java jvm 开发语言
在黑马点评项目的学习过程中，我遇到了事务失效的问题，其中提到了事务失效的可能原因，本文就来简单了解一下事务实现的可能原因是什么。Spring事务的生效机制、自调用失效原因及常见失效场景，可从以下维度详细解析：一、Spring如何确保事务生效？Spring事务的核心实现依赖AOP（面向切面编程）和动态代理，其核心流程如下：1.代理对象的生成Spring通过@Transactional注解标记需要事务
实现分布式锁
在黑马点评项目中，在实现分布式锁的时候提到了实现的几种方式，本文来简单了解一下。一、MySQL、Redis、ZooKeeper是不是都是“数据库”？严格来说，三者的定位和功能差异很大，但广义上都可以视为“数据存储系统”，不过它们的核心设计目标和适用场景完全不同。我们可以从“数据模型”和“核心用途”两个维度区分：类型MySQLRedisZooKeeper核心定位关系型数据库（OLTP，事务型存储）内
三大工厂设计模式狗头 | 软件技术导航前端
1.简单工厂模式1.1需求入手从需求进行入手，可以更深入的理解什么是设计模式。有一个制作披萨的需求：需要便于扩展披萨的种类，便于维护。1.披萨的种类有很多：GreekPizz，CheesePizz等2.披萨的制作流程：prepare（制作）=>bake（烘烤）=>cut（切开）=>box（打包）3.完成披萨店的订购功能。1.2使用传统的方式进行实现1.2.1披萨抽象类进行定义抽象披萨类，这个抽象类
每日面试题01 HashMap的底层原理 ℡余晖^ 每日面试题 java 开发语言
一、HashMap的核心存储结构HashMap是基于数组+链表+红黑树的复合数据结构实现的（JDK1.8及以后）。其核心设计目标是通过哈希函数将键（Key）映射到数组的某个下标位置，从而实现O(1)时间复杂度的增删改查操作（理想情况）。初始结构：动态数组HashMap底层维护一个Node[]table数组（JDK1.8起），默认初始容量为16（DEFAULT_INITIAL_CAPACITY=11
关于浏览器扩展脚本：remove-web-limits(网页限制解除) vvandre 前端
本文介绍浏览器扩展脚本：remove-web-limits(网页限制解除)实现的功能和安装步骤，还会详细分析脚本的代码，让你对实现原理一目了然。此脚本通杀大部分网站，可以解除禁止复制、剪切、选择文本、右键菜单的限制。脚本基本不影响网页正常功能，如果影响了任何功能，可以暂时禁用脚本解决。脚本已有10年的历史，原作者已经暂停维护。remove-web-limits发布地址一、安装步骤1.安装扩展程序C
天才？蠢材？佳佳_a954
我想，每个人都有自己擅长的东西吧？这是我一直都坚信的事，也许只是自己没有发现而已。我自己看了一下，其实，所谓的擅长，就是自己喜欢的东西，或者需要的东西，总有一个原因，或是兴趣，或是不得不去做的原因，让我们去深入了解，从而变成我们所擅长的。我记得在书上看过，一万个小时定律，是从普通到天才的一个蜕变。一样东西，当你花了足够的时间去专研，你也能成为专家。图片发自App就像著名的主持人董卿，很多人都很喜欢
部署Zabbix企业级分布式监控 YUNYINGXIA Zabbix
目录一、监控系统概述1.1监控的重要性1.2监控类型1.3监控层次划分二、监控系统的实现原理2.1模块组成2.2采集协议2.3监控模式2.4代理架构三、监控系统的开源产品四、Zabbix系统概述4.1初识zabbix4.2Zabbix的功能特性4.3Zabbix角色及架构五、部署流程5.1资源清单5.2基础环境配置5.3部署zabbixserver5.4zabbix页面配置5.5部署proxy5.
10月12日~14日周末作业小流江海a
本周作业完成较差的学生有：肖嘉豪、凌嘉懿、唐天奇、涂嘉兴、冯阳、唐杨欣、达诗妍、曾蓓、刘安琪、陆思思、朱俊杰、肖启晨、张睿等，请各位家长平时要及时检查小孩的作业是否完成，告诉他们每天来校要把作业给组长检查，不能只顾着玩。图片发自App
每日面试题11：JVM
深入理解JVM：Java的“心脏”如何驱动程序运行？为什么需要JVM？你是否想过，为什么用Java写的程序，能在Windows、Linux、macOS上“无缝运行”？为什么开发者无需为不同操作系统重写代码？这背后的核心功臣，正是Java虚拟机（JavaVirtualMachine，JVM）。JVM是Java生态的“基石”，它不仅实现了“一次编写，随处运行”的跨平台特性，还通过内存管理、垃圾回收等机
我与神的对话珂月小馨
图片发自App一个迷糊夜晚，我听着耶稣基督教堂的钟声，闻声来到了耶稣十字架脚下，我赤裸着并不秀气的双脚，静静的仰望着十字架，木质十字架已经有了相当的年代感，上面的铁钉已经锈迹斑斑，木头已经发黑，布满了虫洞，此时此刻，十字架空空如也，我不经觉得悲凉起来，又仿佛如此的沉重而哀痛。因为我眼前的十字架背负了太多的故事，此刻，在我眼里，这个木架子神圣而伤感。图片发自App我沉默了许久，在十字架下面赤裸着双脚
自编码器表征学习：重构误差与隐空间拓扑结构的深度解析码字的字节机器学习自编码器重构误差隐空间
自编码器基础与工作原理自编码器（Autoencoder）作为深度学习领域的重要无监督学习模型，其核心思想是通过模拟人类认知过程中的"压缩-解压"机制实现数据的表征学习。这种由GeoffreyHinton团队在2006年复兴的神经网络结构，本质上是一个试图通过编码-解码过程来复制其输入的系统，却在实现这一看似简单目标的过程中，意外地获得了强大的特征提取能力。基本架构与工作流程典型自编码器由对称的两部
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
坚定理想信念，奏响“青春最强音” 小钒没烦恼
“青年强，则国家强。当代中国青年生逢其时，施展才干的舞台无比广阔，实现梦想的前景无比光明。”这是习总书记在中国共产党第二十次全国代表大会上，对当代青年的殷切希望。青年干部作为青年的一份子，更应该把心紧紧同党贴在一起。同时，党的二十大报告中也向广大青年发起号召，提出“立志做有理想、敢担当、能吃苦、肯奋斗的新时代好青年”的要求。面对全面建设社会主义现代化国家、全面推进中华民族伟大复兴的重要时刻，中国青
LeetCode 每日一题 2024/10/21-2024/10/27 alphaTao Exercise leetcode 算法
记录了初步解题思路以及本地实现代码；并不一定为最优也希望大家能一起探讨一起进步目录10/21910.最小差值II10/223184.构成整天的下标对数目I10/233185.构成整天的下标对数目II10/243175.找到连续赢K场比赛的第一位玩家10/253180.执行操作可获得的最大总奖励I10/263181.执行操作可获得的最大总奖励II10/27684.冗余连接10/21910.最小差值I
vue自定义组件实现v-model双向数据绑定小李大魔王前端开发 vue vue.js javascript 前端
一、Vue2实现自定义组件双向数据绑定①v-model实现双向数据绑定在vue2中，子组件上使用v-model的值默认绑定到子组件的props.value属性上，由于子组件不能改变父组件传来的属性，所以需要通过$emit触发事件使得父组件中数据的变化，然后再同步到子组件。vue2默认触发v-model数据变化的事件为input。使用如下：子组件MySon 双向数据绑定：{{$props.val
Java数据结构之用双向链表实现栈的入栈和出栈操作
packageLinkList;//使用双链表定义栈的基本操作publicclassStackByDoubleLinkextendsDoubleLinkList{//栈继承自双链表//DoubleNodehead=null;//双链表压栈操作---向双链表插入一个元素publicvoidpush(inta){HeadInsertLinkList(a);//返回压栈后的链表}//双链表出栈操作---
江南枕梦vivian
有人说，江南的小巷是历史留给现实的入口。是啊！雨后的江南小巷是心灵的圣地，心在红尘中沾满尘埃，不能辨识来去，不妨就让这江南雨巷的烟雨旧梦浸润你已疲惫的心灵！轻轻的走进小巷。暮春的细雨在两旁的瓦楞上跳跃，忽而又顽皮地跳到青石板的路上，和他们在青石板上的伙伴们嬉笑着，喧哗着。踩在青石板的路上，这一刻，随着细雨，滑入历史的最深处……图片发自App
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他