zhang_Ming_lu

beautifulSoup实用基本用法

beautifulSoup

安装包

pip install beautifulsoup4

导入包

form bs4 import BeautifulSoup

1. 基本用法

beautifulSoup得到的是一个 bsObj 我们可以在它的基础上进行获取我们需要的信息

  
  
  
  from urllib.request import urlopen
  from bs4 import BeautifulSoup
  
  html = urlopen('')
  bsObj = BeautifulSoup(html.read())
  print(bsObj.h1)  # 获取 h1 标签
  
  # 获取 标签中的 class='green'的 span
  span = bsObj.findAll('span', {'class': 'green'})
  
  # 获取文本信息
  span.get_text()
  
  # 获取属性值
  span.attrs.get('attr')
  span.get('attr')

在获取文本信息时, 会将所有的标签信息都清除, 应该尽量避免这样, 尽量保存 HTML 文档的标签结构

find() 和 findAll()

findAll(tag, attributes, recursive, text, limit, keywords)
find(tag, attributes, recursive, text, keywords)

参数解释

tag - 可以传入一个或者多个标签名称组成的列表来查找, 将返回所有的包含要查找的标签的列表集合
attributes - 传入一个字典格式的属性和属性对应的值{'class', 'green'}
recursive - 递归参数, 是一个布尔变量, 默认为 True , 会查找需要的子标签以及子标签的子标签, False 只会查找文档的一级标签
limit - 只用于 findAll 方法, 获取需要的前几项, 一般是按照页面的顺序来排序的
keyword - 指定关键字, 可以更加具体的指定属性的标签, 注意使用class 是会造成冲突
- bsObj.findAll(id='text')
- bsObj.findAll('', {'id', 'text'})

可以直接获取 bsObj 对象的标签

bsObj.div.h1 获取 h1 标签 - 只对 bsObj 有效

NavigableString对象用来表示标签里的文字

Comment 对象用来表示文档中的注释

2. 导航树

bsObj.div.findAll('img') 找出文档中的第一个 div 然后获取这个 div 中所有的后代中的 img 标签列表

获取子标签

  
  
  # 获得表格中的所有的 子标签 (tr th  td) 的内容
  for child in bsObj.find('table', {'id', 'goo'}).children:
      print(child)

兄弟标签

bsObj.next_siblings 下一个兄弟标签

bsObj.previous_silblings 上一个兄弟标签

父标签

bsObj.parent 父标签

parents 和 parent 的区别

正则表达式和 `BeautiflSoup`

[^a-z] 表示不匹配包含在 [ ]中的内容, 例为不匹配a-z

?! 排除也表示不包含, 通常放在字符或者正则表达式的前面, 让后面的正则表达式排除不包含的内容例 ^(?![A-Z]).)*$ - 匹配.但不包含 A-Z

  
  
  import re
  
  from bs4 import BeautifulSoup
  
  
  ...
  bsObj = BeautifulSoup(html)
  images = bsObj.findAll("img", {"src", re.compile("\.\.\/img\/gifts/img.*\.jpg")})
  for image in images:
      print(iamge['src'])

获取属性

bsObj.attrs 获取全部属性, 得到的是一个字典

bsObj.attrs['src'] 获取 src 属性

Lambda 表达式

soup.findAll(lambda tag: len(tag.attrs) == 2) 获取满足属性的个数是 2 的标签

3. BeautifulSoup的解析器

3.1 Python标准库

  
  使用方法: BeautifulSoup(html_doc,"html.parser")
  
  优势：Python内置，执行速度适中，文档容错能力强
  
  劣势：Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
  123456

3.2 lxml解析器(推荐使用)

  
  使用方法：BeautifulSoup(html_doc,'lxml')
  
  优势：速度快，文档容错能力强（C编写），推荐使用
  1234

3.3 html5lib

  
  使用方法：BeautifulSoup(html_doc,"html5lib")
  
  优势：最好的容错性，已浏览器的方式解析文档，生成Html5格式的文档
  
  劣势：速度慢，不依赖外部扩展

你可能感兴趣的:(spider)

python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
python 多线程抓取xunlei磁力下载链接 weixin_53748624 python pycharm
importurllib.requestimportreimporttimeimportthreadingclassSpider(object):def__init__(self):#定义字典，用于保存影片信息self.films_dict={}self.i=1self.lock1=threading.Lock()defstart(self):#调用下载函数，获取下载连接forpageinrang
python类变量初始化_python中用函数初始化类变量 | 学步园 weixin_39573512 python类变量初始化
今天在写python的时候遇到一个问题:定义了一个list类型的类变量,但是这个list需要在初始化的时候给它加很多的url进去.这样的话我们就需要用倒函数了.结果自己刚开始这样写的:classTianyaSpider(CrawlSpider):definit_start():url_l=u'http://search.tianya.cn/s?tn=sty&rn=10&pn='url_r=u'&s
open-spider开源爬虫工具：抖音数据采集_抖音直播爬虫采集 2401_83817769 程序员爬虫
静态内容抓取是指从网页中直接提取信息的过程。这通常涉及到以下几个步骤：使用requests库发送HTTP请求，获取网页的原始数据。例如，你可以使用requests.get(url)来获取抖音首页的HTML内容。利用BeautifulSoup库对获取到的HTML进行解析。BeautifulSoup提供了丰富的方法来处理和提取HTML文档中的数据。例如，你可以使用find()或find_all()方法
【ttf压缩】网页开发中引入字体文件过大，加载缓慢的解决办法【字蛛】【web Font】 Luckstar_wei 技术 css html 字体 ttf压缩中文字体压缩
yueyemoyanweb中文字体演示与工具使用请前往主页：http://font-spider.org/需要安装node.js输入以下命令：npminstallfont-spider-g运行安装成功之后就开始压缩了我的目录是这样的我的css文件开头是这样的这里要确保ttf文件一定要有，其他的不管在你的html中也引用了相应的css文件接下来就是最后一步了生成新的字体库nodejs命令行输入fon
Python爬虫实战 weixin_34007879 爬虫 json java
引言网络爬虫是抓取互联网信息的利器，成熟的开源爬虫框架主要集中于两种语言Java和Python。主流的开源爬虫框架包括：1.分布式爬虫框架：Nutch2.Java单机爬虫框架：Crawler4j,WebMagic,WebCollector、Heritrix3.python单机爬虫框架：scrapy、pyspiderNutch是专为搜索引擎设计的的分布式开源框架，上手难度高，开发复杂，基本无法满足快
k8s｜组件基本概念 yygr 容器化 kubernetes docker 容器
https://baijiahao.baidu.com/s?id=1713521946056902545&wfr=spider&for=pc一.什么是kubernetes？kubernetes是一个可移植的，可扩展的开源平台，是Google开源的容器集群管理系统（谷歌内部:Borg)，用于管理容器化的工作负载和服务，可促进声明式配置和自动化。二.为什么使用kubernetes？k8s在Docker
easyspider weixin_30793643 python
#-*-coding:utf-8-*-"""CreatedonFriAug1815:58:132017@author:JClian"""importreimportbs4importurllib.requestfrombs4importBeautifulSoupimporturllib.parseimportsyssearch_item=input("Enterwhatyouwant(Enter'
21.7K Star力荐！跨平台的开源免费可视化爬虫，让数据采集不再是难题！科技Ins 实用工具爬虫
朋友们！你是否曾梦想着轻松地从网上抓取数据，却苦于编程技能的门槛？现在，有了EasySpider，这一切都变得触手可及！这不仅仅是一个工具，它是一个革命性的网络爬虫神器，让你能够像专业人士一样，无需编写一行代码，就能轻松设计和执行爬虫任务。无论是动态内容还是复杂页面，EasySpider都能帮你搞定。而且，它完全免费，开源，跨平台，还有活跃的社区支持。准备好了吗？让我们一探究竟，看看EasySpi
python分布式集群ray_GitHub - Leesire-Python/jd_spider: 两只蠢萌京东的分布式爬虫. weixin_39781930 python分布式集群ray
使用scrapy,scrapy-redis,graphite实现的京东分布式爬虫，以mongodb实现底层存储。分布式实现，解决带宽和性能的瓶颈，提高爬取的效率。实现scrapy-redis对进行url的去重以及调度，利用redis的高效和易于扩展能够轻松实现高效率下载：当redis存储或者访问速度遇到瓶颈时，可以通过增大redis集群数和爬虫集群数量改善版本支持现在支持Py2和Py3,但是需要注
NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示汀、人工智能 LLM工业级落地实践 prompt 人工智能自然语言处理大模型 LLM NL2SQL Text2SQL
NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2S
spiderkeeper 部署&操作 VictorChi
前言最近发现了一个spdierkeeper的库,这个库的主要用途是在于.配合这scrpyd管理你的爬虫,支持一键式部署,定时采集任务,启动,暂停等一系列的操作.简单来说将scrapyd的api进行封装,最大限度减少你跟命令行交互次数.不得说这个是很棒的事情.https://github.com/DormyMo/SpiderKeeperSpiderKeeper的github连接环境配置由于scrap
NL2SQL技术方案系列(4)：金融领域NL2SQL技术方案以及行业案例实战讲解2 汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL AI大模型
NL2SQL技术方案系列(4)：金融领域NL2SQL技术方案以及行业案例实战讲解2NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLco
NL2SQL进阶系列(4)：ConvAI、DIN-SQL、C3-浙大、DAIL-SQL-阿里等16个业界开源应用实践详解[Text2SQL] 汀、人工智能 LLM工业级落地实践人工智能自然语言处理大模型 LLM NL2SQL Text2SQL NLP
NL2SQL进阶系列(4)：ConvAI、DIN-SQL等16个业界开源应用实践详解[Text2SQL]NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GP
NL2SQL实践系列(2)：2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2NLP chat2DB
NL2SQL实践系列(2)：更多模型使用以及工业级案例NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源
科研绘图系列：R语言径向柱状图（Radial Bar Chart）生信学习者2 R语言可视化 r语言数据可视化
介绍径向柱状图（RadialBarChart），又称为雷达图或蜘蛛网图（SpiderChart），是一种在极坐标系中绘制的柱状图。这种图表的特点是将数据点沿着一个或多个从中心向外延伸的轴来展示，这些轴通常围绕着一个中心点均匀分布。特点：极坐标系统：数据点不是在直角坐标系中展示，而是在极坐标系中，围绕一个中心点。多维度数据展示：可以同时展示多个变量的数据，每个变量对应一个轴。视觉集中：所有数据点都围
scrapy中pipeline获取settings参数的方法极客探索者 Python python 爬虫网络爬虫
1、在scrapy的pipeline中，获取settings参数，可使用如下方式：defopen_spider(self,spider):settings=spider.settingsweb_dir_dict=settings.get('WEB_DIR_DICT',{})也可以采用如下方式：fromscrapy.utils.projectimportget_project_settings###
【选型】数据库 Mysql MariaDB 存储引擎选择我是Superman丶数据库架构心得数据库 mysql mariadb
【选型】数据库MysqlMariaDB存储引擎选择MariaDB新增十多个存储引擎，比较有特色的有：（1）Aria：适用于快速读取快速写入场景，替代为人诟病的MyISAM，支持事务，支持崩溃恢复；（2）TokuDB：适用于大数据量写入场景，支持事务，支持高压缩比，减少存储空间；（3）Spider：适用于水平分片场景，支持数据分片，将数据分布在多个服务器上；（5）DynamicComumns：支持动
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读汀、人工智能 LLM工业级落地实践 copilot 人工智能 NL2SQL LLM 自然语言处理 NL2DSL Text2SQL
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQ
Vuex状态管理 EO_eaf6
参考：https://baijiahao.baidu.com/s?id=1618794879569468435&wfr=spider&for=pc简单入门加实例：转自：https://www.jianshu.com/p/ff2adb84c7f2针对于vue之间各个组件的传值复杂问题使用vuex来管理状态值，值一旦被修改，所有引用的地方会自动更新index文件创建Vuex.Store实例保存到变量s
Scrapy入门学习晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑ Python scrapy 学习 python 开发语言笔记
文章目录Scrapy一.Scrapy简介二.Scrapy的安装1.进入项目所在目录2.安装软件包Scrapy3.验证是否安装成功三.Scrapy的基础使用1.创建项目2.在tutorial/spiders目录下创建保存爬虫代码的项目文件3.运行爬虫4.利用css选择器+ScrapyShell提取数据例如:Scrapy一.Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架，
寻参算法之蜘蛛猴优化算法 Network_Engineer 机器学习启发式算法算法深度学习人工智能机器学习
蜘蛛猴优化算法（SpiderMonkeyOptimization,SMO）来历蜘蛛猴优化算法（SpiderMonkeyOptimization,SMO）是受蜘蛛猴觅食行为启发的一种群体智能优化算法。该算法通过模拟蜘蛛猴在森林中觅食的行为，解决复杂的优化问题。自然界中的原型在自然界中，蜘蛛猴在觅食时会通过跳跃和移动寻找食物。蜘蛛猴群体通过信息共享和合作行为，能够高效地找到食物源。SMO通过模拟这一行
scrapy 爬取当当网-图书排行榜-多条件爬取韩小禹
自学爬虫框架scrapy，爬取当当网-图书排行榜练手目标：爬取当当网-图书畅销榜中的图书数据，要求各种条件的数据都要有。dangdang.pngspider#-*-coding:utf-8-*-importscrapyfromdd_book.itemsimportDdBookItemfromseleniumimportwebdriverfromselenium.common.exceptionsi
Python爬虫项目（附源码）70个Python爬虫练手实例！硬核Python 职业与发展 python 编程 python 爬虫开发语言
文章目录Python爬虫项目70例（一）：入门级Python爬虫项目70例（二）：pyspiderPython爬虫项目70例（三）：scrapyPython爬虫项目70例（四）：手机抓取相关Python爬虫项目70例（五）：爬虫进阶部分Python爬虫项目70例（六）：验证码识别技术Python爬虫项目70例（七）：反爬虫技术读者福利1、Python所有方向的学习路线2、Python课程视频3、精
分布式scrapy_redis源码总结，及其架构 Python之战
分布式scrapy的组件源码介绍完了，大致总结一下，相关组件目录如下：《RedisSpider的调度队列实现过程及其源码》《scrapy中scrapy_redis分布式内置pipeline源码及其工作原理》《scrapy分布式调度源码及其实现过程》《scrapy分布式Spider源码分析及实现过程》《scrapy分布式去重组件源码及其实现过程》《scrapy_redis中序列化源码及其在程序设计中
python 使用selenium等爬虫技术爬取某华网叶宇燚 Python python selenium 爬虫
本程序可以根据时间要求获取某华网上不同模块的新闻内容，时间要求包括设置截止日期，以及时间间隔，比如说获取距离2023-04-20一天以内的新闻。主要使用了selenium有关的爬虫技术，具体实现如下：目录目录一、SpiderXinhua类的基础属性二、日期获取与格式转换的函数timeinhref三、得到可用的网页链接need_hrefget四、单模块新闻获取xinhua_onemokuai_url
python从小白到大师-第一章Python应用（五）应用领域与常见包-爬虫安城安基本语言教程 python 爬虫开发语言后端服务器网络
目录一.爬虫1.1urllib1.2requests1.3scrapy1.4pySpider总结一.爬虫1.1urlliburllib是Python标准库中的一个模块，它提供了一组用于处理URL（统一资源定位符）的函数和类。通过urllib，我们可以方便地进行URL的解析、访问和处理。该模块主要包括以下几个子模块：urllib.request：用于发送HTTP请求和获取远程数据的模块。urllib
初识Spider GHope
SpiderSpider网络爬虫（webcrawler），以前经常称之为网络蜘蛛（spider），是按照一定的规则自动浏览万维网并获取信息的机器人程序（或脚本），曾经被广泛的应用于互联网搜索引擎。使用过互联网和浏览器的人都知道，网页中除了供用户阅读的文字信息之外，还包含一些超链接。网络爬虫系统正是通过网页中的超链接信息不断获得网络上的其它页面。正因如此，网络数据采集的过程就像一个爬虫或者蜘蛛在网络
爬虫学习笔记-scrapy爬取电影天堂(双层网址嵌套) DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectmovie,创建项目2.接口查找3.终端cd到spiders,cdscrapy_carhome/scrapy_movie/spiders,运行scrapygenspidermvhttps://dy2018.com/4.打开mv,编写代码,爬取电影名和网址5.用爬取的网址请求,使用meta属性传递name,callback调用自定义的parse_sec
爬虫学习笔记-scrapy爬取当当网 DevCodeMemo 爬虫学习笔记
1.终端运行scrapystartprojectscrapy_dangdang,创建项目2.接口查找3.cd100个案例/Scrapy/scrapy_dangdang/scrapy_dangdang/spiders到文件夹下,创建爬虫程序4.items定义ScrapyDangdangItem的数据结构(要爬取的数据)src,name,price5.爬取src,name,price数据导入items
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他