我是蓝银草

python爬虫第5关带参数请求数据

我们以歌曲《七里香》作为案例，去爬取它的歌曲评论。

爬取更多的评论数据的难点似乎在翻页和点击加载更多。
显然这种数据的加载模式还是我们上一关熟悉的“动态加载”，即点击一个按钮（加载更多或者第n页），服务器就会根据新的XHR更新页面信息。
当你在豆瓣搜索“海边的卡夫卡”，它的网址会是这样：
https://www.douban.com/search?q=%E6%B5%B7%E8%BE%B9%E7%9A%84%E5%8D%A1%E5%A4%AB%E5%8D%A1

现在，我要揭晓规律：在上面，我们能看到每个url都由两部分组成。前半部分大多形如：https://xx.xx.xxx/xxx/xxx
后半部分，多形如：xx=xx&xx=xxx&xxxxx=xx&……
两部分使用?来连接。举例刚刚的豆瓣网址，前半部分就是：
https://www.douban.com/search
后半部分则是：q=%E6%B5%B7%E8%BE%B9%E7%9A%84%E5%8D%A1%E5%A4%AB%E5%8D%A1
它们的中间使用了?来隔开。
这前半部分是我们所请求的地址，它告诉服务器，我想访问这里。而后半部分，就是我们的请求所附带的参数，它会告诉服务器，我们想要什么样的数据。

这参数的结构，会和字典很像，有键有值，键值用=连接；每组键值之间，使用&来连接。
就像豆瓣。我们请求的地址是https://www.douban.com/search
而我们的请求所附带的参数是“海边的卡夫卡”：q=%E6%B5%B7%E8%BE%B9%E7%9A%84%E5%8D%A1%E5%A4%AB%E5%8D%A1(那段你看不懂的代码，它是“海边的卡夫卡”使用utf-8编码的结果)。
技能点学满了吧？那现在，我们要以《七里香》为例，爬取用户的精彩评论。
首先，进入网址：
https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s.html
打开Network，选中All，点击刷新。
上一关我们说到，第0个请求一般都会是html。我们点开第0个请求来看看（看Preview或Response都可以），看里面有没有我们想要的评论信息。
显然是没有的。我们现在去看XHR。
这次的XHR还挺多，有四五十个。常规来说我们有两种方法来寻找XHR：阅读它们的name看看哪个可能是评论；或者是一个一个翻。
现在再给你介绍一个简单的小技巧：先把Network面板清空，再点击一下精彩评论的点击加载更多，看看有没有多出来的新XHR，多出来的那一个，就应该是和评论相关的啦。
我们点开这个请求的Preview，能够在['comment']['commentlist']里找到评论列表。列表的每一个元素都是字典，字典里键rootcommentcontent对应的值，就是我们要找的评论。

好嘞，于是我们就在找到拥有评论数据的页面链接（请求的Headers栏：General中的Request URL）：

https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=GB2312¬ice=0&platform=yqq.json&needNewCode=0&cid=205360772&reqtype=2&biztype=1&topid=102065756&cmd=6&needmusiccrit=0&pagenum=1&pagesize=15&lasthotcommentid=song_102065756_3202544866_44059185&domain=qq.com&ct=24&cv=10101010

显然，这样一个长链接，阅读体验非常之差。Network面板提供了一个更友好的查看方式，我来带你看看它。

回到上面我们找到XHR的地方，选中Headers，保持General打开，保持Response Headers和Request Headers关闭。我们点开Query String Parametres。

Query String Parametres，它的中文翻译是：查询字符串参数。
现在，我们来观察比较，依然在“七里香”的歌曲详情页，点击精彩评论的点击加载更多按钮，此时Network会多加载出更多的XHR，但的Name为fcg_global_comment_h5…才是我们关心的XHR。

事实上答案已经很明显了，只要我们多点耐心就会发现，链接的众多参数中，只有一个参数在变化。这个参数是pagenum，第一次点击加载更多的值为1，第二第三次点击它的值就变成了2和3。
当然，pagenum这个复合英文本身也说明了问题，指的可不就是页码嘛！也就是说，pagenum=1等于告诉服务器：我要歌曲信息列表第一页的数据，pagenum=2：我要歌曲信息列表第二页的数据。
这样一来，按照之前学的知识，你大约会想：我们写一个循环，每次循环都去更改pagenum的值，这样不就能实现爬取好多好多精彩评论了吗？

import requests

for i in range(5):
        res=requests.get('https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?\
                g_tk=1676601595&loginUin=835926124&hostUin=0&format=json&inCharset=utf8\
                        &outCharset=GB2312¬ice=0&platform=yqq.json&needNewCode=0&\
                                cid=205360772&reqtype=2&biztype=1&topid=102065756&cmd=6&\
                                        needmusiccrit=0&pagenum={}&pagesize=15&lasthotcommentid=\
                                                song_102065756_34536033_1471101184&domain=qq.com&ct=24&cv=10101010'.format(i))
        html=res.json()
        comments=html['comment']['commentlist']
        for comment in comments:
                print(comment['rootcommentcontent'])
                print('---------------------------')

这样写代码，的确能够完成我们的目标。但是，这样写代码修改链接的参数太麻烦了，显然不够优雅，因为它是在太长了。
我们来让这个代码变好看些。事实上，requests模块里的requests.get()提供了一个参数叫params，可以让我们用字典的形式，把参数传进去。
所以，其实我们可以把Query String Parametres里的内容，直接复制下来，封装为一个字典，传递给params。只是有一点要特别注意：要给他们打引号，让它们变字符串。

import requests

url='https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg'
for i in range(5):
        params={
        'g_tk': '1676601595',
        'loginUin': '835926124',
        'hostUin': '0',
        'format': 'json',
        'inCharset': 'utf8',
        'outCharset': 'GB2312',
        'notice': '0',
        'platform': 'yqq.json',
        'needNewCode': '0',
        'cid': '205360772',
        'reqtype': '2',
        'biztype': '1',
        'topid': '102065756',
        'cmd': '6',
        'needmusiccrit': '0',
        'pagenum': str(i),
        'pagesize': '15',
        'lasthotcommentid': 'song_102065756_34536033_1471101184',
        'domain': 'qq.com',
        'ct': '24',
        'cv': '10101010'
        }
        res=requests.get(url,params=params)
        html=res.json()
        comments=html['comment']['commentlist']
        for comment in comments:
                print(comment['rootcommentcontent'])
                print('---------------------------')

被隐藏的歌曲清单
好了，现在回到一开始遇到的难题：我想要爬取周杰伦更多的歌曲信息，但是qq音乐告诉我：想要查看更多内容，请下载一个客户端。
来看看我们搜索的首页:

https://y.qq.com/portal/search.html#page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=周杰伦

不出所料，这个链接的前半部分是https://y.qq.com/portal/search.html，后半部分是page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=周杰伦，然而，分隔这两部分的符号不是?，而是#。

其实在这里，#和?的功能是一样的，作用都是分隔，若把链接的#替换成?，访问的效果是一样的（注意：用?分隔的url不一定可以用#代替）。

既然如此，我们是不是可以跟前面一样，对参数下手了呢？

观察一下后半部分的参数page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=周杰伦，page（中文：页面），searchid（中文：搜索id），remoteplace（中文：远程位置），后面的t和w这俩参数虽然不知道是什么，但根据他们的值（song和周杰伦）可窥得一斑，应该是指类型和关键字。

前面我们在爬取评论的时候知道，改变pagenum就可以加载更多的数据。举一反三，试想，如果改变搜索页面（https://y.qq.com/portal/search.html#page=1&searchid=1&remoteplace=txt.yqq.top&t=song&w=周杰伦）的page这个参数我们是否可以访问到其他页面的数据呢？
为了验证猜想，老师将网页链接中的page=1改成了page=2，果然就访问到了下一的数据，嘿嘿嘿，来吧，可以造作起来了！

还记得更快查找XHR的骚操作吗？1️⃣先把Network面板清空，2️⃣再修改page值按回车键，3️⃣查看Network多出来的新XHR，也就是这个client_search_cp…。

剩下的事情就简单了，重复上面的步骤，找到client_search_cp…，点开Query String Parametres，观察参数的变化规律。

找到了吗？这次也只有一个参数在变化哦~

这个参数是p，第1页XHR的参数p值为1，第2、3页XHR的参数p值则为2和3，说明在这个client_search_cp…的请求中，代表页码的参数是p（page的缩写）。

依然是爬取歌曲的相关信息（歌曲名、所属专辑、播放时长、播放链接），只不过这一次，可以爬取的可不止是第一页的数据。
如此，代码应该如下（同上，不推荐循环超过5次）：

import requests

url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for i in range(5):
    params = {
    'ct':'24',
    'qqmusic_ver': '1298',
    'new_json':'1',
    'remoteplace':'sizer.yqq.song_next',
    'searchid':'64405487069162918',
    't':'0',
    'aggr':'1',
    'cr':'1',
    'catZhida':'1',
    'lossless':'0',
    'flag_qc':'0',
    'p':str(i+1),
    'n':'20',
    'w':'周杰伦',
    'g_tk':'5381',
    'loginUin':'0',
    'hostUin':'0',
    'format':'json',
    'inCharset':'utf8',
    'outCharset':'utf-8',
    'notice':'0',
    'platform':'yqq.json',
    'needNewCode':'0'    
    }
    res = requests.get(url,params=params)
    html = res.json()
    songs = html['data']['song']['list']
    for song in songs:
        print(song['name']) 
        print('所属专辑：'+song['album']['name'])
        print('播放时长：'+str(song['interval'])+'秒')
        print('播放链接：'+'https://y.qq.com/n/yqq/song/'+song['mid']+'.html\n\n')
        '''首先，我们假设歌曲链接在XHR里，然后去验证假设。 查看一首歌的真实QQ音乐链接。
        比如告白气球：https://y.qq.com/n/yqq/song/003OUlho2HcRHC.html 
        再查看XHR，会发现没有完整链接。但是它有：003OUlho2HcRHC。 而链接的其它部分，都是固定的。我们可以把XHR里的信息，和固定链接拼接起来。 此时你需要做的只是，查看003OUlho2HcRHC在XHR里对应的键是什么，提取即可。'''

悄悄地告诉你，如果你将这个代码里’w’关键字参数值换成另一个歌手/歌曲名，那么它也能爬到这个歌手/同名歌曲的信息。如果你愿意，可以在本关卡结束后，练习做这件事。

当然，qq音乐的产品经理肯定是不希望我们能访问到第2页的内容，他们更希望我们能下载客户端，从客户端访问数据。

为此，服务器就可能会对我们这些“投机取巧”的爬虫做限制处理。一来可以降低服务器的访问压力，毕竟成千上万次的访问对代码来说就是一个for循环的事儿；二来可以拦截那些想要通过爬虫窃取数据的竞争者。

那这就有一个问题，服务器怎么判断访问者是一个普通的用户（通过浏览器），还是一个爬虫者（通过代码）呢？

这需要我们回到浏览器中，重新认识一个新的信息栏：请求头Request Headers。
什么是Request Headers

每一个请求，都会有一个Requests Headers，我们把它称作请求头。它里面会有一些关于该请求的基本信息，比如：这个请求是从什么设备什么浏览器上发出？这个请求是从哪个页面跳转而来？

如上图，user-agent（中文：用户代理）会记录你电脑的信息和浏览器版本（如我的，就是windows10的64位操作系统，使用谷歌浏览器）。

origin（中文：源头）和referer（中文：引用来源）则记录了这个请求，最初的起源是来自哪个页面。它们的区别是referer会比origin携带的信息更多些。

如果我们想告知服务器，我们不是爬虫是一个正常的浏览器，就要去修改user-agent。倘若不修改，那么这里的默认值就会是Python，会被浏览器认出来。

有趣的是，像百度的爬虫，它的user-agent就会是Baiduspider，谷歌的也会是Googlebot……如是种种。

而对于爬取某些特定信息，也要求你注明请求的来源，即origin或referer的内容。比如我有试过，在爬取歌曲详情页里的歌词时，就需要注明这个信息，否则会拿不到歌词。你可以在写练习的时候进行尝试。
如何添加Requests Headers

Requests模块允许我们去修改Headers的值。点击它的官方文档，搜索“user-agent”，你会看到：

如上，只需要封装一个字典就好了。和写params非常相像。

而修改origin或referer也和此类似，一并作为字典写入headers就好。就像这样：

import requests
url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'

headers = {
    'origin':'https://y.qq.com',
    # 请求来源，本案例中其实是不需要加这个参数的，只是为了演示
    'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s.html',
    # 请求来源，携带的信息比“origin”更丰富，本案例中其实是不需要加这个参数的，只是为了演示
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    # 标记了请求从什么设备，什么浏览器上发出
    }
# 伪装请求头

params = {
'ct':'24',
'qqmusic_ver': '1298',
'new_json':'1',
'remoteplace':'sizer.yqq.song_next',
'searchid':'64405487069162918',
't':'0',
'aggr':'1',
'cr':'1',
'catZhida':'1',
'lossless':'0',
'flag_qc':'0',
'p':1,
'n':'20',
'w':'周杰伦',
'g_tk':'5381',
'loginUin':'0',
'hostUin':'0',
'format':'json',
'inCharset':'utf8',
'outCharset':'utf-8',
'notice':'0',
'platform':'yqq.json',
'needNewCode':'0'    
}
# 将参数封装为字典
res = requests.get(url,headers=headers,params=params)
# 发起请求，填入请求头和参数

你可能感兴趣的:(python基础及爬虫)

产品经理学Python&爬虫（二）：Python基础及爬虫入门翠西
写在前面我们在学习任何一门技术的时候，往往都会看很多技术博客，很多程序员也会写自己的技术博客。但是我想写的这些不是纯技术博客，我暂时也没有这个能力写出Python或者爬虫相关的技术博客来。我只是作为一个初学Python和爬虫的产品，把我学习的过程和心得记录下来，供大家参考。我会给到我在学习过程中参考的技术博客链接，在此也对他们的无私奉献表示感谢。Python基础先来点开胃菜可能对于很多人来说，Py
金融学Python&爬虫（二）：Python基础及爬虫入门 Python3.7 Python 爬虫人工智能
写在前面我们在学习任何一门技术的时候，往往都会看很多技术博客，很多程序员也会写自己的技术博客。但是我想写的这些不是纯技术博客，我暂时也没有这个能力写出Python或者爬虫相关的技术博客来。我只是作为一个初学Python和爬虫的产品，把我学习的过程和心得记录下来，供大家参考。我会给到我在学习过程中参考的技术博客链接，在此也对他们的无私奉献表示感谢。Python基础先来点开胃菜可能对于很多人来说，Py
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数