麻辣灬香蕉

python爬虫之json模块解析/多线程爬虫

文章目录

前情回顾

控制台抓包
有道翻译过程梳理
增量爬取思路
动态加载网站数据抓取
数据抓取最终梳理

今日笔记

豆瓣电影数据抓取案例
json解析模块

json.loads(json)
json.dumps(python)
json.load(f)
json.dump(python,f,ensure_ascii=False)
json模块总结

腾讯招聘数据抓取
多线程爬虫
小米应用商店抓取(多线程)
cookie模拟登录
人人网登录案例

今日任务

前情回顾

控制台抓包

打开方式及常用选项

1、打开浏览器，F12打开控制台，找到Network选项卡
2、控制台常用选项
   1、Network: 抓取网络数据包
        1、ALL: 抓取所有的网络数据包
        2、XHR：抓取异步加载的网络数据包
        3、JS : 抓取所有的JS文件
   2、Sources: 格式化输出并打断点调试JavaScript代码，助于分析爬虫中一些参数
   3、Console: 交互模式，可对JavaScript中的代码进行测试
3、抓取具体网络数据包后
   1、单击左侧网络数据包地址，进入数据包详情，查看右侧
   2、右侧:
       1、Headers: 整个请求信息
            General、Response Headers、Request Headers、Query String、Form Data
       2、Preview: 对响应内容进行预览
       3、Response：响应内容

有道翻译过程梳理

  1. 打开首页
  2. 准备抓包: F12开启控制台
  3. 寻找地址
  页面中输入翻译单词，控制台中抓取到网络数据包，查找并分析返回翻译数据的地址
  4. 发现规律
  找到返回具体数据的地址，在页面中多输入几个单词，找到对应URL地址，分析对比 Network - All(或者XHR) - Form Data，发现对应的规律
  5. 寻找JS文件
  右上角 ... -> Search -> 搜索关键字 -> 单击 -> 跳转到Sources，左下角格式化符号{}
  6、查看JS代码
  搜索关键字，找到相关加密方法
  7、断点调试
  8、完善程序

增量爬取思路

1、将爬取过的地址存放到数据库中
2、程序爬取时先到数据库中查询比对，如果已经爬过则不会继续爬取

动态加载网站数据抓取

1、F12打开控制台，页面动作抓取网络数据包
2、抓取json文件URL地址
# 控制台中 XHR ：异步加载的数据包
# XHR -> Query String Parameters(查询参数)

数据抓取最终梳理

# 响应内容中存在
1、确认抓取数据在响应内容中是否存在
2、分析页面结构，观察URL地址规律
   1、大体查看响应内容结构,查看是否有更改 -- (百度视频案例)
   2、查看页面跳转时URL地址变化,查看是否新跳转 -- (民政部案例)
3、开始码代码进行数据抓取

# 响应内容中不存在
1、确认抓取数据在响应内容中是否存在
2、F12抓包,开始刷新页面或执行某些行为,主要查看XHR异步加载数据包
   1、GET请求: Request Headers、Query String Paramters
   2、POST请求:Request Headers、FormData
3、观察查询参数或者Form表单数据规律,如果需要进行进一步抓包分析处理
   1、比如有道翻译的 salt+sign,抓取并分析JS做进一步处理
   2、此处注意请求头中的cookie和referer以及User-Agent
4、使用res.json()获取数据,利用列表或者字典的方法获取所需数据

今日笔记

豆瓣电影数据抓取案例

目标

1、地址: 豆瓣电影 - 排行榜 - 剧情
2、目标: 电影名称、电影评分

F12抓包（XHR）

1、Request URL(基准URL地址) ：https://movie.douban.com/j/chart/top_list?
2、Query String(查询参数)

# 抓取的查询参数如下：
type: 13 # 电影类型
interval_id: 100:90
action: ''
start: 0  # 每次加载电影的起始索引值 0 20 40 60 
limit: 20 # 每次加载的电影数量

代码实现 - 全站抓取 - 完美接口 - 指定类型所有电影信息

import re

import requests, json
from fake_useragent import UserAgent


class DouBan:
    def __init__(self):
        self.url = "https://movie.douban.com/j/chart/top_list?"
        self.i = 1

    def parse_html(self, params):
        html = requests.get(
            url=self.url,
            params=params,
            headers={"User-Agent": UserAgent().random}
        ).text
        # json.loads():json数据->python数据类型
        html = json.loads(html)
        # print(html)
        item = {}
        for film in html:
            item["name"] = film["title"]
            item["score"] = film["score"]
            self.i += 1
            print(item)

    def run(self):

        type_dic = self.get_name_type()
        name = input("\n请输入类型:")
        typ = type_dic[name]
        totle = self.get_totle(typ)
        for page in range(0, totle, 20):
            params = {
                "type": typ,
                "interval_id": "100:90",
                "action": "",
                "start": str(page),
                "limit": "20"
            }
            self.parse_html(params)
        print(self.i)

    def get_totle(self, typ):
        url = 'https://movie.douban.com/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(typ)
        #返回json类型
        html = requests.get(url=url, headers={"User-Agent": UserAgent().random}).json()
        totle = html["total"]

        return totle

    def get_name_type(self):
        #获取电影类型及其代码
        url = 'https://movie.douban.com/chart'
        html = requests.get(url=url, headers={"User-Agent": UserAgent().random}).text
        p = re.compile('', re.S)
        r_list = p.findall(html)
        type_dict = {}
        print("电影类型:")
        for r in r_list:
            type_dict[r[0]] = r[1]
            print(r[0],end=" ")

        return type_dict


if __name__ == '__main__':
    d = DouBan()
    d.run()

json解析模块

json.loads(json)

作用

把json格式的字符串转为Python数据类型

示例

html_json = json.loads(res.text)
In [1]: import json 
In [2]: d={"app":"QQ","link":"www.weixin.com"}
In [6]: json.loads(a)
Out[6]: {'app': 'QQ', 'link': 'www.weixin.com'}

json.dumps(python)

作用

把 python 类型 转为 json 类型

示例

import json

# json.dumps()之前
item = {'name':'QQ','app_id':1}
print('before dumps',type(item)) # dict
# json.dumps之后
item = json.dumps(item)
print('after dumps',type(item)) # str
In [4]: json.dumps(d)
Out[4]: '{"app": "QQ", "link": "www.weixin.com"}'

json.load(f)

作用

将json文件读取,并转为python类型

示例

import json

with open('D:\\spider_test\\xiaomi.json','r') as f:
    data = json.load(f)
    
print(data)

json.dump(python,f,ensure_ascii=False)

作用

把python数据类型 转为 json格式的字符串
# 一般让你把抓取的数据保存为json文件时使用

参数说明

第1个参数: python类型的数据(字典，列表等)
第2个参数: 文件对象
第3个参数: ensure_ascii=False # 序列化时编码(默认为True,设置为false时可以编译中文)

示例1

import json

item = {'name':'QQ','app_id':1}
with open('小米.json','a') as f:
  json.dump(item,f,ensure_ascii=False)

示例2

import json

item_list = []
for i in range(3):
  item = {'name':'QQ','id':i}
  item_list.append(item)
    
with open('xiaomi.json','a') as f:
	json.dump(item_list,f,ensure_ascii=False)

json模块总结

# 爬虫最常用
1、数据抓取 - json.loads(html)
   将响应内容由: json 转为 python
2、数据保存 - json.dump(item_list,f,ensure_ascii=False)
   将抓取的数据保存到本地 json文件

# 抓取数据一般处理方式
1、txt文件
2、csv文件
3、json文件
4、MySQL数据库
5、MongoDB数据库
6、Redis数据库

腾讯招聘数据抓取

确定URL地址及目标

1、URL: 百度搜索腾讯招聘 - 查看工作岗位
2、目标: 职位名称、工作职责、岗位要求

要求与分析

1、通过查看网页源码,得知所需数据均为 Ajax 动态加载
2、通过F12抓取网络数据包,进行分析
3、一级页面抓取数据: 职位名称
4、二级页面抓取数据: 工作职责、岗位要求

一级页面json地址(index在变,timestamp未检查)

https://careers.tencent.com/tencentcareer/api/post/Query?timestamp=1563912271089&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn

二级页面地址(postId在变,在一级页面中可拿到)

https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp=1563912374645&postId={}&language=zh-cn

代码实现

import random
import time
from urllib import parse

import requests, json
from fake_useragent import UserAgent


class Tencent:
    def __init__(self):
        self.one_url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp={}&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword={}&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
        # self.two_url=''
        self.headers = {"User-Agent": UserAgent().random}
        self.i = 0

    def parse_html(self, one_url):
        one_html = requests.get(url=one_url, headers=self.headers).json()
        # 提取postid,拼接二级页面地址
        # print(one_html)
        for one in one_html["Data"]["Posts"]:
            # postid,two_url
            two_html = requests.get( url="https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp={}&postId={}&language=zh-cn".format(time.time(), one["PostId"]), headers=self.headers).json()
            name = two_html["Data"]['RecruitPostName']
            Responsibility = two_html["Data"]['Responsibility']
            Requirement = two_html["Data"]['Requirement']
            # print("岗位:", name)
            # print("职责:", Responsibility)
            # print("要求:", Requirement)
            # print("*" * 60)
            self.i += 1
            print("第%d条爬取成功!" % self.i)
            with open("job.json", "a") as f:
                json.dump({"岗位": name, "职责": Responsibility, "要求": Requirement}, f, ensure_ascii=False)

    # def get_data(self, two_url):

    def run(self):
        key_word = input("请输入关键字:")
        #关键字转为编码值
        keyword = parse.quote(key_word)
        total = self.sotal_page(keyword)
        for page in range(0, total + 1):
            one_url = self.one_url.format(time.time(), keyword, page)
            self.parse_html(one_url)
            time.sleep(random.randint(1, 2))

    def sotal_page(self, keyword):
        #获取总页数,在请求地址中json的count中
        url = self.one_url.format(time.time(), keyword, 1)
        html = requests.get(url=url, headers=self.headers).json()
        count = html["Data"]["Count"]
        if count % 10 == 0:
            total = count // 10
        else:
            total = (count // 10) + 1
        return total


if __name__ == '__main__':
    t = Tencent()
    t.run()

多线程爬虫

应用场景

1、多进程 ：CPU密集程序
2、多线程 ：爬虫(网络I/O)、本地磁盘I/O

知识点回顾

队列

# 导入模块
from queue import Queue
# 使用
q = Queue()
q.put(url)
q.get() # 当队列为空时，阻塞
q.empty() # 判断队列是否为空，True/False

#先判空,在执行函数
写法1:
    while True:
        if not q.empty():
            function()
        else:
            break
#设置响应过期时间           
写法2:
while True:
      try: 
            url=q.get(timeout=3)
           	function()
      except Exception as e:
    		print(e)

线程模块

# 导入模块
from threading import Thread

# 使用流程  
t = Thread(target=函数名) # 创建线程对象
t.start() # 创建并启动线程
t.join()  # 阻塞等待回收线程

# 如何创建多线程？？？？？？
t_list=[]
for i in range(5):
    t=Thread(target=xxx)
    t_list.append(t)
    t.start()
for t in t_list:
    t.join()

线程锁:
n=200

def f1():
    for i in range(5000):
        n+=1
    
def f1():
    for i in range(5000):
        n-=1

#线程锁
from threading inport Lock
lock=Lock()
lock.acquire()  #加锁

#python代码
lock.release()  #释放锁

进程模块

 #队列必须使用进程模块中的Queue,支持跨进程通信
 #标准库模块queue中的Queue不支持进程间通信
 from multiprocessing import Process,Lock,Queue
 t_list=[]
 for i in range(5):
     t=Process(target=xxx)
     t_list.append(t)
     t.start()
 for t in t_list:
     t.join()

小米应用商店抓取(多线程)

目标

1、网址 ：百度搜 - 小米应用商店，进入官网
2、目标 ：所有应用分类
   应用名称
   应用链接

实现步骤

1、确认是否为动态加载

1、页面局部刷新
2、右键查看网页源代码，搜索关键字未搜到
# 此网站为动态加载网站，需要抓取网络数据包分析

2、F12抓取网络数据包

1、抓取返回json数据的URL地址（Headers中的Request URL）
   http://app.mi.com/categotyAllListApi?page={}&categoryId=2&pageSize=30
        
2、查看并分析查询参数（headers中的Query String Parameters）
   page: 1
   categoryId: 2
   pageSize: 30
   # 只有page在变，0 1 2 3 ... ... ，这样我们就可以通过控制page的值拼接多个返回json数据的URL地址

将抓取数据保存到csv文件

# 注意多线程写入的线程锁问题
from threading import Lock
lock = Lock()
# 加锁
lock.acquire()
python语句
# 释放锁
lock.release()

整体思路

1、在 __init__(self) 中创建文件对象，多线程操作此对象进行文件写入
2、每个线程抓取1页数据后将数据进行文件写入，写入文件时需要加锁
3、所有数据抓取完成关闭文件

代码实现

#正则匹配类别[(),()]
#(.*?)
import random
import re

import requests, json, time, csv
from threading import Thread, Lock
from queue import Queue

from fake_useragent import UserAgent


class XiaoMi:
    def __init__(self):
        self.url = 'http://app.mi.com/categotyAllListApi?page={}&categoryId={}&pageSize=30'
        self.headers = {"User-Agent": UserAgent().random}
        # 创建url队列.存放所有待爬取的Url地址
        self.q = Queue()
        self.f = open("xiaomi.csv", "w")
        self.l = Lock()
        self.writer = csv.writer(self.f)
        self.i = 0

    # url入队列
    def url_in(self, code):
        # 获取总页数
        total = self.get_total(code)
        for page in range(total):
            url = self.url.format(page, code)
            self.q.put(url)

    # 线程事件函数
    def parse_html(self):
        #多线程一直抓取,直至队列中没有执行的对象
        while True:
            if not self.q.empty():
                url = self.q.get()
                html = requests.get(url=url, headers=self.headers).json()
                app_list = []
                for app in html["data"]:
                    name = app["displayName"]
                    self.i += 1
                    print(name)
                    app_list.append((name,))
                print(self.i)

                # 加锁
                with self.l:
                    self.writer.writerows(app_list)
                    time.sleep(random.uniform(0, 1))
            else:
                break

    # 入口函数
    def run(self):
        # url地址入队列
        type_code = self.get_all()
        typ = input("\n请输入类别:")
        self.url_in(type_code[typ])
        t_list = []
        for i in range(1):
            t = Thread(target=self.parse_html)
            t_list.append(t)
            t.start()

        for t in t_list:
            t.join()

    # 获取app类别以及code
    def get_all(self):
        url = "http://app.mi.com/"
        html = requests.get(url=url, headers=self.headers).text
        # with open("a.html", "w") as f:
        #     f.write(html)
        p = re.compile('(.*?)', re.S)
        r_list = p.findall(html)
        # print(r_list)
        item = {}
        print("类别:")
        for r in r_list:
            item[r[1]] = r[0]
            # 遍历一个类别将此类别链接put到队列
            print(r[1], end=" ")
        # print(item)
        print("*" * 90)
        return item

    # 获取总页数
    def get_total(self, code):
        url = self.url.format(0, code)
        html = requests.get(url=url, headers=self.headers).json()
        count = html["count"]
        if count % 30 == 0:
            total = count // 30
        else:
            total = (count // 30) + 1
        return total


if __name__ == '__main__':
    start = time.time()
    x = XiaoMi()
    x.run()
    end = time.time()
    print("执行时间:", end - start)

cookie模拟登录

适用网站及场景

抓取需要登录才能访问的页面

cookie和session机制

# http协议为无连接协议
cookie: 存放在客户端浏览器
session: 存放在Web服务器

人人网登录案例

方法一 - 登录网站手动抓取Cookie

1、先登录成功1次,获取到携带登录信息的Cookie
   登录成功 - 个人主页 - F12抓包 - 刷新个人主页 - 找到主页的包(profile)
2、携带着cookie发请求
   ** Cookie
   ** User-Agent

# 1、将self.url改为 个人主页的URL地址
# 2、将Cookie的值改为 登录成功的Cookie值
import requests
from lxml import etree

class RenrenLogin(object):
  def __init__(self):
    self.url = 'xxxxxxx'
    self.headers = {
      'Cookie':'xxxxxx',
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
    }

  def get_html(self):
    html = requests.get(url=self.url,headers=self.headers).text
    self.parse_html(html)

  def parse_html(self,html):
    parse_html = etree.HTML(html)
    r_list = parse_html.xpath('//*[@id="operate_area"]/div[1]/ul/li[1]/span/text()')
    print(r_list)

if __name__ == '__main__':
  spider = RenrenLogin()
  spider.get_html()

方法二

原理

1、把抓取到的cookie处理为字典
2、使用requests.get()中的参数:cookies

处理cookie为字典

    def get_cookies(self):
        cooks='anonymid=k1u1oow6-wd1j9m; depovince=HEN; _r01_=1; JSESSIONID=abcklrIeEKWWt9_YNzx3w; ick_login=cee7832b-2cb4-4d32-9ef0-2f3ac386b351; t=deb5d8758bd2a7d08a064a0316df44e83; societyguester=deb5d8758bd2a7d08a064a0316df44e83; id=972496253; xnsid=2893498e; jebecookies=2a36ede3-d9ca-4d73-87ae-295e9604951e|||||; ver=7.0; loginfrom=null; wp_fold=0'
        cookd={}
        for cook in cooks.split("; "):
            cookl=cook.split("=")
            cookd[cookl[0]]=cookl[1]
        print(cookd)
        return cookd

方法三 - requests模块处理Cookie

原理思路及实现

# 1. 思路
requests模块提供了session类,来实现客户端和服务端的会话保持

# 2. 原理
1、实例化session对象
   session = requests.session()
2、让session对象发送get或者post请求
   res = session.post(url=url,data=data,headers=headers)
   res = session.get(url=url,headers=headers)

# 3. 思路梳理
浏览器原理: 访问需要登录的页面会带着之前登录过的cookie
程序原理: 同样带着之前登录的cookie去访问 - 由session对象完成
1、实例化session对象
2、登录网站: session对象发送请求,登录对应网站,把cookie保存在session对象中
3、访问页面: session对象请求需要登录才能访问的页面,session能够自动携带之前的这个cookie,进行请求

具体步骤

1、寻找Form表单提交地址 - 寻找登录时POST的地址
   查看网页源码,查看form表单,找action对应的地址: http://www.renren.com/PLogin.do

2、发送用户名和密码信息到POST的地址
   * 用户名和密码信息以什么方式发送？ -- 字典
     键 ：<input>标签中name的值(email,password)
     值 ：真实的用户名和密码
     post_data = {'email':'','password':''}

session = requests.session()        
session.post(url=url,ata=data)

今日任务

1、多线程改写 - 腾讯招聘案例

import random

import requests, time, csv
from fake_useragent import UserAgent
from threading import Thread,Lock
#队列必须使用进程模块中的Queue,支持跨进程通信
#标准库模块queue中的Queue不支持进程间通信
from queue import Queue
# from multiprocessing import Process,Lock,Queue


class Tengxun:
    def __init__(self):
        self.headers = {"User-Agent": UserAgent().random}
        self.q = Queue()
        self.url = 'https://careers.tencent.com/tencentcareer/api/post/Query?timestamp={}&countryId=&cityId=&bgIds=&productId=&categoryId=&parentCategoryId=&attrId=&keyword=&pageIndex={}&pageSize=10&language=zh-cn&area=cn'
        self.l = Lock()
        self.writer = csv.writer(open("腾讯.csv", "w"))
        self.i = 0

    # 请求页面
    def get_html(self, url):
        html = requests.get(url=url, headers=self.headers).json()
        return html

    # 解析
    def parse_html(self):
        while True:
            if not self.q.empty():
                url = self.q.get()
                one_list = self.get_html(url)
                # 爬取数据
                self.spider_data(one_list)
                time.sleep(5)
            else:
                break

    #  爬取数据
    def spider_data(self, one_list):
        for r in one_list["Data"]["Posts"]:
            two_url = 'https://careers.tencent.com/tencentcareer/api/post/ByPostId?timestamp={}&postId={}&language=zh-cn'
            l_dict = self.get_html(two_url.format(time.time(), r["PostId"]))
            self.i += 1
            print("第%d页爬取成功!" % self.i)
            # 将数据写入文件
            self.write(l_dict)

    # 写入文件
    def write(self, l_dict):
        with self.l:
            self.writer.writerows([
                (l_dict["Data"]["RecruitPostName"],
                 l_dict["Data"]["Responsibility"],
                 l_dict["Data"]["Requirement"])
            ])

    # 将爬取地址入队列
    def queue_in(self):
        total = self.get_total()
        for page in range(total):
            url = self.url.format(time.time(), page)
            self.q.put(url)

    # 获取总页数
    def get_total(self):
        url = self.url.format(time.time(), 1)
        html = self.get_html(url)
        count = html["Data"]["Count"]
        if count % 10 == 0:
            total = count // 10
        else:
            total = (count // 10) + 1
        return total

    # 创建多线程执行函数
    def threading(self, func):
        t_list = []
        for i in range(5):
            t = Thread(target=func)
            t_list.append(t)
            t.start()
            time.sleep(2)
        for t in t_list:
            t.join()

    # 启动函数
    def run(self):
        self.queue_in()
        self.threading(self.parse_html)


# 函数入口
if __name__ == '__main__':
    t = Tengxun()
    t.run()

2、多线程改写 - 链家二手房案例
3、尝试破解百度翻译

你可能感兴趣的:(爬虫)

利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
Click Event Simulation：无需浏览器触发动态数据加载亿牛云爬虫专家 python 代理IP 爬虫代理浏览器动态数据 Click Event 模拟点击 python 爬虫代理代理IP
一、明确目标与前置知识目标使用Python模拟点击事件，直接发送HTTP请求采集拼多多上商品价格和优惠信息。采用爬虫代理（代理IP）的技术，设置好Cookie和User-Agent，以防止被目标网站屏蔽。利用多线程技术加速数据采集，提高效率。前置知识基本的Python编程知识HTTP协议与请求头、Cookie的概念多线程编程基础（如线程、队列的使用）代理IP的使用原理二、按步骤拆解操作1.环境准备
【Python爬虫实战】从多类型网页数据到结构化JSON数据的高效提取策略易辰君 python爬虫 python 爬虫开发语言
个人主页：https://blog.csdn.net/2401_86688088?type=blog系列专栏：https://blog.csdn.net/2401_86688088/category_12797772.html目录前言一、数据类型及其对应的提取策略（一）文本数据（二）数值数据（三）链接（四）图像数据（五）表格数据（六）JSON数据（七）动态数据（八）元数据（九）总结二、结构化数据提
正向代理、反向代理龙卷风hu~ 日常开发学习总结代理模式正向代理反向代理
区别正向代理：代表客户端（如浏览器、爬虫）发送请求。需要在客户端主动配置代理地址。反向代理：代表服务端（如Web服务器）接收请求。客户端无感知，请求直接发到反向代理。正向代理应用场景正向代理常被用于：隐藏客户端身份：保护客户端真实IP或网络信息。也可以用来解决跨域问题。绕过访问限制：突破IP封锁、地域限制等（如访问某些地区的API）。集中管控与审计：企业可通过代理监控和过滤员工的网络请求。例子：企
《Python实战进阶》No20: 网络爬虫开发：Scrapy框架详解带娃的IT创业者 Python实战进阶 python 爬虫 scrapy
No20:网络爬虫开发：Scrapy框架详解摘要本文深入解析Scrapy核心架构，通过中间件链式处理、布隆过滤器增量爬取、Splash动态渲染、分布式指纹策略四大核心技术，结合政府数据爬取与动态API逆向工程实战案例，构建企业级爬虫系统。提供完整代码与运行结果，包含法律合规设计与反爬对抗方案。Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中
python代码文件方式_关于.py文件的详细介绍 weixin_39923806 python代码文件方式
这篇文章主要给大家介绍了在Python中.py文件打包成exe可执行文件的相关资料，文中介绍的非常详细，相信对大家具有一定的参考价值，需要的朋友们下面来一起看看吧。前言最近做了几个简单的爬虫python程序，于是就想做个窗口看看效果。首先是，窗口的话，以前没怎么接触过，就先考虑用Qt制作简单的ui。这里用前面sinanews的爬虫脚本为例，制作一个获取当天sina头条新闻的窗口。生成py文件后，运
python爬取房源数据_python爬取安居客二手房网站数据（转） weixin_39897758 python爬取房源数据
之前没课的时候写过安居客的爬虫，但那也是小打小闹，那这次呢，还是小打小闹哈哈，现在开始正式进行爬虫书写首先，需要分析一下要爬取的网站的结构：作为一名河南的学生，那就看看郑州的二手房信息吧！在上面这个页面中，我们可以看到一条条的房源信息，从中我们发现了什么，发现了连郑州的二手房都是这么的贵，作为即将毕业的学生狗惹不起啊惹不起还是正文吧！！！由上可以看到网页一条条的房源信息，点击进去后就会发现：房源的
python爬虫项目（十二）：爬取各大音乐平台排行榜并分析音乐类型趋势人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫开发语言 python爬虫项目 python爬虫
目录1.项目简介2.工具与技术3.爬取音乐平台排行榜数据3.1使用requests和BeautifulSoup爬取网易云音乐排行榜3.2爬取QQ音乐排行榜4.数据处理4.1合并数据5.分析音乐类型趋势5.1使用关键词匹配类型6.数据可视化6.1绘制音乐类型分布图6.2绘制时间趋势图7.总结爬取各大音乐平台排行榜并分析音乐类型趋势是一个有趣且有意义的项目。我们可以通过以下步骤来实现：1.项目简介本项
【python爬虫】免费爬取网易云音乐完整教程（附带源码）景天科技苑爬虫副业实战零基础进阶教学 python 爬虫开发语言 js逆向
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~所属专栏：爬虫实战，零基础、进阶教学景天的主页：景天科技苑文章目录网易云逆向网易云逆向https://music.163.com/下载云音乐胡广生等，可以选择自己喜欢的歌曲首先，我们可以先根据抓包找到的m4a文件，下载试试在这个请求
python爬虫（7）爬虫实例（3）丁叔叔爬虫实例
#-*-coding:utf-8-*-importrequestsimportosfromlxmlimportetree#解析库XPath#在本地建立一个文件夹，命名为pic_truck，用于存放下载的图片folder='pic_truck'ifnotos.path.exists(folder):os.makedirs(folder)#定义下载函数，用于下载图片defdownload(url):r
python关闭一个子进程_python3关闭子进程的两种方式 weixin_39646695 python关闭一个子进程
用scrapy做爬虫的时候需要开多个爬虫子进程，为了定时开启和关闭爬虫子进程，需要对子进程做控制，而关闭进程有两种方法-----要简单高效，直接看方法2吧-----方法1：通过获取全部windows进程，获取增量进程方式该方法是通过获取所有windows进程，将所有进程名为“python.exe”的获取，最后在杀的时候，除了主进程外，全部杀掉该方法存在的问题在于，如果杀进程的时候刚好有其他人的py
Python爬虫之爬取酷狗音乐进击的Loser‭
Python爬虫之爬取酷狗音乐废话不说，上代码：#!Python#-*-encoding:utf-8-*-'''1.文件名称:酷我音乐爬虫.py2.创建时间:2021/03/2117:29:093.作者名称:ZAY4.Python版本:3.7.0'''importosimportgetpassimportrequestsfromurllib.parseimportquoteclassSpider(
【源代码】python爬虫，爬取足球赛制比分码农之家★资源共享 python 爬虫开发语言
完整代码！fromseleniumimportwebdriverfromselenium.common.exceptionsimportNoSuchElementExceptionfromselenium.webdriver.common.keysimportKeysimporttimefrombs4importBeautifulSoupimportselectimportsocketimpor
Python爬虫–爬取酷狗音乐 2024亲测可用！！！ LinHZ2012 爬虫 python
相信很多小伙伴都有听歌的习惯~今天我们就来学习怎么用Python来爬取音乐吧~~~首先打开音乐网站，找到想听的歌，打开播放页面在网页上右键点击检查，调出开发者工具，找到网络（Network）选项。然后刷新网页以上是其他多数博主的做法然后，你在右边一顿翻找，却根本找不到mp3......不要慌！教程来喽！首先在右下角的歌单里面随便找一首其他的歌播放~然后再重新点回来——————你就会惊喜的发现——m
可狱可囚的爬虫系列课程 19：静态页面和动态页面之分 HerrFu@灵思智行科技爬虫 python 爬虫
在爬虫开发中，静态页面和动态页面的核心区别在于数据的生成和加载方式，理解两者的差异直接影响爬虫技术选型和数据抓取策略；掌握静态/动态页面的区别，可显著提升爬虫效率和成功率。一、静态页面（StaticPage）静态页面的内容（1）在服务器预先生成，以.html文件形式存储，用户每次访问时返回相同的HTML代码。（2）数据直接嵌入在HTML中（如文本、表格、链接等）。（3）纯HTML+CSS，无复杂交
2024年Python最新Pytorch--3，面试高分实战 m0_60666452 程序员 python 学习面试
（1）Python所有方向的学习路线（新版）这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。最近我才对这些路线做了一下新的更新，知识体系更全面了。（2）Python学习视频包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门
Selenium 库的爬虫实现叱咤少帅（少帅） Python从入门到高手 selenium
Selenium是什么？Selenium是一个用于自动化Web应用程序测试的工具。它提供了一个用于测试网站的框架，可以模拟用户在浏览器中的操作，如点击链接、填写表单、提交数据等。Selenium可以在多种浏览器和操作系统上运行，并且支持多种编程语言，如Python、Java、JavaScript等。通过编写测试脚本，开发人员可以使用Selenium来自动化执行各种Web应用程序的测试，以确保它们在
电商业务数据测试用例参考 SuperCreators 大数据测试大数据 hive 数据仓库
1.数据采集层测试用例编号测试目标测试场景预期结果TC-001验证用户行为日志采集完整性模拟用户浏览、点击、加购行为KafkaTopic中日志记录数与模拟量一致TC-002验证无效数据过滤规则发送爬虫请求（高频IP）清洗后数据中无该IP的日志记录2.数据处理层测试用例编号测试目标测试场景预期结果TC-003验证用户兴趣标签计算逻辑用户连续浏览3次“运动鞋”类目用户画像中“运动鞋”兴趣权重≥0.8T
SpringBoot与Sentinel整合，解决异常爬虫请求问题奔向理想的星辰大海 Java研发实用技巧云原生 spring boot sentinel 爬虫
Sentinel是阿里巴巴开源的一款面向分布式服务架构的轻量级高可用流量控制组件，主要用于流量控制、熔断降级和系统负载保护。虽然Sentinel主要用于微服务场景下的流量管理和故障隔离，但也可以通过一些策略和配置来辅助防御DDoS攻击和异常爬虫请求。DDoS攻击DDoS（DistributedDenialofService）是一种恶意攻击手段，攻击者通过控制大量计算机设备（如僵尸网络），向目标服务
Python3 爬虫 Scrapy 与 Redis 大秦重工爬虫 scrapy redis
Scrapy是一个分布式爬虫的框架，如果把它像普通的爬虫一样单机运行，它的优势将不会被体现出来。因此，要让Scrapy往分布式爬虫方向发展，就需要学习Scrapy与Redis的结合使用。Redis在Scrapy的爬虫中作为一个队列存在。一、Scrapy_redis的安装和使用Scrapy自带的待爬队列是deque，而现在需要使用Redis来作为队列，所以就需要将原来操作deque的方法替换为操作R
python爬虫系列课程7：ajax wp_tao Python副业接单实战项目 python 爬虫 ajax
python爬虫系列课程7：ajax一、ajax的介绍二、ajax的使用一、ajax的介绍ajax是AsynchronousJavaScriptandXML的简写，ajax是一个前后端配合的技术，它可以让JavaScript发送异步的http请求，与后台通信进行数据的获取，ajax最大的优点是实现局部刷新，ajax可以发送http请求，当获取到后台数据的时候更新页面显示数据实现局部刷新，在这里大家
Python简介 Gao_xu_sheng python 开发语言
Python前言Python一直是一门优秀的编程语言，不仅简洁、易用，而且功能强大，它能做到的事情太多了，既可用于开发桌面应用，也可用于做网络编程，网络爬虫，还有很重要的领域就是AI大模型开发。近年来，随着人工智能（AI）和机器学习（ML）领域的迅猛发展，Python在这些前沿技术中扮演了至关重要的角色，特别是在构建和训练大规模机器学习方面。Python拥有丰富的库和框架，这些工具极大地促进了AI
Python多进程，多线程和异步实例汤米先生 Python学习多线程 python 多进程
文章目录前言一、多进程1.进程间通信使用Queue队列2.多进程中的通信【一个往Queue里写，一个从Queue里读】3.进程池中的通信【只需要就上述的Queue()转换成Manager().Queue()】4.多进程拷贝文件【多个文件的拷贝】二、多线程1.加入互斥锁2.不加入互斥锁3.在屏幕上连续打印10次ABC4.死锁的产生5.针对死锁的处理方法6.生产者消费者模型【常用】—>比如爬虫：爬取数
Python爬虫实战——如何自动爬取百度搜索结果页面 Python爬虫项目 2025年爬虫实战项目 python 爬虫百度开发语言信息可视化
1.引言随着互联网技术的飞速发展，信息的获取变得越来越方便。百度作为中国最主要的搜索引擎之一，每天都会处理大量的搜索请求。对于研究人员和开发者来说，爬取百度的搜索结果可以帮助他们获取大量的网络数据，用于分析和研究。然而，百度的反爬虫措施使得这一过程变得复杂，如何绕过这些限制并高效地抓取搜索结果，是很多开发者面临的问题。本文将详细介绍如何编写Python爬虫，自动抓取百度搜索结果页面中的所有内容，包
【爬虫工具】小红书评论高级采集软件 python死忠3016 小红书爬取软件爬虫
用python开发的爬虫采集工具【爬小红书搜索评论软件】，支持根据关键词采集评论。思路：笔记关键词->笔记链接->评论·软件界面：·完整文章、详细了解：https://mp.weixin.qq.com/s/C_TuChFwh8Vw76hTGX679Q好用的软件一起分享！
使用Python爬取小红书笔记与评论（仅供学习交流）_python爬取小红书关键词所有笔记评论(1) 2401_83817171 程序员 python 笔记学习
2.分析加密入口3.使用JS注入4.爬虫工程化【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！包括但不限
初学者瞎写的一个爬虫小程序一大块腹肌呀爬虫小程序 python
学习python三个月，渐渐的的也开始了爬虫之旅，根据某本书的指导，开始想写一个通用的爬虫小程序，希望有大神能指点一下。importdatetimeimporttimefromseleniumimportwebdriverimportreclassMyCommonSpider:def__init__(self):pass使用了selenium进行模拟鼠键操作，目标是爬取51job上的职位信息def
Python学生信息管理系统：详细教程 Python_trys python 数据库开发语言管理系统 Python教程 Python基础编程
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击这里领取】引言学生信息管理系统是学校和教育机构中常用的工具，用于管理学生的基本信息、成绩、课程等。本文将详细介绍如何使用Python编写一个简单的学生信息管理系统。我们将从需求分析、系统设计、代码实现到最终测试，一步步带你完成这个项目。需求分析在开始编写代码之前，我们需要明确系统的功能需求。一个基本的学生信息管理系统应具备以下功能：添加学生信息：
第七课：Python反爬攻防战：Headers/IP代理与验证码 deming_su python tcp/ip 开发语言 ocr proxy模式 beautifulsoup
在爬虫开发过程中，反爬虫机制成为了我们必须面对的挑战。本文将深入探讨Python爬虫中常见的反爬机制，并详细解析如何通过随机User-Agent生成、代理IP池搭建以及验证码识别来应对这些反爬策略。文章将包含完整的示例代码，帮助读者更好地理解和应用这些技术。一、常见反爬机制解析1.1基于Headers的反爬许多网站通过检查请求头（Headers）中的User-Agent字段来判断请求是否来自爬虫。
Python从入门到精通系列专栏文章导航站 hacker707 Python从入门到精通 python 开发语言
Python从入门到精通系列专栏文章导航站专栏导读Part1✨零基础入门篇专栏导读本文是Python从入门到精通的文章导航站。专栏分为零基础入门篇、模块篇、网络爬虫篇、Web开发篇、办公自动化篇、数据分析篇…为了方便专栏订阅者更方便的阅读专栏文章，点击链接即可跳转到具体文章，欢迎订阅持续更新…专栏限时一个月(5.8~6.8)重磅福利专栏订阅者再邀请10人订阅即可获得清华大学出版社书单图书任选一本(
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源