互联网阿星

爬虫获取多级页面数据丨Python基础实战系列(4)

提示：最新Python资料/学习指南>>戳我直达

文章目录

前言
爬虫获取多级页面数据
- 多级页面分析
- - - 1) 寻找url规律
    - 2) 确定正则表达式
- 爬虫增量抓取
- 程序代码实现
- - - 1) 建库建表
    - 2) url指纹生成
    - 3) 程序完整代码
小结

前言

爬虫获取多级页面数据

前面讲解的爬虫案例都是单级页面数据抓取，但有些时候，只抓取一个单级页面是无法完成数据提取的。本节讲解如何使用爬虫抓取多级页面的数据。在爬虫的过程中，多级页面抓取是经常遇见的。下面以抓取二级页面为例，对每级页面的作用进行说明：

一级页面提供了获取二级页面的访问链接。
二级页面作为详情页用来提取所需数据。

一级页面以标签的形式链接到二级页面，只有在二级页面才可以提取到所需数据。

话不多说，开练！

爬虫获取多级页面数据

多级页面分析

下面以电影天堂新片精品为案例进行讲解，将每部影片的名称，以及下载链接抓取下来。首先点击“更多”进入一级页面，如下图所示：

图1：Python爬虫多级页面抓取

1) 寻找url规律

通过简单分析可以得知一级与二级页面均为静态页面，接下来分析 url 规律，通过点击第 1 页，第 2 页 …，其规律如下：

2) 确定正则表达式

通过元素审查可知一级页面的元素结构如下：

图2：页面元素分析

其正则表达式如下：

.*?

点击二级页面进入详情页，通过开发者工具分析想要数据的网页元素，即电影名称，和下载链接，其正则表达式如下：

(.*?)
.*?.*?

爬虫增量抓取

爬虫是一种效率很低的程序，非常消耗计算机资源。对于聚焦爬虫程序而言，需要每天对特定的网站进行数据抓取，如果每次都去抓取之前已经抓取过的数据，就会白白消耗了时间和资源。而增量爬虫是指通过监测网站更新的情况，只抓取最新数据的一种方式，这样就大大降低了资源的消耗。

对于本节案例来说，电影天堂网站每天都会更新内容，因此编写一个增量抓取的爬虫程序是非常合适的。那么要如何判断爬虫程序是否已抓取过二级页面的 url 呢？其实，当您第一次运行爬虫程序时，爬虫会将所有的 url 抓取下来，然后将这些 url 放入数据库中。为了提高数据库的查询效率，您可以为每一个 url 生成专属的“指纹”。当网站更新后，第二次运行爬虫程序时，程序只会对数据库中不存在的指纹进行抓取。

程序代码实现

1) 建库建表

将抓取的数据的存放至 MySQL 数据库，需要先进行建库建表操作。注意，这里需要将 url 指纹单独存放在一张表中，如下所示：

create database movieskydb charset utf8;
use movieskydb;
create table request_finger(
finger char(60)
)charset=utf8;
create table movieinfo(
moviename varchar(300),
downloadaddr varchar(600)
)charset=utf8;

2) url指纹生成

您可以使用 Python 内置模块 md5 来生成加密“指纹”，如下所示。

#导入模块
from hashlib import md5
#待加密的url
url="https://www.电影天堂8.net/html/gndy/dyzz/20210226/61131.html"
# 生成MD5对象
secret = md5()
# 加密url
secret.update(url.encode())
# 提取十六进制的加密串
finger = secret.hexdigest()
print(finger)

输出结果：

2d5e46ee52756e8ae59c9ba42230b883

3) 程序完整代码

代码不要拿来就用哦，仔细看看，主要是学习方法

# -*- coding: utf-8 -*-
from urllib import request
import re
import time
import random
import pymysql
from hashlib import md5
from ua_info import ua_list
import sys

class MovieSkySpider(object):
    def __init__(self):
        self.url = 'https://www.电影天堂8.net/html/gndy/dyzz/list_23_{}.html'
        self.db = pymysql.connect(
            'localhost','root','123456','movieskydb',
            charset='utf8'
        )
        self.cursor = self.db.cursor()

    # 1.请求函数
    def get_html(self, url):
        headers = {'User-Agent': random.choice(ua_list)}
        req = request.Request(url=url, headers=headers)
        res = request.urlopen(req)
        # 本网站使用gb2312的编码格式
        html = res.read().decode('gb2312', 'ignore')

        return html

    # 2.正则解析函数
    def re_func(self,re_bds,html):
        pattern = re.compile(re_bds,re.S)
        r_list = pattern.findall(html)

        return r_list

    # 3.提取数据函数
    def parse_html(self,one_url):
        # 调用请求函数，获取一级页面
        one_html = self.get_html(one_url)
        re_bds = '.*?
'
        # 获取二级页面链接
        # link_list: ['/html//html/gndy/dyzz/20210226/61131.html','/html/xxx','','']
        link_list = self.re_func(re_bds,one_html)
        for link in link_list:
            # 判断是否需要爬取此链接
            # 1.获取指纹
            # 拼接二级页面url
            two_url = 'https://www.电影天堂8.net' + link
            s = md5()
            #加密url，需要是字节串
            s.update(two_url.encode())
            # 生成指纹，获取十六进制加密字符串，
            finger = s.hexdigest()
            # 2.通过函数判断指纹在数据库中是否存在
            if self.is_hold_on(finger):
                # 抓取二级页面数据
                self.save_html(two_url)
                time.sleep(random.randint(1,2))
                # 抓取后，把想用的url专属指纹存入数据库
                ins = 'insert into request_finger values (%s)'
                self.cursor.execute(ins,[finger])
                self.db.commit()
            else:
                sys.exit('更新完成')

    # 4.判断链接是否已经抓取过
    def is_hold_on(self,finger):
        # 查询数据库
        sql='select finger from request_finger where finger=%s'
        # execute()函数返回值为受影响的行数（即0或者非0）
        r = self.cursor.execute(sql,[finger])
        # 如果为0表示没有抓取过
        if not r:
            return True

    # 5.解析二级页面，获取数据（名称与下载链接）
    def save_html(self,two_url):
        two_html = self.get_html(two_url)
        re_bds = '<div class="title_all"><h1><font color=#07519a>(.*?) \
        </div>.*?<a.*?href="(.*?)".*?>.*?style="BACKGROUND-COLOR:.*?</a>'
        # film_list: [('name','downloadlink'),(),(),()]
        film_list = self.re_func(re_bds,two_html)
        print(film_list)
        # 插入数据库
        sql = 'insert into movieinfo values(%s,%s)'
        #L = list(film_list[0])
        self.cursor.executemany(sql,film_list)
        self.db.commit()
    
    #主函数 
    def run(self):
        # 二级页面后四页的正则表达式略有不同，需要重新分析
        for i in range(1,4):
            url = self.url.format(i)
            self.parse_html(url)

if __name__ == '__main__':
    spider = MovieSkySpider()
    spider.run()

若要查询数据库存储数据，执行以下命令即可：

mysql> select * from movieinfo\G

在二级页面提取数据时要注意该页面的类型。该网站在二级页面使用了两种类型的网页结构，另外一种页面结构的正则表达式如下所示：

(.*?)
.*? 
    戳我名片 · 领取福利


    
        你可能感兴趣的:(python,爬虫,数据挖掘,网络爬虫,正则表达式)
        
            
                
                    利用Java爬虫获取衣联网商品详情：实战指南
                        Jason-河山
java爬虫开发语言
                        在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
                    
                    机器学习之线性代数
                        珠峰日记
AI理论与实践机器学习线性代数人工智能
                        文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
                    
                    有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅
                        王盼达
有趣的学习Python学习python开发语言
                        Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
                    
                    有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理
                        王盼达
有趣的学习Python学习python开发语言
                        在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
                    
                    Python字符串操作
                        weixin_30871905
python
                        转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
                    
                    零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了
                        奕澄羽邦
python开发语言
                        第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
                    
                    Python 字符串操作
                        iteye_13776
PythonPythonCC++C#
                        Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
                    
                    关联规则算法：揭秘数据中的隐藏关系，从理论到实战
                        秋声studio
机器学习算法详解关联规则算法数据挖掘Apriori算法FP-Growth算法大数据优化数据预处理增量式更新
                        引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
                    
                    【Python 第五篇章】数据类型
                        蜗牛 | ICU
Python专栏pythonwindows开发语言
                        一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
                    
                    python catia catalog文件_Python封装的获取文件目录的函数
                        卢新生
pythoncatiacatalog文件
                        获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
                    
                    Python：每日一题之错误票据
                        努力的敲码工
蓝桥杯每日一题python蓝桥杯
                        题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
                    
                    Python控制批量插入Catia文件并修改文件定义及PN
                        一盘红烧肉
python
                        改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
                    
                    PySide2是 Qt 库的 Python 绑定之一
                        WwwwwH_PLUS
#Qtqtpython开发语言
                        PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
                    
                    Python学习第十一天
                        Leo来编程
Python学习python
                        疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
                    
                    python学习第三天
                        Leo来编程
Python学习python开发语言
                        条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
                    
                    三种优化算法
                        旅者时光
算法算法python开发语言
                        本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
                    
                    程序员必看！DeepSeek隐藏用法大揭秘：从代码优化到多模态开发，这些技巧让你少熬三夜班
                        
后端
                        最近在程序员圈子里，有个同事老张的故事特别火。他原本每周要花20小时写接口文档，自从用上DeepSeek的代码补全功能，现在喝着咖啡看AI自动生成Swagger注释——这让我想起刚入行时，为了调通一个正则表达式熬夜到凌晨三点的自己。今天咱们不聊那些官方说明书，就说点真正能让键盘冒火星的实战技巧。藏在代码补全里的"作弊码"很多人以为DeepSeek就是个加强版搜索引擎，其实它对代码的理解远超想象。比
                    
                    使用 Python 合并微信与支付宝账单，生成财务报告
                        
python后端
                        最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
                    
                    Linux egrep 命令使用详解
                        
linux
                        简介egrep（扩展GREP）命令是grep的一个变体，支持扩展正则表达式。它在功能上等同于grep-E。基础语法egrep[OPTIONS]PATTERN[FILE...]或grep-E[OPTIONS]PATTERN[FILE...]示例用法在文件中查找包含“error”的所有行egrep"error"logfile.txt大小写不敏感搜索egrep-i"error"logfile.txt使用
                    
                    Python Flask 在网页应用程序中处理错误和异常
                        dowhileprogramming
pythonflask开发语言
                        PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
                    
                    农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等
                        WangYan2022
作物模型农业WOFOST模型PCSE模型农田生态系统作物模型农业生产模拟
                        WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
                    
                    基于Python+Vue开发的电影订票管理系统源码+运行步骤
                        冷琴1996
Python系统设计pythonvue.js开发语言
                        项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
                    
                    Python通过YOLO格式TXT标签文件在图像中画框
                        CHERISH_KDX
pythonYOLO人工智能
                        使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
                    
                    基于llama_cpp 调用本地模型（llama）实现基本推理
                        月光技术杂谈
大模型初探llamallama.cpppythonLLM集成显卡本地模型AI
                        零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
                    
                    python实现查找满足条件的数字
                        qq_恰同学少年
python
                        问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
                    
                    python中常用的内置模块举例（入门级整理）
                        qq_恰同学少年
python
                        python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
                    
                    QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营
                        程之编
python开发语言青少年编程人工智能
                        主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
                    
                    Python学习指南：系统化路径 + 避坑建议
                        程之编
Python全栈通关秘籍青少年编程python开发语言人工智能机器学习
                        新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
                    
                    【Python代码练习（简单应用）】
                        9...
python汇编前端开发语言dreamweaver
                        一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
                    
                    统信uos20：利用docker部署python+jupyterlab开发环境
                        阆遤
dockerpythonjupytergithubactionsworkflow统信uos20
                        很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
                    
                                如何用ruby来写hadoop的mapreduce并生成jar包
                                    wudixiaotie
mapreduce
                                    ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 
1.安装rvm： 
    不说了 网上有 
2.安装ruby： 
    由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 
3.安装jruby： 
    rvm install jruby然后等待安
                                
                                java编程思想 -- 访问控制权限
                                    百合不是茶
java访问控制权限单例模式
                                    访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问 
  
一:包访问权限; 
  
自定义包: 
package com.wj.control;
//包
public class Demo {
  //定义一个无参的方法
	public void DemoPackage(){
		System.out.println("调用
                                
                                [生物与医学]请审慎食用小龙虾
                                    comsci
生物
                                     
     现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 
 
     所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质 
    
                                
                                org.apache.jasper.JasperException: Unable to compile class for JSP:
                                    商人shang
maven2.2jdk1.8
                                    环境： jdk1.8    maven  tomcat7-maven-plugin  2.0 
原因： tomcat7-maven-plugin  2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin  2.2就行，即 
  
  
<plugin>
				
                                
                                你的垃圾你处理掉了吗?GC
                                    oloz
GC
                                    前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 
 
 
 
1.垃圾收集算法的核心思想 
　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。 
　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
                                
                                shiro 和 SESSSION
                                    杨白白
shiro
                                    shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
                                
                                移动互联网终端 淘宝客如何实现盈利
                                    小桔子
移動客戶端淘客淘寶App
                                           2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。 可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
                                
                                wordpress小工具制作
                                    aichenglong
wordpress小工具
                                    wordpress 使用侧边栏的小工具，很方便调整页面结构 
小工具的制作过程 
1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 
小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 
<?php 
 class AWP_Post_Category extends WP_Wi
                                
                                JS微信分享
                                    AILIKES
js
                                    // 所有功能必须包含在 WeixinApi.ready 中进行 
   WeixinApi.ready(function(Api) { 
       // 微信分享的数据 
           var wxData = { 
      &nb
                                
                                封装探讨
                                    百合不是茶
JAVA面向对象 封装
                                    //封装   属性 方法 将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性 
  
在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用 
  
例如   1： 
	//属性 将其设为私有
	姓名 name 可以公开

                                
                                jquery radio/checkbox change事件不能触发的问题
                                    bijian1013
JavaScriptjquery
                                    我想让radio来控制当前我选择的是机动车还是特种车，如下所示：  
<html> 
<head> 
<script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
                                
                                AngularJS中安全性措施
                                    bijian1013
JavaScriptAngularJS安全性XSRFJSON漏洞
                                            在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。 
一.JSON漏洞 
        当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
                                
                                [Maven学习笔记九]Maven发布web项目
                                    bit1129
maven
                                    基于Maven的web项目的标准项目结构 
user-project 
    user-core 
    user-service 
    user-web 
       src 
     
                                
                                【Hive七】Hive用户自定义聚合函数(UDAF)
                                    bit1129
hive
                                    用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。 
问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ 
  
Double evaluate(Double a, Double b) 
 
                                
                                通过 nginx-lua 给 Nginx 增加 OAuth 支持
                                    ronin47

                                    前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： 
&n
                                
                                利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法
                                    bsr1983
session
                                    在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。   在 tomcat-redis-session-manager的github上有如下说明：   Session Change Tracking 
As noted in the &qu
                                
                                《代码大全》表驱动法-Table Driven Approach-1
                                    bylijinnan
java算法
                                    关于Table Driven Approach的一篇非常好的文章： 
 
http://www.codeproject.com/Articles/42732/Table-driven-Approach 
 
 
package com.ljn.base;

import java.util.Random;

public class TableDriven {

    public 
                                
                                Sybase封锁原理
                                    chicony
Sybase
                                           昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。     无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
                                
                                java异常处理机制
                                    CrazyMizzz
java
                                    java异常关键字有以下几个，分别为 try catch final throw throws 
他们的定义分别为 
try：    Opening exception-handling statement. 
catch：  Captures the exception. 
finally： Runs its code before terminating
                                
                                hive 数据插入DML语法汇总
                                    daizj
hiveDML数据插入
                                    Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
                                
                                工厂设计模式
                                    dcj3sjt126com
设计模式
                                      使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。  工厂模式 
工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。  
Example #1 调用工厂方法（带参数）   
<?phpclass Example{ 
                                
                                mysql字符串查找函数
                                    dcj3sjt126com
mysql
                                      
FIND_IN_SET(str,strlist) 
假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则   FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
                                
                                jvm内存管理
                                    easterfly
jvm
                                    一、JVM堆内存的划分 
 分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。 
 工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中； 
 年老代满了之后会执行major gc，这个是stop the word模式，执行
                                
                                CentOS-6.3安装配置JDK-8
                                    gengzg
centos
                                    JAVA_HOME=/usr/java/jdk1.8.0_45
JRE_HOME=/usr/java/jdk1.8.0_45/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME
                                
                                【转】关于web路径的获取方法
                                    huangyc1210
Web路径
                                    假定你的web application 名称为news,你在浏览器中输入请求路径：  http://localhost:8080/news/main/list.jsp  则执行下面向行代码后打印出如下结果：  1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
                                
                                php里获取第一个中文首字母并排序
                                    远去的渡口
数据结构PHP
                                    很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。 最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： 
Array
(
    [0] => Array
        (
            [sid] => 2885842
            [recetcstoredpay] =&g
                                
                                java内部类
                                    hm4123660
java内部类匿名内部类成员内部类方法内部类
                                         　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 
     &nb
                                
                                Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten
                                    zhb8015

                                    maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 
  
maven pom: 
  
		<dependency>
			<groupId>org.hibernate</groupId>
			<ar
                                
                                Spark 性能相关参数配置详解－任务调度篇
                                    Stark_Summer
sparkcachecpu任务调度yarn
                                    随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。 
  
由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
                                
                                css3滤镜
                                    wangkeheng
htmlcss
                                    经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 
 
html代码： 
 
<a href='' class='icon'><img src='utv.jpg' /></a> 
css代码： 
 
.icon{-webkit-filter: graysc
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.