菜鸟-朋子

Python爬虫获取PPT模板

多风格PPT任君挑

作为一个资深直男，审美风格一直被好友所诟病。然而直男的另一大特点就是，爱咋咋，反正已经这样了，这种破罐子破摔的心理需要适当的改变了。毕业前夕为了将四五十页的论文压缩到十几页的PPT上真是愁白了头，看着别人高大上的图标，醒目的背景，酷炫的动态效果吊炸天，心想一个PPT而已，至于吗，Ctrl+C—>Ctrl+V不就解决了吗。何必费那么大周折。嘴上这么说，心理也是极其渴望能做的一手好PPT的。初入职场，本以为可以逃离毕业答辩时的无措，紧张，转正在即，PPT还没做？模板还没下？赶紧百度，噼里啪啦找了半天终于发现一个免费网址，网页上挑了半天找了一个合适的下载下来开始准备答辩内容。每次需要每次去找真的很麻烦，这不是一个专业程序员的做法，作为一个职场人，以后工作汇报少不了要做PPT，如果每次都去找模板确实费时费力，于是乎利用一个周末把那家网站上的PPT全部Down下来，没事多写一些工作总结，模板用的多了，自然就直男的审美会提高的。

下面分享一下解析网页，下载PPT的流程。

1多方查找，找到免费网站（感恩）

网址：http://www.1ppt.com

图1：主页

本文主要对主页标黄的23种Style进行下载。

2爬虫思路

整体思路：

首先对主页网页进行解析，获取23种style的网址
对每一种style进行解析，获取每一种style的每一页的网址
对每一页进行解析获取每一个PPT的网址
对每一个PPT网址解析，获取下载链接下载PPT到本地。

下载的实现也是基于这四步一步步进行分析，测试。最后进行代码整合和相应的异常处理等。

3爬虫流程

3.0．爬虫必备

import requests, os
from lxml import etree

requests用来获取网页源代码，lxml库的etree用来解析网页结构，十分的方便好用，相关文档查看：https://lxml.de/

基础方法：

每打开一个网页都要获取源代码所以把获取网页源代码封装在一个方法内

def get_url_text(url):

    try:

        r = requests.get(url, timeout=30)

        r.raise_for_status()

        r.encoding = r.apparent_encoding

        htmlText = r.text

    except Exception:

        print("Error")

        return None

    return htmlText

解析网页的模式基本一样，首先：将源代码文本转换为HTML结构，其次：解析对应的内容

html = etree.HTML(htmlText, etree.HTMLParser())

urls = html.xpath("表达式")

3.1．风格解析

审查元素，分析源代码的结构，找到23种风格的网址。

网页结构很清晰，解析网址：

def get_moban_url(url):

    urls = None

    htmlText = get_url_text(url)

    if htmlText:

        html = etree.HTML(htmlText, etree.HTMLParser())

        urls = html.xpath("//div[@class='col_nav clearfix']//ul//li//a/@href")

    return urls

注：//div[@class='col_nav clearfix']//ul//li//a/@href表达式的//相当于整个文本的当前目录，从整个文本里面找到class=’ col_nav clearfix’的div标签，然后找div下的ul标签然后根据表达式一层一层往下找，我们需要的是a标签下的网址，所以到达a后用一个/就可以了。

3.2．页码解析

查看每一个风格下有多少页，通过分析发现，首页，下一页，末页都在要查找的标签之内，而且还有很多其他不需要的标签。

['ppt_dongtai_2.html', 'ppt_dongtai_3.html', 'ppt_dongtai_4.html', 'ppt_dongtai_5.html', 'ppt_dongtai_6.html', 'ppt_dongtai_7.html', 'ppt_dongtai_8.html', 'ppt_dongtai_9.html', 'ppt_dongtai_10.html', 'ppt_dongtai_11.html', 'ppt_dongtai_12.html', 'ppt_dongtai_2.html', 'ppt_dongtai_12.html']

需要做相应的处理（确保页数拼接正确的网址！）：

n = len(urls) - 1

urls = ['ppt_%s_%d.html' % (style, i) for i in range(1, n + 1)]

整体代码：

def get_style_url(url, style):

    urls = None

    htmlText = get_url_text(url)

    if htmlText:

        html = etree.HTML(htmlText, etree.HTMLParser())

        urls = html.xpath("//ul[@class='pages']//li//a/@href")

        n = len(urls) - 1

    urls = ['ppt_%s_%d.html' % (style, i) for i in range(1, n + 1)]

    return urls

3.3．页面解析

每一页大概有30个PPT对应的结构如上图：解析如下

urls = html.xpath("//ul[@class='tplist']//li//a/@href")

结果：

发现很多重复和如黄色标记非正式格式：做相应的处理如下：

urls = [url for url in set(urls) if url.__contains__('.html')]

整体代码：

def get_style_page(url):

    urls = None

    htmlText = get_url_text(url)

    if htmlText:

        html = etree.HTML(htmlText, etree.HTMLParser())

        urls = html.xpath("//ul[@class='tplist']//li//a/@href")

        # print(urls, len(urls))

    urls = [url for url in set(urls) if url.__contains__('.html')]

    return urls

3.4．下载链接解析

每一个单独的PPT点进去如上图，解析上面的下载链接如下：

urls = html.xpath("//ul[@class='downurllist']//li//a/@href")

整体代码：

def get_down_url(url):

    urls = None

    htmlText = get_url_text(url)

    if htmlText:

        html = etree.HTML(htmlText, etree.HTMLParser())

        urls = html.xpath("//ul[@class='downurllist']//li//a/@href")

    return urls[0]

3.5．下载PPT

获取下载链接后可以下载了，代码如下：

def down_ppt(url, path):

    if url:

        filename = path + url.split('/')[-1]

        try:

            r = requests.get(url)

            r.raise_for_status()

            r.encoding = r.apparent_encoding

            htmlContent = r.content # 下载文件用content以二进制方式写入文件。

            with open(filename, "wb") as f:

                f.write(htmlContent)

        except Exception:

            print(url + "下载失败！")

        else:

            print(url + "下载成功")

4源代码

def main():

    # 1 获取所有风格的网址

    url_1 = 'http://www.1ppt.com/moban/'

    urls_1 = get_moban_url(url_1) # ['/moban/dongtai/', '/moban/danya/', ,,,,]

    for item in urls_1:

        url_2 = 'http://www.1ppt.com' + item

        style = item.split('/')[-2]

        try:

            if not os.path.exists(style):

                os.mkdir(style)

            else:

                print(style + "文件夹已存在！")

                continue

        except Exception:

            print(style + "文件夹创建失败！")

        # 2.对某一风格进行解析获取多少页的网址

        pages = get_style_url(url_2, style) # ['ppt_dongtai_1.html', 'ppt_dongtai_2.html',,,,]

        for page in pages:

            url_3 = 'http://www.1ppt.com/moban/%s/%s' % (style, page)

            # 3 对某一风格的每一页进行解析

            ppt_html = get_style_page(url_3) # ['/article/41754.html', '/article/32755.html', ,,,]

            for html in ppt_html:

                url_4 = 'http://www.1ppt.com' + html

                # 4 对每一个PPT进行获取下载网址并下载

                down_url = get_down_url(url_4)

                down_ppt(down_url, style + '/')

        print(style + "完成下载！")

说明：其实上面每个方法都有重复的地方，可以进一步的整合。代码用到下载，读写，操作文件等需要进行异常处理，防止因为某一个下载失败而中断进程。还有一个不足之处就是，每一个风格都有很多页而我直接先获取有多好页然后拼接网址，也可以使用selenium库模拟点击click操作！相关内容读者自行百度。

5结果展示

你可能感兴趣的:(爬虫)

Python 实现简单的爬虫 Java进阶营菌程序员职场 Python python 爬虫后端
Python是一种跨平台的计算机程序设计语言，面向对象动态类型语言，Python是纯粹的自由软件,源代码和解释器cpython遵循GPL(GNUGeneralPublicLicense)协议，随着版本的不断更新和语言新功能的添加，Python越来越多被用于独立的、大型项目的开发。快速抓取网页:使用urllib最基本的抓取功能,将百度首页的内容保存到本地目录下.importurllib.reques
drissionpage爬虫自动化入门案例与视频教程与相关代码十一姐爬虫自动化 drissionpage
目录零、各种关于drissionpage文章视频案例解决方案合集一、dp安装与首次打开网页测试使用二、dp获取网页内容html/text/attr入门三、dp输入点击input/click/eles元素交互等入门四、dp获取cookies信息入门五、dp实现翻页并下载图片入门六、dp实现网页接口数据包监听入门（类似network和fiddler）七、dp实现高并发10倍速度爬取详情页信息八、dp实
淘宝爬虫自动化 qq_42307546 爬虫自动化 python
importjsonimportosimportreimportthreadingimporttimeimportopenpyxlfromDrissionPageimportChromiumOptions,ChromiumPage#创建一个excel文件defcreate_excel(file_name):#实例化工作簿对象workbook=openpyxl.Workbook()#激活当前工作表w
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 brhhh_sehe 爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
爬虫笔记21——DrissionPage自动化框架的使用墨菲马爬虫笔记爬虫笔记自动化
DrissionPage自动化框架的使用前言DrissionPage的使用1、准备工具及初步了解2、ChromiumPage的使用（操作浏览器）访问页面初始化配置元素定位iFrame切换元素监听动作链的简单使用3、SessionPage的使用（收发数据包）4、WebPage前言有人说，自动化框架降低了逆向的成本，当遇到不会的逆向，我用自动化解决问题，这其实是有道理的，哈哈哈~。但是，自动化框架其实
如何优化爬虫以提高效率数据小小爬虫爬虫
在使用Python爬虫获取数据时，遵循一些最佳实践可以提高爬虫的效率和稳定性，同时避免潜在的法律和道德风险。以下是一些推荐的最佳实践：一、遵守robots.txt协议robots.txt文件是网站用来告诉爬虫哪些页面可以爬取，哪些不可以的规则文件。遵守robots.txt协议是爬虫的基本道德准则，可以避免对网站造成不必要的负担。二、使用合适的库和框架根据项目需求选择合适的爬虫库和框架。常用的库有r
scrapy学习之爬虫练习平台爬取 LLLibra146 爬虫 python
本文章首发于个人博客，链接为：https://blog.d77.xyz/archives/35dbd7c9.html前言为了练习Scrapy，找了一个爬虫练习平台，网址为：https://scrape.center/，目前爬取了前十个比较简单的网站，在此感谢平台作者提供的练习平台。环境搭建开始爬取前，首先要先把环境搭建起来，Pycharm新建项目learnscrapy和对应的虚拟环境，安装好Scr
如何学习爬虫技术：从入门到实践的全面指南 CodeJourney. 学习爬虫
一、引言在当今数字化时代，网络上的数据量呈爆炸式增长，能够高效地获取和处理这些数据变得愈发重要。爬虫技术作为一种从网页中自动提取信息的手段，在各个领域都有着广泛的应用，无论是数据分析、机器学习的数据集构建，还是市场调研、价格监测等商业场景，掌握爬虫技术都能为你打开一扇获取丰富信息资源的大门。然而，对于初学者来说，面对琳琅满目的工具和复杂的网络环境，可能会感到无从下手。本文将带你逐步深入了解爬虫技术
webdriver 反爬虫 (selenium反爬虫) 绕过 m0_74824044 爬虫 selenium 测试工具
1.webdriver反爬虫原理爬虫程序可以借助渲染工具从动态网页中获取数据。在这个过程中，“借助”其实是通过对应的浏览器驱动（即WebDriver）向浏览器发出指令的行为。因此，开发者可以根据客户端是否包含浏览器驱动这一特征来区分正常用户和爬虫程序。webdriver属性是我们最常听到的，通过webdriver驱动浏览器就会包含这一属性，因此可用来辨别爬虫程序（可检测的属性远不止这一种）。Web
python爬虫——pandas的简单使用张謹礧 python爬虫+可视化 python网络爬虫 python pandas 爬虫
pandas作为爬虫中最重要的包之一，我们要想学好爬虫，就必须要深入了解pandas直接上代码importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],#如果不写列索引默认为0，1，2，3columns=['a','b','c','d'])print(d
python网络爬虫selenium(1) 2401_84009529 程序员 python 爬虫 selenium
pipinstallselenium以Chrom浏览器为例，安装相应版本的chromdriver驱动程序，并添加为环境变量安装链接：安装chromdriver2.常用属性和方法===============================================================================fromseleniumimportwebdriverimport
用Python爬虫获取微博热搜词：数据抓取、分析与可视化全流程 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 selenium
引言微博作为中国最受欢迎的社交平台之一，每时每刻都在更新着海量的内容。其中，微博热搜词反映了用户关注的热点话题、社会事件及潮流趋势。对于数据分析、情感分析以及趋势预测等领域，获取微博热搜数据是一个非常有价值的任务。在本篇博客中，我们将详细介绍如何使用Python爬虫技术获取微博的热搜词，并进行数据分析和可视化。通过全流程的讲解，帮助你了解如何通过爬虫技术抓取并分析微博热搜词数据。一、爬虫技术概述与
自动化办公python脚本_Python自动化办公 weixin_39834281 自动化办公python脚本
在公司购买的OA系统上，很多功能都是软件商开发好的，如果有什么自定义的需求，也很难实现。现实情况下需要将一个工单的各类信息汇总整理为一份Excel，看似简单的需求，却需要在OA系统上反复点击多次，人工汇总。本章我们看看如何使用Python爬虫帮同事解决这个问题的。点击工单号之后才可以看到更多信息一、技术路线requests_html二、环境准备fromrequests_htmlimportHTML
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
hadoop图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设图书数据分析 hadoop spring boot 爬虫
hadoop图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql前后端分离2.Echarts图表统计数据,直观展示数据情况3.发表评论后，用户可以回复评论,回复的评论可以被再次回复,一级评论可以添加图片附件4.爬虫图书数据1万+5.推荐图书列表展示,推荐图
Python正则表达式详解程序员老华正则表达式 python 开发语言深度学习数据分析
正则表达式是一个很强大的字符串处理工具，几乎任何关于字符串的操作都可以使用正则表达式来完成，作为一个爬虫工作者，每天和字符串打交道，正则表达式更是不可或缺的技能，正则表达式的在不同的语言中使用方式可能不一样，不过只要学会了任意一门语言的正则表达式用法，其他语言中大部分也只是换了个函数的名称而已，本质都是一样的。下面，我来介绍一下python中的正则表达式是怎么使用的。首先，python中的正则表达
Python爬虫工具BeautifulSoup使用详解闲人陈二狗 python 爬虫 beautifulsoup
目录一、模块简介二、方法利用1、安装beautifulsoup2、引入模块3、选择解析器解析指定内容三、具体利用1、获取拥有指定属性的标签2、获取标签的属性值3、获取标签中的内容4、stripped_strings四、输出1、格式化输出prettify()2、get_text()一、模块简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换
Python爬虫天气预报（小白入门）(1) 2401_84009993 程序员 python 爬虫开发语言
首先来到目标数据的网页http://www.weather.com.cn/weather40d/101280701.shtml中国天气网我们可以看到，我们需要的天气数据都是放在图表上的，在切换月份的时候，发现只有部分页面刷新了，就是天气数据的那块，而URL没有变化。这是因为网页前端使用了JS异步加载的技术，更新时不用加载整个页面，从而提升了网页的加载速度。对于这种非静态页面，我们在请求数据时，就不
Python从0到100（八十三）：神经网络-使用残差网络RESNET识别手写数字是Dream呀 python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
100天精通Python（基础篇）——第19天：异常类型大全、异常处理介绍袁袁袁袁满 100天精通Python python 开发语言后端 mce异常
目录1.异常的概念2.异常类型1）Python内置异常2）requests爬虫模块内置异常类3）自定义异常2.捕获异常1）简单的捕获异常语法2）错误类型捕获3）异常捕获完整语法3.异常的传递4.抛出raise异常1）应用场景2）抛出异常1.异常的概念程序在运行时，如果Python解释器遇到到一个错误，会停止程序的执行，并且提示一些错误信息，这就是异常程序停止执行并且提示错误信息这个动作，我们通常称
Python 爬虫入门教程：从零构建你的第一个网络爬虫 m0_74825223 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫是一种自动化程序，用于从网站抓取数据。Python凭借其丰富的库和简单的语法，是构建网络爬虫的理想语言。本文将带你从零开始学习Python爬虫的基本知识，并实现一个简单的爬虫项目。1.什么是网络爬虫？网络爬虫（WebCrawler）是一种通过网络协议（如HTTP/HTTPS）获取网页内容，并提取其中有用信息的程序。常见的爬虫用途包括：收集商品价格和评价。抓取新闻或博客内容。统计数据分析。爬
用python、JavaScript (Node.js)、JAVA等多种语言的实例代码演示教你如何获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据配有股票数据API接口说明文档详解参数说明 Eumenides_max python javascript node.js 股票API接口股票数据接口
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
如何用selenium来链接并打开比特浏览器进行自动化操作（1）写python的鑫哥爬虫实战进阶 selenium pyppeteer puppeteer 比特浏览器比特指纹浏览器链接打开
前言本文是该专栏的第76篇，后面会持续分享python爬虫干货知识，记得关注。本文，笔者将基于“比特浏览器”，通过selenium来实现链接并打开比特浏览器，进行相关的“自动化”操作。值得一提的是，在本专栏之前，笔者有详细介绍过“使用selenium或者pyppeteer（puppeteer）来链接并打开指纹浏览器AdsPower”的方法和详细教程。笔者将相关文章的链接，整理如下（对此领域，感兴趣
python转转商超书籍信息爬虫 Python数据分析与机器学习爬虫 python 网络爬虫爬虫
1基本理论1.1概念体系网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以按照我们设置的规则自动化爬取网络上的信息，这些规则被称为爬虫算法。是一种自动化程序，用于从互联网上抓取数据。爬虫通过模拟浏览器的行为，访问网页并提取信息。这些信息可以是结构化的数据（如表格数据），也可以是非结构化的文本。爬虫任务的执行流程通常包括发送HTTP请求、解析HTML文档、提取所需数据等步骤。1.2技术体系1请求库:
基于Python爬虫的豆瓣电影影评数据可视化分析 wp_tao Python副业接单实战项目 python 爬虫信息可视化
文章目录前言一、数据抓取二、数据可视化1.绘制词云图2.读入数据总结前言本文以电影《你好，李焕英》在豆瓣上的影评数据为爬取和分析的目标，利用python爬虫技术对影评数据进行了爬取，使用pandas库进行了数据清洗，使用jieba库进行分词，使用collections库进行词频统计，使用wordcloud库绘制词云图，使用matplotlib库绘制了评论人所在城市占比饼状图，并使用matplotl
C# 解析 HTML 实战指南 code_shenbing C#c#html 开发语言
在网页开发和数据处理的场景中，经常需要从HTML文档里提取有用的信息。C#作为一门强大的编程语言，提供了丰富的工具和库来实现HTML的解析。这篇博客就带你深入了解如何使用C#高效地解析HTML。一、为什么要在C#中解析HTML在实际项目中，无论是进行网页数据采集、网页内容分析，还是开发网页爬虫，都离不开对HTML的解析。例如，电商平台可能需要从竞品网站上采集商品价格和库存信息；新闻聚合应用可能需要
【Python】selenium结合js模拟鼠标点击、拦截弹窗、鼠标悬停方法汇总（使用 execute_script 执行点击的方法）翠花上酸菜 selenium 网络爬虫 python selenium javascript
我们在写selenium获取网络信息的时候，有时候我们会受到对方浏览器的监控，对方通过分析用户行为模式，如点击、滚动、停留时间等，网站可以识别出异常行为，进而对Selenium爬虫进行限制。这里我们可以加入JavaScript的使用。Selenium可以执行JavaScript，通过使用execute_script方法，来执行点击操作。它可以绕过一些Selenium直接操作元素时可能遇到的问题，比
精通爬虫技术：从入门到入狱——网络数据爬虫的合法性与法律边界
了解数据爬虫的原理、用途、法律风险与合规性。本文深入解析网络爬虫的工作机制，探讨其在数据采集、搜索引擎等领域的应用。同时，重点关注Robots协议、反爬虫技术、开放数据等合规性问题，并分析相关法律案例，助您合法安全地使用爬虫技术。文章目录什么是网络数据爬虫？数据爬虫的工作原理数据爬虫的应用与影响数据爬虫的广泛用途数据爬虫带来的负面影响和潜在风险数据爬虫的合规性问题开放数据与非开放数据Robots协
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他