AugustTheo

Python爬虫进阶（十）：实战，Scrapy爬取贴吧

目录

前言

目标

使用scrapy shell测试目标

1 为什么

2 尝试直接进入tieba.baidu.com

3 准备header

3 测试爬取目标

编写item

编写pipeline

编写spider

1 编写start_requests与parse

2 编写invparse

前言

阅读本文中如果发现笔者有讲的不清楚的地方，可以查看scrapy的开发文档（第七节有网址）。

PS：本来的目标是微博，但由于微博的反爬措施太严格了（非要爬也不是不可以，但如果不用splash等包套娃最后八成要变成正则表达式大战），起不到作为示范的作用，我们把目标改成贴吧。

如果有把目标定为微博但惨遭新浪访客系统重定向的读者，可以试着带上抓包的cookie和header再次爬取，或者把爬虫伪装成搜索引擎爬虫。

目标

爬取贴吧首页推送的所有帖子（不包括ajax），并且获取文字评论。

使用scrapy shell测试目标

在开始编写爬虫之前，我们要先使用scrapy shell对爬取的目标进行测试，获取其路径。

1 为什么

如果在项目本体进行测试，每次测试都要运行整个项目。

在scrapy shell中测试，只需要输入爬取的url和测试语句。

2 尝试直接进入tieba.baidu.com

打开cmd，输入scrapy shell www.tieba.baidu.com，可以看到返回了：

2020-11-15 21:47:56 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

状态码为200，链接也正常，输入view(response)让scrapy在浏览器中打开响应，确认页面是正常的。

3 准备header

保险起见，我们还是要准备header。

使用抓包工具（浏览器F12就可以）对贴吧进行抓包，获取header（请求头）。

在settings.py文件下增加USER-AGENT，放入一组UA头（可以使用我们之前介绍过的fake_useragent生成），例如：

USER_AGENT=[

    'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.517 Safari/537.36',

    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 Safari/537.36',

    'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.16 Safari/537.36',

    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1623.0 Safari/537.36',

    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36'

]

在终端中进入scrapy shell声明header并赋值，然后输入scrapy.http.Request(url=”https://www.tieba.baidu.com”,headers=header)等待，可以看到返回了状态码200。在请求正常返回后，使用view(response)在浏览器中查看返回的页面。

3 测试爬取目标

接上一步，我们使用css选择器测试爬取目标。

浏览器打开贴吧首页，定位推荐贴的css位置，如下：

发现其中比较好定位的是class和rel，但经过比对发现贴吧上方的吧推荐也采用了相同的rel，所以我们用class的值进行定位。

输入response.css(".feed-item-link::attr(href)")，得到选择后的列表如下：

可以看到，在帖子链接里（p开头）仍然有吧链接（含有kw）。输入response.css(".feed-item-link.title::attr(href)")将元素的两个class都纳入选择条件中，然后使用extract()打印出所有的href属性，如下：

可以看到已经没有干扰项了。

输入response.css(“.feed-item-link.title::text”)，并用extract()打印出所有内容，可以看到得出了所有的帖子标题。

打开首页推送中任意一个帖子，定位楼层的css位置，如下：

显而易见我们可以通过class进行定位。

输入response.css(“.d_post_content::text”)，尝试获取楼层中的文字内容。分析结果，发现其长度与帖子的楼层数不符合，推测带有换行的楼层被分割成了多个内容。改为response.css(“.d_post_content.j_d_post_content”)，将定位定在楼层文字的标签处，提取文字在parse中再做进一步处理。

接下来获取所有的层主名，对层主信息进行定位，输入response.css(“[alog-group=’p_author’]::text”)，测试其长度比楼层数多2，推测是贴吧的表情昵称在文字昵称之间导致。对response.css(“[alog-group=’p_author’]”)测试，刚好等于楼层数。

最后，获取帖子的下一页url。观察DOM结构可以得知此url中没有特别的标签或者属性，也很难通过父节点定位，所以采用根据标签内容定位的方法。同时，由于css中没有针对标签内容的定位方式，我们采用xpath进行定位。输入response.xpath(“//*[@id='thread_theme_7']/div[1]/ul/li[1]/a[contains(text(),'下一页')]/@href”)，定位成功。

至此，我们所有的目标定位成功。

编写item

在确认所有目标都可爬取后，我们就可以开始编写用于规范数据的item类了。

根据上一节中的爬取目标，我们可以整理出如下关系：

所以我们要获取的内容应该是帖子标题（字符串），楼层的作者和内容（列表->字典）。将每一个帖子抽象为一个item对象，则在项目下items.py文件中建立Item类TiebaItem如下所示：

class TiebaItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    title=scrapy.Field()

    content=scrapy.Field()

编写pipeline

在pipelines.py中，我们要实现的目标是：将每个传来的item分别保存到一个文件里，其文件名为帖子的标题。

class TiebaPipeline:

    def __init__(self):

        self.num=0

    def process_item(self, item, spider):

        Route="D://TheodorWebsiteWork/tieba/"

        with open(Route+str(self.num)+item['title']+".txt","w+",encoding="utf-8",errors="ignore") as f: #加上num是为了防止重名，就怕真有这么巧的事

            for i in item['content']:

                for r in i.keys():

                    f.write(r+":\n")

                    f.write(i[r]+"\n") #写下每层数据

        f.close() #关闭文件

        self.num+=1

        return item

在编写完pipeline后，不要忘记将其加入settings文件中：

ITEM_PIPELINES={

    'start01.pipelines.TiebaPipeline':300

}

编写spider

最后，终于进入到我们的重点spider的编写了。在之前的测试中，我们能明显地将spider分为两部分：解析贴吧首页的，以及解析帖子页面的。在书写中，我们将这两类请求的解析器函数名定为parse与invparse。

1 编写start_requests与parse

由于是带头部的爬取，不能采用start_urls的形式简写。

    def start_requests(self):

        url="https://tieba.baidu.com"

        return [Request(url=url,callback=self.parse,headers=self.header)]

这个链接进入贴吧的首页，对于此次请求的响应，我们要找出所有推荐帖的链接和标题，所以其解析器parse的书写如下：

 def parse(self,response): #这一步不返回任何item

        urllist=response.css(".feed-item-link.title::attr(href)") #帖子链接列表

        namelist=response.css(".feed-item-link.title::text") #帖子名列表

        for i in range(len(namelist)):

            self.item.append(TiebaItem())

            self.item[i]['title']=namelist[i].extract() #将帖子名存入item

            self.item[i]['content']=[]

        for r in urllist:

            yield Request(response.urljoin(r.extract()),callback=self.invprase,headers=self.header) #链接生成为请求返回给engine

2 编写invparse

invprase用于帖子的解析，在含有下一页链接时返回其请求，在爬取完毕时返回item。

 def invprase(self,response):

        storeylist=response.css(".d_post_content.j_d_post_content") #楼层文字回复列表 #其实，这里再加进一步处理可以得到带有图文的回复

        authorlist=response.css("[alog-group='p_author']") #楼层作者列表

        nexturl=response.xpath("//*[@id='thread_theme_7']/div[1]/ul/li[1]/a[contains(text(),'下一页')]/@href") #下一页的位置，如果没有下一页了就为空列表

        content=[]

        for i in range(len(storeylist)):

            text=""

            s=storeylist[i].css("::text") #获取所有文本selector

            for m in s:

                text+=m.extract() #对每个文本selector，使用extract然后加在一起

            author=""

            a=authorlist[i].css("::text") #同上

            for m in a:

                author+=m.extract()

            content.append({author:text}) #将作者与内容的字典存入item

        self.item[self.index]['content']+=content

        if nexturl!=[]: #存在下一页的情况下，当然，存在的情况下只有一个成员

            yield Request(url=response.urljoin(nexturl[0].extract()),callback=self.invprase,headers=self.header)

        else: #不存在下一页的情况下返回item了

            yield self.item[self.index]

            self.index+=1

你可能感兴趣的:(python,爬虫,开发语言)

华为OD机试E卷 --找数字--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述小扇和小船今天又玩起来了数字游戏，小船给小扇一个正整数n（1≤n≤1e9），小扇需要找到一个比n大的数字m，使得m和n对应的二进制中1的个数要相同，如：4对应二进制1008对应二进制1000其中1的个数都为1个现在求m的最小值。输入描述输入一个正整数n（1≤n≤1e9）输出描
【Python】成功解决ValueError: zero-size array to reduction operation minimum which has no identity 高斯小哥 BUG解决方案合集 python 新手入门学习 debug
【Python】成功解决ValueError:zero-sizearraytoreductionoperationminimumwhichhasnoidentity个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、
Numpy基础01（Jupyter基本用法/Ndarray创建与基本操作） XYX的Blog 数据分析与可视化 numpy jupyter
内容一：Jupyter开发环境IPython是一个增强型的Python交互式解释器，提供了自动补全、命令历史、魔法命令等功能。它支持与操作系统命令交互、内联绘图和多语言扩展，并可与JupyterNotebook集成，适用于数据分析和科学计算。IPython还支持远程访问、包管理和插件扩展，是一个功能强大且灵活的开发工具。JupyterNotebook是IPython的开发环境。1.1Jupyter
Python魔法方法__call__深入详解图灵学者 python精华 python 开发语言
目录1、魔法方法__call__初探‍♂️1.1什么是__call__?1.2基础用法演示1.3自定义行为与参数传递2、实现轻量级装饰器模式️2.1装饰器概念回顾2.2利用__call__构建装饰器2.3深入理解装饰器应用场景3、类实例变身函数调用3.1类似函数的行为模拟3.2动态执行与灵活性提升3.3实战案例：日志记录器4、实现状态机模式4.1状态机概念回顾4.2通过__call__管理状态转换
Python魔法参数：深入解析*args和**kwargs的强大用途图灵学者 python精华 python java linux
目录引言基础概念解析*args：处理位置参数**kwargs：处理关键字参数*args和**kwargs的实际应用场景1.函数装饰器中使用*args和**kwargs2.类构造函数中使用*args和**kwargs3.API调用中使用**kwargs与其他参数类型的结合使用结合默认参数位置参数与关键字参数的混合使用高级技巧和注意事项参数解包与重打包性能考量调试技巧案例研究场景描述实现步骤实际应用案
python封装成exe文件 wenangou python
这篇文章主要介绍了一个有趣的事情，具有一定借鉴价值，需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获，下面让小编带着大家一起了解一下。Python打包exe文件方法汇总【4种】Python作为解释型语言，发布即公开源码，虽然是提倡开源但是有些时候就是忍不住想打包成exe，不仅仅是为了对代码进行加密，而是为了跨平台。防止有些没有安装py环境的电脑无法运行软件小神猪。目录对python代码打包成
使用Python解决数独谜题的实用指南 werf456456asddd python 开发语言
在这篇文章中，我们将探讨如何编写一个Python函数来解决数独谜题。这个函数将接收一个9x9的数独网格作为输入，并使用回溯算法来解决谜题。如果谜题无法解决，函数将返回None。此外，我们还会确保输入网格是一个有效的数独谜题。技术背景介绍数独是一种经典的逻辑游戏，目标是填满一个9x9的网格，使每列、每行和每个3x3的子网格都包含1到9之间的数字。在计算机科学中，数独可以通过回溯算法来求解，这是一种尝
RPA手把手：【Intermediate Python】一、*args 和 **kwargs 艺赛旗RPA RPA RPA教程 python基础 RPA python 艺赛旗
艺赛旗RPA10.0全新首发免费下载点击下载www.i-search.com.cn/index.html?from=line1我观察到，大部分新的Python程序员都需要花上大量时间理解清楚*args和**kwargs这两个魔法变量。那么它们到底是什么？首先让我告诉你，其实并不是必须写成args和**kwargs。只有变量前面的星号才是必须的，你也可以写成var和vars，而写成*args和kwa
有趣的python代码实例_Python之路：200个Python有趣的小例子一网打尽 weixin_39845406 有趣的python代码实例
概述博主最近在学习python，看完了一整套学习视频，然后呃呃呃，还是用不太流畅。碰巧在全球最大的同性交友论坛GayHub(呸！是开源代码托管平台Github)上面发现了一个项目，该项目列举了200多个Python小例子，Python基础、Python坑点、Python字符串和正则、Python绘图、Python日期和文件、Web开发、数据科学、机器学习、深度学习、TensorFlow、Pytor
python module错误_修复python的ModuleNotFoundError weixin_39761696 python module错误
我在项目里面用到了python，但其他的同事并没有安装python环境，为了不强制每个人都安装python，我下载了python-3.6.1-embed-amd64，并将用一个.bat去调用它。大概像这样myscript.bat"%dp0\python-3.6.1-embed-amd64\python.exe""%dp0\myscript.py"pause我写了两个python文件，这里假设是my
python调用oracle存储过程传入多参数_精通 Oracle+Python，第 5 部分：存储过程、Python 编程... weixin_39669133
调用数据库存储过程及其他感兴趣的高级Python编程功能。2010年3月发布对于涉及数据库的软件开发来说，有两种主流开发方法：一种是在应用程序中(对于三层体系结构，也可以是在中间件中)实现所有业务逻辑，另一种是在数据库内部实现所有业务逻辑。本教程不讨论这两种解决方案的优缺点；不过，使用Oracle数据库方法还是会为面向数据库的应用程序带来某些好处。用PL/SQL嵌入所有业务逻辑可大大减少应用程序与
python窗体设计插件_Python 界面生成器 wxFormBuilder 的入门使用（wxPython的界面设计工具的初学笔记）... 黎边 python窗体设计插件
环境，Win10，python3.7.3，wxPython4.0.4，wxFormBuilder3.91、准备一个窗体。点击wxformbuilder上方的标签“forms”，并点击标签下方的第一个类似窗体的图标“Frame”然后，下面就会出现一个窗体。但是现在还不能直接往窗体上添加各种控件。咱们还需要给窗体添加布局器BoxSizer。2、添加布局器点击wxformbuilder上方的标签“Lay
python oracle 执行commit_用Python操作Oracle 付游 python oracle 执行commit
Python作为一门易学易用且不失强大的语言，国内外不乏用Python开发的从桌面系统到复杂大型系统的例子。但作为脚本语言中的一位著名代表，Python不仅可以用来取代Java、C++等系统语言来开发复杂的大型系统，也可以被当作一种辅助工具用来做一些日常工作中的琐碎的事情，比如备份、生成测试数据、日志分析等等。本文将通过一些简单的例子来演示如何使用Python来访问Oracle进行基本操作。需要说
python核心语法 DB_UP python杂集 python
目录一、生成器1.1列表生成式1.2创建生成器二、迭代器2.1迭代对象2.2iter()函数2.3生成器和迭代器之间的区别三、高阶函数3.1map函数3.2reduce3.3filter3.4sorted3.4.1选择排序3.4.2冒泡排序notebook主目录及pip镜像源修改python基础语法python核心语法matplotlib基本操作python常见统计分析处理函数一、生成器1.1列表
七个Python可视化界面设计器简介(不是GUI库) stgsd python pyme PythonStudio wxFormBuilder 易函数视窗编程系统 WxPython可视化编辑器 PAGE
一pygubu-designer依赖库tk,tkk,pygubu(非必需)安装pipinstallpygubu-designe在python的Scripts目录下找到它,是一个exe文件.二PAGE-Python自动GUI生成器-7.6版本依赖库tk,tkkPAGE中文文档·看云
python:动态参数*args Python 学习者 python
动态参数顾名思义，动态参数就是传入的参数的个数是动态的，可以是1个、2个到任意个，还可以是0个。在不需要的时候，你完全可以忽略动态函数，不用给它传递任何值。Python的动态参数有两种，分别是*args和**kwargs，这里面的关键是一个和两个星号的区别，而不是args和kwargs在名字上的区别，实际上你可以使用*any或**whatever的方式。但就如self一样，默认大家都使用*args
VSCode配置python环境 40577131 python vscode 编程语言人工智能爬虫
初学Python，使用的IDE又从Pycharm转到了VSCode，就试着对VSCode进行环境配置。1.安装Python——Python官网2.安装VSCode——VSCode官网，vscode下载与安装——参考这儿在两个安装完成之后可以配置一下vscode中文环境：Ctrl+shift+X进入商店扩展，步骤：1.ctrl+shift+x2.输入Chinese3.点击install安装退出重启配
Mac 使用 GVM 管理多版本 Go 环境自学AI的鲨鱼儿 #环境安装 macos golang 开发语言
使用GVM管理多版本Go环境在本文中，我们将使用gvm（GoVersionManager）工具管理本地多个Go语言版本。gvm功能类似于Python的Anaconda，可以方便地切换不同版本的Go环境，非常适合需要多版本开发与测试的场景。需要注意的是，gvm在第一次安装Go时，需要终端环境中已经存在一个可用的Go语言版本，因为gvm需要依赖现有的Go环境来编译安装新的版本。为了满足这一需求，我们可
pycharm配置环境出现unsupported 爱编码的小陈 pycharm ide python
情况概述：本人电脑中的pycharm版本是2019的，在使用python3.10环境的时候，pycharm无法识别，出现如下错误：网上说是因为python版本过高，无法兼容低版本的pycharm，解决方案分两种：要么降低python环境的版本，取消使用3.10，改用3.7或者3.8之类的版本；要么就是下载高版本的pycharm。这里我因为一些原因必须使用3.10，所以打算卸载pycharm2019
Python 打包成 EXE luxiaoshuai 各种脚本 python exe 工具
py2exe好像从2.6版本以后就不再更新了。用下面这个工具吧。http://cx-freeze.sourceforge.net/
python多态 lingllllove python java 开发语言
什么是多态？多态（Polymorphism）是面向对象编程中的一个重要概念，指的是不同对象可以以相同的方式调用相同的方法，但这些方法会表现出不同的行为。多态可以增强代码的灵活性和可维护性。Python中的多态在Python中，多态通过继承和方法重写来实现。基类定义了一些方法，子类可以重写这些方法，从而使得相同的方法在不同的子类中表现出不同的行为。示例以下是一个简单的例子，展示了如何在Python中
推荐开源项目：python-oracledb —— 高效连接Oracle数据库的Python扩展模块方玉蜜United
推荐开源项目：python-oracledb——高效连接Oracle数据库的Python扩展模块python-oracledbPythondriverforOracleDatabaseconformingtothePythonDBAPI2.0specification.Thisistherenamed,newmajorreleaseofcx_Oracle项目地址:https://gitcode.c
Python-oracledb 项目教程邓越浪Henry
Python-oracledb项目教程python-oracledbPythondriverforOracleDatabaseconformingtothePythonDBAPI2.0specification.Thisistherenamed,newmajorreleaseofcx_Oracle项目地址:https://gitcode.com/gh_mirrors/py/python-oracl
探索Pygubu：Python tkinter的高效UI设计工具武允倩
探索Pygubu：Pythontkinter的高效UI设计工具项目地址:https://gitcode.com/gh_mirrors/py/pygubuPygubu是一个基于Python的快速应用程序开发（RAD）工具，专为tkinter库打造，让开发者能够轻松地构建用户界面。这个强大的工具以其简洁易用的XML文件保存用户界面的设计，通过pygubu构建器动态加载到应用中，极大地提高了开发效率。项
Python使用import导入模块时执行了模块的文件但报ModuleNotFoundError错误的原因和解决方法星光璀璨技术之心 python 开发语言 Python
Python使用import导入模块时执行了模块的文件但报ModuleNotFoundError错误的原因和解决方法当在Python中使用import语句导入模块时，有时候可能会遇到报ModuleNotFoundError错误的情况，尽管看起来似乎没有错误。这种情况可能会让人感到困惑，但通常有一些常见的原因和解决方法可以帮助解决这个问题。模块路径问题：当使用import语句导入模块时，Python
用python、JavaScript (Node.js)、JAVA等多种语言的实例代码演示教你如何获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据配有股票数据API接口说明文档详解参数说明 Eumenides_max python javascript node.js 股票API接口股票数据接口
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
微信机器人 DIY【Python 】碲矿微信机器人 python
前面微信机器人DIY从0到1介绍了WeChatFerry的前世今生。写的人是觉得挺清楚了，但读的人多半云里雾里。也对，我只是想开车而已，何必需要知道发动机怎么造的？快速使用于是我把WeChatFerry打了个包，可以一键安装：pipinstallwcferry当然，还是有前提的，正如开车上路也需要持证一样。为了正常使用WeChatFerry，需要两个条件：Windows因为PC微信跑在Window
Python语言的编程范式 AI向前看包罗万象 golang 开发语言后端
Python语言的编程范式Python是一种广泛使用的高级编程语言，它因其简单易读的语法和强大的功能而受到程序员的喜爱。自1991年由荷兰人GuidolvanRossum首次发布以来，Python的发展迅速，其应用范围涵盖了Web开发、数据分析、人工智能、科学计算、自动化等多个领域。本文将深入探讨Python的编程范式，帮助读者更好地理解该语言的特性和优势。1.什么是编程范式编程范式是对程序设计风
Python Web开发：使用FastAPI构建视频流媒体平台 Switch616 Python Web python 前端 fastapi 微服务架构媒体开发语言
PythonWeb开发：使用FastAPI构建视频流媒体平台目录用户认证与视频上传视频转码与存储实时视频流播放与多媒体服务1.用户认证与视频上传在构建视频流媒体平台时，用户认证与视频上传是两个至关重要的功能。通过用户认证机制，平台能够确保只有经过授权的用户才能上传视频。视频上传功能则涉及到如何处理视频文件、存储视频并为后续播放提供支持。FastAPI作为一个高效的Web框架，可以轻松处理这些需求。
华为OD机试2024年E卷-补种未成活胡杨[100分]（ Java | Python3 | C++ | C语言 | JsNode | Go）实现100%通过率梅花C 华为OD题库华为od
题目描述近些年来，我国防沙治沙取得显著成果。某沙漠新种植N棵胡杨(编号1-N)，排成一排。一个月后，有M棵胡杨未能成活。现可补种胡杨K棵，请问如何补种(只能补种，不能新种)，可以得到最多的连续胡杨树?输入描述N总种植数量M未成活胡杨数量M个空格分隔的数，按编号从小到大排列K最多可以补种的数量其中:1<=N<=1000001<=M<=N0<=K<=M输出描述最多的连续胡杨棵树示例1输入52241输出
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他