u012150179

scrapy研究探索（二）——爬w3school.com.cn

下午被一个问题困扰了好一阵，最终使用另一种方式解决。

开始教程二，关于Scrapy安装、介绍等请移步至教程（一）（http://blog.csdn.net/u012150179/article/details/32343635）。

在开始之前假设你已经成功安装一切所需，整怀着一腔热血想要抓取某网站。一起来have a try。

1．前期基础准备。

Oh,不能在准备了，直接来。

（1）创建项目。

输入：

scapy startproject w3school

以上创建项目w3school。这时会产生w3school文件夹，文件夹下文件如下：

scrapy.cfg
w3school/
    __init__.py
    items.py
    pipelines.py
    settings.py
    spiders/
        __init__.py

其中scrapy.cfg目的配置文件。主要改写的是w3school中的三个文件以及其中spiders中需要编写的爬虫。

一个一个来。

（2）在items.py中定义Item容器。也就是编写items.py内容。

所谓Item容器就是将在网页中获取的数据结构化保存的数据结构，类似于python中字典。下面为items.py中代码。

#project: w3school
#file   : items.py
#author : younghz
#brief  : define W3schoolItem.

from scrapy.item import Item,Field

class W3schoolItem(Item):
    title = Field()
    link = Field()
    desc = Field()

上面定义了自己的W3schoolItem类，它继承自scrapy的Item（这里没有显示定义W3schoolItem的__init__()方法，也正因为如此，python也会为你自动调用基类的__init__()，否则必须显式在子类的__init__()中调用基类__init__()）。

之后声明W3schoolItem中元素并使用Field定义。到此items.py就OK了。

（3）在pipelines.py中编写W3schoolPipeline实现对item的处理。

在其中主要完成数据的查重、丢弃，验证item中数据，将得到的item数据保存等工作。代码如下：

import json
import codecs


class W3SchoolPipeline(object):
    def __init__(self):
        self.file = codecs.open('w3school_data_utf8.json', 'wb', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + '\n'
        # print line
        self.file.write(line.decode("unicode_escape"))
        return item

其中的process_item方法是必须调用的用来处理item，并且返回值必须为Item类的对象，或者是抛出DropItem异常。并且上述方法将得到的item实现解码，以便正常显示中文，最终保存到json文件中。

注意：在编写完pipeline后，为了能够启动它，必须将其加入到ITEM_PIPLINES配置中，即在settings.py中加入下面一句：

ITEM_PIPELINES = {
    'w3school.pipelines.W3SchoolPipeline':300
}

2.编写爬虫。

爬虫编写是在spider/文件夹下编写w3cshool_spider.py。

先上整个程序在慢慢解释：

#!/usr/bin/python
# -*- coding:utf-8 -*-

from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy import log

from w3school.items import W3schoolItem


class W3schoolSpider(Spider):
    """爬取w3school标签"""
    #log.start("log",loglevel='INFO')
    name = "w3school"
    allowed_domains = ["w3school.com.cn"]
    start_urls = [
        "http://www.w3school.com.cn/xml/xml_syntax.asp"
    ]

    def parse(self, response):

        sel = Selector(response)
        sites = sel.xpath('//div[@id="navsecond"]/div[@id="course"]/ul[1]/li')
        items = []

        for site in sites:
            item = W3schoolItem()

            title = site.xpath('a/text()').extract()
            link = site.xpath('a/@href').extract()
            desc = site.xpath('a/@title').extract()

            item['title'] = [t.encode('utf-8') for t in title]
            item['link'] = [l.encode('utf-8') for l in link]
            item['desc'] = [d.encode('utf-8') for d in desc]
            items.append(item)

            #记录
            log.msg("Appending item...",level='INFO')


        log.msg("Append done.",level='INFO')
        return items

（1）需要注意的是编写的spider必须继承自scrapy的Spider类。

属性name即spider唯一名字，start_url可以理解为爬取入口。

（2）parse方法。

parse（）是对scrapy.Spider类的override。

（3）网页中的数据提取机制。

scrapy使用选择器Selector并通过XPath实现数据的提取。关于XPath 推荐w3school的教程。

小工具：

关于网页代码中意向信息的查找可以借助几个工具：

第一个——Firefox插件Firebug。

第二个——Firefox插件XPath。可以快速的在网页中对xpath表达式的正确性进行验证。

第三个——scrapy shell.关于其使用可以查看教程。

分析：

在这里我提取的是http://www.w3school.com.cn/xml/xml_syntax.asp网页中下图部分。

即“XML 基础”下所有目录结构的名字、链接和描述。使用Firebug找到次部分对应的代码块后就可以使用XPath执行信息提取。Xpath表达式如上面代码中所示。

上面还涉及到了对item中信息的编码，是为了中文信息在json文件中的正确显示。

（4）在parse方法中还使用到了log功能实现信息记录。使用log.mes()函数即可。

3.执行。

一切就绪。进入到项目目录下，执行：

scrapy crawl w3school --set LOG_FILE=log

在目录下生成log和w3school_data_utf8.json文件。

查看生成的json文件：

OK。这就实现了针对 http://www.w3school.com.cn/xml/xml_syntax.asp中导航条部分的提取。

原创，转载注明：http://blog.csdn.net/u012150179/article/details/32911511

关于scrapy的其它文章：

http://blog.csdn.net/u012150179/article/details/34913315

http://blog.csdn.net/u012150179/article/details/34486677

http://blog.csdn.net/u012150179/article/details/34441655

http://blog.csdn.net/u012150179/article/details/32911511

http://blog.csdn.net/u012150179/article/details/35774323

你可能感兴趣的:(scrapy,python,Firefox插件,python爬虫)

plc编程和python的联系_通过Python与西门子PLC通信 weixin_39788960 plc编程和python的联系
供大家想要与西门子PLC通信的朋友使用1、该程序是通过pythonsnap7连接西门子1200、1500系列PLC并按照I、Q、M区采集打印信息；2、用户打开应用程序之前，要将目录下的snap7.dll、snap7.lib拷贝到C盘system32或syswow64目录下，具体根据系统版本而定；3、填写config配置文件和csv文件，其中config文件每行代表意思分别是：——》plc_ip=1
python snap7 plc_Python-Snap7获取西门子PLC 300数值 weixin_39541767 python snap7 plc
说明在一次数采项目中，对现场PLC300进行取数。本人小白，在网上搜罗了大量信息，终于找到解决方法。准备事项1.操作系统2.Python环境（本次使用Python3.6.6）3.Snap7connectconnect('192.168.0.1',rack=0,slot=1)三个参数分别为：IP地址，机架，插槽read_area及write_area函数read_area(self，area，dbn
Python文件封装成EXE（可执行文件）苏学能 python 开发语言后端
Section1-创建纯python环境创建一个python环境，最好32位的，这样执行生成的exe可以在32位系统和64位系统上运行，此外，打包编译的exe也不至于过于庞大，以及出现总是打包不成功的问题。Section2-执行pipinstallpyinstaller在纯python环境中pip命令下执行。Section3-修改配置文件：#-*-mode:python-*-block_ciphe
大模型的部署方法三：使用Xinference部署大模型微调部署人工智能 AI大模型大模型 AI 深度学习大模型部署
Xinference是一个分布式推理框架，它支持一键部署各种模型，包括大型语言模型（LLMs）。使用Xinference部署AI大模型的步骤：一、安装Xinference1）环境准备：确保您的系统上安装了Python3.9或以上版本。安装Docker（如果选择使用Docker部署）。2）安装Xinference：通过Python的包管理工具pip安装Xinference：pipinstall"xi
Django学习笔记 Atmanlee python SQL Django
Django跟着“自强学堂”学习django。。。。。感谢学堂！！！https://code.ziqiangxuetang.com/django/django-tutorial.html（自强学堂）Django使用python开发的免费开源的web框架，用于快速搭建网站。特点之一就是拥有强大的数据库操作接口(QuerySetAPI),如果需要也可以执行原生SQLDjango概览urls.py网址入
FastAPI教程：快速构建高性能API 迪小莫学AI fastapi python
FastAPI教程：快速构建高性能API介绍FastAPI是一个现代的、快速的（高性能）Web框架，用于构建APIs，基于标准的Python类型提示。它非常适合用于构建高效、易于维护的API服务。FastAPI支持自动生成文档，输入数据验证和异步编程，且性能接近Go和Node.js。本教程目标本教程将带领你构建一个简单的FastAPI应用，包括：1.创建FastAPI项目2.定义和处理API端点3
Python 打包成 EXE 的方法详解小黄编程快乐屋 1024程序员节
#1024程序员节｜征文#日常开发中，python由于其便捷性成为了很多人的首选语言，但是python的环境配置也是有点麻烦的，那么我们如何让其变得更加友好呢？没错，就是打包成exe可执行文件。一、PyInstaller简介PyInstaller是一个非常流行的Python工具，可以将Python脚本打包为独立的可执行文件。它支持Windows、macOS和Linux系统，特别适合需要跨平台打包的
【Python】如何将列表中的所有字符串转换为整数 civilpy python windows 开发语言
基本原理在Python编程中，我们经常需要处理数据类型的转换。例如，你可能从数据库、文件或用户输入中获取数据，这些数据通常以字符串的形式存在。但是，如果你需要进行数学运算，就必须将这些字符串转换为整数或其他数值类型。本篇文章将为你介绍如何使用Python将列表中的所有字符串元素转换为整数。代码示例在Python中，有几种方法可以实现这一转换。以下是一些常见的方法：示例1：使用循环和内置函数int(
python PLC_IP协议 Modbus应用(一） Kamach_83 tcp/ip 网络 python 模块测试
在Python中与PLC建立通信，通常需要进行以下步骤：1.确定PLC的通信协议：不同的PLC厂商和型号可能采用不同的通信协议，例如Modbus、OPCUA、Profinet等。需要确定您的PLC使用的是哪种通信协议（本文为modbustcp）。2.安装相应的Python库：根据您所选择的PLC通信协议，在Python中安装相应的库。本文使用Modbus协议，故安装`pymodbus`库3.连接到
Python基础—用python读取xml文件！小尤笔记 python xml 开发语言
读取XML文件在Python中是一个常见的任务，通常可以使用内置的xml.etree.ElementTree模块来完成。这个模块提供了简单而高效的XML解析和生成功能。下面是一个详细的代码示例和讲解，展示了如何使用xml.etree.ElementTree来读取XML文件。代码示例假设我们有一个名为example.xml的XML文件，内容如下：120081411004201159900我们的目标是
Python OpenAI 库开发指南：从入门到实战精通 senger_lcc python 开发语言
在人工智能（AI）领域，OpenAI无疑是全球最受瞩目的机构之一。它推出的GPT系列模型、DALL·E等创新技术，正在深刻改变各行各业。作为Python开发者，我们该如何快速上手并高效利用OpenAI的API，成为了提升个人竞争力的关键。本文将带你从零开始，深入解析Python语言中的openAI库，助你掌握AI开发的核心工具，成为AI领域的专家。一、什么是openAI库？它能为开发者带来什么？1
Python入门：4.Python中的运算符平凡程序猿~ Python python
引言Python是一间强大而且便捷的编程语言，支持多种类型的运算符。在Python中，运算符被分为算术运算符、赋值运算符、复合赋值运算符、比较运算符和逻辑运算符等。本文将从基础到进阶进行分析，并通过一个综合案例展示其实际应用。1.算术运算符算术运算符用于执行基本的数学操作。常见的算术运算符以下是Python常见算术运算符的表格：运算符描述示例结果+加法3+25-减法3-21*乘法3*26/除法（浮
Python 中 PIL 构建图片裁剪工具 winfredzhang python crop
概述这篇博客将为您展示如何使用wxPython和PIL库开发一个图片裁剪工具。本工具能够加载图片，允许用户通过拖拽选择框裁剪图片，并保存裁剪后的结果。以下是完整代码和实现步骤。C:\pythoncode\new\cropimageandsave.py功能特性图片加载：支持加载JPG和PNG格式的图片。动态裁剪：通过鼠标绘制矩形选择框进行裁剪。缩放适配：图片会根据面板大小自动缩放显示。保存裁剪结果：
Python3.13来了！编程爱好者必看 Python之栈人工智能 python 开发语言
Python3.13于近期发布，其中包含大量重要更新。Python作为机器学习、数据科学和人工智能领域使用最广泛的编程语言，一直在不断发展，以满足这些领域日益增长的需求。最新发布的Python3.13提供了多项具有影响力的改进，旨在提高性能和生产力，对于从事ML和AI项目的开发人员来说是一个重要的里程碑。Python在ML和AI领域的主导地位主要归功于它的简单性、广泛的库支持和庞大的社区。然而，随
python读取路径只能是双左斜杠、双右斜杠、左斜杠，不能是右斜杠吗？神笔馬良人工智能
问题描述：python读取路径只能是双左斜杠、双右斜杠、左斜杠，不能是右斜杠吗？问题解答：在Python中，读取文件路径时，可以使用双左斜杠（\），也可以使用双右斜杠（//），或者使用单左斜杠（/）。事实上，Python中的路径处理函数通常会接受和处理这三种形式的路径分隔符。但是，在Windows操作系统中，路径中的分隔符通常是反斜杠（\），而在Linux和Unix系统中通常是正斜杠（/）。因此，
Python 操作 Elasticsearch 全指南：从连接到数据查询与处理 XMYX-0 python elasticsearch jenkins
文章目录Python操作Elasticsearch全指南：从连接到数据查询与处理引言安装`elasticsearch-py`连接到Elasticsearch创建索引插入数据查询数据1.简单查询2.布尔查询更新文档删除文档和索引删除文档删除索引批量插入数据处理分页结果总结Python操作Elasticsearch全指南：从连接到数据查询与处理引言在大数据分析与搜索应用中，Elasticsearch是
Python（四）——SVG 图坐标轴数字和其他文本设置总结八年。。 python 开发语言笔记
在学术论文中，图像的质量和规范性直接影响文章的专业性和表达效果。尤其是在使用Python绘制SVG图时，图像的字体选择、大小设置、以及整体样式需要符合期刊或会议的要求。这不仅能提升视觉呈现的清晰度，还能增强论文内容的可读性和说服力。因此，合理设置坐标轴字体（如数字使用“TimesNewRoman”、文字使用“宋体”）和调整图像细节是学术制图中不可忽视的重要环节。1.设置全局字体frommatplo
【Es】python es操作小毛驴吃梨子 elasticsearch python 大数据
表因为es是集群所以es_hosts是列表fromelasticsearchimportElasticsearchES_HOSTS=["127.0.0.1:9200"]ES_HTTP_AUTH="******************"#连接Eses=Elasticsearch(hosts=ES_HOSTS,http_auth=ES_HTTP_AUTH,maxsize=60,timeout=30,m
Python中Cache的使用爬虫俗手小马达 python 开发语言缓存
文章目录一、缓存的基础概念二、基础使用三、进阶使用四、外部缓存工具五、缓存的注意事项一、缓存的基础概念缓存（Cache）是一种在应用程序中提升性能的技术，它通过将一些数据临时存储在快速访问的存储介质（如内存）中，以减少数据的重复计算或重复读取。通常，缓存用于存储一些昂贵计算或IO密集型操作的结果，从而加快程序的执行速度。在Python中，缓存通常用于函数的输出、API请求的结果、数据库查询、文件读
Python学习：Pandas库使用（二）之读写Excel文件——read_excel()和to_excel()函数及其参数详解爬虫俗手小马达 python 学习 pandas
在Python的Pandas库中，读取和写入Excel文件主要使用read_excel和to_excel函数。以下是详细用法和示例：1.读取Excel文件：pd.read_excel()importpandasaspd#读取Excel文件df=pd.read_excel('文件路径.xlsx',sheet_name='Sheet1',header=0,usecols='A:C',skiprows=
Python学习——装饰器（一）：两个简单例子爬虫俗手小马达 python 学习开发语言
例一计时器#创建一个装饰器，用于计算函数执行时间importtimedeftime_this(func):defwrapper(*args,**kwargs):start_time=time.time()result=func(*args,**kwargs)end_time=time.time()execution_time=end_time-start_timeprint(f"Execution
PyInstaller 打包 exe 文件 cliffordl python 综合 python 开发语言
PyInstaller是一个第三方库，它能够在Windows、Linux、MacOSX等操作系统下将Python源文件打包。通过对源文件打包，Python程序可以在没有安装Python的环境中运行，也可以作为一个独立文件方便传递和管理。PyInstaller支持Python2.7和Python3.3+。可以在Windows、MacOSX和Linux上使用，但是并不是跨平台的，而是说你要是希望打包成
OpenCV: 深入理解OpenCV中CV_WRAP_AS宏及其作用湫兮之风 opencv opencv 人工智能计算机视觉
在OpenCV中，CV_WRAP_AS是一个宏，主要用于为C++函数或运算符定义别名，以便在生成语言绑定时使用。这对于在不同的编程语言（如Python）中使用OpenCV库时提供更友好的接口非常有用。尽管它在C++代码中不会改变函数的行为，但它在OpenCV的语言绑定系统中起到了重要作用，特别是当OpenCV要为多个语言（如Python）提供接口时。1.CV_WRAP_AS宏的基本用途CV_WRA
python连接elasticsearch实战（附完整代码）当初 python elasticsearch
python连接elasticsearchfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportscanES_HOSTS=[{'host':'','port':9200,'scheme':'http'}]es=Elasticsearch(hosts=ES_HOSTS,basic_auth=('账号','密码'))#检查
mongodb清理删除历史数据程序员
批量清理mongodb历史数据清理程序的原来目前项目组上很多平台上线历史数据积压，导致入库查询数据缓慢，历史数据有些已经归档，进行历史数据清理删除。之前临时写shell脚本，太简陋，重新使用Python进行改造，新增备份功能，和配置文件删除指定字段和时间范围内数据。代码篇#!/usr/local/python3/bin/python3importconfigparser,logging.confi
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
使用Python开发PPT文本提取工具 winfredzhang python powerpoint 提取文字
在日常工作中，我们经常需要从PowerPoint文档中提取文本内容进行处理。本文将详细介绍如何使用Python开发一个带图形界面的PPT文本提取工具，该工具可以轻松地从PPTX文件中提取所有文本内容，并按页码显示。C:\pythoncode\new\GetContentOFPPT.py全部代码importwximportosfrompptximportPresentationclassPPTExt
Python（二）——设置文件路径：反斜杠 \ 、双反斜杠 \\和正斜杠 /的区别八年。。 python 开发语言学习
在Python中设置文件路径时，不清楚是用双反斜杠\\、反斜杠\还是正斜杠/时，一句话，使用正斜杠/！！！！下面对这三者进行详细介绍及区分：1.双反斜杠\\含义：在编程语言（如Python、C++等）中，反斜杠\是转义字符，用来表示特殊字符（如\n表示换行，\t表示制表符）。为了表示真正的反斜杠，必须使用双反斜杠\\。其实在Python中，第一个\用于转义，告诉Python后面的\是普通的反斜杠字
Python googletrans库使用爬虫俗手小马达 python 前端
googletrans是一个用于翻译文本的Python库，使用谷歌翻译的API。它可以将文本从一种语言翻译为另一种语言，支持多种语言自动检测。以下是基本的用法示例：安装googletrans库在终端或命令行中执行以下命令安装：pipinstallgoogletrans==4.0.0-rc1使用示例fromgoogletransimportTranslator#初始化翻译器translator=Tr
python中常用排序操作——sort方法和sorted函数的使用，超详细，内置模板代码！！! 盲敲代码的阿豪 python实用知识点 python sorted sort 排序
文章目录前言1、sort()方法的使用1.1基础操作1.2操作进阶（自定义排序的对象）2、sorted()函数的使用2.1基础操作2.2操作进行（自定义排序的对象）3、扩展：排序案例模板代码前言在Python中，排序的方法有多种，其中最常用的是使用内置的sort()方法和sorted()函数，接下来我将通过各种案例带领大家轻松学会这两种方法，同时还会扩展一些实用的排序案例模板代码。1、sort()
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他