rain雨雨编程

爬虫实战--- （6）链家房源数据爬取与分析可视化

文章持续跟新，可以微信搜一搜公众号 [ rain雨雨编程 ]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。

目录

前言

1. 爬取目标

2. 所涉及知识点

3. 步骤分析（穿插代码讲解）

步骤一：发送请求

步骤二：获取数据

步骤三：解析数据

步骤四：保存数据

4. 爬取结果

5. 完整代码

6 数据可视化

前言

今天我将为大家分享一个非常实用的Python项目——链家房源数据的爬取与分析可视化。在这篇文章中，我们将分为六个部分来详细讲解，包括：爬取目标、所涉及知识点、步骤分析（穿插代码讲解）、爬取结果和完整代码，以及可视化处理数据。

1. 爬取目标

本项目的目标是从链家网站上爬取二手房源的数据，并将其存储为CSV文件，然后进行后续的数据分析与可视化。我们将主要关注以下几项信息：

房源标题
房源价格
房源位置

示例网址为：链家二手房，我们将从这个网页爬取信息。

2. 所涉及知识点

在进行爬虫项目时，我们需要掌握一些基本的知识和工具，以下是本项目中涉及的几个主要知识点：

网络爬虫：了解如何向目标网页发送请求并获取数据。
多页数据采集：如何获取网页上的多个页面的数据。
CSV文件：将爬取的数据保存为CSV文件，以便于后续分析。
数据可视化：对爬取到的数据进行可视化展示，利用pyecharts等工具。

我们将使用以下几个主要的Python库：

requests: 用于发送HTTP请求。
lxml: 用于解析HTML内容。
pandas: 用于数据处理与分析。
csv: 内置模块，处理CSV文件的读写。

3. 步骤分析（穿插代码讲解）

步骤一：发送请求

首先，我们需要向目标网页发送一个请求，以获取网页的源代码。我们将在代码中伪装浏览器，以避免被网站屏蔽。

import requests

url = 'https://cs.lianjia.com/ershoufang/pg2/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response)  # 输出响应状态码

这段代码定义了爬取的网址以及请求头。在请求头中，我们模拟了一些浏览器信息，以便于获取有效的响应。

步骤二：获取数据

我们可以通过response.text获取网页的HTML源代码。

# .text  文本信息
html_content = response.text

步骤三：解析数据

使用lxml库中的etree模块来解析获取到的HTML数据，并提取我们需要的信息。我们会使用XPath来便捷地选择目标元素。

from lxml import etree

et = etree.HTML(html_content)
# 使用XPath提取所有房源信息
doc = et.xpath('//*[@id="content"]/div[1]/ul/li')

list_1 = []
for li in doc:
    title = li.xpath('.//div[@class="title"]/a/text()')[0]
    price = li.xpath('.//div[@class="totalPrice totalPrice2"]/span/text()')[0]
    position = li.xpath('.//div[@class="positionInfo"]/a/text()')
    if position:
        position = '-'.join(position)
    list_1.append([title, price, position])

在这一部分代码中，我们遍历每一个房源信息，通过XPath找到标题、价格和位置，并将这些信息存储在一个列表中。

步骤四：保存数据

最后，我们将爬取到的数据保存为CSV文件，以便于后续的数据分析。

import csv
# 定义列名
headers = ['title', 'price', 'position']
for p in list_1:
    with open('ershoufang1.csv', mode='a', encoding='utf-8', newline='') as file:
        csv_writer = csv.writer(file)
        csv_writer.writerow(headers)  # 写入列名
        csv_writer.writerow(p)

使用csv模块中的writer将每条房源信息写入CSV文件中。

4. 爬取结果

通过以上代码的执行，我们将成功爬取到链家二手房源的数据，并保存到名为ershoufang1.csv的文件中。该文件将包含所有房源的标题、价格和位置等信息，便于后续进行数据分析和可视化。

5. 完整代码

下面是完整的代码，方便大家直接参考和使用。

import requests
from lxml import etree
import csv

# 发送请求
url = 'https://cs.lianjia.com/ershoufang/pg2/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

# 获取数据
html_content = response.text
et = etree.HTML(html_content)
doc = et.xpath('//*[@id="content"]/div[1]/ul/li')

# 解析数据
list_1 = []
for li in doc:
    title = li.xpath('.//div[@class="title"]/a/text()')[0]
    price = li.xpath('.//div[@class="totalPrice totalPrice2"]/span/text()')[0]
    position = li.xpath('.//div[@class="positionInfo"]/a/text()')
    if position:
        position = '-'.join(position)
    list_1.append([title, price, position])


# 保存数据
# 定义列名
headers = ['title', 'price', 'position']

for p in list_1:
    with open('ershoufang1.csv', mode='a', encoding='utf-8', newline='') as file:
        csv_writer = csv.writer(file)
        csv_writer.writerow(headers)  # 写入列名
        csv_writer.writerow(p)

希望通过这篇文章，大家能够更好地理解Python爬虫的基本流程，并掌握链家房源数据的爬取与处理技巧。

6 数据可视化

将爬取的二手房数据进行可视化的，如可以使用matplotlib绘制如下:

价格与位置关系的散点图
价格与位置关系的散点图

import pandas as pd
import matplotlib.pyplot as plt

# 读取CSV文件
df = pd.read_csv('ershoufang1.csv')

# 数据清洗，例如去除空值
df = df.dropna()

# 绘制价格直方图，展示二手房价格的分布情况
plt.figure(figsize=(10, 6))
plt.hist(df['price'], bins=20, color='blue', edgecolor='black')
plt.title('Distribution of Second-hand Housing Prices')
plt.xlabel('Price')
plt.ylabel('Frequency')
plt.show()


# 绘制价格与位置关系的散点图
# 这个图可能不太直观，因为位置是分类数据，这里仅作为示例
plt.figure(figsize=(10, 6))
plt.scatter(df['position'], df['price'], alpha=0.5)
plt.title('Price vs Location for Second-hand Housing')
plt.xlabel('Location')
plt.ylabel('Price')
plt.show()

价格与位置关系的散点图：

价格与位置关系的散点图：

注意：由于位置是分类数据，直接在散点图上表示可能不太直观，可能需要更复杂的可视化方法，如地理热图等。

文章持续跟新，可以微信搜一搜公众号 [ rain雨雨编程 ]，第一时间阅读，涉及数据分析，机器学习，Java编程，爬虫，实战项目等。

你可能感兴趣的:(爬虫实战系列,python,爬虫,数据分析)

Tenserflow学习笔记【一：Python入门】邪魔小屁屁神经网络与深度学习 python 数据结构机器学习
Python序列数据结构初习一.前言Python的两种主要的序列数据类型二.关于序列的相关操作1.索引2.切片[开始位置：结束位置]3.获取长度len()4.添加元素①append()②insert(a,b)5.合并列表①extend()②‘+’6.删除元素del6.排序7.遍历序列8.字典①遍历②添加、修改指定元素的取值③合并字典update()④删除字典中的元素9.集合（略）总结一.前言Pyt
*python中的字符串菜鸡且菜鸡计算机基础 #python python
什么是字符串,字符串的格式多个字符就是字符串.格式:变量名='字符串'或者:变量名="字符串"#例如:name='张三'des='张三是个万能的名字'password='123456'#......都需要用字符串来存储字符串格式化详见里面的格式化输出字符串的下标索引下标==索引字符串:我喜欢你下标索引:0123str='我喜欢你'print(str[0]) #根据下标将字符取出:我print(s
python 类属性实例属性_类属性和实例属性 weixin_39747615 python 类属性实例属性
类属性和实例属性下表列出了4个常见的明星人物：姓名年龄周润发58成龙55刘德华53周星驰54进行归纳总结：这些人物具有较高的知名度，把这些人物归类为明星。每个明星两个属性：姓名和年龄。明星这个群体具有一个属性：数量，在这张表格中，明星的数量是4。姓名和年龄等属性是用于描述具体的一个对象(例如：周润发)，而人物的数量是用于描述明星这个类别。如果使用面向对象技术对以上实体进行描述，周润发、成龙、刘德华
Python环境搭建与量化交易开发入门指南量化投资技术量化科普 Python 量化 miniQMT QMT 量化交易量化投资
Python环境搭建与量化交易开发入门指南在量化交易领域，Python因其强大的数据处理能力和丰富的库支持而成为首选编程语言。本文将指导您如何在本地搭建一个适合量化交易的Python环境，并介绍一些常用的代码编辑器和工具。《QMT开通规则分享》更多内容，知识星球搜索：数据与交易Python安装方式一：官网安装（推荐）首先，访问Python官网下载适合的版本。由于xtquant库目前最高支持到Pyt
DataWhale 数学建模导论学习笔记（第一章） ryanYu_127 学习笔记
要点：利用Python作为计算工具帮助解决数学模型。一、前期准备工作1.AnacondaNavigator帮助安装了NumPy所需的功能包。2.通过Jupyter_Lab,可以直接测试代码运行的结果。3.通过vscode可以修改文本并即时看到预览结果，解决一些符号、公式、表格显示不正常的问题。4.这也是我第一次使用CSDN记录自己的学习笔记。二、进入第一章正题解析方法与几何建模：1.前面的向量和矩
【Elasticsearch】分析器的构成 risc123456 Elasticsearch elasticsearch
在Elasticsearch中，分析器（Analyzer）是一个处理文本数据的管道，它将输入的文本转换为一系列词元（tokens），并可以对这些词元进行进一步的处理和规范化。分析器由以下三个主要组件构成：1.字符过滤器（CharacterFilters）字符过滤器是分析器管道中的第一步，用于对输入文本进行预处理。它们可以添加、删除或修改文本中的字符。字符过滤器是可选的，一个分析器可以有零个或多个字
python 读写Plist篇（Plist） JensenZhong python 基础 python 开发语言
python读写Plist篇（Plist）文章目录python读写Plist篇（Plist）一、Plist应用环境二、python环境（plistlib库）三、plist文件打开方式四、plist文件示例（config.plist）五、文件读取六、文件写入七、文件内容删除八、代码示例一、Plist应用环境‌Plist文件主要在macOS和iOS开发环境中使用‌。Plist文件通常用于存储应用程序的
【pickle】详解python中的pickle模块（常用函数、示例）有梦想的程序星空 Python开发教程 python 开发语言
在Python编程中，数据的存储和传输是常见的操作需求。有时，我们需要将复杂的数据对象保存到文件中以便后续使用，或者在不同的程序之间传递对象。Python的pickle模块提供了一种方便的解决方案，它能够实现对象的序列化和反序列化，使得数据的持久化和共享变得更加容易。1、序列化、反序列化介绍序列化：把对象转换为字节序列的过程称为对象的序列化。反序列化：把字节序列恢复为对象的过程称为对象的反序列化。
Eclipse RCP插件开发【1.插件介绍】 Warming0126 Eclipse Java eclipse
1.知识储备1.1EclipseRCPEclipseRCP是EclipseIDE的基础架构，允许开发者构建强大的桌面应用程序。它提供了一组框架和工具，使开发者能够创建基于插件体系结构的、高度可定制的桌面应用程序。以下是EclipseRCP的一些关键概念和特性：插件体系结构：EclipseRCP基于插件的体系结构，允许开发者将应用程序划分为一系列独立的插件。每个插件负责提供特定的功能或服务。视图和编
玩转序列化，用这个库就对了：Python的pickle库正东AI Python python java android Python pickle
文章目录玩转序列化，用这个库就对了：Python的pickle库背景什么是pickle库？如何安装这个库？5个简单的库函数使用方法dump函数load函数dumps函数loads函数高级用法：使用协议5个场景使用代码说明场景1：保存和加载自定义类实例场景2：保存和加载复杂数据结构场景3：跨网络传输Python对象场景4：多进程中使用pickle场景5：使用pickle进行深拷贝常见3个bug以及解
结合实际讲NR系列2—— SIB1 写代码写到手抽筋 NR学习实战复盘网络 5G
这是在基站抓取的sib1的一条信令L3MessageContentBCCH-DL-SCH-Messagemessagec1systemInformationBlockType1cellSelectionInfoq-RxLevMin:-64q-QualMin:-19cellAccessRelatedInfoplmn-IdentityListPLMN-IdentityInfoplmn-Identity
2100年10月26日，星期四，芜湖 ZhuBin365 其它人工智能机器人
2100年10月26日，星期四，芜湖早上7:00，一阵轻柔的仿生鸟鸣唤醒了林薇。她舒适地伸了个懒腰，意识波轻轻触碰脑机接口，卧室的智能系统立刻接收到指令。窗帘缓缓拉开，让清晨的阳光洒入房间，室内温度自动调节到她最舒适的23摄氏度。林薇的床头柜上，一块透明的增强现实面板亮起，投射出今日日程、健康数据和通勤信息。她的脑机接口已经完成了睡眠数据分析，并同步到AR面板上，显示她昨晚的深度睡眠时长达到了8小
罗杰斯常见覆铜板型号汇总表 Turbulence_NB 材料工程射频工程 pcb工艺制造 5G
高频系列DK罗杰斯板材2.0-2.17CuClad217（罗杰斯）、DiClad880（罗杰斯）、IsoClad917（罗杰斯）、RT5880LZ(罗杰斯）2.2—2.25RO5880（罗杰斯）、IMSeries（罗杰斯）、IsoClad917（罗杰斯）、RT/duroid5880（罗杰斯）2.3CuClad233（罗杰斯）、DiClad870（罗杰斯）、IsoClad933（罗杰斯）、RT/du
第1关：查找第一个匹配的字符串 -阿呆- #正则表达式入门 python
任务描述本关任务：学会导入python的正则表达式库，使用该库方法的search方法编写一个匹配小程序。该方法能查看某个学生名字是否在此学生信息中。相关知识为了完成本关任务，你需要掌握：如何在python中引入正则表达式库；re库中search方法的使用。1、在Python中使用正则表达式正可谓人生苦短，我用Python。Python有个特点就是库非常多，自然拥有正则匹配这种常见的库，并且此库已经
数学建模与MATLAB实现：插值技术详解青橘MATLAB学习 #数学建模 Matlab编程实验数学建模 matlab 开发语言
引言插值是数学建模与数据分析中的核心技术，广泛应用于信号处理、图像重建、地理信息系统等领域。本文基于一维插值与二维插值的理论框架，结合MATLAB代码实战，系统讲解拉格朗日插值、分段线性插值、三次样条插值等方法，并通过温度预测、地貌分析等案例，帮助读者掌握插值技术的核心原理与实现技巧。一、插值基础理论1.一维插值定义：已知函数在有限点x0,x1,…,xnx_0,x_1,\dots,x_nx0,x1
LLM大模型产品经理学习指南【2025全新版】：极致详细，一篇搞定！大模型入门学习产品经理语言模型人工智能 DeepSeek 大模型学习 LLM
前言·随着人工智能技术的蓬勃发展，尤其是大模型（LargeModel）的强势兴起，越来越多的企业对这一领域愈发重视并加大投入。作为大模型产品经理，需具备一系列跨学科的知识与技能，方能有效地推动产品的开发、优化以及市场化进程。以下是一份详尽的大模型产品经理学习路线，旨在助力你构建所需的知识体系，实现从零基础到精通的蜕变。一、基础知识阶段（一）计算机科学基础数据结构与算法：深入理解基本的数据结构（如数
销售易、极兔、珍客CRM：产品功能特色与企业适用性分析程序员机器学习人工智能
销售易CRM产品功能移动化与社交化：销售易CRM支持iOS、Android等主流操作系统，销售人员可以随时随地访问客户信息、更新销售进度、创建任务等。同时，它还具备社交化功能，能够整合企业内部的社交网络，促进员工之间的协作与沟通。AI与大数据驱动：销售易CRM融合了人工智能和大数据技术，通过智能数据分析，帮助企业洞察客户行为和需求，预测销售趋势。例如，AI可以对客户数据进行深度挖掘，识别出高价值客
探索CRM解决方案：销售易、用友和白码的特色与适用企业分析机器学习程序员
销售易CRM优势特色移动化与社交化：销售易CRM强调移动办公和社交化功能，用户可以通过移动设备随时随地访问系统，进行客户管理和销售活动。其社交化功能使企业内部员工能够更好地协作，提高工作效率.自动化销售流程：系统提供自动化的销售流程管理，能够根据预设的规则自动推进销售机会，减少人工干预，提高销售转化率.强大的数据分析能力：销售易CRM具备强大的数据分析功能，可以对客户数据、销售数据等进行深入分析，
作业练习（python) Justice link 算法
第一题：cel=eval(input())fah=9/5*cel+32print("%.1f"%fah)第二题：radius,length=eval(input())area=radius*radius*3.14159267volume=area*lengthprint("%.2f"%area)print("%.2f"%volume)第三题：num=eval(input())result=num*
DevOps工具链概述 fenglei2020 网络服务器 linux devops
1.DevOps工具链概述1.1DevOps工具链的定义DevOps工具链是支持DevOps实践的一系列工具的集合，这些工具覆盖了软件开发的整个生命周期，包括需求管理、开发、测试、部署和运维等各个环节。它旨在通过工具的集成和自动化，打破开发与运维之间的壁垒，实现软件的快速交付和持续改进。例如，在需求管理阶段，工具链中的需求管理工具可以清晰地记录和跟踪需求的变化；在开发阶段，代码管理工具能够支持团队
python 学习路线 Coding Happily python 学习 windows
学习顺序《python编程：从入门到实践》《Head-FirstPython》《“笨方法”学python3》《PythonCookbook》《Python机器学习基础教程》《FluentPython》《Python编程》《Python编程：从入门到实践》变量变量命名：仅用小写和下划线。变量本质:指向特定的值。字符串在字符串中使用变量：f’{varies1}{varies2}’更早版本:‘{}{}’
Python 中调用 DeepSeek API 的方法，一文讲述清尘沐歌 deepseek api Deepseek
通过Python调用DeepSeek的R1大模型API，即使没有编程基础也能轻松上手。详见：Python调用DeepSeekAPI（R1&V3）的方法，超详细教程
4.Python教程--项目部署篇（全）花开如雨笔记
Python人工智能总目录人工智能总目录网页链接文章目录Python人工智能总目录13、Python运维Day0113.1运维1.运维概述2.运维工具3.Linux常用命令4.周期性计划任务5.awk的使用14、Python项目部署Day0114.1项目部署1.概念2.项目部署(nginx+uwsgi+django)3.部署在线商城项目13、Python运维Day0113.1运维1.运维概述1、运
Day 4：API高级开发指南翻晒时光 DeepSeek python ai
目标：构建高可用、高并发的企业级API服务系统一、流式响应工程化实践1.1流式传输核心机制技术架构对比：传输方式延迟显存占用适用场景标准响应2.1s12GB短文本生成流式响应首包300ms4GB长文档/实时交互Python异步流处理：importasynciofromdeepseekimportAsyncDeepSeekasyncdefstream_response(prompt):client=
《Python无限弹窗小程序：给你一个流氓表白小妙招！》后端工匠之道 Python爱心代码 python 小程序产品运营
一、无限弹窗的用途这个程序的用途非常广泛，比如：告白神器：对于害羞的小伙伴，可以用这个小工具来表白哦！趣味恶搞：在同事或朋友电脑上运行，绝对能带来一波欢乐。二、Python实现无限弹窗为了实现这个效果，我们将使用Python中的tkinter库。tkinter是Python内置的GUI库，不需要额外安装，简单易上手。代码示例：无限次弹窗（附粉色背景）importtkinterastkimportr
《教你用Python写出浪漫的表白代码》后端工匠之道 Python爱心代码 python 开发语言
《教你用Python写出浪漫的表白代码》最简单的教程，亲测可用1.引言你有没有想过用代码来表达爱意？今天我将带你用Python实现一个浪漫的表白代码！代码简单有趣，新手也能轻松上手。让我们一起用Python绘制出心形图案吧。2.环境准备在开始之前，请确保已经安装了Python的matplotlib库，这是一个用于绘制图形的库。可以用以下命令安装：pipinstallmatplotlib3.代码实现
微服务常用技术栈 qq_29798761 微服务架构云原生
微服务项目通常涉及一系列技术栈，这些技术栈共同支持微服务的开发、部署、运行和治理。以下是一个典型的Java微服务项目可能用到的技术栈概览：1.构建与依赖管理Maven/Gradle：用于项目的构建和依赖管理。Maven和Gradle是Java项目中广泛使用的构建工具，它们能够自动化编译、打包、发布等过程，并管理项目所需的依赖库。2.微服务框架SpringBoot：用于快速构建独立的、生产级别的Sp
Python调用NVIDIA的Deepseek-r1接口 ljz2016 python android javascript
importosimportjsonfromopenaiimportOpenAIfromopenaiimportOpenAIErrorclient=OpenAI(base_url="https://integrate.api.nvidia.com/v1",api_key=os.getenv("NVIDIA_API_KEY"))#初始化对话历史#定义存储对话历史的JSON文件路径HISTORY_FI
如何在生产环境中部署您的Python项目：一步步指南一休哥助手 python python
引言简介：为什么要了解部署？在软件开发的生命周期中，部署是一个至关重要的环节。它涉及将开发完成的应用程序从开发环境移植到生产环境，使其可以为用户提供服务。部署不仅是软件开发过程的延伸，更是确保应用程序高效、安全、可靠运行的关键步骤。部署的重要性正确和高效的部署能够确保软件在生产环境中稳定运行，减少由于配置错误、依赖问题或安全漏洞导致的问题。此外，合适的部署策略还能提高系统的可维护性和扩展性，为后续
python栈实战迷宫寻找出口 #岩王爷深度优先算法
迷宫问题，作为计算机科学和算法设计中的一个经典问题，不仅考验了我们对数据结构的理解和应用，还锻炼了我们解决复杂问题的能力。在众多的解决方案中，利用栈来实现深度优先搜索（DFS）是一种直观且高效的方法。栈，作为一种基础的数据结构，其特性使得它在处理需要回溯的场景时显得尤为合适。在迷宫问题中，当我们沿着某条路径深入探索时，可能会遇到无法继续前行的死胡同。此时，栈的作用就凸显出来了：我们可以将当前的位置
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他