Kronos_

Python动态网页爬虫入门实例

Python动态网页爬虫入门实例

写在前面
成果展示
- 常量定义
- 类初始化
- 车速数据爬取
- 数据持久化
- 爬虫主函数
写在后面
- 1.静态网页爬取
- 2.动态网页请求获取
- 3.时间处理问题

写在前面

最近在课余时间主张自己学习一点新技能，并考虑到以后可能经常用得到，于是花了两天时间自学了一点爬虫技巧，在这里简单记录一下自己的历程。

系统版本：Windows10 64
Python版本： 3.7
调用库： requests, time, re
三者均为内部库，一般无需另行下载
爬取网站：广州市交通信息网

选择这个网站是因为之前看到一篇文章中介绍爬取了该网站的数据进行分析，因此在有先人经验情况下认识到了该网站的可爬性，但本文代码均属原创，如有雷同纯属巧合，转载也请注明出处。
作者学习尚浅，该项目更多为作者学习记录，如对初学者有所帮助倍感荣幸，如有大佬对内容做出批评指正不胜感激。
另外这里推荐一个作者学习爬虫时候看的视频资源，思路清晰且较为通俗易懂，适合简单粗暴的入门：传送门

声明：本文档仅用于学习与交流使用，严禁用于一切商业用途，由此产生的后果本人概不负责。

成果展示

在本部分将主要将学习与实践的成果进行展示，包括代码以及爬取到的数据样例。

常量定义

首先定义常量包括爬取网站url，这里我们爬取广州市交通信息网的路况信息中区域车速信息数据，通过谷歌浏览器获取到请求url，请求头以及代理如下代码所示：

#定义请求参数，包括url，请求头，以及代理
url = 'http://219.136.133.162/gztraffic/GetData.ashx'
headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36',}
proxies = {
     'http':'http://219.136.133.162/gztraffic/Default.aspx'}

类初始化

类初始化函数，带入上述参数，代码如下：

#初始化类时添加请求参数
def __init__(self, url, headers, proxies):
    self.url = url
    self.headers = headers
    self.proxies = proxies
    self.publish_time = () #用于记录时间

车速数据爬取

通过requests库执行urlget请求，注意设置headers，proxies，timeout参数，这会保证你的请求不会出现意外，获取数据后转换编码方式，并利用正则表达式(注意转义字符的使用)获取到我们所需的有用信息并保存在内存中等待下一步处理，具体代码如下：

#请求，获取以及解析车速数据
def speedDataGet(self):
    url =self.url
    headers = self.headers
    proxies = self.proxies
    speed_info_list = [] #建立一个存放车速数据的列表
        
    try:
        response = requests.get(url, headers=headers, proxies=proxies, timeout=5)
        response.encoding = 'utf-8'
        data = re.findall('{"zoneStateData":\[(.*?)\],"topCongRoadData"', response.text, re.S)[0] #从爬取到的源码中获取所需车速数据
        containers = re.findall('{(.*?)}', data) #获取每一个区域车速文本信息并保留可迭代性质
            
        for container in containers:
            speed = float(re.findall('RoadSpeed":(.*?),"PublishTime', container)[0]) #从文本中获取车速信息并转换为float格式
            speed_info_list.append(speed) #保存
                
        publish_time = int(re.findall('Date\((.*?)\)', container)[0]) #获取数据时间戳信息

        self.publish_time = publish_time/1000 #该网站时间戳信息为毫秒，在这里先改为秒，待下一步处理
        
    except requests.exceptions.RequestException as e:
        print(e)
        
    return speed_info_list

数据持久化

完成获取车速数据的部分之后就需要考虑如何将数据保留下来，由于我们获取到的数据目前以列表的形式存储在内存之中，因此只需要处理好数据格式方便后续工作之后简单写入即可，不过首先我们需要解决一下每次或得到数据的时间表示的问题，在爬取过程中我们顺便取得了服务器上的时间戳信息，因此利用time库中的localtime()函数进行转换即可得到我们所熟悉的时间概念，具体代码如下：

#数据写入磁盘
def dataWrite(self, write_path):
    speed_data = self.speedDataGet() #获取车速数据列表

    if speed_data: #如果成功获取到了数据
        date_time = time.localtime(self.publish_time)[:5] #将时间戳转换为当地时间，并保留从年到分钟的信息
        data = '' #用于存放待写入数据
            
        for element in date_time: #将时间信息写入data
            if element < 10: #为统一格式，将诸如1月或1时改写为01月和01时
                data += '0' + str(element) + '/'
            else:
                data += str(element) + '/'

        data = data[:-1] + ';\t' #统一分隔符为';\t'

        for element in speed_data: #写入车速数据到data
            data += str(element) + ';\t'

        with open(write_path, 'a') as f: #写入磁盘
            f.write('\n')
            f.write(data)
        print(date_time) #用于显示成功写入一次数据
            
    else:
        print('未获取到车速数据')

爬虫主函数

该部分为爬虫的主函数，外部执行即该函数，包括写入数据前的准备如数据抬头的写入，以及循环发送请求等，具体代码如下：

#爬虫主函数
def spider(self): 
    write_path = '.\\data.csv' #数据写入路径 
    areas = ['中心', '越秀', '荔湾', '天河', '海珠', '白云']
    data_title = '----/--/--/--/--;\t' #数据头统一格式
        
    for area in areas:
        data_title += area + ';\t' #数据头写入

    with open(write_path, 'w') as f:
        f.write('') #清空文本
        f.write(data_title) #写入数据头

    while True:
        self.dataWrite(write_path) #执行新数据写入程序
        time.sleep(300) #由于服务器数据每5分钟更新一次，我们也每隔5分钟请求一次

到这里算法的整体部分就完成了，能够从广州市交通信息网提取到我们所需要的数据并按照我们的要求保存在磁盘之中，获取到的数据样例如下：

写在后面

首先，非常感谢您能够坚持看到这里，本分享的主体部分，包括内容与代码还有结果都在上面了，下面是我在进行本次项目，甚至已经小到可能都算不上一个项目的本次实践的一些心路历程，包括实施的思路以及过程中遇到的问题与解决方法，希望能对刚入门且同样遇到一些问题的你有一些帮助。

1.静态网页爬取

秉承着在实践中学习的原则，作者在简单学习了爬虫的基本原理之后，选择了先对网页的静态内容进行简单的爬取，该过程并没有遇到太大的困难，网络上关于静态网页的爬取的实例与教程也非常多，因此不做赘述。

2.动态网页请求获取

在完成了静态网页的爬取之后，我曾尝试在已爬取的静态网页源码中寻找到我所需的数据，但是我失败了，在网页源码中无法找到数据信息。查找资料后发现是由于动态网页的原理所致，至于具体这里不展开描述且作者也没有完全掌握这一部分知识，不过该部分是进行高阶爬虫必不可少的一部分知识，建议学有余力的同学能够进行深入了解。这里我们只介绍针对本实例的细节：
首先在谷歌浏览器目标网页打开检查选项，选择Network->XHR选项，查看请求发送情况：

我们观察到有个GetData请求，点击查看headers我们可以发现General选项中有我们所需要的request url内容，即我们所真正需要的动态请求地址：
另：地址中?之后部分为时间戳信息，但不是请求的必要信息，服务器只会按照它的时间戳向你发送信息，因此实际过程中可以去掉

到这里我发现还是不能请求成功，发现原因可能是由于请求头和代理没有设置，同时为避免发生意外需要加上timeout的设置，关于请求头和代理的获取，还是在刚刚的headers选项卡中，向下拉我们可以看到request headers的选项，其中Referer和user-Agent是我们所关心的两项：

3.时间处理问题

到这里，我们对于当下时间服务器所传回的车速数据的爬取可以顺利完成，在解决写入问题时，格式统一是一方面，不过易于解决，只需要细心，但对我造成了一定困扰的是时间格式的转换问题，这时我想到了用time包进行时间格式转换，它其中带的方法可以很方便地将Unix时间戳转化为当地时间，然而返回的是time库中定义的struct_time类，通过查看time的help可以得知该类继承自元组，因此考虑到其同样具有一定的可迭代性质，采用切片方式切取前5项，分别代表：年/月/日/时/分，并保存为我们希望的格式，如代码所示：

date_time = time.localtime(self.publish_time)[:5]

引入time库之后，关于定时循环的问题也同样得到了解决，利用time库中的sleep()函数进行延时，可以很方便地得到我们想要的结果。

至此本篇分享就算是完成啦，希望作为本人学习路上记录的一些点滴，能够为后来之人提供一些捷径。

你可能感兴趣的:(python,爬虫,入门,实战)

Python（四）——SVG 图坐标轴数字和其他文本设置总结八年。。 python 开发语言笔记
在学术论文中，图像的质量和规范性直接影响文章的专业性和表达效果。尤其是在使用Python绘制SVG图时，图像的字体选择、大小设置、以及整体样式需要符合期刊或会议的要求。这不仅能提升视觉呈现的清晰度，还能增强论文内容的可读性和说服力。因此，合理设置坐标轴字体（如数字使用“TimesNewRoman”、文字使用“宋体”）和调整图像细节是学术制图中不可忽视的重要环节。1.设置全局字体frommatplo
《零基础Go语言算法实战》【题目 7-4】删除数组重复项，使每个元素只出现一次并返回新的长度廖显东-ShirDon 讲编程算法算法数据结构 go语言 go web web编程程序员 golang
《零基础Go语言算法实战》【题目7-4】删除数组重复项，使每个元素只出现一次并返回新的长度给定一个排序数组array，就地删除重复项，使每个元素只出现一次并返回新的长度。不要为另一个数组分配额外的空间，开发者必须通过使用空间复杂度为O(1)的额外内存就地修改输入数组来做到这一点。示例如下。输入：array=[5,5,6]输出：2【解答】①思路。本题可以通过希尔排序算法实现。注意本题中数组的删除并不
【Es】python es操作小毛驴吃梨子 elasticsearch python 大数据
表因为es是集群所以es_hosts是列表fromelasticsearchimportElasticsearchES_HOSTS=["127.0.0.1:9200"]ES_HTTP_AUTH="******************"#连接Eses=Elasticsearch(hosts=ES_HOSTS,http_auth=ES_HTTP_AUTH,maxsize=60,timeout=30,m
SpringBoot集成Netty实战：构建高效TCPUDP通信服务端【物联网开发必备】 m0_74825678 面试学习路线阿里巴巴 spring boot 物联网后端
SpringBoot集成Netty实现TCP/UDP通信协议【优化版】引言在现代物联网(IoT)应用中，设备与服务器之间的实时通信至关重要。Netty作为一个高性能的网络应用框架，与SpringBoot的集成可以简化开发过程，并提高应用性能。本文将详细介绍如何在SpringBoot中集成Netty，实现TCP和UDP通信协议。通讯协议在设计通讯协议时，我们考虑了数据的完整性和命令的明确性。以下是我
Python中Cache的使用爬虫俗手小马达 python 开发语言缓存
文章目录一、缓存的基础概念二、基础使用三、进阶使用四、外部缓存工具五、缓存的注意事项一、缓存的基础概念缓存（Cache）是一种在应用程序中提升性能的技术，它通过将一些数据临时存储在快速访问的存储介质（如内存）中，以减少数据的重复计算或重复读取。通常，缓存用于存储一些昂贵计算或IO密集型操作的结果，从而加快程序的执行速度。在Python中，缓存通常用于函数的输出、API请求的结果、数据库查询、文件读
Python学习：Pandas库使用（二）之读写Excel文件——read_excel()和to_excel()函数及其参数详解爬虫俗手小马达 python 学习 pandas
在Python的Pandas库中，读取和写入Excel文件主要使用read_excel和to_excel函数。以下是详细用法和示例：1.读取Excel文件：pd.read_excel()importpandasaspd#读取Excel文件df=pd.read_excel('文件路径.xlsx',sheet_name='Sheet1',header=0,usecols='A:C',skiprows=
Python学习——装饰器（一）：两个简单例子爬虫俗手小马达 python 学习开发语言
例一计时器#创建一个装饰器，用于计算函数执行时间importtimedeftime_this(func):defwrapper(*args,**kwargs):start_time=time.time()result=func(*args,**kwargs)end_time=time.time()execution_time=end_time-start_timeprint(f"Execution
PyInstaller 打包 exe 文件 cliffordl python 综合 python 开发语言
PyInstaller是一个第三方库，它能够在Windows、Linux、MacOSX等操作系统下将Python源文件打包。通过对源文件打包，Python程序可以在没有安装Python的环境中运行，也可以作为一个独立文件方便传递和管理。PyInstaller支持Python2.7和Python3.3+。可以在Windows、MacOSX和Linux上使用，但是并不是跨平台的，而是说你要是希望打包成
OpenCV: 深入理解OpenCV中CV_WRAP_AS宏及其作用湫兮之风 opencv opencv 人工智能计算机视觉
在OpenCV中，CV_WRAP_AS是一个宏，主要用于为C++函数或运算符定义别名，以便在生成语言绑定时使用。这对于在不同的编程语言（如Python）中使用OpenCV库时提供更友好的接口非常有用。尽管它在C++代码中不会改变函数的行为，但它在OpenCV的语言绑定系统中起到了重要作用，特别是当OpenCV要为多个语言（如Python）提供接口时。1.CV_WRAP_AS宏的基本用途CV_WRA
python连接elasticsearch实战（附完整代码）当初 python elasticsearch
python连接elasticsearchfromelasticsearchimportElasticsearchfromelasticsearch.helpersimportscanES_HOSTS=[{'host':'','port':9200,'scheme':'http'}]es=Elasticsearch(hosts=ES_HOSTS,basic_auth=('账号','密码'))#检查
mongodb清理删除历史数据程序员
批量清理mongodb历史数据清理程序的原来目前项目组上很多平台上线历史数据积压，导致入库查询数据缓慢，历史数据有些已经归档，进行历史数据清理删除。之前临时写shell脚本，太简陋，重新使用Python进行改造，新增备份功能，和配置文件删除指定字段和时间范围内数据。代码篇#!/usr/local/python3/bin/python3importconfigparser,logging.confi
Python 3.13性能大提升：免费多线程时代来临敖行客 Allthinker python java 开发语言爬虫
在编程的世界里，Python一直以其简洁、易读和强大的功能而备受青睐。随着技术的不断进步，Python的每一个新版本都带来了新的惊喜和改进。而Python3.13无疑是其中的一颗璀璨明星。在一个数据驱动的世界里，Python已经成为了一种无处不在的编程语言，它的性能和功能的提升始终是开发者们关注的热点。随着大数据、人工智能、云计算等技术的飞速发展，对编程语言性能的要求也在不断提高。在这样的背景下，
ReactNative进阶（三十五）：应用脚手架 Yo 构建 RN 页面_reactnative 脚手架 2401_84438654 程序员 react native arcgis react.js
算法冒泡排序选择排序快速排序二叉树查找:最大值、最小值、固定值二叉树遍历二叉树的最大深度给予链表中的任一节点，把它删除掉链表倒叙如何判断一个单链表有环由于篇幅限制小编，pdf文档的详解资料太全面，细节内容实在太多啦，所以只把部分知识点截图出来粗略的介绍，每个小节点里面都有更细化的内容！如果你觉得对你有帮助，可以戳这里获取：【大厂前端面试题解析+核心总结学习笔记+真实项目实战+最新讲解视频】sudo
使用Python开发PPT文本提取工具 winfredzhang python powerpoint 提取文字
在日常工作中，我们经常需要从PowerPoint文档中提取文本内容进行处理。本文将详细介绍如何使用Python开发一个带图形界面的PPT文本提取工具，该工具可以轻松地从PPTX文件中提取所有文本内容，并按页码显示。C:\pythoncode\new\GetContentOFPPT.py全部代码importwximportosfrompptximportPresentationclassPPTExt
Python（二）——设置文件路径：反斜杠 \ 、双反斜杠 \\和正斜杠 /的区别八年。。 python 开发语言学习
在Python中设置文件路径时，不清楚是用双反斜杠\\、反斜杠\还是正斜杠/时，一句话，使用正斜杠/！！！！下面对这三者进行详细介绍及区分：1.双反斜杠\\含义：在编程语言（如Python、C++等）中，反斜杠\是转义字符，用来表示特殊字符（如\n表示换行，\t表示制表符）。为了表示真正的反斜杠，必须使用双反斜杠\\。其实在Python中，第一个\用于转义，告诉Python后面的\是普通的反斜杠字
Python googletrans库使用爬虫俗手小马达 python 前端
googletrans是一个用于翻译文本的Python库，使用谷歌翻译的API。它可以将文本从一种语言翻译为另一种语言，支持多种语言自动检测。以下是基本的用法示例：安装googletrans库在终端或命令行中执行以下命令安装：pipinstallgoogletrans==4.0.0-rc1使用示例fromgoogletransimportTranslator#初始化翻译器translator=Tr
python中常用排序操作——sort方法和sorted函数的使用，超详细，内置模板代码！！! 盲敲代码的阿豪 python实用知识点 python sorted sort 排序
文章目录前言1、sort()方法的使用1.1基础操作1.2操作进阶（自定义排序的对象）2、sorted()函数的使用2.1基础操作2.2操作进行（自定义排序的对象）3、扩展：排序案例模板代码前言在Python中，排序的方法有多种，其中最常用的是使用内置的sort()方法和sorted()函数，接下来我将通过各种案例带领大家轻松学会这两种方法，同时还会扩展一些实用的排序案例模板代码。1、sort()
零基础小白学习网络安全的必备指南！ Stanford_1106 学习网络运维网络微信开放平台微信小程序微信公众平台 twitter web安全安全
成长路上不孤单【14后///计算机爱好者///持续分享所学///如有需要欢迎收藏转发///】今日分享关于网络安全方面的相关内容！关于【网络安全】目录：一、了解网络安全基础知识二、学习计算机和网络基础知识三、掌握网络安全技术四、使用网络安全工具五、实战操作六、了解法律法规与职业道德七、持续学习与提升网络安全对于现代社会的重要性不言而喻，它关乎到个人信息安全、企业机密保护乃至国家安全。然而，对于许多零
成功解决error while loading shared libraries: libpython2.7.so.1.0: cannot open shared object file: No su 哎呦，帅小伙哦安装
安装了python2.7，第一次执行时报错：errorwhileloadingsharedlibraries:libpython2.7.so.1.0:cannotopensharedobjectfile:Nosuchfileordirectory解决方法如下：1.编辑vi/etc/ld.so.conf如果是非root权限帐号登录，使用sudovi/etc/ld.so.conf添加上python2.
python爬虫——pandas的简单使用张謹礧 python爬虫+可视化 python网络爬虫 python pandas 爬虫
pandas作为爬虫中最重要的包之一，我们要想学好爬虫，就必须要深入了解pandas直接上代码importpandasaspdimportnumpyasnpdata=pd.DataFrame(np.arange(16).reshape((4,4)),index=['a','b','c','d'],#如果不写列索引默认为0，1，2，3columns=['a','b','c','d'])print(d
Redis实战之Jedis使用技巧详解小马不敲代码实战 redis 缓存
一、前言基于redis开放的通信协议，大神们纷纷开发了各种语言的redis客户端，有c、c++、java、python、php、nodeJs等等开发语言的客户端，准确来说其实这些客户端都是基于redis命令做了一层封装，然后打包成工具以便大家更佳方便的操作redis，以Java项目为例，使用最广的就是以下三种客户端：JedisLettuceRedisson二、JedisJedis是老牌的Redis
Transformer入门（1）transformer及其编码器-解码器通信仿真实验室 Google BERT 构建和训练NLP模型 bert transformer 人工智能 NLP 自然语言处理
文章目录1.Transformer简介2.Transformer的编码器-解码器架构3.transformer的编码器1.Transformer简介Transformer模型是一种用于自然语言处理的机器学习模型，它在2017年由Google的研究者提出，并在论文《AttentionisAllYouNeed》中详细描述。Transformer模型的核心创新在于其采用了自注意力（self-attent
python venv文件夹_Python虚拟环境Venv weixin_39640911 python venv文件夹
当你的项目比较复杂，对模块版本要求不一时，不需要安装多个Python，只需要配置虚拟环境即可。提起虚拟环境，很多人都会想到Virtualenv，实际上从Python3.3版本开始内置了Venv模块用以建立轻量级的虚拟环境。Venv的用法和机制和Virtualenv非常相似，当你的项目只需要Python3.4或以上版本时，Venv完全可以替代Virtualenv。我这里的演示环境为Win10，使用的
python selenium安装步骤_Python：Selenium+Webdriver安装 weixin_39619893 python selenium安装步骤
本人小白一枚，今天在使用selenium+webdriver的时候遇到了一个小问题：WebDriverException:'chromedriver'executableneedstobeinPATH.Pleaseseehttps://sites.google.com/a/chromium.org/chromedriver/home在debug过程中，也去baidu上查询了，很多说法，但是有些是行
python selenium canvas_selenium webdriver 实现Canvas画布自动化测试我不勇敢 python selenium canvas
https://blog.csdn.net/xiaoguanyusb/article/details/80324210由借鉴意义,转过来canvas是一个画布，定位元素时只能定位到画布上，如下乳所示，网页上有一张类似于下图的eChart报表图片。selenium的基本定位方式只能定位到该画布上，画布上的子元素通过selenium的基础定位方式是定位不到的，此时就需要使用selenium的js注入的
n8n 全面实战指南：从零开始构建强大的自动化工作流 ivwdcwso 运维开发自动化运维开发
1.引言在当今快节奏的数字世界中,自动化已成为提高效率和减少重复工作的关键。n8n作为一款强大的开源工作流自动化工具,为开发者和业务用户alike提供了一个灵活的平台,用于连接各种应用和服务,创建复杂的自动化流程。本文将带您深入了解n8n,从基础安装到高级应用,全面掌握这个强大工具的使用方法。©ivwdcwso(ID:u012172506)2.n8n基础n8n(发音为“n-eight-n”)是一个
【转】ASP.NET Core 实战：基于 Jwt Token 的权限控制全揭露 GoToDinner core
【转】https://www.cnblogs.com/danvic712/p/10331976.html?tdsourcetag=s_pcqq_aiomsgASP.NETCore实战：基于JwtToken的权限控制全揭露一、前言#在涉及到后端项目的开发中，如何实现对于用户权限的管控是需要我们首先考虑的，在实际开发过程中，我们可能会运用一些已经成熟的解决方案帮助我们实现这一功能，而在Grapefru
arcgis for JavaScript入门篇五彩斑斓黑123 arcgis for javascript arcgis javascript 开发语言
介绍ArcGISforJavaScript是一种基于Web的地图开发解决方案，由ESRI公司开发。它允许开发人员在Web应用程序中嵌入交互式地图，并使用JavaScript编写地图应用程序。ArcGISforJavaScript提供了许多功能强大的API和工具，使开发人员能够创建高度定制的地图应用程序。它支持各种地图数据源，包括ESRI的ArcGISOnline服务、第三方地图服务、以及开发人员自
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
Windows下使用venv创建python虚拟环境 Mr.Justice(JYZN) 深度学习 Python基础
Windows下使用venv创建python虚拟环境(这里使用的是win10进行，其他Windows版本创建方法相同)必须是python3.x以上版本才有自带的venv包，本方法均是使用venv包下面的相关命令进行创建，这里的虚拟环境名称为“test”，所以都可以修改为自己的环境名称创建文件夹，切换当前目录mkdirtest#创建存放虚拟环境的文件夹cdtest#切换到创建的文件夹内创建虚拟环境p
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他