互联网信息获取技术实践与云端爬虫养成记

概要
在当前这个大数据泛滥的时代里,很多人在热衷于掌握大数据管理和处理时却忽略了其中的关键 - 数据本身。全球互联网数据的总存储量已经远远超过10万亿GB的规模,因此在奢谈大数据之前是否应该将目光转移到一个古老而又现实的话题——互联网大数据的获取呢?抓取网站数据的程序被称之为“爬虫”,而想要开发出满足今天日益复杂的网络环境的爬虫可谓难之又难。本次分享将主要介绍如何开发出一个好爬虫,其中涉及到协议优化、网络对抗、并行处理、数据队列等因素,除此之外演讲中还将谈到Python代码、Scrapy架构以及AWS基础设施等相关内容。

个人简介

费良宏,现担任亚马逊AWS首席云计算技术顾问一职,目前专注于云计算以及互联网等技术领域,致力于帮助中国的开发者构建基于云计算的新一代互联网应用。费良宏拥有超过20年时间的IT行业以及软件开发领域工作经验,在此之前曾经任职于Microsoft、Apple等知名企业任职架构师、技术顾问等职务,并参与过多个大型软件项目的设计、开发与项目管理。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(互联网信息获取技术实践与云端爬虫养成记)