wade1203

一个超详细的 Python 入门爬虫实战案例

本文转自公众号：超哥的杂货铺

写在前面：本文从北京公交路线数据的获取和预处理入手，记录使用python中requests库获取数据，pandas库预处理数据的过程。文章在保证按照一定处理逻辑的前提下，以自问自答的方式，对其中每一个环节进行详细阐述。本次代码均在jupyter notebook中测试通过，希望对大家有所启示。

数据获取：

本次我们从公交网获取北京公交的数据。

(http://beijing.gongjiao.com/lines_all.html)

如上图所示，数据获取分为请求，解析，存储三个最主要的步骤。

1.如何用python模拟网络请求？

使用request库可以模拟不同的请求，例如requests.get()模拟get请求，requests.post()模拟post请求。必要的时候可以添加请求头header，header通常包括user-agent，cookie，refer等信息，还可以增加请求参数data和代理信息。主要代码形式为：response = requests.request("GET", url, headers=headers, params=querystring)response是网站返回的响应信息，可以调用其text方法获取网站的HTML源码。本次我们的目标网站比较简单，获取网页源码的代码如下：

1url = 'http://beijing.gongjiao.com/lines_all.html'2text = requests.get(url).text'http://beijing.gongjiao.com/lines_all.html'
2text = requests.get(url).text

2.如何对网页进行解析？

python中提供了多种库用于网页解析，例如lxml，BeautifulSoup，pyquery等。每一个工具都有相应的解析规则，但都是把HTML文档当做一个DOM树，通过选择器进行节点和属性的定位。本次我们使用lxml对网页进行解析，主要用到了xpath的语法。lxml的执行效率通常也比BeautifulSoup更高一些。

1doc = etree.HTML(text)2all_lines = doc.xpath("//div[@class='list']/ul/li")3for line in all_lines:4    line_name = line.xpath("./a/text()")[0].strip()5    line_url = line.xpath("./a/@href")[0]
2all_lines = doc.xpath("//div[@class='list']/ul/li")
3for line in all_lines:
4    line_name = line.xpath("./a/text()")[0].strip()
5    line_url = line.xpath("./a/@href")[0]

我们将图和代码结合起来看。第一行代码将上一步返回的HTML文本转换为xpath可以解析的对象。第二行代码定位到class=list的div下面所有的li标签，即右图中的红色框的部分，得到的是一个列表。从第三行开始对其进行遍历，处理每一个li下面的a标签。第4行取出a标签下的文本，用到了xpath的text()方法，对应到第一个li就是“北京1路公交车路线”，第5行取出a标签下对应的链接，用到了xpath的@href取出a标签下的href属性值。直接取都是列表的形式，所以需要用索引取出具体的值。

这样我们就可以得到整个公交线路列表中的线路名称和线路url。然后从线路url出发，就可以获取每条线路的具体信息。如下面代码和图片所示，虽然数据略多，但主要的逻辑和上面类似，可以查看代码中的注释。

注：左右滑动查看详细代码

 1url = 'http://beijing.gongjiao.com/xianlu_38753'#先以一个url为例，进行页面的分析 2text = requests.get(url).text 3print(len(text)) 4doc = etree.HTML(text) 5infos = doc.xpath("//div[@class='gj01_line_header clearfix']")#定位到相应的div块 6for info in infos: 7    start_stop = info.xpath("./dl/dt/a/text()")#获取起点站和终点站的文本，xpath的逻辑为：div->dl->dt->a 8    op_times = info.xpath("./dl/dd[1]/b/text()")#获取运营时间的文本，xpath的逻辑为：div->dl->第一个dd->b 9    interval = info.xpath("./dl/dd[2]/text()")#获取发车间隔的文本，xpath的逻辑为：div->dl->第二个dd10    price = info.xpath("./dl/dd[3]/text()")#获取票价信息的文本，xpath的逻辑为：div->dl->第三个dd11    company = info.xpath("./dl/dd[4]/text()")#获取汽车公司的文本，xpath的逻辑为：div->dl->第四个dd12    up_times = info.xpath("./dl/dd[5]/text()")#获取更新时间的文本，xpath的逻辑为：div->dl->第五个dd13    all_stations_up = doc.xpath('//ul[@class="gj01_line_img JS-up clearfix"]')#定位到相应的div块14    for station in all_stations_up:15        station_name = station.xpath('./li/a/text()')#遍历取出该条线路上的站点名称16    all_stations_down = doc.xpath('//ul[@class="gj01_line_img JS-down clearfix"]')#定位到返程线路相应的div块17    for station in all_stations_down:18        station_name = station.xpath('./li/a/text()')#遍历取出该条线路上返程的站点名称19如果将获取的文本都输出(请自行添加相应的print语句)运行结果如下：20['老山公交场站(1)', '四惠枢纽站(27)']21['5:00-23:00']22['5:00-23:00']23['发车间隔：未知']24['票价信息：10公里以内票价2元，每增加5公里以内加价1元，最高票价6元']25['汽车公司：北京公交集团第六客运分公司']26['更新时间：2015-04-05 03:32:16']27['老山公交场站(1)', '老山南路东口(2)', '地铁八宝山站(3)', '玉泉路口西(4)', '五棵松桥西(6)', '翠微路口(8)', '公主坟(9)', '军事博物馆(10)', '木樨地西(11)', '工会大楼(12)', '南礼士路(13)', '复兴门内(13)', '西单路口东(15)', '天安门西(16)', '天安门东(17)', '东单路口西(18)', '北京站口东(19)', '日坛路(20)', '永安里路口西(21)', '大北窑西(22)', '大北窑东(23)', '郎家园(23)', '四惠枢纽站(27)']28['四惠枢纽站(27)', '八王坟西(24)', '郎家园(23)', '大北窑东(23)', '大北窑西(22)', '永安里路口西(21)', '日坛路(20)', '北京站口东(19)', '东单路口西(18)', '天安门东(17)', '天安门西(16)', '西单路口东(15)', '复兴门内(13)', '南礼士路(13)', '工会大楼(12)', '木樨地西(11)', '军事博物馆(10)', '公主坟(9)', '翠微路口(8)', '五棵松桥东(6)', '玉泉路口西(4)', '地铁八宝山站(3)', '老山南路东口(2)', '老山公交场站(1)']'http://beijing.gongjiao.com/xianlu_38753'#先以一个url为例，进行页面的分析
 2text = requests.get(url).text
 3print(len(text))
 4doc = etree.HTML(text)
 5infos = doc.xpath("//div[@class='gj01_line_header clearfix']")#定位到相应的div块
 6for info in infos:
 7    start_stop = info.xpath("./dl/dt/a/text()")#获取起点站和终点站的文本，xpath的逻辑为：div->dl->dt->a
 8    op_times = info.xpath("./dl/dd[1]/b/text()")#获取运营时间的文本，xpath的逻辑为：div->dl->第一个dd->b
 9    interval = info.xpath("./dl/dd[2]/text()")#获取发车间隔的文本，xpath的逻辑为：div->dl->第二个dd
10    price = info.xpath("./dl/dd[3]/text()")#获取票价信息的文本，xpath的逻辑为：div->dl->第三个dd
11    company = info.xpath("./dl/dd[4]/text()")#获取汽车公司的文本，xpath的逻辑为：div->dl->第四个dd
12    up_times = info.xpath("./dl/dd[5]/text()")#获取更新时间的文本，xpath的逻辑为：div->dl->第五个dd
13    all_stations_up = doc.xpath('//ul[@class="gj01_line_img JS-up clearfix"]')#定位到相应的div块
14    for station in all_stations_up:
15        station_name = station.xpath('./li/a/text()')#遍历取出该条线路上的站点名称
16    all_stations_down = doc.xpath('//ul[@class="gj01_line_img JS-down clearfix"]')#定位到返程线路相应的div块
17    for station in all_stations_down:
18        station_name = station.xpath('./li/a/text()')#遍历取出该条线路上返程的站点名称
19如果将获取的文本都输出(请自行添加相应的print语句)运行结果如下：
20['老山公交场站(1)', '四惠枢纽站(27)']
21['5:00-23:00']
22['5:00-23:00']
23['发车间隔：未知']
24['票价信息：10公里以内票价2元，每增加5公里以内加价1元，最高票价6元']
25['汽车公司：北京公交集团第六客运分公司']
26['更新时间：2015-04-05 03:32:16']
27['老山公交场站(1)', '老山南路东口(2)', '地铁八宝山站(3)', '玉泉路口西(4)', '五棵松桥西(6)', '翠微路口(8)', '公主坟(9)', '军事博物馆(10)', '木樨地西(11)', '工会大楼(12)', '南礼士路(13)', '复兴门内(13)', '西单路口东(15)', '天安门西(16)', '天安门东(17)', '东单路口西(18)', '北京站口东(19)', '日坛路(20)', '永安里路口西(21)', '大北窑西(22)', '大北窑东(23)', '郎家园(23)', '四惠枢纽站(27)']
28['四惠枢纽站(27)', '八王坟西(24)', '郎家园(23)', '大北窑东(23)', '大北窑西(22)', '永安里路口西(21)', '日坛路(20)', '北京站口东(19)', '东单路口西(18)', '天安门东(17)', '天安门西(16)', '西单路口东(15)', '复兴门内(13)', '南礼士路(13)', '工会大楼(12)', '木樨地西(11)', '军事博物馆(10)', '公主坟(9)', '翠微路口(8)', '五棵松桥东(6)', '玉泉路口西(4)', '地铁八宝山站(3)', '老山南路东口(2)', '老山公交场站(1)']

3.如何存储获取的数据？

数据存储的载体通常有文件(例如csv，excel)和数据库(例如mysql，MongoDB)。我们这里选择了csv文件的形式，一方面是数据量不是太大，另一方面也不需要进行数据库安装，只需将数据整理成dataframe的格式，直接调用pandas的to_csv方法就可以将dataframe写入csv文件中。主要代码如下：

注：左右滑动查看详细代码

 1#准备一个存储数据的字典 2df_dict = { 3    'line_name': [], 'line_url': [], 'line_start': [], 'line_stop': [], 4    'line_op_time': [], 'line_interval': [], 'line_price': [], 'line_company': [], 5    'line_up_times': [], 'line_station_up': [], 'line_station_up_len': [], 6    'line_station_down': [], 'line_station_down_len': []  7} 8#将上面获取的数据写入到字典中，注意这里只是示例，实际运行时候要将下面的代码放到循环中，每解析一条线路就需要append一次。 9df_dict['line_name'].append(line_name)10df_dict['line_url'].append(line_url)11df_dict['line_start'].append(start_stop[0])12df_dict['line_stop'].append(start_stop[1])13df_dict['line_op_time'].append(op_times[0])14df_dict['line_interval'].append(interval[0][5:])#为了把前面的文字“发车间隔”截掉，其余的类似15df_dict['line_company'].append(company[0][5:])16df_dict['line_price'].append(price[0][5:])17df_dict['line_up_times'].append(up_times[0][5:])18df_dict['line_station_up'].append(station_up_name)19df_dict['line_station_up_len'].append(len(station_up_name))20df_dict['line_station_down'].append(station_down_name)21df_dict['line_station_down_len'].append(len(station_down_name))22#将数据保存成csv文件23df = pd.DataFrame(df_dict)24df.to_csv('bjgj_lines_utf8.csv', encoding='utf-8', index=None)#准备一个存储数据的字典
 2df_dict = {
 3    'line_name': [], 'line_url': [], 'line_start': [], 'line_stop': [],
 4    'line_op_time': [], 'line_interval': [], 'line_price': [], 'line_company': [],
 5    'line_up_times': [], 'line_station_up': [], 'line_station_up_len': [],
 6    'line_station_down': [], 'line_station_down_len': [] 
 7}
 8#将上面获取的数据写入到字典中，注意这里只是示例，实际运行时候要将下面的代码放到循环中，每解析一条线路就需要append一次。
 9df_dict['line_name'].append(line_name)
10df_dict['line_url'].append(line_url)
11df_dict['line_start'].append(start_stop[0])
12df_dict['line_stop'].append(start_stop[1])
13df_dict['line_op_time'].append(op_times[0])
14df_dict['line_interval'].append(interval[0][5:])#为了把前面的文字“发车间隔”截掉，其余的类似
15df_dict['line_company'].append(company[0][5:])
16df_dict['line_price'].append(price[0][5:])
17df_dict['line_up_times'].append(up_times[0][5:])
18df_dict['line_station_up'].append(station_up_name)
19df_dict['line_station_up_len'].append(len(station_up_name))
20df_dict['line_station_down'].append(station_down_name)
21df_dict['line_station_down_len'].append(len(station_down_name))
22#将数据保存成csv文件
23df = pd.DataFrame(df_dict)
24df.to_csv('bjgj_lines_utf8.csv', encoding='utf-8', index=None)

4.看一看完整代码？

以上我们分模拟请求，网页解析，数据存储3个步骤，学习了数据获取的流程。实际运行过程中，还需要增加一些保证代码“健壮性”的逻辑。例如，控制爬取的频率，处理请求失败的情况，处理不同的线路网页结构可能有差异的情况等等。本次的数据源没有做很多反扒限制，因此前两种情况我们可以不处理。至于第三种，有的路线会出现线路运营时间是空值的情况，需要进行判断。另外还可以增加一些爬虫运行过程的提示信息，让我们知道爬取进度，当然你也可以增加多线程，代理，ua切换等代码，此处我们还用不上这些。完整的代码可以在后台回复“北京公交”进行获取。

数据预处理

在上一步获取数据之后，我们就可以使用pandas进行数据的分析工作。在正式的分析之前，数据预处理非常重要，它保证了数据的质量，也为后续的工作奠定了重要的基础。通常数据预处理在实际工作中都会占用比较多的时间。虽然我们这里的数据已经足够“结构化”，但仍然不可避免存在一些问题。下面我们就来一探究竟。

5.如何读取数据？

使用pandas提供的read_csv方法，该方法有很多可选的参数，例如指定索引，列名，编码等。对于本次数据，直接使用默认的即可。读取的ori_data是dataframe类型，调用head方法可以输出前5行的样例数据。

1ori_data = pd.read_csv('bjgj_lines_utf8.csv')2ori_data.head()'bjgj_lines_utf8.csv')
2ori_data.head()

6.如何查看每一列数据的唯一值的个数？(如何查看有多少条线路)

可以使用dataframe的nunique方法，该方法输出每一列有几个唯一的值。

 1ori_data.nunique() 2输出结果如下： 3line_name                1986 4line_url                 2002 5line_start                989 6line_stop                1123 7line_op_time              560 8line_interval               4 9line_price                12610line_company               8211line_up_times             65012line_station_up          192813line_station_up_len        8014line_station_down        170015line_station_down_len      8016dtype: int64ori_data.nunique()
 2输出结果如下：
 3line_name                1986
 4line_url                 2002
 5line_start                989
 6line_stop                1123
 7line_op_time              560
 8line_interval               4
 9line_price                126
10line_company               82
11line_up_times             650
12line_station_up          1928
13line_station_up_len        80
14line_station_down        1700
15line_station_down_len      80
16dtype: int64

由于线路很多，我们在原始网页中很难发现是否会有重复的线路。但从上面观察line_name和line_url两个字段，line_name有1986个唯一值，line_url有2002个唯一值。说明line_name存在重复：会有名称相同的线路对应不同的line_url。所以接下来我们需要进行重复值的剔除。

7.如何找出重复的值？

出现了线路名称的重复，但却有不同的line_url，究竟是确实是线路“重名”还是线路“重复”？我们需要看一下数据重复的具体情况。因此需要把重复的行都找出来看看。可以使用pandas的duplicated方法，它可以对dataframe的指定列查看是否重复，返回True和False，代码如下。

1d = ori_data.duplicated(subset=['line_name'])2dup_data = ori_data[d]3dup_data
2dup_data = ori_data[d]
3dup_data

这是所有重复出现过的line_name值，但并不是所有重复的值(例如22路重复出现过，但22路在结果中只有一条，不便于观察除了名字之外是否还有其他字段的重复)。为了找出所有重复的值(例如输出所有22路的记录)，我们可以从原数据中取line_name是这些值的所有行，代码和思路如下：

1#首先定义一个列表，每找出一行line_name在上面范围内的，2#就将这行加入列表，然后调用concat方法将列表拼接成#dataframe3dup_lines = []4for name in dup_data.line_name:5    tmp_lines = ori_data[ori_data['line_name'] == name]6    dup_lines.append(tmp_lines)7    dup_data_all = pd.concat(dup_lines)8dup_data_all#首先定义一个列表，每找出一行line_name在上面范围内的，
2#就将这行加入列表，然后调用concat方法将列表拼接成#dataframe
3dup_lines = []
4for name in dup_data.line_name:
5    tmp_lines = ori_data[ori_data['line_name'] == name]
6    dup_lines.append(tmp_lines)
7    dup_data_all = pd.concat(dup_lines)
8dup_data_all

观察dup_data_all，确实同一个线路名字存在重复的记录，而且其余信息也是几乎都相同的，这确认了我们认为的线路”重名“现象是不存在的。但同一条线路的信息具体以哪一个为准呢？注意到有更新时间line_up_time字段，因此我们可以以最新时间的信息为准。

8.如何对原数据剔除重复值？

这里考虑两种思路。第一种，直接对原数据进行操作，当line_name存在重复时，保留最近更新时间的记录。第二种，将原数据中的dup_data_all部分完全删除，拼接上dup_data_all去除重复的部分。两种思路都需要删除line_name重复的记录，保留一个时间最新的。pandas本身有drop_duplicates方法，使用keep=last或keep=first参数就可以指定保留的记录。但在这之前我们需要将line_up_time转换为pandas可以识别的时间类型，然后对其进行排序。下面来看代码：

注：左右滑动查看详细代码

 1#方法1 2ori_data['line_up_times'] = pd.to_datetime(ori_data['line_up_times'], format='%Y-%m-%d %H:%M:%S')#使用to_datetime方法，指定format，将字符串转换为pandas的时间类型。 3ori_data.sort_values(by=['line_name', 'line_up_times'], ascending=[True, True], inplace=True)#使用sort_values方法，对line_name和line_up_time排序 4drop_dup_line1 = ori_data.drop_duplicates(subset=['line_name'], keep='last')#由于是升序排列，所以keep=last就可以保留最新事件的记录 5len(drop_dup_line1)#结果是1986  6 7方法2： 8dup_data_all['line_up_times'] = pd.to_datetime(dup_data_all['line_up_times'], format='%Y-%m-%d %H:%M:%S')#使用to_datetime方法，指定format，将字符串转换为pandas的时间类型。 9dup_data_all.sort_values(by=['line_name', 'line_up_times'], ascending=[True, True], inplace=True)#使用sort_values方法，对line_name和line_up_time排序10dup_data_all.drop_duplicates(subset=['line_name'], keep='last', inplace=True)#使用keep=last保留时间更新的记录1112other_data = ori_data[~ori_data['line_name'].isin(dup_data_all.line_name)]#获取原数据中剔除了重复线路的数据：取名字不在dup_data_all的line_name集合中的记录13drop_dup_line2 = pd.concat([other_data, dup_data_all]) #拼接两部分数据14len(drop_dup_line2)#结果是1986 #方法1
 2ori_data['line_up_times'] = pd.to_datetime(ori_data['line_up_times'], format='%Y-%m-%d %H:%M:%S')#使用to_datetime方法，指定format，将字符串转换为pandas的时间类型。
 3ori_data.sort_values(by=['line_name', 'line_up_times'], ascending=[True, True], inplace=True)#使用sort_values方法，对line_name和line_up_time排序
 4drop_dup_line1 = ori_data.drop_duplicates(subset=['line_name'], keep='last')#由于是升序排列，所以keep=last就可以保留最新事件的记录
 5len(drop_dup_line1)#结果是1986 
 6
 7方法2：
 8dup_data_all['line_up_times'] = pd.to_datetime(dup_data_all['line_up_times'], format='%Y-%m-%d %H:%M:%S')#使用to_datetime方法，指定format，将字符串转换为pandas的时间类型。
 9dup_data_all.sort_values(by=['line_name', 'line_up_times'], ascending=[True, True], inplace=True)#使用sort_values方法，对line_name和line_up_time排序
10dup_data_all.drop_duplicates(subset=['line_name'], keep='last', inplace=True)#使用keep=last保留时间更新的记录
11
12other_data = ori_data[~ori_data['line_name'].isin(dup_data_all.line_name)]#获取原数据中剔除了重复线路的数据：取名字不在dup_data_all的line_name集合中的记录
13drop_dup_line2 = pd.concat([other_data, dup_data_all]) #拼接两部分数据
14len(drop_dup_line2)#结果是1986

如何比较两种方法获得的结果线路是否一致？我们可以用下面的代码进行。

1drop_dup_line2.sort_values(by=['line_name', 'line_up_times'], ascending=[True, True], inplace=True)#由于drop_dup_line1排序过，我们也对drop_dup_line2进行相同规则的排序2res = drop_dup_line1['line_name'].values.ravel() == drop_dup_line2['line_name'].values.ravel()#ravel()方法将数组展开，res是一个布尔值组成的ndarray数组，结果为true表示对应元素相等3res = [1 for i in res.flat if i]  4sum(res)#使用flat方法可以对ndarray进行遍历，sum看一下一共有多少个true，结果是1986，说明drop_dup_line1和drop_dup_line2对应每一个位置的元素都相同'line_name', 'line_up_times'], ascending=[True, True], inplace=True)#由于drop_dup_line1排序过，我们也对drop_dup_line2进行相同规则的排序
2res = drop_dup_line1['line_name'].values.ravel() == drop_dup_line2['line_name'].values.ravel()#ravel()方法将数组展开，res是一个布尔值组成的ndarray数组，结果为true表示对应元素相等
3res = [1 for i in res.flat if i]  
4sum(res)#使用flat方法可以对ndarray进行遍历，sum看一下一共有多少个true，结果是1986，说明drop_dup_line1和drop_dup_line2对应每一个位置的元素都相同

这样对于重复数据的处理就结束了，我们使用drop_dup_line1来进行下面的分析。

9.如何删除地铁线路？

虽然我们爬取的是公交路线，但程序运行过程中我也发现了地铁的线路(其实地铁也是广义上的公交啦)。如果我们的目的是对纯粹的公交线路进行分析，就需要将地铁的线路删除。直观的思路是剔除线路名称中含有“地铁”的记录。

1is_subway = drop_dup_line1.line_name.str.contains('地铁')#使用.str将其转换为字符串就可以使用字符串的contains方法。2subway_data = drop_dup_line1[is_subway]3subway_data'地铁')#使用.str将其转换为字符串就可以使用字符串的contains方法。
2subway_data = drop_dup_line1[is_subway]
3subway_data

从上图左侧可以看到subway_data的结果不仅仅有地铁，还有一些地铁有关的通勤线路，其实是公交。因此不能直接删除line_name中含有“地铁”的记录，我们使用line_conpany中含有“地铁”来区分，效果更好。代码如下所示：

1is_subway2 = drop_dup_line1.line_company.str.contains('地铁')2subway_data2 = drop_dup_line1[is_subway2]3subway_data2'地铁')
2subway_data2 = drop_dup_line1[is_subway2]
3subway_data2

结果如上图右侧所示，虽然最后一条也有一条“公交车路线”，但观察整条记录就会发现它其实是特殊的机场线地铁。

到这里，你会不会想到根据线路名称中是否含有“公交车路线”将地铁线路剔除？我们可以试一试。但其实上面的图已经告诉了我们答案：有的公交线路是“接驳线”，并不含有“公交车路线”。

10.获取删除地铁数据之后的全部数据

在drop_dup_line1的基础上，筛选出线路名称不在subway_data2中的线路名称的记录即可：

1clean_data = drop_dup_line1[~drop_dup_line1['line_name'].isin(subway_data2.line_name)]2len(clean_data) #结果是1963，也就是北京的公交车一共有1963条线路34clean_data3 = drop_dup_line1[drop_dup_line1.line_name.str.contains("公交车路线")]5len(clean_data3) #通过是否含有“公交车线路”进行筛选，结果是1955，应该就是少了那些“接驳线”'line_name'].isin(subway_data2.line_name)]
2len(clean_data) #结果是1963，也就是北京的公交车一共有1963条线路
3
4clean_data3 = drop_dup_line1[drop_dup_line1.line_name.str.contains("公交车路线")]
5len(clean_data3) #通过是否含有“公交车线路”进行筛选，结果是1955，应该就是少了那些“接驳线”

如何比较clean_data和clean_data3。这个问题其实是如何求两个dataframe差集的问题，我们转化为求列表的差集，代码和结果如下所示。

1list(set(clean_data.line_name.values).difference(set(clean_data3.line_name.values))) #找出在clean_data的line_name中但是不在clean_data3的line_name中的数据2list(set(clean_data3.line_name.values).difference(set(clean_data.line_name.values))) #找出在clean_data3的line_name中但是不在clean_data的line_name中的数据#找出在clean_data的line_name中但是不在clean_data3的line_name中的数据
2list(set(clean_data3.line_name.values).difference(set(clean_data.line_name.values))) #找出在clean_data3的line_name中但是不在clean_data的line_name中的数据

至此我们将重复数据进行了删除，并剔除了“地铁”线路。但其实我们的数据预处理工作还没有结束，我们还没有观察数据中是否含有缺失值。

11.如何查看数据集中的缺失值情况？

可以使用isnull().sum()方法查看。发现票价有230个缺失值。参见后面的图片。对于缺失值我们需要在预处理阶段对其进行填充。考虑到票价数据本身不是纯粹的价格数据，而是一大串的文字描述，并且在公交的这种场景下，其实不同线路的票价差别不是很大，因此我们可以使用众数对缺失值进行填充。使用mode方法查看众数，使用fillna方法填补缺失值。

1#查看众数的方法：2clean_data.line_price.mode()#使用mode()方法查看line_price的众数3clean_data.line_price.value_counts()#使用value_counts()方法查看每一个取值出现的次数，第一个也是众数45clean_data.line_price.fillna(clean_data.line_price.mode()[0], inplace=True)6clean_data.isnull().sum()#查看众数的方法：
2clean_data.line_price.mode()#使用mode()方法查看line_price的众数
3clean_data.line_price.value_counts()#使用value_counts()方法查看每一个取值出现的次数，第一个也是众数
4
5clean_data.line_price.fillna(clean_data.line_price.mode()[0], inplace=True)
6clean_data.isnull().sum()

至此我们基本完成了重复值和缺失值的处理。

总结

本文我们主要借助于北京公交数据的实例，学习了使用python进行数据获取和数据预处理的流程。内容虽然简单但不失完整性。数据获取部分主要使用requests模拟了get请求，使用lxml进行了网页解析并将数据存储到csv文件中。数据预处理部分我们进行了重复值和缺失值的处理，但应该说数据预处理并没有完成。(比如我们可以对运营时间拆分成两列，对站点名称进行清理等，如何进行预处理工作与后续的分析紧密相关)。文章的重点不在于例子的难度，而在于通过具体问题学习python中数据处理的方法。所处理的问题虽然有一定的特殊性，但也方便扩展到其他场景。希望对读到这里的你有一定的帮助。读者可以在后台回复“北京公交”获取本文的数据和爬取代码，欢迎交流学习~以清净心看世界。

你可能感兴趣的:(一个超详细的 Python 入门爬虫实战案例)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
什么是证书吊销列表？CRL 解释 WoTrusSSL ssl https
数字证书是安全在线互动的支柱，用于验证身份和确保加密通信。但是，当这些证书被盗用或滥用时，必须立即撤销它们以维持信任。这就是证书撤销列表(CRL)的作用所在。CRL由证书颁发机构(CA)维护，对于识别和撤销已撤销的证书，防止其造成危害至关重要。在本指南中，我们将探讨什么是CRL、它们如何运作以及为什么它们对网络安全至关重要。什么是证书吊销列表(CRL)？证书吊销列表(CRL)是证书颁发机构(CA)
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
发票合并工具小朋的软件园前端 javascript java html 服务器
"发票合并工具"是一款专为高效整理票据设计的实用工具，支持将来自不同渠道的发票文件（如PDF文档、各类图片格式）快速整合为排版规范的PDF文件，尤其适用于财务报销场景下的批量票据处理需求。核心功能亮点多格式兼容：无缝导入PDF文件及常见图片格式（.png/.jpg/.jpeg/.bmp），适配多来源发票整合需求。智能布局配置：提供灵活的页面布局选项（每页2/3/4张发票），其中"2合1"模式针对报
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
k8s:安装 Helm 私有仓库ChartMuseum、helm-push插件并上传、安装Zookeeper 云游 docker helm helm-push
ChartMuseum是Kubernetes生态中用于存储、管理和发布HelmCharts的开源系统，主要用于扩展Helm包管理器的功能核心功能‌集中存储‌：提供中央化仓库存储Charts，支持版本管理和权限控制。‌‌跨集群部署‌：支持多集群环境下共享Charts，简化部署流程。‌‌离线部署‌：适配无网络环境，可将Charts存储在本地或局域网内。‌‌HTTP接口‌：通过HTTP协议提供服务，用户
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
前端项目架构设计要领
1.架构设计的核心目标在设计前端项目架构时，核心目标是模块化、可维护、可扩展、可测试，以及开发效率的最大化。这些目标可以通过以下几个方面来实现：组件化：将UI功能封装为可复用的组件。模块化：将业务逻辑分解为独立的模块或服务。自动化构建与部署：实现自动化构建、测试和部署流程，减少人为操作的错误。代码规范化与检查：确保团队协作时，代码风格和质量一致。2.项目目录结构设计一个清晰合理的目录结构对大型项目
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc