linzch3

【MOOC】Python网络爬虫与信息提取-北京理工大学-part 3

【第三周】网络爬虫之实战

一、Re(正则表达式)库入门

1.正则表达式的概念

1.1正则表达式是什么

正则表达式是用来简洁表达一组字符串的表达式。
使用正则表达式的优势就是：简洁、一行胜千言一行就是特征(模式)

例1：代表一组字符串：

例2：代表一组（无穷个）字符串：

例3：代表一组具有某种特点但是枚举起来很繁琐的字符串：

简单来说：
正则表达式是用来简洁表达一组字符串的表达式
正则表达式是一种通用的字符串表达框架
正则表达式是一种针对字符串表达“简洁” 和“ 特征” 思想的工具
正则表达式可以用来判断某字符串的特征归属

1.2正则表达式可以干嘛

正则表达式在文本处理中十分常用：
可用来表达文本类型的特征（病毒、入侵等）
可用来同时查找或替换一组字符串
可用来匹配字符串的全部或部分
可用来……
最主要应用在字符串匹配中

1.3如何（在python）使用正则表达式

使用re模块：

2.正则表达式的语法

从下面一个经典例子讲起：

可以看出：正则表达式语法由字符和操作符构成

2.1正则表达式的常用操作符

2.2正则表达式语法实例

2.3经典正则表达式实例

2.3.1匹配IP地址的正则表达式

3.Re库的基本使用

Re库是Python的标准库，主要用于字符串匹配
调用方式：import re

3.1正则表达式的表示类型

包含2种：raw string类型（原生字符串类型）和string类型

re库采用raw string类型表示正则表达式，表示为： r’text’
例如：

r'[1‐9]\d{5}'
r'\d{3}‐\d{8}|\d{4}‐\d{7}'

简单来说：raw string是不包含对转义符再次转义的字符串。

re库也可以采用string类型表示正则表达式，但更繁琐
例如：

'[1‐9]\\d{5}'
'\\d{3}‐\\d{8}|\\d{4}‐\\d{7}'

建议：当正则表达式包含转义符时，使用raw string。而为了使用的方便，笔者还是建议同一用raw string。

关于所有的转义字符和所对应的意义，可看这里：

3.2Re库的主要功能函数

总体介绍：

3.2.1 re.search()

函数原型：re.search(pattern, string, flags=0)
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记，常用标记如下：

功能：在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

举例：

3.2.2 re.match()

函数原型：re.match(pattern, string, flags=0)，参数同上
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记

功能：从一个字符串的开始位置起匹配正则表达式，返回match对象

举例：

【重要】这里需要注意的是：当match为None时，直接输出match.group(0)就会报错。所以，为了程序的稳定性，通常需要使用：

if match:
    match.group(0)

来避免该错误。这种处理方法在爬虫程序中经常会见到。

3.2.3 re.findall()

函数原型：re.findall(pattern, string, flags=0)，参数同上
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记

功能：搜索字符串，以列表类型返回全部能匹配的子串

举例：

3.2.4 re.split()

函数原型：re.split(pattern, string, maxsplit=0, flags=0)
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ maxsplit: 最大分割数，剩余部分作为最后一个元素输出
∙ flags : 正则表达式使用时的控制标记

功能：将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

举例：

3.2.5 re.finditer()

函数原型：re.finditer(pattern, string, flags=0)
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ string : 待匹配字符串
∙ flags : 正则表达式使用时的控制标记
功能：搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

举例：

3.2.6 re.sub()

函数原型：re.sub(pattern, repl, string, count=0, flags=0)
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ repl : 替换匹配字符串的字符串
∙ string : 待匹配字符串
∙ count : 匹配的最大替换次数
∙ flags : 正则表达式使用时的控制标记
功能：在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

举例：

3.3Re库的另一种等价用法

举例：

re.compile函数原型：regex = re.compile(pattern, flags=0)
∙ pattern : 正则表达式的字符串或原生字符串表示
∙ flags : 正则表达式使用时的控制标记

功能：将正则表达式的字符串形式编译成正则表达式对象

那么，Re库的函数用法等价为：

4.Re库的Match对象

Match对象是一次匹配的结果，包含匹配的很多信息

属性有：

方法有：

实例：

5.Re库的贪婪匹配和最小匹配

5.1贪婪匹配

首先看一个例子：

>>> match = re.search(r'PY.*N', 'PYANBNCNDN')
>>> match.group(0)

可以发现代码中的正则表达式r’PY.*N’可同时匹配长短不同的多项，那么该返回哪一个呢？
实际输出结果为：

'PYANBNCNDN'

原因是：Re库默认采用贪婪匹配，即输出匹配最长的子串

5.2最小匹配

那么该如何如何输出最短的子串呢？
解决方法：修改r'PY.*N'为r'PY.*?N'即可：

>>> match = re.search(r'PY.*?N', 'PYANBNCNDN')
>>> match.group(0)
'PYAN'

5.2.1最小匹配操作符

只要长度输出可能不同的，都可以通过在操作符后增加?变成最小匹配：

6.单元小结

二、实例1-淘宝商品比价定向爬虫

1.功能描述

目标：获取淘宝搜索页面的信息，提取其中的商品（书包）名称和价格
具体实现需要解决的问题：
1.淘宝的搜索接口：

https://s.taobao.com/search?q=keyword

第一个页面的链接为：

https://s.taobao.com/search?q=书包&js=1&stats_click=search_radio_all%
3A1&initiative_id=staobaoz_20170105&ie=utf8

2.翻页的处理:
打开网页后，发现数据是分布在多个页面上的：

一般来说，这多个页面的链接是有一定的规律性的：

可以看到，修改s这个属性值就可以得到后面的页面的URL链接了。

3.技术路线：requests‐bs4‐re

4.观察网页源代码，找到要爬取的数据（书包的价格和名称）的所在位置：

2.程序结构设计

步骤1：提交商品搜索请求，循环获取页面
步骤2：对于每个页面，提取商品名称和价格信息
步骤3：将信息输出到屏幕上

首先，写出总体较抽象的代码：

总体代码：

#CrowTaobaoPrice.py
import requests
import re

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "failed\n"

def parsePage(ilt, html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])#eval函数将字符串转为数字
            title = eval(tlt[i].split(':')[1])
            ilt.append([price , title])
    except:
        print("")

def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号", "价格", "商品名称"))
    count = 0
    for g in ilt:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))

def main():
    goods = '书包'
    depth = 3 #改段代码是演示用的，depth不能太大，淘宝本是不允许爬取搜索页面的
    start_url = 'https://s.taobao.com/search?q=' + goods
    infoList = []
    for i in range(depth):
        try:
            url = start_url + '&s=' + str(44*i)
            html = getHTMLText(url)
            parsePage(infoList, html)
        except:
            continue
    printGoodsList(infoList)

main()

输出结果：

序号    价格            商品名称
   1    129.00          瑞士军刀旅行双肩包男中学生书包电脑背包
   2    69.00           迪士尼书包小学生男女1-3-4-6年级米奇减负背包儿童书包8-10-12岁
   3    78.00           泰格奴防盗商务男女双肩包男士背包休闲学生书包电脑包韩版旅行包
   4    143.00          七匹狼男士背包 书包中学生男商务双肩电脑包旅行包 背包双肩包男
   5    79.00           日韩大容量帆布双肩包男潮双肩背包旅行包英伦风书包中学生女
   6    167.00          越古帆布双肩包女士休闲复古文艺运动背包韩版中学生书包男包女包
   7    37.44           日韩简约清新帆布双肩包女韩版潮学院风校园学生背包大小款书包女
   8    69.00           2016新款韩版潮真皮背包时尚女士双肩包女百搭简约大容量学生书包
   9    44.55           包包2017新款pu卡通小猫双肩包女韩版时尚百搭学院风学生书包背包
  10    55.00           双肩包女士包包2017新款学生背包时尚韩版妈咪女包休闲书包旅行包
  11    49.90           双肩包女士背包2017春季新款女包时尚百搭书包韩版休闲旅行包女潮
  12    79.20           幼儿园布朗熊书包3-4-5岁 背包双肩包 手提包韩国热款 轻便容量大
  13    59.00           2016新款个性创意磨砂皮海豚书包女双肩包男大容量旅行背包电脑包
  14    198.00          SALONBUS沙隆巴斯 定制款复古英伦老花迷你小书包双肩背包斜挎包
  15    145.00          双肩包男士背包旅游韩版学生书包时尚潮流休闲旅行潮包皮质电脑包
  16    97.51           超值卡拉羊韩版学院风女双肩包大学生初中生中学生书包女旅行电脑
  17    159.00          SHEVAN/希梵2016新款时尚女包双肩包女韩版百搭休闲背包简约书包
  18    12.50           韩国版文艺2017简约帆布包男女单肩手提购物袋大女包学生书包森潮
  19    99.36           米菲包包女小清新双肩包女学院风中学生书包帆布旅行背包大容量
  20    98.00           2017女包上新款韩版潮双肩包女牛津布小怪兽背包时尚学院风书包
  21    111.72          2017新款英伦时尚简约双肩包女包韩版潮流大背包学院风学生书包包
  22    22.98           包邮秋冬文艺纯色布贴灯芯绒布包单肩斜跨两用拉链包女书包9色入
  23    139.00          安踏配件双肩背包男女通用 春秋季笔记本电脑包学生书包背包
  24    58.65           韩版多功能单肩双肩两用妈咪包大容量背包牛津布配真皮斜挎大书包
  25    73.50           马塞洛双肩包男士韩版商务背包女中学生书包双肩休闲电脑包旅行包
  26    59.00           乐天双肩包日系校园森女系撞色拼接大容量书包男女情侣背包电脑包
  27    99.00           安踏男女双肩背包学生书包2016冬季新款时尚百搭旅游背包19648166
  28    79.00           费莱德简约男包韩版学生书包女包潮PU皮男士双肩背包休闲旅行包
  29    108.00          熊本熊包包学生包jk制服包女单肩书包可爱日系手提包通勤学院风萌
  30    75.00           勇士库里30号 汤普森 大容量双肩包篮球背包 男 女包 学生书包nba
  31    98.58           牛津布双肩包女日韩版时尚防水帆布背包韩国校园大学生休闲书包男
  32    47.90           双肩包女韩版潮青少年休闲可爱背包百搭简约旅游灰粉色学生书包女
  33    76.00           伊布雅双肩包女日韩版男背包纯色百搭中学生书包休闲电脑包旅行包
  34    19.90           2016韩版亲子包儿童双肩背包胸包宝宝男童女童米奇皮包书包潮包
  35    58.00           2016新款欧美双肩包女韩版可爱卡通创意个性喷绘背包中学生书包男
  36    125.00          七匹狼新款双肩包韩版男女休闲背包学生书包商务电脑包旅行包正品
  37    39.90           彩带流苏双肩包女2016新款铆钉徽章迷你小背包学院风休闲单肩书包
  38    89.76           2017新款尼龙牛津布双肩包女包韩版潮轻休闲背包学生书包妈咪大包
  39    77.52           2016新款春铆钉双肩包女韩版pu学院风2017小熊背包休闲百搭书包潮
  40    49.90           2016新款韩版双肩包女复古PU背包潮百搭学院风旅行休闲中学生书包
  41    59.00           秀洛我的世界Minecraft苦力怕书包游戏周边双肩背包男女学生夜光
  42    79.00           森马双肩包女韩版 2016新款简约百搭学院风大学生书包男电脑包潮
  43    59.00           2017新款牛津布双肩包女夏尼龙布防水书包女士休闲旅行背包韩版潮
  44    38.00           瑞士军刀SWISSWIN儿童书包小孩双肩包卡通背包SWK1001A/B/C/D/E/F
  45    59.90           包包女2017新款潮韩版百搭学院铆钉背包简约PU书包韩版双肩包小包
  46    69.00           百搭明星新款双肩包软皮女包韩版学院风休闲时尚书包旅行背包潮女
  47    146.51          JanSport杰斯伯超级叛逆儿童款迷你双肩包书包TDH6系列
  48    59.00           背包双肩包男韩版大学生高中学生开学书包时尚潮流旅行旅游包简约
  49    69.00           双肩包女韩版潮书包2017新款时尚百搭软羊皮女士包包旅行真皮背包
  50    258.00          NIKE双肩包KYRIE 欧文男子篮球运动装备背包书包BA5133 BA5259
  51    179.00          匡威包双肩包男包女包2017图案学生书包运动帆布背包10004349-A01
  52    119.00          【买一送一】森马双肩包女韩版 百搭学院风大学生书包男旅行包潮
  53    248.00          anello双肩包日本代购正品乐天男女书包包两用背包简约书包防水包
  54    39.90           2016秋冬新款尼龙双肩包女背包牛津布包女士韩版潮书包女包方扣
  55    158.00          开学季包邮订制图案炫彩硬壳电脑包18寸中学生高中生书包
  56    28.50           韩国软妹灯芯绒双肩包原宿复古百搭学院风帆布日系男女学生书包潮
  57    116.82          韩国复古个性书包女双肩包防泼水大学韩版学院风bf布料女小清新男
  58    109.00          日本代购乐天双肩包磨砂手提包大容量电脑背包妈咪学生书包旅游包
  59    30.24           新款时尚休闲防泼水书包女中学生旅行双肩包 学院风潮流印花背包
  60    218.00          GOLF新品男士双肩包时尚多色旅行背包大学生书包电脑包悠闲包包
  61    47.36           双肩包女韩版2017新款潮百搭休闲皮质大学生书包简约气质女生背包
  62    277.00          正品匡威休闲双肩包男女学生书包旅行包 10002205102 10002205001
  63    99.00           2017新款鲨鱼大小背包牛津布双肩包女学生男女书包旅行包
  64    165.00          2016正品阿迪达斯男女包学生书包双肩背包AY4200 4183 4184 4199
  65    79.00           冰雪奇缘儿童书包可爱双肩包女童8-10-12岁小学生书包3-4-6年级
  66    37.00           猫猫包袋2017女包上新多用双肩包休闲拼色单肩斜挎包包女日韩书包
  67    58.00           书包男女学生阴阳师动漫游戏周边神乐安培晴明莹草大天狗双肩背包
  68    29.90           韩国ulzzang日本原宿软妹美少女战士露娜猫咪卖萌小号双肩背书包
  69    49.90           小学生书包1-2-3年级4男孩双肩背包女儿童 6-7-8-9岁休闲旅行防水
  70    22.90           韩国经典百搭黑色刺绣双肩包月亮十字架学生背包大容量情侣书包女
  71    45.22           2017新款磨砂流苏双肩包女韩版大容量学院风背包百搭休闲学生书包
  72    69.00           小恶魔小怪兽潮牌双肩包韩版男女初高中学生情侣书包夜光帆布包
  73    49.90           户外登山包大容量书包潮女韩版多功能旅行背包运动双肩包男行李包
  74    88.00           女双肩包复古欧美学生书包休闲背包电脑包碎花
  75    39.90           双肩包女韩版pu背包时尚百搭女包学院风抽绳包包2016新款潮书包女
  76    118.00          韩国kk树书包小学生男6-12周岁儿童书包女童1-3-5年级护脊双肩包
  77    79.00           卡拉羊儿童小背包宝宝幼儿园书包男女小双肩包可爱卡通小包C6005
  78    139.00          轻便防水中号背包双肩包多袋多功能多花色 书包
  79    59.40           双肩包男个性学生书包时尚潮流简约旅行背包皮商务休闲防水电脑包
  80    59.00           休闲双肩包女士背包学院风韩版学生书包时尚潮复古旅行电脑包潮包
  81    65.00           牛津布全防水包包女生书包韩版学院风背包简约百搭学生双肩包帆布
  82    45.00           李小璐同款双肩包女旅行包2016春夏款亮片背包女包韩版潮亮片书包
  83    68.16           双肩包女包韩版PU皮全防水大容量高中学生书包流苏背包校园学院风
  84    179.00          瑞戈瑞士军刀男女背包双肩包旅行包中学生书包休闲商务时尚包
  85    59.00           休闲双肩包男士背包青年PU皮韩版潮流学生书包时尚大旅行包电脑包
  86    19.80           韩版背包折叠轻便防水女旅行男旅游户外双肩包简约百搭学院风书包
  87    99.00           奥王双肩包背包男初中生学生书包休闲男士商务旅行大容量电脑包
  88    23.00           2016新款双肩包背包韩版时尚女包大容量女士包包简约双肩学生书包
  89    79.00           黛妃洛 秋冬新品编织双肩包女士包时尚潮背包旅行大容量女包书包
  90    41.80           韩版简约时尚休闲镭射pu双肩背包女中学生校园书包大容量百搭纯色
  91    168.00          左岸潇明星同款潮牌双肩包菱格子品牌书包学生超轻便尼龙旅行背包
  92    59.00           阪元宿宿大容量印花防水双肩包女韩版潮休闲背包中学生书包旅行包
  93    99.00           瑞士军刀正品双肩包男商务15.6寸电脑包17寸中学生书包大容量背包
  94    369.00          艾力夫|NEW BALANCE GC721032 GC641013 男女包运动包书包双肩包
  95    49.90           新款双肩包女韩版pu皮森女系学院风学生书包小清新休闲百搭背包潮
  96    49.00           双肩包女韩版学院风定型猫耳朵防水双肩大高中学生男书包百搭背包
  97    49.00           【天天特价】户外登山包大容量旅行旅游背包双肩包男女运动包书包
  98    137.70          JTXS正版镶钻亮片双肩背包女韩版明星同款亮片双肩背潮流旅游书包
  99    136.08          ONLY双肩包女包2017新款韩版个性铆钉背包时尚书包潮流包包108
 100    74.75           2017新款休闲旅行软皮配牛皮背包双肩包韩版潮女包学院风学生书包
 101    1568.00         美国正品新款MK双肩包RHEA ZIP铆钉书包旅行背包真皮中号小号男女
 102    872.00          美国代购蔻驰COACH新款迷你双肩小书包女背包F38395 38302 38263
 103    35.00           单肩斜挎包加厚休闲布包大书包旅行包防水尼龙女包袋
 104    27.90           儿童背包韩版中大童布小学生书包男孩时尚休闲旅行男童双肩包潮包
 105    13.90           韩版冬季新款背包女包学生双肩包旅行包中小学书包大容量学生双背
 106    48.00           女包双肩包pu复古子母包多功能背包日韩风旅行潮包学院风学生书包
 107    79.00           双肩包男帆布旅行背包韩版百搭高中大学生书包女时尚潮流个性街头
 108    88.00           双肩包男定制 电脑包背包 学生书包旅行背包定做logo
 109    59.00           特价软皮双肩包女韩版背包简约包包学院风皮质女生书包休闲旅行包
 110    88.00           Carney Road卡尼路军双肩包电脑包韩版潮运动旅行包高中学生书包
 111    69.99           13寸手提电脑包男女军迷战术双肩包防水迷彩背包旅行单肩斜挎书包
 112    45.00           死神 书包 双肩包 周边 背包 包包 动漫 黑崎一护 BLEACH 冬狮郎
 113    39.00           黑白条纹双肩包背包女撞色学生书包帆布旅行包回家包日韩版情侣包
 114    45.00           2016新款潮时尚小香风女包尼龙牛津布包双肩书包单肩斜挎旅行背包
 115    55.00           牛津布双肩包男生韩版帆布背包时尚书包学院风旅行包新款潮书包包
 116    35.00           Aape 猿人头 韩版英伦拼色学院风帆布双肩包男人书包背包时尚潮流
 117    39.60           双肩包女包韩版皮料书包时尚百搭单肩包女士包包2017新款潮后背包
 118    99.00           欧美复古双肩包女生学院风背包PU皮大容量书包潮高中 大学生书包
 119    39.48           韩版双肩包男女简约休闲初中小学生书包帆布潮学院风旅行电脑背包
 120    39.90           韩国代购水桶双肩包女韩版潮纯色防水背包学生书包大容量旅行包
 121    449.00          代购直邮16新款欧美休闲百搭guess柳钉双肩包女包书包包邮
 122    69.00           安踏书包背包春季皮革双肩背包休闲日韩学院双肩包19618158
 123    99.00           安踏双肩背包学生书包2016夏季新款户外运动旅行电脑包|19628159
 124    48.00           邮暴走大事件书包王尼玛暴走漫画个性搞笑男女背包双肩包原宿星空

三、实例2-股票数据定向爬虫

1.功能描述

目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中
技术路线：requests‐bs4‐re

2.数据网站的选择

候选数据网站：
新浪股票：http://finance.sina.com.cn/stock/
百度股票：https://gupiao.baidu.com/stock/
东方财富网：http://quote.eastmoney.com/stocklist.html

选择方法：
选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制
选取方法：浏览器 F12，源代码查看等
选取心态：不要纠结于某个网站，多找信息源尝试

测试结果：
由于东方财富网有所有股票的列表，所有股票的名称和代号都可以在一个页面上找到：

查看源代码后，可以看到股票名称和代号是有规律的。

然而点进去某个具体页面后发现数据采取不方便，页面比较繁杂。

测试百度股票后，发现可以直接通过股票代号来直接查询得到股票具体信息：

例如查询启明星辰这支股票：

我们需要抓取的数据就是上面这些。查看源代码后可以发现数据是静态存在于HTML页面中的。

确定结果：
获取股票列表：
东方财富网：http://quote.eastmoney.com/stocklist.html
获取个股信息：
百度股票：https://gupiao.baidu.com/stock/
（例子：单个股票：https://gupiao.baidu.com/stock/sz002439.html）

3.程序的结构设计

步骤1：从东方财富网获取股票列表
步骤2：根据股票列表逐个到百度股票获取个股信息
步骤3：将结果存储到文件

首先，编写较为抽象的代码：

getStockList函数的实现：
上面提到，股票的代号信息是在网页源代码的a标签的href属性值上的，因此可通过正则表达式来提取。这里选择正则表达式为：r"[s][hz]\d{6}"（之所以不是r"[s][h]\d{6}"的原因见下面第二周图片）。

将网页向下滑动一段时间后，发现href属性值的代码起那么的两个字母sh改成了sz了。（实际上两者分别是上海和深圳的简写）。

代码：

def getStockList(stockList, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser') 
    #股票名称和代号在网页源代码的a标签的href属性上
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            stockList.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

getStockInfot函数的实现：
由下面看到的源代码中：

可见数据是在

...

这个div标签内。
而下面这张图片的数据则是保存在上面的源代码的dt和dd标签上。

【MOOC】Python网络爬虫与信息提取-北京理工大学-part 3_第38张图片

代码：

def getStockInfo(stockList, stockURL, fpath):
    for stock in stockList:
        url = stockURL + stock + ".html" #个股的详细查询页面
        html = getHTMLText(url)
        try:
            if html == "":#异常判断
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            #找到第一个class属性值为stock-bets的div标签
            stockInfo = soup.find('div', attrs={'class': 'stock-bets'})

            if stockInfo==None:#异常判断
                continue
            #找到第一个class属性值为bets-name的a标签
            name = stockInfo.find('a',attrs={'class': 'bets-name'})
            #得到股票名称
            infoDict.update({'股票名称': name.text.split()[0]})
            #通过阅读网页源代码，发现数据可用键值对的形式存储
            #找到所有dt标签（数据键值对的键）
            keyList = stockInfo.find_all('dt')
            #找到所有dd标签（数据键值对的值）
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            #将新增数据添加到文件
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict))
        except:
            #打印异常信息，这样的做法是 即是出现了异常，异常信息可以显示出来，但是程序仍会接着进行
            traceback.print_exc()
            continue

总体代码：

# CrawBaiduStocksA.py
import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    # 股票名称和代号在网页源代码的a标签的href属性上
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

def getStockInfo(stockList, stockURL, fpath):
    for stock in stockList:
        url = stockURL + stock + ".html" #个股的详细查询页面
        html = getHTMLText(url)
        try:
            if html == "":#异常判断
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            #找到第一个class属性值为stock-bets的div标签
            stockInfo = soup.find('div', attrs={'class': 'stock-bets'})

            if stockInfo==None:#异常判断
                continue
            #找到第一个class属性值为bets-name的a标签
            name = stockInfo.find('a',attrs={'class': 'bets-name'})
            #得到股票名称
            infoDict.update({'股票名称': name.text.split()[0]})
            #通过阅读网页源代码，发现数据可用键值对的形式存储
            #找到所有dt标签（数据键值对的键）
            keyList = stockInfo.find_all('dt')
            #找到所有dd标签（数据键值对的值）
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            #将新增数据添加到文件
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict))
        except:
            #打印异常信息，这样的做法是 即是出现了异常，异常信息可以显示出来，但是程序仍会接着进行
            traceback.print_exc()
            continue

def main():
    # 股票列表页面（可得到所有股票代号和名称）
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    # 个股详细查询页面（根据股票代号可查询）
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    # 保存爬取数据的文件
    output_file = 'BaiduStockInfo.txt'
    # 股票列表
    stockList = []
    # 得到股票列表
    getStockList(stockList, stock_list_url)
    # 得到所有个股的详细信息，并保存在输出文件
    getStockInfo(stockList, stock_info_url, output_file)

main()

4.实例优化

优化目的：提高用户体验

4.1getHTMLText函数的编码识别的优化

def getHTMLText(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

getHTMLText函数中的r.apparent_encoding需要分析文本，运行较慢，可辅助人工分析。
修改为：

def getHTMLText(url, code="utf-8"):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""

并修改getStockList中调用getHTMLText的部分代码，修改后如下：

def getStockList(lst, stockURL):
    html = getHTMLText(stockURL, "GB2312")
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

4.2提高用户体验：增加动态进度条的显示

在getStockInfo函数添加如下代码：

```python
def getStockList(lst, stockURL):
    count=0
    #.....
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write( str(infoDict) + '\n' )
                count = count + 1
                print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
        except:
            count = count + 1
            print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")
            continue

4.3优化后的总体代码：

# CrawBaiduStocksB.py
import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url, code="utf-8"):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""

def getStockList(lst, stockURL):
    html = getHTMLText(stockURL, "GB2312")
    # 股票名称和代号在网页源代码的a标签的href属性上
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

def getStockInfo(stockList, stockURL, fpath):
    count=0 #用于进度条的计数器
    for stock in stockList:
        url = stockURL + stock + ".html" #个股的详细查询页面
        html = getHTMLText(url)
        try:
            if html == "":#异常判断
                continue
            infoDict = {}
            soup = BeautifulSoup(html, 'html.parser')
            #找到第一个class属性值为stock-bets的div标签
            stockInfo = soup.find('div', attrs={'class': 'stock-bets'})

            if stockInfo==None:#异常判断
                continue
            #找到第一个class属性值为bets-name的a标签
            name = stockInfo.find('a',attrs={'class': 'bets-name'})
            #得到股票名称
            infoDict.update({'股票名称': name.text.split()[0]})
            #通过阅读网页源代码，发现数据可用键值对的形式存储
            #找到所有dt标签（数据键值对的键）
            keyList = stockInfo.find_all('dt')
            #找到所有dd标签（数据键值对的值）
            valueList = stockInfo.find_all('dd')
            for i in range(len(keyList)):
                key = keyList[i].text
                val = valueList[i].text
                infoDict[key] = val
            #将新增数据添加到文件
            with open(fpath, 'a', encoding='utf-8') as f:
                f.write(str(infoDict)+'\n')
                count = count + 1
                print("\r当前进度: {:.2f}%".format(count * 100 / len(stockList)), end="")
        except:
            #打印异常信息，这样的做法是 即使出现了异常，异常信息可以显示出来，但是程序仍会接着进行
            #traceback.print_exc()
            count = count + 1
            print("\r当前进度: {:.2f}%".format(count * 100 / len(stockList)), end="")
            continue

def main():
    # 股票列表页面（可得到所有股票代号和名称）
    stock_list_url = 'http://quote.eastmoney.com/stocklist.html'
    # 个股详细查询页面（根据股票代号可查询）
    stock_info_url = 'https://gupiao.baidu.com/stock/'
    # 保存爬取数据的文件
    output_file = 'BaiduStockInfo.txt'
    # 股票列表
    stockList = []
    # 得到股票列表
    getStockList(stockList, stock_list_url)
    # 得到所有个股的详细信息，并保存在输出文件
    getStockInfo(stockList, stock_info_url, output_file)

main()

注意代码中\r的使用技巧：其将输出跳至当前输出的开头，因此可实现“动态进度条”的效果。

你可能感兴趣的:(公开课)

Windows逆向工程入门之调用约定 0xCC说逆向 windows 汇编开发语言逆向安全
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录调用约定调用约定约定规则cdeclstdcallfastcallthiscall调用约定调用约定调用约定（CallingConvention）：确定了函数调用时参数传递、返回值处理以及寄存器使用的规则。堆栈（Stack）：用于存储函数的参数、返回地址和局部变量。约定规则cdecl参数从右到左压入堆栈。调用者负责清理堆栈。#incl
Windows逆向工程入门之高级语言与汇编语言 0xCC说逆向 c++开发语言 windows c语言 qt 汇编安全
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、高级语言与汇编语言的基本概念1.什么是高级语言2.什么是汇编语言二、高级语言与汇编语言的转化过程1.编译过程编译阶段2.高级语言代码vs汇编代码关键点三、高级语言特性在汇编中的表达1.变量与寄存器C语言代码汇编代码2.条件语句与跳转指令C语言代码汇编代码3.循环与控制语句C语言代码汇编代码4.函数调用与栈操作C语言代码汇编代码
Windows逆向工程入门之堆栈结构与信息获取 0xCC说逆向 windows 汇编 c语言 c++逆向安全
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录1.堆栈结构基础堆栈的主要操作：2.代码功能解析2.1加载ntdll.dll2.2获取NtQueryInformationThread函数指针2.3调用NtQueryInformationThread获取线程信息2.4获取线程环境块（TEB）2.5输出堆栈信息3.涉及的知识点拓展3.1线程环境块（TEB）3.2堆栈溢出与保护3.3
Windows逆向工程入门之汇编指令格式与操作数类型 0xCC说逆向汇编 windows arm开发 WIN32 c语言逆向安全
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、汇编指令格式基础二、操作数类型详解1.立即数（Immediate）2.寄存器操作数（Register）3.内存操作数（Memory）4.端口操作数（Port）三、汇编指令格式分类1.零操作数指令2.单操作数指令3.双操作数指令4.三操作数指令四、逆向工程中的指令解析技巧五、拓展知识点一、汇编指令格式基础汇编指令由操作码（Opc
Windows图形界面(GUI)-QT-C/C++ - QT 文本编辑控件详解 0xCC说逆向 windows qt c++开发语言 WIN32 c语言 java
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录概述1.QLineEdit1.1特点1.2属性1.3常用方法1.4拓展应用2.QTextEdit2.1特点2.2属性2.3常用方法2.4拓展应用3.QPlainTextEdit3.1特点3.2属性3.3常用方法概述在QT中，文本编辑控件是用户界面设计中不可或缺的一部分。QT提供了多种文本编辑控件，包括QLineEdit、QText
从零开始入门 K8s | Kubernetes 网络模型进阶 jishulaozhuanjia
个人博客导航页（点击右侧链接即可打开个人博客）：互联网老兵带你入门技术栈本文整理自《CNCFxAlibaba云原生技术公开课》第25讲，点击直达课程页面。关注“阿里巴巴云原生”公众号，回复关键词**“入门”**，即可下载从零入门K8s系列文章PPT。导读：本文将基于之前介绍的基本网络模型，进行更深入的一些了解，希望给予读者一个更广更深的认知。首先简单回顾一下容器网络的历史沿革，剖析一下Kubern
《麻省理工公开课：线性代数》中文学习笔记派森先生人工智能线性代数学习笔记
《麻省理工公开课：线性代数》是麻省理工公开课中广为流传的一门好课。这是我学习MIT线性代数课程LinearAlgebra的中文参考学习笔记。希望在自己学习的同时，也对大家学习有所帮助。笔记特点：笔记与原课程视频一一对应，可以帮助大家一边听课一边理解。通过图解来使得笔记尽量通俗易懂课程视频共35节，单个视频平均时长不超过60分钟，预计一个月可以学习完毕。本笔记所用资料，图片等，如侵犯了您的图片版权请
Windows逆向工程入门之汇编数据存储\宽度,内存地址及边界,数据截断处理 0xCC说逆向汇编 windows c++WIN32 c语言逆向安全
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、汇编数据存储宽度1.常见的数据存储宽度2.数据存储宽度在汇编中的应用3.数据存储宽度的意义二、汇编中的内存地址与边界对齐1.内存地址示例：2.数据对齐3.数据对齐在汇编中的体现正确对齐错误对齐汇编代码示例三、汇编中的数据宽度截断1.数据截断的影响示例：2.数据宽度截断在赋值和运算中的体现汇编代码：数据截断溢出示例：四、技术扩展
MVVM的概念、原理及实现__BaiMoci BaiMoci Vue实战 html vue
代码实现来源于珠峰公开课mvvm原理的讲解。此文在此记录一下，通过手写几遍代码加深一下自己对mvvm理解。1、MVVM的概念 model-view-viewModel，通过数据劫持+发布订阅模式来实现。 mvvm是一种设计思想。Model代表数据模型，可以在model中定义数据修改和操作的业务逻辑;view表示ui组件，负责将数据模型转换为ui展现出来，它做的是数据绑定的声明、指令的声明、事件
Windows图形界面(GUI)-QT-C/C++ - QT Dial 0xCC说逆向 qt c++开发语言 windows c语言
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、控件概述1.1什么是QDial控件1.2使用场景二、核心特性2.1基础属性2.2外观定制2.3高级特性三、信号与槽机制3.1核心信号3.2实时响应四、实践应用4.1音量控制器示例4.2温度控制器实现五、性能优化与注意事项5.1性能考虑5.2常见陷阱一、控件概述1.1什么是QDial控件QDial是Qt框架中的一个圆形旋转控件，
微信小程序框架探究和解析极乐叔微信小程序框架
何为框架你对微信小程序的技术框架了解多少？对wepy框架进行一系列的深入了解微信小程序框架解析和探究小程序组件化框架WePY在性能调优上做出的探究开发者培训班上海专场PPT分享：小程序框架深度解析干货众多！微信小程序官方公开课：框架解析，官方小程序案例解析等等干货：微信小程序框架全解脑图，一张图看清组件构造，学习必备！微信小程序框架解析PPT--渠宏伟微信小程序框架详解（直播分享）小程序底层框架实
Windows图形界面(GUI)-QT-C/C++ - QT Frame 0xCC说逆向 qt c++开发语言 c语言 windows
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、概述二、使用场景1.分隔内容区域2.装饰性边框3.自定义控件容器三、常见样式1.框架形状（Shape）2.框架阴影（Shadow）3.线条宽度（LineWidth）4.中线宽度（MidLineWidth）四、属性设置1.设置框架形状2.获取框架形状3.设置框架阴影4.获取框架阴影5.设置线条宽度6.获取线条宽度7.设置中线宽度
Windows图形界面(GUI)-QT-C/C++ - QT MDI Area 0xCC说逆向 windows qt c++开发语言 c语言 java
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、概述二、使用场景1.多文档编辑器2.多窗口应用程序3.多视图应用程序三、常见样式1.子窗口管理2.布局管理四、属性设置1.添加子窗口2.移除子窗口3.设置活动子窗口4.获取活动子窗口5.获取所有子窗口6.平铺子窗口7.层叠子窗口8.子窗口激活信号一、概述QMdiArea是Qt框架中用于实现多文档界面（MDI，MultipleD
详解类与对象——继承 tanactor c++
（^_^）一.基本语法继承的好处：可以减少重复的代码classA:publicB;A类称为子类或派生类B类称为父类或基类派生类中的成员，包含两大部分：一类是从基类继承过来的，一类是自己增加的成员。从基类继承过过来的表现其共性，而新增的成员体现了其个性。//公共页面classBasePage{public:voidheader(){cout<<"首页、公开课、登录、注册...（公共头部）"<
凸优化学习 qiaoxinyu10623 凸优化 1024程序员节
认为学习凸优化理论比较合适的路径是：学习/复习线性代数和（少量）高等数学的知识。实际上，凸优化理论综合使用了线性代数和微积分的相关知识，比如方向导数，雅克比矩阵，海森矩阵，KKT条件等。这里强烈推荐MIT公开课《线性代数》，GilbertStrang教授主讲，完全不是照本宣科，而是注重几何解释，非常具有启发性，学完之后，你会对线性代数有全新的认识。学习视频：-UP主汉语配音-【线性代数的本质】合集
Windows图形界面(GUI)-QT-C/C++ - QT 对话窗口 0xCC说逆向 qt c++开发语言 c语言 java microsoft windows
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录模态对话框非模态对话框文件对话框基本概念静态函数常见属性颜色对话框基本概念静态函数常见属性字体对话框基本概念静态函数常见属性输入对话框基本概念静态函数消息对话框基本概念静态函数模态对话框模态对话框是指在打开后，用户必须与该对话框交互并关闭它，才能返回到主窗口或其他窗口进行操作。在模态对话框打开期间，主窗口和其他窗口都不可用。模态对
Windows图形界面(GUI)-QT-C/C++ - QT 窗口属性 0xCC说逆向 qt c++开发语言 c语言 windows mfc
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录标题栏基本概念设置窗口标题隐藏标题栏UI编辑器窗口关闭事件窗口大小调整事件窗口移动事件自定义标题栏菜单栏基本概念设置菜单栏(API)设置菜单栏(UI)工具栏基本概念设置工具栏(API)设置工具栏(UI)状态栏基本概念设置状态栏(API)标题栏基本概念标题栏是窗口管理系统（如Windows、macOS、Linux等）的一部分，用于显
准备胡珊珊乐平九小
尊敬的各位领导、各位同仁们：大家上午好！我是来自乐平九小的胡珊珊。今天很高兴能有机会给大家做“智慧作业”应用培训。说到“智慧作业”我感触颇多，我是在智慧作业中成长起来的，我也时常以自己是一名“智慧作业人”自居。早在2020年疫情期间，学校电教处周光杰主任在学校群里发出智慧作业抢题通知，我看了有些心动，一节微课相当于一次省级公开课，这对于我们普通老师是多么难得的机会啊。但想归想，我也不会用软件啊，再
经济金融学公开课学习总汇（九）佳佳爱科技AITech
本章内容：1.什么是金融风险2.什么是风险偏好与满意度，人都是风险厌恶吗3.单一投资还是多元投资4.无差别曲线金融风险：金融风险是指金融变量的各种可能值偏离期望的可能性以及幅度，所以风险不是说，一定会发生概率的亏损或者偏离回报，它也有可能发生超额的回报作为理财的投资人，我们一般只关注系统风险（经济环境不好造成房市大跌等）。还有非系统性风险（购买理财，卷款跑路等）。其中系统风险是可分散的风险；后者是
公开课，是选择学生的心灵，还是社会的好评？文明未央
远方，还有一缕阳光大教育家李镇西，在上完公开课后进行了一个反思，他说，“公开课是为了自己教学的完美而无视学生的精神自由，让学生成为自己表演的道具。而这样的教育，难道是我们应该提倡的吗？在学生的心灵与社会的评价之间，我们究竟该选择什么？”这里需要说明的是，学生的心灵，指的是最纯粹的、本真的、原生态呈现的语文教学效果，是真善美的有效结合，即使不完美，但也是课堂最真实的生成。社会的评价，指的是教育专家、
周末小事林溪留痕
在学校待了两天，总算是把课件搞了个差不多，床单被罩也都洗了。虽然这周没回去，但是还是做了事情的。明天争取多练习几遍要讲的内容，争取做到烂熟于心，来应付后天的公开课，不管最后结果怎么样，总之，我觉得自己尽力了，最起码自己不会后悔。生活就是这样啊，欢快的时间总是那么短暂，接下来又迎来了新的一周，又有新的磨难，每天都有新的挑战，累是真的，偶尔有点快乐也是真的。愿明天的阳光依然灿烂，今天晒过被子的我，阳光
2.0第一周检视（8/16-8/20） aeb1fe80c479
目标一：早起6:30目标二：运动每周3次以上（跑步，跳绳，瑜珈，冥想，快/慢走10000步……）目标三：早睡23点1.健康：本周精力感觉不足，总是犯困，每天也23点睡觉早上6点多会醒，但是醒来后还是感觉困，睡眠软件记录深眠只有1小时左右，午休做10分钟冥想补充精力；运动：两次美姿雅仪锻炼，一次晚上快走1W+2.学习：上了叶老师的财富公开课和PPT公开课发现有上海班，立即决定预约10月PPT3.线下
公开课悉数沉淀w
果果焦点解决网络中十五坚持分享第1165天2022.4.11累，谁不累啊！上好公开课是一个教师教学能力的重要体现，是评各级名师、学科骨干教师、学科带头人的重要依据，也是职评考核重要指标。最近笔者作为评委，连续听了六十多节一线教师参赛公开课，归纳提炼了上公开课时需要注意十个细节，也可以说要提防的十个坑，旨在对青年教师专业提升有所启迪、帮助。01缺即兴导语，师生情感关联度不够课堂首先是个情感场，然后才
代码随想录算法训练营第三十九天| 62. 不同路径，63. 不同路径 II 零offer在手算法动态规划图论
62.不同路径搞清楚dp[i][j]的定义推导出公式遍历顺序，从左到右，从上到下dp的初始化动态规划中如何初始化很重要！|LeetCode：62.不同路径_哔哩哔哩_bilibili《代码随想录》算法公开课开讲啦！快来打卡！本期视频的文字讲解版在「代码随想录」刷题网站：programmercarl.comGithub：https://github.com/youngyangyang04/leetc
书法心语仙泉
书法，对于我来说就是一个梦中情人。心仪已久，却难以企及。所谓伊人，在水一方。书法就是诗经里那个神秘的“伊人”。为什么我总也抓不住她呢？因为，一直没有找到真正接触她的渠道，仅靠我的暗恋，无法得到她的芳心。2016年之夏，某天我在住家附近走路，突然在街道边看到了“北京盛世兰亭书院”书法公开课的宣传海报。于是我记住了日子，在一个星期天到场听了书法课。我一下子像触电了，觉得禅宗所谓的“开悟”时刻到了。没有
《兴奋的睡不着》坚持第922天原创分享（2017.06.17星期六）半夏五月天
《兴奋的睡不着》卓丽，坚持第922天原创分享（2017.06.17星期六）：刘老师要来平顶山了，我们平顶山焦点团队的各位老师都开心的不得了，刘老师还特意给我们带来一节公开课，这是多么难得的机会呀，由于场地有限，只能小范围的通知，可是依然挡不住的热情，仅仅一天时间就截止报名了。我们下午四点就开始布置会场，由于来的人多，我们又去借凳子，大家也都早早来占位，都在等待着激动人心的那一刻。刘老师路上耽搁，依
记忆力培训与记忆课乌卓
昨天老徐拉我进了记忆公开课的群，研究了课程助理的工作流程之外，也读了群里提到的那本《世界记忆大师教我的超强记忆法》。先说一下这本书，看了前面一小半，联想记忆。联想记忆包括形象联想、谐音联想、夸张联想、运动联想、代替联想。也就是说，要训练好记忆力，就要把见到的陌生的信息联想成自己脑子里熟悉的信息，通过夸张之类的方法，把信息在脑子里刻下印记，因为我们的大脑对新奇的事物总会印象深刻。今天不写书评，因为我
终于结束了有一种夹心叫中国心
心都快提到嗓子眼里了一大早起床躺在床上还在想课，顺流程脑子里一遍一遍的过，一句一句的顺词本来已经参加过好几次的公开课了青年教师必修课可是这次我却不幸排在了第一个讲让我从知道安排之后一直都在准备每天睁眼就在想怎么办周六日也在备课我的师傅是一个很有教学经验，也很有活力的一位老师临到昨天她还在耐心的帮我指导我需要改进的地方，我特别感激其实她也可以不管我，讲成什么算什么可是我运气真的很好，遇到这么认真负责
C语言知识点完美总结哪有岁月静好
C语言最重要的知识点总体上必须清楚的:1)程序结构是三种:顺序结构、选择结构(分支结构)、循环结构。其实做为一个开发者，有一个学习的氛围跟一个交流圈子特别重要这里我推荐一个C语言C++交流群583650410，不管你是小白还是转行人士欢迎入驻，大家一起交流成长。免费的公开课供你学习！2)读程序都要从main()入口,然后从最上面顺序往下读(碰到循环做循环,碰到选择做选择)，有且只有一个main函数
2023-10-16 静待花开1975
感觉今天好忙啊，似乎一刻也没闲着，上午上完课就开始弄知识清单，下午一上班就开始改作业，然后上课、开会，忙到快九点了才下班。明天就要上公开课了，不知道为啥，一点感觉都没有，明明还没准备好呢，却硬是不紧张也不慌乱，大概是这几年被否定的太多，随波逐流，混成油条了吧。下午同事说起一件事，她看我在班里搞图书角，也想做，却直接被班主任否定了。理由是：别玩花样，把成绩提上去才是硬道理。我听了有些难过，让学生多读
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc