Memory丿浅笑

python 3爬取全国高校对四川历年招生数据（文理省控线，文理专业线）存入Excel表

由于我们的acm的指导老师对项目组布置的一个高考志愿学校推荐系统，是大数据和机器学习的结合，我负责的是爬取数据，给机器学习小组用，网页数据不在你搜索当前学校网页上看到的那样，是通过js生成的。数据来源：https://gkcx.eol.cn/soudaxue/queryschool.html，这个网址的数据相对来说很齐全....目前来说能够找到高校录取数据最多的网址。

提示：由于网站更新，采用ajax异步请求数据（网页源代码没有数据）然后加载到网页中，所以本博客源码没法使用，但是爬取逻辑思路还是很重要的，可以供大家学习，需要更新后能用的代码请点击传送门：https://blog.csdn.net/memory_qianxiao/article/details/88767327，最新分析以及可使用代码，供大家参考。

环境：python3.6 +pycharm或者你喜欢的编译器

第三方库：requests（网页请求库），Beautifulsoup（网页解析库），re（正则解析提取库），xlwt（python操作excel库）

这里我先放出效果图镇楼：（楼主爬了一下午加晚上才爬取了800多所高校数据，估计需要两天才能跑完...）

首先我们会输入学校，输入学校之后进入学校主页，就能看到部分数据。这里我就随便点了一个。

而我们需要的数据是录取分数线，专业录取分数线（可以点击更多看到，也可以点击上面的各省录取线，专业录取线）

而我们查询学校的网址是:

https://gkcx.eol.cn/soudaxue/queryschool.html&keyWord1=输入的学校名字

然后就会进入上图那样的主页，看到部分数据。然后我们看网址：

https://gkcx.eol.cn/schoolhtm/schoolTemple/school140.htm 发现，school后面跟了一个数字，140这个就是学校的id，每个学校对应了一个id，当我们输入名字的时候，就找到了一个id。我们需要学校id进入学校主页，因为你只输入关键字是不能进入到主页的，当你手动点击那个连接才能进入，而这个连接就是带学校id。那怎么获取学校的id呢，那就是输入关键字，手动点击进入学校以后看到网址就有了。废话了这么多，原来还需要手动点！！！！那太难受了，能不能程序自动了？

反正博主是没法~~~~哈哈，（当初我开始的我还把每个学校的名字爬下来，打算通过名字，输入，然后获取id）然而网页输入关键字后，就没有你需要的东西~~难不难受？是通过js生成的...

按F12进入network在js里面最后一个能看到我们需要的网址，但是源网页没有，没有！没有！也就是你通过程序关键字输入的返回的网页代码没有的，既然没有怎么提取？

所以博主的解决办法是暴力搜索，所以曾经acm经历带来的好处，算法学的不怎么样，但是思想还是受影响的，于是博主就手动输入ID从1开始尝试，然后id间距增大。最终经过博主的不断尝试，发现一个规律：ID是从30开始的到2577之间的才是有效的。

也就是我们需要学校的数据开始网址：https://gkcx.eol.cn/schoolhtm/schoolTemple/school30.htm ****北京工业大学

结束网址：https://gkcx.eol.cn/schoolhtm/schoolTemple/school2577.htm ***三亚理工职业学院

所以我们for循环一次，30到2578id就能遍历所有高校主页，然后请求这个url就ok。

  for i in range(532,2577):
        url="https://gkcx.eol.cn/schoolhtm/schoolTemple/school"+str(i)+".htm"

当我们有了每个学校的url以后，就能请求的网页中找到省控线网址（默认是地址学校所在省，默认理科，默认年份2017年）

所以我们需要通过程序进入每个学校主页，爬取这些数据，顺便把学校名字和地址也爬取了，存入一个列表，后面就能用。

这里贴出爬取省控线网址，专业线网址，学校，名字。采用re和beaufifulsoup合用的方式，不懂用法的请百度。

提出后这些网址后，你发现不全，不能请求，还需要在前面添加 https://gkcx.eol.cn，才能够正常访问我们需要的网页。

def search_University(url,info):
    try:
        html=GetHtml(url)
        soup=BeautifulSoup(html,"html.parser")
        pattern=re.compile(r"var schoolname='([\u4e00-\u9fa5]{1,20}?)'")
        university_name=re.findall(pattern,html)
        if university_name!=[]:
            info.append(university_name[0])
            soup1 = soup.find_all("a")
            for a_xian in soup1:
                if a_xian.string=='各省录取线':
                    #print(a_xian['href'])
                    info.append(a_xian['href'])
                if a_xian.string=='专业录取线':
                    #print(a_xian['href'])
                    info.append(a_xian['href'])
    except:
            print("Error")

接下来我们会爬取历年文理科对四川省控线，数据如下边这样。

我们需要的省控线参数有地区（默认是学习所在省），文理科（默认理科），批次（默认一批）。

接下来是分析重点：

我们点击四川省，文理都点一些，批次我点击本科一批，二批，三批，专科批，发现网址如下：

一批：https://gkcx.eol.cn/schoolhtm/schoolAreaPoint/30/10005/10035/10036.htm
二本：https://gkcx.eol.cn/schoolhtm/schoolAreaPoint/30/10005/10035/10037.htm
三本：https://gkcx.eol.cn/schoolhtm/schoolAreaPoint/770/10005/10035/10038.htm
专科：https://gkcx.eol.cn/schoolhtm/schoolAreaPoint/770/10005/10035/10155.htm

最后我再说下点击那么多网址总结规律(acm思想锻炼的还是可以的)：

ttps://gkcx.eol.cn/schoolhtm/schoolAreaPoint/**学校ID**770/**省份**10005/**文理**10034/**批次10036.htm

770是学校ID，1005是四川省的代码，10034是文科，10035是理科，一批：10036，二批：10037，三批：10038，专科批：10155

所以我们需要请求的省份，文理，批次都可以改动请求，然后提取数据。这里直接给出提取的源码省控线的源码

def search_University(url,info):
    try:
        html=GetHtml(url)
        soup=BeautifulSoup(html,"html.parser")
        pattern=re.compile(r"var schoolname='([\u4e00-\u9fa5]{1,20}?)'")
        university_name=re.findall(pattern,html)
        if university_name!=[]:
            info.append(university_name[0])
            soup1 = soup.find_all("a")
            for a_xian in soup1:
                if a_xian.string=='各省录取线':
                    #print(a_xian['href'])
                    info.append(a_xian['href'])
                if a_xian.string=='专业录取线':
                    #print(a_xian['href'])
                    info.append(a_xian['href'])
    except:
            print("Error")
def get_schoolAreaPoint(info):
    school_point_url="https://gkcx.eol.cn"+info[1].strip()
    school_specialty_point_url="https://gkcx.eol.cn"+info[2].strip()
    #把省控线切割为列表
    s1=school_point_url.split('/')
    #把省份变为四川
    s1[-3]='10005'
    #把专业线切割为列表
    s2 = school_specialty_point_url.split('/')
    #文理科数据存放列表
    infolist_like=[]
    infolist_wenke=[]
    # 把列表合成字符网址
    url='/'.join(s1)
    html=GetHtml(url)
    #地址
    soup = BeautifulSoup(html, "html.parser")
    soup1=soup.find_all('span')
    adress=''
    for i in soup1:
        if i.string!=None and '号' in list(i.string):
            adress=i.string
    #print(adress)

    #**************理科省控线*****************#
    #本科一批
    flag1=True
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string=='暂时没有数据':
                flag1=False
    if flag1:
        for i in soup2:
            l=[]
            cont=0
            for j in i:
                cont+=1
                if cont==10 and j.string not in['年份','最高分','平均分','最低分','省控线','批次']:
                    l.append(j.span.string[:3])
                elif j!='\n' and j.string not in['年份','最高分','平均分','最低分','省控线','批次']:
                    l.append(j.string)
            if l!=[]:
                infolist_like.append(l)

    # 本科二批
    flag2=True
    s1[-1]='10037.htm'
    url='/'.join(s1)
    html=GetHtml(url)
    soup=BeautifulSoup(html,'html.parser')
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string=='暂时没有数据':
                flag2=False
    if flag2:
        for i in soup2:
            l = []
            cont = 0
            for j in i:
                cont += 1
                if cont == 10 and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.span.string[:3])
                elif j != '\n' and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.string)
            if l != []:
                infolist_like.append(l)

    #本科三批
    flag3 = True
    s1[-1] = '10038.htm'
    url='/'.join(s1)
    html= GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser')
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string == '暂时没有数据':
                flag3 = False
    if flag3:
        for i in soup2:
            l = []
            cont = 0
            for j in i:
                cont += 1
                if cont == 10 and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.span.string[:3])
                elif j != '\n' and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.string)
            if l != []:
                infolist_like.append(l)

    #专科批

    flag4 = True
    s1[-1] = '10155.htm'
    url = '/'.join(s1)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser')
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string == '暂时没有数据':
                flag4 = False
    if flag4:
        for i in soup2:
            l = []
            cont = 0
            for j in i:
                if cont == 10 and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.span.string[:3])
                elif j != '\n' and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.string)
            if l != []:
                infolist_like.append(l)

    for i in infolist_like:
       print(i)
  
    print("正在写入Excrl%s理科数据............"%info[0])
    #创建工作簿((理科)指定编码
    file=xlwt.Workbook(encoding='utf-8')
    #创建表
    table1=file.add_sheet(info[0]+'理科线')
    value=['年份','最高分','平均分','最低分','省控线','批次','通讯地址']
    table1.col(6).width=256*20
    for i in range(len(value)):
        table1.write(0,i,value[i])
    table1.write(1,6,adress)
    for i in range(len(infolist_like)):
        for j in range(len(infolist_like[i])):
            table1.write(i+1,j,infolist_like[i][j])

    #*********************文科省控线*****************************#
    #把理科转变成文科
    s1[-2]='10034'
    s1[-1]='10036.htm'
    url = '/'.join(s1)
    html = GetHtml(url)
    soup=BeautifulSoup(html,'html.parser')
    # 本科一批
    flag1 = True
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string == '暂时没有数据':
                flag1 = False
    if flag1:
        for i in soup2:
            l = []
            cont = 0
            for j in i:
                cont += 1
                if cont == 10 and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.span.string[:3])
                elif j != '\n' and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.string)
            if l != []:
                infolist_wenke.append(l)
    # 本科二批
    flag2 = True
    s1[-1] = '10037.htm'
    url = '/'.join(s1)
    html = GetHtml(url)
    soup = BeautifulSoup(html,'html.parser')
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string == '暂时没有数据':
                flag2 = False
    if flag2:
        for i in soup2:
            l = []
            cont = 0
            for j in i:
                cont += 1
                if cont == 10 and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.span.string[:3])
                elif j != '\n' and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.string)
            if l != []:
                infolist_wenke.append(l)
    # 本科三批
    flag3 = True
    s1[-1] = '10038.htm'
    url='/'.join(s1)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser')
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string == '暂时没有数据':
                flag3 = False
    if flag3:
        for i in soup2:
            l = []
            cont = 0
            for j in i:
                cont += 1
                if cont == 10 and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.span.string[:3])
                elif j != '\n' and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.string)
            if l != []:
                infolist_wenke.append(l)

    # 专科批
    flag4 = True
    s1[-1] = '10155.htm'
    url = '/'.join(s1)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser')
    soup2 = soup.find_all('tr')
    for i in soup2:
        for j in i:
            if j.string == '暂时没有数据':
                flag4 = False
    if flag4:
        for i in soup2:
            l = []
            cont = 0
            for j in i:
                if cont == 10 and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.span.string[:3])
                elif j != '\n' and j.string not in ['年份', '最高分', '平均分', '最低分', '省控线', '批次']:
                    l.append(j.string)
            if l != []:
                infolist_wenke.append(l)
    for i in infolist_wenke:
        print(i)
    #创建文科省控
    print("正在写入Excel%s文科数据........."%info[0])
    table2=file.add_sheet("%s文科数据"%info[0])
    value = ['年份', '最高分', '平均分', '最低分', '省控线', '批次', '通讯地址']
    table2.col(6).width = 256 * 20
    for i in range(len(value)):
        table2.write(0, i, value[i])
    table2.write(1, 6, adress)
    for i in range(len(infolist_wenke)):
        for j in range(len(infolist_wenke[i])):
            table2.write(i + 1, j, infolist_wenke[i][j])

上面的代码是可一直把最开始网址配合上面两个的函数，先把url传到search_University(url,info)，然后再把info给

get_schoolAreaPoint(info)这个函数，就能打印保存Excel表了。

接下来该爬取每个高校对四川的专业线：

专业线有三个参数，地区（默认所在高校的省份，）,文理（默认理科），年份（默认2017）

方法同上，我们点击多个地区，年份，文理，分析得到网址，分析如下：

https://gkcx.eol.cn/schoolhtm/specialty/30/10035/specialtyScoreDetail_2017_10005.htm

30是院校代码，10035是理科，10034文科，2017是年份，1005是省份代码

所以还是改网址，然后对改动后的网址进行访问，就能得到我们需要的网址，然后进行数据提取。

还是提出源代码：

#**********************每个高校对四川招生的专业录取线******************************
   #专业数据是2008到2017
    infolist_specialtyScore=[]
    #2017理科
    s2[-1]='specialtyScoreDetail_2017_10005.htm'
    url='/'.join(s2)
    html=GetHtml(url)
    soup=BeautifulSoup(html,'html.parser').find_all('tr')
    for i in soup:
        l=[]
        cont=0
        for j in i:
            cont+=1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
               if cont==12:
                l.append(j.string.strip())
               else: l.append(j.string)
        if l!=[]:
            infolist_specialtyScore.append(l)
    # 2016理科
    s2[-1] = 'specialtyScoreDetail_2016_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)

    # 2015理科
    s2[-1] = 'specialtyScoreDetail_2015_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2014理科
    s2[-1] = 'specialtyScoreDetail_2014_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2013理科
    s2[-1] = 'specialtyScoreDetail_2013_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)

    # 2012理科
    s2[-1] = 'specialtyScoreDetail_2012_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2011理科
    s2[-1] = 'specialtyScoreDetail_2011_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2010理科
    s2[-1] = 'specialtyScoreDetail_2010_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)

    # 2009理科
    s2[-1] = 'specialtyScoreDetail_2009_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2008理科
    s2[-1] = 'specialtyScoreDetail_2008_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据',' ','']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
     #创建理科专业表
    print("正在写入Excel%s理科专业数据........."%info[0])
    table3=file.add_sheet(info[0]+"理科专业线")
    value=['专业','年份','最高分','平均分','最低分','录取批次']
    for i in range(len(value)):
        table3.write(0,i,value[i])
    for i in range(len(infolist_specialtyScore)):
        for j in range(len(infolist_specialtyScore[i])):
            table3.write(i+1,j,infolist_specialtyScore[i][j])
    print("Excel%s理科专业数据写入成功！" % info[0])
    #**********文科********
    # 2017文科
    #转换为文科代码
    infolist_specialtyScore=[]
    s2[-2]='10034'
    s2[-1] = 'specialtyScoreDetail_2017_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2016文科
    s2[-1] = 'specialtyScoreDetail_2016_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)

    # 2015文科
    s2[-1] = 'specialtyScoreDetail_2015_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2014文科
    s2[-1] = 'specialtyScoreDetail_2014_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2013文科
    s2[-1] = 'specialtyScoreDetail_2013_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)

    # 2012文科
    s2[-1] = 'specialtyScoreDetail_2012_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2011文科
    s2[-1] = 'specialtyScoreDetail_2011_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2010文科
    s2[-1] = 'specialtyScoreDetail_2010_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)

    # 2009文科
    s2[-1] = 'specialtyScoreDetail_2009_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 2008文科
    s2[-1] = 'specialtyScoreDetail_2008_10005.htm'
    url = '/'.join(s2)
    html = GetHtml(url)
    soup = BeautifulSoup(html, 'html.parser').find_all('tr')
    for i in soup:
        l = []
        cont = 0
        for j in i:
            cont += 1
            if j.string not in ['专业名称', '年份', '最高分', '平均分', '最低分', '录取批次', '\n', '暂时没有数据', ' ', '']:
                if cont == 12:
                    l.append(j.string.strip())
                else:
                    l.append(j.string)
        if l != []:
            infolist_specialtyScore.append(l)
    # 创建理科专业表
    print("正在写入Excel%s文科专业数据........." % info[0])
    table4 = file.add_sheet(info[0] + "文科专业线")
    value = ['专业', '年份', '最高分', '平均分', '最低分', '录取批次']
    for i in range(len(value)):
        table4.write(0, i, value[i])
    for i in range(len(infolist_specialtyScore)):
        for j in range(len(infolist_specialtyScore[i])):
            table4.write(i + 1, j, infolist_specialtyScore[i][j])
    print("Excel%s文科专业数据写入成功！" % info[0])
    for i in infolist_specialtyScore:
        print(i)

最后把excel保存一下，就是镇楼图那样一个学校一个表，每个表四页，省控理科线，省控文科线，专业理科线，专业文科线。

D:\QQPCMgr(1)\Desktop\高校数据/'这个是我在桌面创建的一个文件夹的路径，可以不指定路径，就会保存到当前程序运行的目录下。

 #指定保存路径
    file.save('D:\QQPCMgr(1)\Desktop\高校数据/' + info[0] + '录取数据.xls')
    print("%s所有数据写入成功！" % info[0])

最后附上main函数，函数入口

def main():
    #text=open("全国高校.txt",'r').readlines()
    start=time.perf_counter()
    for i in range(30,2577):
        info = []
        url="https://gkcx.eol.cn/schoolhtm/schoolTemple/school"+str(i)+".htm"
        print(url)
        search_University(url,info)
        print(info)
        #特殊判断个别院校与其他多数学校差别（没有歧视的意思，个别学校网址或者其他数据问题），就跳过，否则一大堆错误，处理的脑壳疼
        if len(info)<3 or info[1].strip()==info[2].strip() or "http:" in info[1].strip().split('/'):
            continue
        get_schoolAreaPoint(info)
        print("查询第%d个学校"%(int(i)-29))
    end=time.perf_counter()
    print("花费时间：%.2f"%(end-start))
if __name__ == '__main__':
    main()

博主就不贴出完整源代码了，几乎都贴出来了，因为博主爬取的数据好给项目组用，如果有人确实需完整，留言，看到后博主会回复你，根据情况私给源代码。这里博主要说一下，尽管处理了大部分特殊情况的学校但程序还是停掉，这里博主每次请求一个学校的时候打印了网址，里面有id，只需要重新在for循环，左边改成断掉的id就可以继续了，至于为什么为这样，可能是windows长时间运行程序会崩溃或者是楼主没处理好数据，或者还是有特殊学校没处理掉，或者用法问题......如果博主的思维和代码对您有用，记得点赞。

----------------------------------------------------------------内容到此结束---------------------------------------------------------------------------------------

你可能感兴趣的:(python,学习之路,网络爬虫)

python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
Python爬虫在社交平台数据挖掘中的应用：深入探索用户互动程序员威哥 python 爬虫数据挖掘
引言社交媒体已经成为全球用户互动的主要平台，每天都有大量的信息生成，用户之间的互动行为如点赞、评论、分享、转发等构成了宝贵的数据资源。如何利用这些互动数据为商业决策、用户行为分析以及产品优化提供支持，已经成为数据科学与大数据分析领域的一个重要课题。Python作为一款强大的编程语言，凭借其丰富的爬虫库和数据分析工具，已经成为挖掘社交平台数据的重要工具。在本文中，我们将通过Python爬虫技术，深入
Python 爬虫实战：精准抓取母婴电商平台数据，深入分析用户评价洞察市场趋势程序员威哥最新爬虫实战项目 python 爬虫开发语言
前言随着生活水平的提高，越来越多的年轻父母开始关注母婴产品的质量和品牌。而母婴电商平台成为了他们选择和购买产品的主要渠道之一。母婴产品市场也因此变得异常活跃且充满竞争。在这样的市场环境下，用户评价不仅反映了产品的实际质量，也揭示了消费者的需求和偏好，成为品牌决策的核心依据之一。Python爬虫是获取电商平台用户评价数据、产品详情、价格等关键信息的强大工具。通过抓取和分析这些数据，品牌商可以实时了解
*Python爬虫应用：从社交媒体数据中提取有价值的用户行为洞察程序员威哥 python 爬虫媒体
引言在现代数字化时代，社交媒体已成为获取用户行为数据的重要来源。每秒钟，数百万条信息在平台上传播，用户的互动行为——点赞、评论、分享、关注等，构成了大量宝贵的行为数据。企业和个人通过分析这些数据，不仅可以理解用户需求、改进产品，还能精准制定营销策略。然而，如何高效地抓取、分析并从中提取有价值的用户行为洞察？这正是Python爬虫和数据分析技术的优势所在。本文将介绍如何利用Python爬虫从社交媒体
Python异步编程终极指南：用协程与事件循环重构你的高并发系统
title:Python异步编程终极指南：用协程与事件循环重构你的高并发系统date:2025/2/24updated:2025/2/24author:cmdragonexcerpt:深入剖析Python异步编程的核心机制。你将掌握：\n事件循环的底层实现原理与调度算法\nasync/await协程的6种高级用法模式\n异步HTTP请求的性能优化技巧（速度提升15倍+）\n常见异步陷阱的26种解决
python 异步编程：协程与 asyncio 花_城 Python 开发语言后端异步协程
文章目录一、协程（coroutine）1.1协程的概念1.2实现协程的方式二、asyncio异步编程2.1事件循环2.2快速上手2.3运行协程2.4await关键字2.5可等待对象2.5.1协程2.5.2任务（Task）2.5.3asyncio.Future三、concurrent.futures.Future（补充）3.1爬虫案例（asyncio+不支持异步的模块）四、asyncio异步迭代器五
突破性能瓶颈，几个高性能Python网络框架，高效实现网络应用
引言随着互联网和大数据时代的到来，高性能网络应用的需求日益增加。Python作为一种流行的编程语言，在高性能网络编程领域也具有广泛的应用。本文将深入探讨基于Python的几种高性能网络框架，分析它们各自的优势和适用场景，帮助开发者选择最适合自己需求的网络框架这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python
Python面试题：Python中的异步编程：详细讲解asyncio库的使用超哥同学 Python系列 python 开发语言面试编程
Python的异步编程是实现高效并发处理的一种方法，它使得程序能够在等待I/O操作时继续执行其他任务。在Python中，asyncio库是实现异步编程的主要工具。asyncio提供了一种机制来编写可以在单线程内并发执行的代码，适用于I/O密集型任务。以下是对asyncio库的详细讲解，包括基本概念、用法、示例以及注意事项。1.基本概念1.1协程（Coroutines）协程是一个特殊的函数，它可以被
Python 爬虫实战：如何搭建高效的分布式爬虫架构，突破数据抓取极限程序员威哥 python 爬虫分布式
随着互联网数据量的飞速增长，单一爬虫在抓取大量数据时的效率和稳定性往往无法满足需求。在这种情况下，分布式爬虫架构应运而生。分布式爬虫通过多节点并行工作，可以大大提高数据抓取的速度，同时减少单点故障的风险。本文将深入探讨如何使用Python构建一个高效的分布式爬虫架构，从架构设计到技术实现，帮助你突破数据抓取的极限。一、什么是分布式爬虫？分布式爬虫系统将爬虫任务拆分为多个子任务，分布到不同的服务器或
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
如何让AI真正理解你的意图（自适应Prompt实战指南） nine是个工程师大语言模型人工智能 prompt
目前的LLM模型，在理解用户意图方面，正在使用自适应Prompt技术，来提升模型的理解能力。目前使用deepseek推理模型能明显看到自适应的一个过程。前言：为什么你的AI总是"答非所问"？相信很多人都遇到过这样的情况：你问：“帮我写一个Python爬虫”AI答：给你一堆理论知识和完整教程（你只想要简单代码）你问：“推荐一部电影”AI答：推荐了《教父》（你想看轻松喜剧）你问：“解释一下机器学习”A
如何创建Python工程目录九月恒心 Python python 自动测试
如何创建一个简单但是比较规范的python工程目录，本文是学习了LearnPythontheHardWay相关内容后做的一些笔记。安装python第三方包1.pipfromhttp://pypi.python.org/pypi/pip用于安装python第三方包的工具2.distributefromhttp://pypi.python.org/pypi/distribute已被弃用，是SetupT
从单体脚本到模块化设计：Python工程师的架构思维跃迁
引言：从“一团乱麻”到“乐高积木”你是否曾经打开一个Python脚本，里面密密麻麻挤着上千行代码？函数相互缠绕，全局变量随处可见，想改一个小功能却心惊胆战，生怕牵一发而动全身？这就是典型的“单体脚本”(MonolithicScript)困境。作为过来人，我深知这种痛苦。本文将手把手带你跳出这个泥潭，掌握模块化设计的核心思想，并初步建立宝贵的架构设计思维，让你的代码从“勉强运行”跃迁到“优雅可维护”
python json 反序列化-V1 CATTLECODE python json 开发语言
在编程中，‌反序列化函数‌用于将序列化后的数据（如JSON、XML等格式）重新转换为程序可操作的对象或数据结构。以下是不同语言和场景下的实现方式及特点：‌1.Python中的反序列化‌‌(1)标准库json模块‌‌json.loads()‌：将JSON字符串反序列化为Python对象（如字典、列表）。importjsonjson_str='{"name":"Alice","age":25}'dat
AI人工智能与机器学习的大数据融合应用 AI智能探索者人工智能机器学习大数据 ai
AI人工智能与机器学习的大数据融合应用关键词：AI人工智能、机器学习、大数据、融合应用、数据挖掘摘要：本文深入探讨了AI人工智能与机器学习在大数据融合应用方面的相关内容。首先介绍了研究的背景、目的、预期读者和文档结构，对核心术语进行了清晰定义。接着阐述了AI、机器学习和大数据的核心概念及相互联系，给出了形象的文本示意图和Mermaid流程图。详细讲解了核心算法原理，并通过Python源代码进行说明
day49-ansible初体验朱包林 linux python 运维服务器云计算
1.选型工具说明缺点xshell不适应机器过多场景，需要连接后才能用for+ssh/scp+密钥认证密钥认证，免密码登录scp传输文本/脚本ssh远程执行命令或脚本串行saltstack需要安装客户端ansible无客户端（密钥认证）批量部署环境需要新python版本，被红帽收购了Terraform关注基础设施（云环境），一键创建100台云服务器，一键创建负载均衡，数据库产品2.ansible架构
Python 通过IP地址查询地理位置
文章目录Python通过IP地址查询地理位置一、在线API查询（简单快速，依赖网络）1.**使用`requests`+ipinfo.io**2.**使用`requests`+ip-api.com**二、本地数据库查询（离线高效，需下载数据库）1.**使用`geoip2`+GeoLite2数据库**2.**其他本地库对比**️三、结果可视化（增强展示）使用`folium`生成交互地图⚖️四、方法选择
从零构建MCP服务器：FastMCP实战指南炼丹上岸大模型 #MCP 服务器运维人工智能大模型 python MCP
引言：MCP协议与FastMCP框架ModelContextProtocol（MCP）是连接AI模型与外部服务的标准化协议，允许LLM（如Claude、Gemini）调用工具、访问数据。然而，直接实现MCP协议需要处理JSON-RPC、会话管理等繁琐细节。FastMCP作为Python框架，封装了这些底层逻辑，让开发者专注于业务功能。本文将通过分步实战，从零构建一个完整的MCP服务器，涵盖工具、资
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
python学习试题（选择，问答，代码等）爱莉希雅&&& python 学习开发语言
python选择题（1）以下哪个是合法的Python变量名？[email protected]答案：B（2）表达式True+2的结果是？A.TrueB.3C.2D.TypeError答案：B（3）以下哪个表达式会引发错误？A."1"+"2"B.[1,2]+[3,4]C.(1,2)+(3,4)D.{1,2}+{3,4}答案：D（4）以下哪个是将字符串转换为整数的正确方法？A.str
Vlang编写爬虫可行性分析
最近有人问V(Vlang)语言可以用来做数据采集么，那么我在这里明确告诉你，V(Vlang)完全可以用来编写网络爬虫。虽然它主打的是系统编程语言，但其设计目标包括简洁、高效和实用性，这使得它在处理像爬虫这样的网络任务时也表现出色。V的并发模型适合高并发爬虫，但实际效果待测试。最后给出一个简单例子展示基础流程，同时指出生态限制，避免用户期望过高。个人建议如果项目复杂，可能选Python更省力，毕竟p
AI人工智能领域中AI作画的技术优势 AI大模型应用之禅人工智能 AI作画 ai
AI人工智能领域中AI作画的技术优势关键词：AI作画、技术优势、人工智能、艺术创作、图像生成摘要：本文深入探讨了AI人工智能领域中AI作画的技术优势。从背景介绍出发，阐述了AI作画的起源与发展，明确了文章的目的、范围、预期读者以及文档结构。接着详细分析了AI作画的核心概念，包括其原理和架构，并通过Mermaid流程图进行直观展示。对核心算法原理进行了深入剖析，结合Python代码示例进行讲解。同时
Python爬虫实战：研究python-nameparser库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 nameparser
1.引言在当今数字化时代，姓名作为个人身份的重要标识，在许多领域都有着广泛的应用需求。例如，在客户关系管理系统中，准确解析姓名可以帮助企业更好地了解客户背景；在学术研究中，分析作者姓名分布有助于发现研究团队的地域特征；在社交网络分析中，姓名信息可以辅助进行用户画像构建。然而，由于不同文化背景下姓名结构的多样性以及书写方式的差异，准确解析姓名成为一项具有挑战性的任务。Python作为一种功能强大的编
快速掌握Python编程基础张彦峰ZYF python
干货分享，感谢您的阅读！备注：本博客将自己初步学习Python的总结进行分享，希望大家通过本博客可以在短时间内快速掌握Python的基本程序编码能力，如有错误请留言指正，谢谢！（持续更新）一、快速了解Python和环境准备（一）Python快速介绍Python是一种简洁、强大、易读的编程语言，广泛应用于Web开发、数据分析、人工智能、自动化运维等领域。它由GuidovanRossum在1991年设
让 Python 代码飙升330倍：从入门到精通的四种性能优化实践 python
花下猫语：性能优化是每个程序员的必修课，但你是否想过，除了更换算法，还有哪些“大招”？这篇文章堪称典范，它将一个普通的函数，通过四套组合拳，硬生生把性能提升了330倍！作者不仅展示了“术”，更传授了“道”。让我们一起跟随作者的思路，体验一次酣畅淋漓的优化之旅。PS.本文选自最新一期Python潮流周刊，如果你对优质文章感兴趣，诚心推荐你订阅我们的专栏。作者：ItamarTurner-Traurin
2025B卷 - 华为OD机试七日集训第4期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）哪吒搬砖工逆袭Java架构师华为od 算法 python 华为OD机试 2025B卷
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第4期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、逻辑分析第3天、逻辑分析第4天、贪心算法第5天、二分查找第6天、字符串处理第7天、字符串处理六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSon
2025B卷 - 华为OD机试七日集训第2期 - 按算法分类，由易到难，循序渐进，玩转OD（Python/JS/C/C++）
目录推荐刷题方法：一、适合人群二、本期训练时间三、如何参加四、七日集训第2期五、精心挑选21道高频100分经典题目，作为入门。第1天、逻辑分析第2天、数组第3天、双指针第4天、贪心算法第5天、字符串处理第6天、深度优先搜索DFS第7天、动态规划六、集训总结国内直接使用ChatGPT4o、o3、o4-mini-high、GPT-4.5、GPT4.1、Gemini2.5pro0605、ClaudeSo
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

python 3爬取 全国高校对四川历年招生数据（文理省控线，文理专业线）存入Excel表

你可能感兴趣的:(python,学习之路,网络爬虫)

python 3爬取全国高校对四川历年招生数据（文理省控线，文理专业线）存入Excel表