HUIM_Wang

爬虫实战——爬取研招网院校招生信息

当今社会竞争激烈，很多学子选择考研，研招网就为考研学子提供了详细的相关考研信息，学子们在上面苦苦寻找适合自己的院校，择校就成了考研的第一道门槛，为了让选学校变得更加方便，今天我们使用python来爬取2020年考研网站的信息。

目标网站：https://yz.chsi.com.cn/sch/search.do?ssdm=&yxls
所要爬取的信息：特定的省份，特定的学校以及相关专业的院系所和研究方向，以及招生人数和考试科目。
使用的库：
import requests
from lxml import etree
import re
import csv

先来看看效果：

该代码是根据输入的省份、大学名字、学科门类和学科类别代码查询到的信息，上图查询了北京-北京大学-工学-（0812）计算机科学与技术的信息。信息包括：院系所、专业、研究方向、拟招人数以及考试范围。
废话不多说，开始写代码。

首先，我们要获取的是这样的信息：

为了增强代码的通用性，我们查询的对象是全国，所以我们要获得全国所有省市的数字代码：

import requests
from lxml import etree
import re
import csv

class CollegeMessage():
    def __init__(self):
        self.headers = {
            "Cookie":"JSESSIONID=C49D0535CFE3AFC95DAF3B7D7CB6439D; _ga=GA1.3.1713889609.1584199516; zg_did=%7B%22did%22%3A%20%22170d9a645f3110-0e03203b3d8ecf-366b420b-144000-170d9a645f411d%22%7D; acw_tc=2760829b15887435857595959ea5e12bae49d0a2e598ac9f4ea989a290ca11; aliyungf_tc=AQAAAKcJ0izdxQwA1kIIe4JabC1ii9gb; JSESSIONID=0C671E30554484285B9A3EFAB45D4C35; XSRF-CCKTOKEN=14c33c0930217319fb4cd08eb808755f; CHSICC_CLIENTFLAGYZ=80d9cc1d6fb6280a4041b60d0103f6e1; _gid=GA1.3.1370633235.1590377571; CHSICC_CLIENTFLAGZSML=fdc0c72e078135f955e18f6745458ca4; CHSICC_CLIENTFLAGSSWBGG=0b261e848dcc9512888b49d02619818f; zg_adfb574f9c54457db21741353c3b0aa7=%7B%22sid%22%3A%201590377617181%2C%22updated%22%3A%201590377641432%2C%22info%22%3A%201590377617186%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22yz.chsi.com.cn%22%2C%22landHref%22%3A%20%22https%3A%2F%2Fyz.chsi.com.cn%2F%22%7D",
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
        }
    def get_all_collage(self):
        url = "https://yz.chsi.com.cn/sch/?start=0" # 目标网站
        response = requests.get(url,headers=self.headers) # 为请求添加头部信息
        res = response.content.decode() #获取网页信息
        html_str = etree.HTML(res) # 用lxml方式来解析字符串格式的HTML文档对象
        all_span = html_str.xpath("//div[@class='container']/div[@class='yxk-filter']/form/ul/li/div[@class='list-td clearfix']/span") # 提取省份信息
        all_span = all_span[1:-4] # 去掉不需要的信息
        dict_collage={} # 定义空字典
        for span in all_span:
            collage_name = span.xpath("text()")[0] # 省份名字
            collage_code = span.xpath("@data-id")[0] # 省份数字代码
            dict_collage[collage_name] = collage_code # 将名字和代码装入字典中
            # print(collage_name,"代码="+collage_code,sep=" ")
        for collage_i in dict_collage.keys():
            print(collage_i,end="  ")
        print("\n")
        input_collage_name = input("请输入要查询大学所在的省份:")
        input_collage_value = dict_collage[input_collage_name]
        # print(input_collage_value)
        return input_collage_value # 返回对应的数字代码

这样一来我们就拿到了所有相关省份的数字代码，接下来我们要输出特定省份的所有考研招生大学，以供我们选择。
下图是要获取的所有大学名字：

该过程代码如下：

    def display_collage(self,collage_value_url,i_page_url): # 执行每一页的数据获取
        url = "https://yz.chsi.com.cn/sch/search.do?ssdm={}&start={}".format(collage_value_url,i_page_url)
        response = requests.get(url,headers=self.headers)
        res = response.content.decode()
        html_str = etree.HTML(res)
        tr_collages = html_str.xpath("//div[@class='yxk-table']/table/tbody/tr")
        for i_tr in tr_collages: # 输出该省市所有的大学名字
            collage_name = i_tr.xpath("td[1]/a/text()")[0].strip()
            print(collage_name) # 输出一个大学名字


    def province_collage(self,collage_value): # 翻页获取所有的大学名字
        url = "https://yz.chsi.com.cn/sch/search.do?ssdm={}&yxls=".format(collage_value) # 接收该省市数字代码为地址
        response = requests.get(url,headers=self.headers)
        res = response.content.decode()
        html_str = etree.HTML(res)
        collages_name = html_str.xpath("//div[@class='yxk-table']/div/div/form/ul/li/a") # 通过xpath语法锁定数据位置
        number_max_collage = 0
        for collage_i in collages_name:
            # print(collage_i.xpath("text()"))
            if collage_i.xpath("text()"): # 如果一个列表不为空的话(考虑到可能会有空的数据)
                collage_i_number = int(collage_i.xpath("text()")[0])
                if collage_i_number > number_max_collage:
                    number_max_collage = collage_i_number
        # print(number_max_collage) # 找到最大的翻页
        for i_page in range(number_max_collage):
            i_page_url = str(i_page*20) # 每页的start值相差20
            self.display_collage(collage_value,i_page_url)

以上仅仅是提示用户输入信息，具体数据的获取在下方：

    def peoples_exam_data(self,end_url):    # 获取该专业的拟招人数和考试范围信息
        url = "https://yz.chsi.com.cn"+end_url
        response = requests.get(url,headers=self.headers)
        res = response.content.decode()
        html_str = etree.HTML(res)
        peoples = html_str.xpath("//table[@class='zsml-condition']/tbody/tr[5]/td[2]/text()") # 提起拟招人数信息
        people = re.findall('\d+',peoples[0])[0]
        exam_subjects = html_str.xpath("//div[@class='zsml-result']/table/tbody/tr/td") # 提取考试范围信息
        examSubject = ""
        count_i =1
        for one_exam in exam_subjects:
            if count_i % 5 ==0: # 假如出现多项选择的话：
                examSubject = examSubject + "或者:"
            else:
                examSubject = examSubject + one_exam.xpath("text()")[0].strip() + ","
            count_i += 1
        examSubject = examSubject[:-1] # 去掉最后一个逗号
        # print(people,examSubject)
        return people,examSubject

    def get_xuekeleibie_number(self,number):
        if number == 0:
            return "zyxw"
        elif number < 10:
            return "0"+str(number)
        else:
            return str(number)


    def get_url(self,csv_name,province_value,universe_url,menlei_url,xuekelb_url):

        url = "https://yz.chsi.com.cn/zsml/querySchAction.do?ssdm={}&dwmc={}&mldm={}&yjxkdm={}&xxfs=&zymc="
        # https://yz.chsi.com.cn/zsml/querySchAction.do?ssdm=22&dwmc=长春大学&mldm=02&yjxkdm=0202&xxfs=&zymc=
        response = requests.get(url.format(province_value,universe_url,menlei_url,xuekelb_url))
        res = response.content.decode()
        # print(res)
        html_str = etree.HTML(res)
        tr_message = html_str.xpath("//table[@class='ch-table']/tbody/tr")
        if tr_message:# 当该校设有此专业信息时
            page_message = []
            # print("hello world")
            for one_tr in tr_message:

                YuanXiSuo = one_tr[1].xpath("text()")[0] # 获取院系所信息
                ZhuanYe = one_tr[2].xpath("text()")[0] # 获取专业信息
                YanJiuFangXiang = one_tr[3].xpath("text()")[0] # 获取研究方向信息
                # print(YuanXiSuo,ZhuanYe,YanJiuFangXiang)

                number_strs = one_tr[7].xpath("a/@href")[0] # 获取具体信息链接
                # print(number_strs)

                people,exam_subject = self.peoples_exam_data(number_strs) # 返回两个字符串

                one_message = {
                    "YuanXiSuo":YuanXiSuo,  # Department
                    "ZhuanYe":ZhuanYe,   # SpecialField
                    "YanJiuFangXiang":YanJiuFangXiang,   # ResearchFields
                    "number_of_people":people,
                    "exam_subject":exam_subject
                }
                page_message.append(one_message)

            for one_i in page_message:
                print(one_i)
         
            """
                将字典数据写入csv表格中
                （1）头部信息header要和字典中的key值相对应
                （2）文件名字采用csv_name
                （3）以追加“a”的方式写入
                （4）newline是数据之间不加空行
                （5）encoding='utf-8'表示编码格式为utf-8，如果不希望在excel中打开csv文件出现中文乱码的话，将其去掉不写也行。
            """
            header=['YuanXiSuo','ZhuanYe','YanJiuFangXiang','number_of_people','exam_subject']
            with open('{}.csv'.format(csv_name),'a',newline='',encoding='utf-8') as f:
                writer = csv.DictWriter(f,fieldnames=header)# 提前预览列名，当下面代码写入数据时，会将其一一对应。
                writer.writeheader()# 写入列名
                writer.writerows(page_message)# 写入数据
        else:
            print("----无信息----")


    def get_collage_message(self,province_value): # 接收一个省份的数字代码
		# 学科门类信息
        XueKML = {
            "专业学位":0,"哲学":1,"经济学":2,"法学":3,"教育学":4,"文学":5,"历史学":6,"理学":7,"工学":8,"农学":9,"医学":10,"军事学":11,"管理学":12,"艺术学":13
        }
        # 专业类别信息
        ZhuanYLY = [
            ["(0251)金融","(0252)应用统计","(0253)税务","(0254)国际商务","(0255)保险","(0256)资产评估","(0257)审计","(0351)法律","(0352)社会工作","(0353)警务","(0451)教育","(0452)体育","(0453)汉语国际教育","(0454)应用心理","(0551)翻译","(0552)新闻与传播","(0553)出版","(0651)文物与博物馆","(0851)建筑学","(0853)城市规划","(0854)电子信息","(0855)机械","(0856)材料与化工","(0857)资源与环境","(0858)能源动力","(0859)土木水利","(0860)生物与医药","(0861)交通运输","(0951)农业","(0952)兽医","(0953)风景园林","(0954)林业","(1051)临床医学","(1052)口腔医学","(1053)公共卫生","(1054)护理","(1055)药学","(1056)中药学","(1057)中医","(1151)军事","(1251)工商管理","(1252)公共管理","(1253)会计","(1254)旅游管理","(1255)图书情报","(1256)工程管理","(1351)艺术"],
            ["(0101)哲学"],
            ["(0201)理论经济学","(0202)应用经济学","(0270)统计学"],
            ["(0301)法学","(0302)政治学","(0303)社会学","(0304)民族学","(0305)马克思主义理论","(0306)公安学"],
            ["(0401)教育学","(0402)心理学","(0403)体育学","(0471)"],
            ["(0501)中国语言文学","(0502)外国语言文学","(0503)新闻传播学"],
            ["(0601)考古学","(0602)中国史","(0603)世界史"],
            ["(0701)数学","(0702)物理学","(0703)化学","(0704)天文学","(0705)地理学","(0706)大气科学","(0707)海洋科学","(0708)地球物理学","(0709)地质学","(0710)生物学","(0711)系统科学","(0712)科学技术史","(0713)生态学","(0714)统计学","(0771)心理学","(0772)力学","(0773)材料科学与工程","(0774)电子科学与技术","(0775)计算机科学与技术","(0776)环境科学与工程","(0777)生物医学工程","(0778)基础医学","(0779)公共卫生与预防医学","(0780)药学","(0781)中药学","(0782)医学技术","(0783)护理学","(0784)","(0785)","(0786)"],
            ["(0801)力学","(0802)机械工程","(0803)光学工程","(0804)仪器科学与技术","(0805)材料科学与工程","(0806)冶金工程","(0807)动力工程及工程热物理","(0808)电气工程","(0809)电子科学与技术","(0810)信息与通信工程","(0811)控制科学与工程","(0812)计算机科学与技术","(0813)建筑学","(0814)土木工程","(0815)水利工程","(0816)测绘科学与技术","(0817)化学工程与技术","(0818)地质资源与地质工程","(0819)矿业工程","(0820)石油与天然气工程","(0821)纺织科学与工程","(0822)轻工技术与工程","(0823)交通运输工程","(0824)船舶与海洋工程","(0825)航空宇航科学与技术","(0826)兵器科学与技术","(0827)核科学与技术","(0828)农业工程","(0829)林业工程","(0830)环境科学与工程","(0831)生物医学工程","(0832)食品科学与工程","(0833)城乡规划学","(0834)风景园林学","(0835)软件工程","(0836)生物工程","(0837)安全科学与工程","(0838)公安技术","(0839)网络空间安全","(0870)科学技术史","(0871)管理科学与工程","(0872)设计学"],
            ["(0901)作物学","(0902)园艺学","(0903)农业资源与环境","(0904)植物保护","(0905)畜牧学","(0906)兽医学","(0907)林学","(0908)水产","(0909)草学","(0970)科学技术史","(0971)环境科学与工程","(0972)食品科学与工程","(0973)风景园林学"],
            ["(1001)基础医学","(1002)临床医学","(1003)口腔医学","(1004)公共卫生与预防医学","(1005)中医学","(1006)中西医结合","(1007)药学","(1008)中药学","(1009)特种医学","(1010)医学技术","(1011)护理学","(1071)科学技术史","(1072)生物医学工程","(1073)","(1074)"],
            ["(1101)军事思想及军事历史","(1102)战略学","(1103)战役学","(1104)战术学","(1105)军队指挥学","(1106)军事管理学","(1107)军队政治工作学","(1108)军事后勤学","(1109)军事装备学","(1110)军事训练学"],
            ["(1201)管理科学与工程","(1202)工商管理","(1203)农林经济管理","(1204)公共管理","(1205)图书情报与档案管理"],
            ["(1301)艺术学理论","(1302)音乐与舞蹈学","(1303)戏剧与影视学","(1304)美术学","(1305)设计学"]

        ]
        print("\n")
        university_url = input("请输入要查询的大学:")
        for i_key in XueKML.keys():
            print(i_key,end=",")
        print("\n")
        xue_key = input("请根据以上信息输入学科门类:")
        menlei_url = self.get_xuekeleibie_number(XueKML[xue_key])
        for i_zhuanyly in ZhuanYLY[XueKML[xue_key]]:
            print(i_zhuanyly)
        xuekelb_url = input("请根据以上信息输入相应学科类别左边的代码:")

        csv_name = university_url+"_"+xue_key+"_"+xuekelb_url
        # 传参：csv_name是生成数据表格需要的名字，province_value是省市数字代码，university_url是大学名字，menlei_url是学科门类的数字地址代码，xuekelb_url是学科类别的数字地址代码
        self.get_url(csv_name,province_value,university_url,menlei_url,xuekelb_url)

根据提示的信息正确输入，就可以得到我们想要的数据了

结果截图：

文件数据截图：

爬取任务就大功告成了！！！
附源码：

import requests
from lxml import etree
import re
import csv


class CollegeMessage():
    def __init__(self):
        self.headers = {
            "Cookie":"JSESSIONID=C49D0535CFE3AFC95DAF3B7D7CB6439D; _ga=GA1.3.1713889609.1584199516; zg_did=%7B%22did%22%3A%20%22170d9a645f3110-0e03203b3d8ecf-366b420b-144000-170d9a645f411d%22%7D; acw_tc=2760829b15887435857595959ea5e12bae49d0a2e598ac9f4ea989a290ca11; aliyungf_tc=AQAAAKcJ0izdxQwA1kIIe4JabC1ii9gb; JSESSIONID=0C671E30554484285B9A3EFAB45D4C35; XSRF-CCKTOKEN=14c33c0930217319fb4cd08eb808755f; CHSICC_CLIENTFLAGYZ=80d9cc1d6fb6280a4041b60d0103f6e1; _gid=GA1.3.1370633235.1590377571; CHSICC_CLIENTFLAGZSML=fdc0c72e078135f955e18f6745458ca4; CHSICC_CLIENTFLAGSSWBGG=0b261e848dcc9512888b49d02619818f; zg_adfb574f9c54457db21741353c3b0aa7=%7B%22sid%22%3A%201590377617181%2C%22updated%22%3A%201590377641432%2C%22info%22%3A%201590377617186%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22yz.chsi.com.cn%22%2C%22landHref%22%3A%20%22https%3A%2F%2Fyz.chsi.com.cn%2F%22%7D",
            "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
        }

    def peoples_exam_data(self,end_url):    # 获取该专业的拟招人数和考试范围信息
        url = "https://yz.chsi.com.cn"+end_url
        response = requests.get(url,headers=self.headers)
        res = response.content.decode()
        html_str = etree.HTML(res)
        peoples = html_str.xpath("//table[@class='zsml-condition']/tbody/tr[5]/td[2]/text()") # 提起拟招人数信息
        people = re.findall('\d+',peoples[0])[0]
        exam_subjects = html_str.xpath("//div[@class='zsml-result']/table/tbody/tr/td") # 提取考试范围信息
        examSubject = ""
        count_i =1
        for one_exam in exam_subjects:
            if count_i % 5 ==0: # 假如出现多项选择的话：
                examSubject = examSubject + "或者:"
            else:
                examSubject = examSubject + one_exam.xpath("text()")[0].strip() + ","
            count_i += 1
        examSubject = examSubject[:-1] # 去掉最后一个逗号
        # print(people,examSubject)
        return people,examSubject

    def get_xuekeleibie_number(self,number):
        if number == 0:
            return "zyxw"
        elif number < 10:
            return "0"+str(number)
        else:
            return str(number)


    def get_url(self,csv_name,province_value,universe_url,menlei_url,xuekelb_url):

        url = "https://yz.chsi.com.cn/zsml/querySchAction.do?ssdm={}&dwmc={}&mldm={}&yjxkdm={}&xxfs=&zymc="
        # https://yz.chsi.com.cn/zsml/querySchAction.do?ssdm=22&dwmc=长春大学&mldm=02&yjxkdm=0202&xxfs=&zymc=
        response = requests.get(url.format(province_value,universe_url,menlei_url,xuekelb_url))
        res = response.content.decode()
        # print(res)
        html_str = etree.HTML(res)
        tr_message = html_str.xpath("//table[@class='ch-table']/tbody/tr")
        if tr_message:
            page_message = []
            # print("hello world")
            for one_tr in tr_message:

                YuanXiSuo = one_tr[1].xpath("text()")[0] # 获取院系所信息
                ZhuanYe = one_tr[2].xpath("text()")[0] # 获取专业信息
                YanJiuFangXiang = one_tr[3].xpath("text()")[0] # 获取研究方向信息
                # print(YuanXiSuo,ZhuanYe,YanJiuFangXiang)

                number_strs = one_tr[7].xpath("a/@href")[0] # 获取具体信息链接
                # print(number_strs)

                people,exam_subject = self.peoples_exam_data(number_strs) # 返回两个字符串

                one_message = {
                    "YuanXiSuo":YuanXiSuo,  # Department
                    "ZhuanYe":ZhuanYe,   # SpecialField
                    "YanJiuFangXiang":YanJiuFangXiang,   # ResearchFields
                    "number_of_people":people,
                    "exam_subject":exam_subject
                }
                page_message.append(one_message)

            for one_i in page_message:
                print(one_i)
            """
                将字典数据写入csv表格中
                （1）头部信息header要和字典中的key值相对应
                （2）文件名字采用csv_name
                （3）以追加“a”的方式写入
                （4）newline是数据之间不加空行
                （5）encoding='utf-8'表示编码格式为utf-8，如果不希望在excel中打开csv文件出现中文乱码的话，将其去掉不写也行。
            """
            header=['YuanXiSuo','ZhuanYe','YanJiuFangXiang','number_of_people','exam_subject']
            with open('{}.csv'.format(csv_name),'a',newline='',encoding='utf-8') as f:
                writer = csv.DictWriter(f,fieldnames=header)# 提前预览列名，当下面代码写入数据时，会将其一一对应。
                writer.writeheader()# 写入列名
                writer.writerows(page_message)# 写入数据
        else:
            print("----无信息----")


    def get_collage_message(self,province_value): # 接收一个省份的数字代码

        XueKML = {
            "专业学位":0,"哲学":1,"经济学":2,"法学":3,"教育学":4,"文学":5,"历史学":6,"理学":7,"工学":8,"农学":9,"医学":10,"军事学":11,"管理学":12,"艺术学":13
        }
        ZhuanYLY = [
            ["(0251)金融","(0252)应用统计","(0253)税务","(0254)国际商务","(0255)保险","(0256)资产评估","(0257)审计","(0351)法律","(0352)社会工作","(0353)警务","(0451)教育","(0452)体育","(0453)汉语国际教育","(0454)应用心理","(0551)翻译","(0552)新闻与传播","(0553)出版","(0651)文物与博物馆","(0851)建筑学","(0853)城市规划","(0854)电子信息","(0855)机械","(0856)材料与化工","(0857)资源与环境","(0858)能源动力","(0859)土木水利","(0860)生物与医药","(0861)交通运输","(0951)农业","(0952)兽医","(0953)风景园林","(0954)林业","(1051)临床医学","(1052)口腔医学","(1053)公共卫生","(1054)护理","(1055)药学","(1056)中药学","(1057)中医","(1151)军事","(1251)工商管理","(1252)公共管理","(1253)会计","(1254)旅游管理","(1255)图书情报","(1256)工程管理","(1351)艺术"],
            ["(0101)哲学"],
            ["(0201)理论经济学","(0202)应用经济学","(0270)统计学"],
            ["(0301)法学","(0302)政治学","(0303)社会学","(0304)民族学","(0305)马克思主义理论","(0306)公安学"],
            ["(0401)教育学","(0402)心理学","(0403)体育学","(0471)"],
            ["(0501)中国语言文学","(0502)外国语言文学","(0503)新闻传播学"],
            ["(0601)考古学","(0602)中国史","(0603)世界史"],
            ["(0701)数学","(0702)物理学","(0703)化学","(0704)天文学","(0705)地理学","(0706)大气科学","(0707)海洋科学","(0708)地球物理学","(0709)地质学","(0710)生物学","(0711)系统科学","(0712)科学技术史","(0713)生态学","(0714)统计学","(0771)心理学","(0772)力学","(0773)材料科学与工程","(0774)电子科学与技术","(0775)计算机科学与技术","(0776)环境科学与工程","(0777)生物医学工程","(0778)基础医学","(0779)公共卫生与预防医学","(0780)药学","(0781)中药学","(0782)医学技术","(0783)护理学","(0784)","(0785)","(0786)"],
            ["(0801)力学","(0802)机械工程","(0803)光学工程","(0804)仪器科学与技术","(0805)材料科学与工程","(0806)冶金工程","(0807)动力工程及工程热物理","(0808)电气工程","(0809)电子科学与技术","(0810)信息与通信工程","(0811)控制科学与工程","(0812)计算机科学与技术","(0813)建筑学","(0814)土木工程","(0815)水利工程","(0816)测绘科学与技术","(0817)化学工程与技术","(0818)地质资源与地质工程","(0819)矿业工程","(0820)石油与天然气工程","(0821)纺织科学与工程","(0822)轻工技术与工程","(0823)交通运输工程","(0824)船舶与海洋工程","(0825)航空宇航科学与技术","(0826)兵器科学与技术","(0827)核科学与技术","(0828)农业工程","(0829)林业工程","(0830)环境科学与工程","(0831)生物医学工程","(0832)食品科学与工程","(0833)城乡规划学","(0834)风景园林学","(0835)软件工程","(0836)生物工程","(0837)安全科学与工程","(0838)公安技术","(0839)网络空间安全","(0870)科学技术史","(0871)管理科学与工程","(0872)设计学"],
            ["(0901)作物学","(0902)园艺学","(0903)农业资源与环境","(0904)植物保护","(0905)畜牧学","(0906)兽医学","(0907)林学","(0908)水产","(0909)草学","(0970)科学技术史","(0971)环境科学与工程","(0972)食品科学与工程","(0973)风景园林学"],
            ["(1001)基础医学","(1002)临床医学","(1003)口腔医学","(1004)公共卫生与预防医学","(1005)中医学","(1006)中西医结合","(1007)药学","(1008)中药学","(1009)特种医学","(1010)医学技术","(1011)护理学","(1071)科学技术史","(1072)生物医学工程","(1073)","(1074)"],
            ["(1101)军事思想及军事历史","(1102)战略学","(1103)战役学","(1104)战术学","(1105)军队指挥学","(1106)军事管理学","(1107)军队政治工作学","(1108)军事后勤学","(1109)军事装备学","(1110)军事训练学"],
            ["(1201)管理科学与工程","(1202)工商管理","(1203)农林经济管理","(1204)公共管理","(1205)图书情报与档案管理"],
            ["(1301)艺术学理论","(1302)音乐与舞蹈学","(1303)戏剧与影视学","(1304)美术学","(1305)设计学"]

        ]
        print("\n")
        university_url = input("请输入要查询的大学:")
        for i_key in XueKML.keys():
            print(i_key,end=",")
        print("\n")
        xue_key = input("请根据以上信息输入学科门类:")
        menlei_url = self.get_xuekeleibie_number(XueKML[xue_key])
        for i_zhuanyly in ZhuanYLY[XueKML[xue_key]]:
            print(i_zhuanyly)
        xuekelb_url = input("请根据以上信息输入相应学科类别左边的代码:")

        csv_name = university_url+"_"+xue_key+"_"+xuekelb_url
        self.get_url(csv_name,province_value,university_url,menlei_url,xuekelb_url)

    def get_all_collage(self):
        url = "https://yz.chsi.com.cn/sch/?start=0" # 目标网站
        response = requests.get(url,headers=self.headers) # 为请求添加头部信息
        res = response.content.decode() #获取网页信息
        html_str = etree.HTML(res) # 用lxml方式来解析字符串格式的HTML文档对象
        all_span = html_str.xpath("//div[@class='container']/div[@class='yxk-filter']/form/ul/li/div[@class='list-td clearfix']/span")
        all_span = all_span[1:-4] # 去掉不需要的信息
        dict_collage={}# 定义空字典
        for span in all_span:
            collage_name = span.xpath("text()")[0] # 省份名字
            collage_code = span.xpath("@data-id")[0] # 省份数字代码
            dict_collage[collage_name] = collage_code # 将名字和代码装入字典中
            # print(collage_name,"代码="+collage_code,sep=" ")
        for collage_i in dict_collage.keys():
            print(collage_i,end="  ")
        print("\n")
        input_collage_name = input("请输入要查询大学所在的省份:")
        input_collage_value = dict_collage[input_collage_name]
        # print(input_collage_value)
        return input_collage_value # 返回对应的数字代码

    def display_collage(self,collage_value_url,i_page_url):# 执行每一页的数据获取
        url = "https://yz.chsi.com.cn/sch/search.do?ssdm={}&start={}".format(collage_value_url,i_page_url)
        response = requests.get(url,headers=self.headers)
        res = response.content.decode()
        html_str = etree.HTML(res)
        tr_collages = html_str.xpath("//div[@class='yxk-table']/table/tbody/tr")
        for i_tr in tr_collages: # 输出该省市所有的大学名字
            collage_name = i_tr.xpath("td[1]/a/text()")[0].strip()
            print(collage_name) # 输出一个大学名字


    def province_collage(self,collage_value): # 翻页获取所有的大学名字
        url = "https://yz.chsi.com.cn/sch/search.do?ssdm={}&yxls=".format(collage_value) # 接收该省市数字代码为地址
        response = requests.get(url,headers=self.headers)
        res = response.content.decode()
        html_str = etree.HTML(res)
        collages_name = html_str.xpath("//div[@class='yxk-table']/div/div/form/ul/li/a") # 通过xpath语法锁定数据位置
        number_max_collage = 0
        for collage_i in collages_name:
            # print(collage_i.xpath("text()"))
            if collage_i.xpath("text()"): # 如果一个列表不为空的话(考虑到可能会有空的数据)
                collage_i_number = int(collage_i.xpath("text()")[0])
                if collage_i_number > number_max_collage:
                    number_max_collage = collage_i_number
        # print(number_max_collage) # 找到最大的翻页
        for i_page in range(number_max_collage):
            i_page_url = str(i_page*20) # 每页的start值相差20
            self.display_collage(collage_value,i_page_url)

    def run(self):
        province_value = self.get_all_collage() # 获取省份代码
        self.province_collage(province_value) # 显示此省份所有招研究生的学校
        self.get_collage_message(province_value)

if __name__ == '__main__':
    cm = CollegeMessage()
    cm.run()

关注微信公众号：Code启示录，还有更多精彩内容！

趁年轻，多敲点代码。多动手，多实践，我们共同加油！！！

为什么会出现“与此站点的连接不安全”警告？
当浏览器弹出“与此站点的连接不安全”的红色警告时，不仅会让访客感到不安，还可能直接导致用户流失、品牌信誉受损，甚至引发数据泄露风险。作为网站运营者，如何快速解决这一问题？一、为什么会出现“与此站点的连接不安全”警告？浏览器提示“不安全连接”，本质上是检测到当前网站与用户之间的数据传输未经过加密保护。以下是触发警告的常见原因：1.未安装SSL证书SSL（SecureSocketsLayer）证书是网
求是网：“内卷式”竞争的突出表现和主要危害有哪些？加百力财经研究科技知识人工智能大数据
"内卷式"竞争主要表现为：企业层面的低价竞争、同质化竞争和营销"逐底竞争"；地方政府层面的违规优惠政策、盲目重复建设和设置市场壁垒。危害体现在三个层面：微观上导致"劣币驱逐良币"，损害消费者利益；中观上破坏行业生态，挤压产业链利润空间；宏观上扭曲资源配置，抑制创新活力。什么是“内卷式”竞争？概括其一般特征，是指经济主体为了维持市场地位或争夺有限市场，不断投入大量精力和资源，却没有带来整体收益增长的
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
cesium添加原生MVT矢量瓦片方案 zhu_zhu_xia cesium vue arcgis cesium webgl javascript
项目中需要基于cesium接入mvt格式的服务并支持属性拾取查询，通过一系列预研测试，最后选择cesium-mvt-imagery-provider开源插件完成，关键源码信息如下：npmicesiumcesium-mvt-imagery-provider//安装依赖包//加载图层importCesiumMVTImageryProviderfrom"cesium-mvt-imagery-provid
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
玩转Docker | 使用Docker部署gopeed下载工具心随_风动玩转Docker docker 容器运维
玩转Docker|使用Docker部署gopeed下载工具前言一、gopeed介绍Gopeed简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署gopeed服务下载镜像创建容器检查容器状态检查服务端口安全设置四、访问gopeed应用五、测试与下载六、总结前言在当今信息爆炸的时代，高效地获取和管理网络资源变得尤为重要。无论是下载大型文件还是进行日常的数据传输，一个稳
android查看so路径
之前遇到过一个问题，apk中有一个so无法确定其路径，是由哪个依赖引入的，网上查询一番后这里记录一下。build.gradle中添加如下任务//列出所有包含有so文件的库信息tasks.whenTaskAdded{task->if(task.name=='mergeDebugNativeLibs'){//如果是有多个flavor，则用mergeFlavorDebugNativeLibs的形式tas
Docker指定网桥和指定网桥IP
$dockernetworklsNETWORKIDNAMEDRIVER7fca4eb8c647bridgebridge9f904ee27bf5nonenullcf03ee007fb4hosthostBridge默认bridge网络,我们可以使用dockernetworkinspect命令查看返回的网络信息，我们使用dockerrun命令是将网络自动应用到新的容器Host如果是hosts模式，启动容
Linux中LVM逻辑卷扩容
在Linux系统中对根目录所在的LVM逻辑卷进行扩容，需要依次完成物理卷扩容➔卷组扩容➔逻辑卷扩容➔文件系统扩容四个步骤。以下是详细操作流程：一、确认当前磁盘和LVM状态#1.查看磁盘空间使用情况df-h/#2.查看块设备及LVM层级关系lsblk#3.查看LVM详细信息（物理卷PV、卷组VG、逻辑卷LV）pvdisplayvgdisplaylvdisplay二、扩容物理卷（PV）场景1：已有未分
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
.NET中的强名称和签名机制
.NET中的强名称（StrongName）和签名机制是.NETFramework引入的一种安全性和版本控制机制。以下是关于.NET中强名称和签名机制的详细解释：强名称定义：强名称是由程序集的标识加上公钥和数字签名组成的。程序集的标识包括简单文本名称、版本号和区域性信息（如果提供的话）。作用：强名称主要用于确保程序集的唯一性和完整性。通过签发具有强名称的程序集，可以确保名称的全局唯一性，防止名称冲突
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
GoView 强势入驻 GitCode：拖拽低代码，打造高颜值数据大屏 GitCode 代码君 gitcode 低代码开源
信息可视化时代，数字大屏日益成为展示核心KPI、运营状态、监控预警的主流形式。然而，用传统方式开发一个定制化数字大屏需要解决多少问题？1.繁复的数据源集成，各种不同的协议和格式……2.让人晕头转向的可视化逻辑，调动艰难的样式、布局、动画，和往往难以统一的风格3.牵一发而动全身的代码结构，就想换个主题色结果开启的全局CSS大冒险……现在，一个开源项目即可搞定上述问题——拖拽式低代码数字可视化平台Go
为Layui Table组件添加前端搜索功能 caifox菜狐狸 JavaScript 学习之旅：从新手到专家前端 layui javascript table 前端搜索表格搜索前端框架
在现代Web开发中，数据展示和交互功能是构建高效、用户友好界面的关键要素之一。Layui作为一款广受欢迎的前端UI框架，以其简洁的代码、丰富的组件和强大的功能，为开发者提供了极大的便利。其中，Layui的Table组件更是以其强大的数据展示能力和灵活的配置选项，成为了许多项目中不可或缺的部分。然而，在实际应用中，仅仅展示数据往往是不够的。用户通常需要根据自己的需求快速查找特定信息，这就需要为表格添
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
iOS 获取Wifi信息
背景智能硬件入网的时候，硬件端通常需要通过WiFi入网，这种情况，可能需要App获取WiFi信息，来做WiFi匹配，同时也可以减少用户填写的信息。智能硬件WiFi入网方式利用HomeKit流程入网，然后利用Boujour绑定设备App连接硬件WiFi,将有网WiFi的信息通过http或者蓝牙方式发送给硬件（需要用户选择wifi，且可能有网WiFi是硬件不支持的，比如部分硬件不支持5GWiFi）部分
2025年渗透测试面试题总结-2025年HW(护网面试) 43（题目+回答）独行soc 2025年护网面试职场和发展 linux 科技渗透测试安全护网
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)431.自我介绍与职业规划2.Webshell源码级检测方案3.2025年新型Web漏洞TOP54.渗透中的高价值攻击点5.智能Fuzz平台架构设计6.堆栈溢出攻防演进7.插桩技术实战应用8.二进制安全能力矩阵9.C语言内存管理精要10.Pyth
requests的使用
一·概念requests作为爬虫的基础库，在我们快速爬取和反爬破解中起到很重要的作用，其中的知识点大概有以下几个方面：二·内容一，request：1-requests.get…get请求获取数据2-requests.post…post请求获取数据二，response:1-response.text.响应体str类型2-response.encoding从HTTPheader中获取响应内容的编码方式
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

爬虫实战——爬取研招网院校招生信息

你可能感兴趣的:(爬虫实战——爬取研招网院校招生信息)