长空孤月ysc

scrapy框架爬取建设行业数据实例（思路整理）

最近挤了点时间，写了个爬虫，可能以后工作中能用得上。关于scrapy框架的一些基础知识这里就不再赘述，这里主要记录下开发思路。

关于项目背景：

http://jst.sc.gov.cn/xxgx/Enterprise/eList.aspx从这个网站中查询建筑企业，并且爬取每个企业的基本信息，资质证书和注册人员信息。

首先分析目标网站，要查询到每个企业的详细信息，需要获取到企业id，先写个爬虫获取企业id并导出到id表格中：

class ElistSpider(scrapy.Spider):
    name = 'eList'
    allowed_domains = ['http://jst.sc.gov.cn/xxgx/Enterprise/eList.aspx']
    f_1Sheet1 = None
    f_1_count = None

    # 设置浏览器用户代理
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    def start_requests(self):
        # 读取企业名称excel
        f_1 = xlrd.open_workbook(r'企业名称.xlsx')
        self.f_1Sheet1 = f_1.sheet_by_index(0)
        # 表里的数据量（数据行数）
        self.f_1_count = self.f_1Sheet1.nrows
        # 第一次请求页面，设置开启cookie使其得到cookie，设置回调函数
        return [Request('http://jst.sc.gov.cn/xxgx/Enterprise/eList.aspx', meta={'cookiejar': 1}, callback=self.parse)]

    def parse(self, response):
        __VIEWSTATE = response.css('#__VIEWSTATE::attr(value)').extract()[0]
        __VIEWSTATEGENERATOR = response.css(
            '#__VIEWSTATEGENERATOR::attr(value)').extract()[0]
        __EVENTVALIDATION = response.css(
            '#__EVENTVALIDATION::attr(value)').extract()[0]
        # print(__VIEWSTATE)
        # print(__VIEWSTATEGENERATOR)
        # print(__EVENTVALIDATION)
        # 设置提交表单信息,对应抓包得到字段
        for i in range(1, self.f_1_count):
            rows = self.f_1Sheet1.row_values(i)  # 获取行内容
            form_data = {
                '__VIEWSTATE': __VIEWSTATE,
                '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
                '__EVENTVALIDATION': __EVENTVALIDATION,
                'qylx': '',
                'mc': str(rows[0]),
                'xydm': '',
                'fr': '',
                'zsbh': '',
                'ctl00$MainContent$Button1': '搜索'
            }
            # 第二次用表单post请求，携带Cookie、浏览器代理等信息给Cookie授权
            yield FormRequest(response.url, meta={'cookiejar': response.meta['cookiejar']}, headers=self.header, formdata=form_data, callback=self.next, dont_filter=True)

    def next(self, response):
        items = ElistItem()
        name_id = response.css('.search-result tr td a::attr(href)')
        if name_id:
            items['name_id'] = name_id.extract()[0]
            yield items

从企业名单表中读取企业名称，事先抓包一下请求地址和字段，模拟表单提交，爬取企业id。需要注意的是，网站是用asp.net框架开发的，表单提交的一些字段需要从页面获取：

有了企业id，就可以为所欲为了~接下来写个爬虫，爬取企业的基本信息：

class EzsxxSpider(scrapy.Spider):
    name = 'eZsxx'
    f_1Sheet1 = None
    f_1_count = None
    url = []

    # 设置浏览器用户代理
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    def start_requests(self):
        # 读取企业id
        try:
            f_1 = xlrd.open_workbook(r'name_id.xls')
            self.f_1Sheet1 = f_1.sheet_by_index(0)
            # 表里的数据量（数据行数）
            self.f_1_count = self.f_1Sheet1.nrows
            link = 'http://jst.sc.gov.cn/xxgx/Enterprise/eZsxx.aspx?'
            for i in range(0, self.f_1_count):
                name_id = self.f_1Sheet1.row_values(i)[0]
                name_url = link + name_id.split('?')[1]
                self.url.append(name_url)
        except IOError:
            print('name_id.xls文件不存在')
            return False
        # 第一次请求页面，设置开启cookie使其得到cookie，设置回调函数
        return [Request(self.url[0], meta={'cookiejar': 1}, callback=self.parse)]

    def parse(self, response):
        items = EzsxxItem()
        company_name = response.css('.user_info b::text').extract()[0]
        company_content = response.css('.datas_table tr')
        _company_code = company_content[0].css('th+td::text').extract()
        if len(_company_code) >= 1:
            company_code = _company_code[0]
        else:
            company_code = ''
        _area = company_content[0].css('th+td::text').extract()
        if len(_area) == 2:
            area = _area[1]
        else:
            area = ''
        _boss_name = company_content[1].css('th+td::text').extract()
        if len(_boss_name) >= 1:
            boss_name = _boss_name[0]
        else:
            boss_name = ''
        _company_type = company_content[1].css('th+td::text').extract()
        if len(_company_type) == 2:
            company_type = _company_type[1]
        else:
            company_type = ''
        _address = company_content[2].css('th+td::text').extract()
        if len(_address) >= 1:
            address = _address[0]
        else:
            address = ''

        items['company_name'] = company_name
        items['company_code'] = company_code
        items['area'] = area
        items['boss_name'] = boss_name
        items['company_type'] = company_type
        items['address'] = address
        yield items
        self.url.pop(0)
        if self.url:
            yield Request(self.url[0], meta={'cookiejar': 1}, callback=self.parse)

把企业id存入数组，递归调用爬虫parse方法，爬取数据：

爬取企业注册人员有点麻烦，涉及到一个翻页提交；先抓包一下请求字段，然后递归调用爬虫parse方法：

class EryxxSpider(scrapy.Spider):
    name = 'eRyxx'
    f_1Sheet1 = None
    f_1_count = None
    url = []

    # 设置浏览器用户代理
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    def start_requests(self):
        # 读取企业id
        try:
            f_1 = xlrd.open_workbook(r'name_id.xls')
            self.f_1Sheet1 = f_1.sheet_by_index(0)
            # 表里的数据量（数据行数）
            self.f_1_count = self.f_1Sheet1.nrows
            link = 'http://jst.sc.gov.cn/xxgx/Enterprise/eRyxx.aspx?isRc=0&'
            for i in range(0, self.f_1_count):
                name_id = self.f_1Sheet1.row_values(i)[0]
                name_url = link + name_id.split('?')[1]
                self.url.append(name_url)
        except IOError:
            print('name_id.xls文件不存在')
            return False
        # 第一次请求页面，设置开启cookie使其得到cookie，设置回调函数
        return [Request(self.url[0], meta={'cookiejar': 1}, callback=self.parse)]

    def parse(self, response):
        items = EryxxItem()
        company_name = response.css('.user_info b::text').extract()[0]
        # print(company_name)
        man_data = response.css('#catabled tr')
        man_data.pop(0)
        for i in man_data:
            man_name = i.css('#tb__1_6 a::text').extract()
            category = i.css('#tb__1_1::text').extract()
            certificate_num = i.css('#tb__1_2::text').extract()
            start_date = i.css('#tb__1_3::text').extract()
            end_date = i.css('#tb__1_4 span::text').extract()
            agencies = i.css('#tb__1_5::text').extract()
            items['company_name'] = company_name
            items['man_name'] = man_name
            items['category'] = category
            items['certificate_num'] = certificate_num
            items['start_date'] = start_date
            items['end_date'] = end_date
            items['agencies'] = agencies
            yield items

        pnum = response.css(
            '#MainContent_gvPager td a:nth-last-of-type(2)::attr(href)')
        if pnum:
            next_page = pnum.extract()[0]
            page = next_page.split(',')[1].replace("'", "").replace(")", "")
        else:
            page = ''
        __VIEWSTATE = response.css('#__VIEWSTATE::attr(value)').extract()[0]
        __VIEWSTATEGENERATOR = response.css(
            '#__VIEWSTATEGENERATOR::attr(value)').extract()[0]
        __EVENTVALIDATION = response.css(
            '#__EVENTVALIDATION::attr(value)').extract()[0]
        form_data = {
            '__VIEWSTATE': __VIEWSTATE,
            '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
            '__EVENTTARGET': 'ctl00$MainContent$gvPager',
            '__EVENTARGUMENT': str(page),
            '__EVENTVALIDATION': __EVENTVALIDATION,
            'ctl00$MainContent$hidZSLX': '',
            'ctl00$MainContent$ryname': '',
            'ctl00$MainContent$ryzsh': '',
            'ctl00$MainContent$cxtj': ''
        }
        if page is not None and page != '':
            print(response.url)
            yield FormRequest(response.url, formdata=form_data, meta={'cookiejar': response.meta['cookiejar']}, headers=self.header, callback=self.parse, dont_filter=True)
        else:
            self.url.pop(0)
            if self.url:
                yield Request(self.url[0], meta={'cookiejar': 1}, callback=self.parse)

6家测试企业的全部注册人员爬取结果：

继续爬取企业的资质证书，这个情况有点特殊，数据不在页面上：

抓一下请求的接口，直接获取json数据对象：

class ZslistSpider(scrapy.Spider):
    name = 'ZsList'
    f_1Sheet1 = None
    f_1_count = None
    zz_url = []

    # 设置浏览器用户代理
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'}

    def start_requests(self):
        # 读取企业id
        try:
            f_1 = xlrd.open_workbook(r'name_id.xls')
            self.f_1Sheet1 = f_1.sheet_by_index(0)
            # 表里的数据量（数据行数）
            self.f_1_count = self.f_1Sheet1.nrows
            zz_link = 'http://jst.sc.gov.cn/xxgx/api/getdata/GetEnteZsList/'
            for i in range(0, self.f_1_count):
                name_id = self.f_1Sheet1.row_values(i)[0]
                zz = zz_link + name_id.split('?')[1].replace("id=", "")
                self.zz_url.append(zz)
        except IOError:
            print('name_id.xls文件不存在')
            return False
        # 第一次请求页面，设置开启cookie使其得到cookie，设置回调函数
        return [Request(self.zz_url[0], meta={'cookiejar': 1}, callback=self.parse)]

    def parse(self, response):
        items = ZsListItem()
        js_data = json.loads(response.body)
        for i in js_data:
            for zsDetial in i['zsDetial']:
                items['company_name'] = zsDetial['QYMC']
                items['zz_class'] = zsDetial['ZSLXMC']
                items['zz_num'] = zsDetial['ZSBH']
                items['zz_date'] = zsDetial['YXJSRQ']
                items['agencies'] = zsDetial['BFBM']
                items['zz_name'] = zsDetial['ZZX']
                yield items
        self.zz_url.pop(0)
        if self.zz_url:
            yield Request(self.zz_url[0], meta={'cookiejar': 1}, callback=self.parse)

爬取结果：

最后贴一下4个爬虫的Pipeline：

class NameIdPipeline(object):
    def open_spider(self, spider):
        if spider.name == 'eList':
            self.f = xlwt.Workbook()
            self.sheet1 = self.f.add_sheet(u'sheet1', cell_overwrite_ok=True)
            self.f.save('name_id.xls')
            print("开始输出企业id")

    def process_item(self, item, spider):
        if spider.name == 'eList':
            data = xlrd.open_workbook('name_id.xls')  # 打开Excel文件
            table = data.sheets()[0]  # 通过索引顺序获取table，因为初始化时只创建了一个table，因此索引值为0
            rowCount = table.nrows  # 获取行数，下次从这一行开始
            self.sheet1.write(rowCount, 0, item['name_id'])  # 写入数据到execl中
            self.f.save('name_id.xls')
        return item

    def close_spider(self, spider):
        if spider.name == 'eList':
            self.f.save('name_id.xls')
            print("结束输出企业id")


class ManDataPipeline(object):
    def open_spider(self, spider):
        if spider.name == 'eRyxx':
            def set_style(name, height, bold=False):
                style = xlwt.XFStyle()  # 初始化样式
                font = xlwt.Font()  # 为样式创建字体
                font.name = name  # 'Times New Roman'
                font.bold = bold
                font.color_index = 4
                font.height = height
                style.font = font
                return style

            self.f = xlwt.Workbook()
            self.sheet1 = self.f.add_sheet(u'sheet1', cell_overwrite_ok=True)
            row0 = [u'公司名称 ', u'姓名', u'证书类别',
                    u'证书编号', u'发证日期', u'证书有效期', u'发证机关']
            for i in range(0, len(row0)):
                self.sheet1.write(0, i, row0[i], set_style(
                    'Times New Roman', 220, True))
            self.f.save('man_data.xls')
            print("开始输出企业人员")

    def process_item(self, item, spider):
        if spider.name == 'eRyxx':
            data = xlrd.open_workbook('man_data.xls')  # 打开Excel文件
            table = data.sheets()[0]  # 通过索引顺序获取table，因为初始化时只创建了一个table，因此索引值为0
            rowCount = table.nrows  # 获取行数，下次从这一行开始
            self.sheet1.write(rowCount, 0, item['company_name'])  # 写入数据到execl中
            self.sheet1.write(rowCount, 1, item['man_name'])
            self.sheet1.write(rowCount, 2, item['category'])
            self.sheet1.write(rowCount, 3, item['certificate_num'])
            self.sheet1.write(rowCount, 4, item['start_date'])
            if item['end_date'][0] == '2250-12-31':
                self.sheet1.write(rowCount, 5, '')
            else:
                self.sheet1.write(rowCount, 5, item['end_date'])
            self.sheet1.write(rowCount, 6, item['agencies'])
            self.f.save('man_data.xls')
        return item

    def close_spider(self, spider):
        if spider.name == 'eRyxx':
            self.f.save('man_data.xls')
            print("结束输出企业人员")


class CompanyDataPipeline(object):
    def open_spider(self, spider):
        if spider.name == 'eZsxx':
            def set_style(name, height, bold=False):
                style = xlwt.XFStyle()  # 初始化样式
                font = xlwt.Font()  # 为样式创建字体
                font.name = name  # 'Times New Roman'
                font.bold = bold
                font.color_index = 4
                font.height = height
                style.font = font
                return style

            self.f = xlwt.Workbook()
            self.sheet1 = self.f.add_sheet(u'sheet1', cell_overwrite_ok=True)
            row0 = [u'公司名称 ', u'社会信用代码', u'所属地区', u'法定代表人', u'登记注册类型', u'注册地址']
            for i in range(0, len(row0)):
                self.sheet1.write(0, i, row0[i], set_style(
                    'Times New Roman', 220, True))
            self.f.save('company_data.xls')
            print("开始输出企业信息")

    def process_item(self, item, spider):
        if spider.name == 'eZsxx':
            data = xlrd.open_workbook('company_data.xls')  # 打开Excel文件
            table = data.sheets()[0]  # 通过索引顺序获取table，因为初始化时只创建了一个table，因此索引值为0
            rowCount = table.nrows  # 获取行数，下次从这一行开始
            self.sheet1.write(rowCount, 0, item['company_name'])  # 写入数据到execl中
            self.sheet1.write(rowCount, 1, item['company_code'])
            self.sheet1.write(rowCount, 2, item['area'])
            self.sheet1.write(rowCount, 3, item['boss_name'])
            self.sheet1.write(rowCount, 4, item['company_type'])
            self.sheet1.write(rowCount, 5, item['address'])
            self.f.save('company_data.xls')
        return item

    def close_spider(self, spider):
        if spider.name == 'eZsxx':
            self.f.save('company_data.xls')
            print("结束输出企业信息")


class CompanyZzPipeline(object):
    def open_spider(self, spider):
        if spider.name == 'ZsList':
            def set_style(name, height, bold=False):
                style = xlwt.XFStyle()  # 初始化样式
                font = xlwt.Font()  # 为样式创建字体
                font.name = name  # 'Times New Roman'
                font.bold = bold
                font.color_index = 4
                font.height = height
                style.font = font
                return style

            self.f = xlwt.Workbook()
            self.sheet1 = self.f.add_sheet(u'sheet1', cell_overwrite_ok=True)
            row0 = [u'公司名称 ', u'资质行业', u'证书号', u'有效期', u'发证机关', u'资质项']
            for i in range(0, len(row0)):
                self.sheet1.write(0, i, row0[i], set_style(
                    'Times New Roman', 220, True))
            self.f.save('company_zz.xls')
            print("开始输出企业资质")

    def process_item(self, item, spider):
        if spider.name == 'ZsList':
            data = xlrd.open_workbook('company_zz.xls')  # 打开Excel文件
            table = data.sheets()[0]  # 通过索引顺序获取table，因为初始化时只创建了一个table，因此索引值为0
            rowCount = table.nrows  # 获取行数，下次从这一行开始
            self.sheet1.write(rowCount, 0, item['company_name'])
            self.sheet1.write(rowCount, 1, item['zz_class'])
            self.sheet1.write(rowCount, 2, item['zz_num'])
            self.sheet1.write(rowCount, 3, item['zz_date'])
            self.sheet1.write(rowCount, 4, item['agencies'])
            self.sheet1.write(rowCount, 5, item['zz_name'])
            self.f.save('company_zz.xls')
        return item

    def close_spider(self, spider):
        if spider.name == 'ZsList':
            self.f.save('company_zz.xls')
            print("结束输出企业资质")

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
水泥质量纠纷案代理词徐宝峰律师
贵州领航建设有限公司诉贵州纳雍隆庆乌江水泥有限公司产品质量纠纷案代理词尊敬的审判长、审判员：贵州千里律师事务所接受被告贵州纳雍隆庆乌江水泥有限公司的委托，指派我担任其诉讼代理人，参加本案的诉讼活动。下面，我结合本案事实和相关法律规定发表如下代理意见，供合议庭评议案件时参考：原告应当举证证明其遭受的损失与被告生产的水泥质量的因果关系。首先水泥是一种粉状水硬性无机胶凝材料。加水搅拌后成浆体，能在空气中
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
运城寻访重逢石头纪实【严建设老照片395 集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执... 严建设
运城寻访重逢石头纪实【严建设老照片395集】我简直能把你想透，当我走进运城的时候。我已急得热汗直流，访问了十九个老头，把晋南的小城转了三周。虽然是悠久的思旧，我仍然是牛样的执拗。说什么变换的世情，泛起了过去的逝流，你就是真正的故友。踏破铁鞋的淡愁，已化为不废功夫的范畴，是就像远在天涯近在咫尺，就像是梦乡的邂逅，我紧紧地攥着你的手。你已长成了高高的个头，俊逸的容颜却很清瘦，你那样顽皮的童音，已变到老
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
把握“三度”打造“三有”干部队伍辛德瑞拉卡卡卡
“胜败兴亡之分，不得不归咎于人事也”。干部队伍建设工作的好坏，关系到党和国家的发展全局。近日，新疆维吾尔自治区党委书记马兴瑞在部分党群单位走访调研时强调，要努力培养造就忠诚干净担当的高素质专业化干部队伍。各级组织部门应当在培养选拔干部、吸收优秀青年到党内来、培养造就优秀人才上下功夫，切实增强干部投身实践、解决问题、推进工作的能力，着力打造高素质专业化干部队伍。“天生我材必有用”，增强选育有“准度”
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
【六】阿伟开始搭建Kafka学习环境能源恒观中间件学习 kafka spring
阿伟开始搭建Kafka学习环境概述上一篇文章阿伟学习了Kafka的核心概念，并且把市面上流行的消息中间件特性进行了梳理和对比，方便大家在学习过程中进行对比学习，最后梳理了一些Kafka使用中经常遇到的Kafka难题以及解决思路，经过上一篇的学习我相信大家对Kafka有了初步的认识，本篇将继续学习Kafka。一、安装和配置学习一项技术首先要搭建一套服务，而Kafka的运行主要需要部署jdk、zook
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
2022-08-28 蔚蓝一片晴
初三暑假培训收获点滴从8月25至8月27日三天两晚的培训结束了，回到家中，该静下心来整理一下触动心灵的收获，成为成长的积淀。1.在优秀团队中快速成长与提升，做一名反思成长型教师一名专业型教师的教学指导包括了教学原理知识、案例知识、策略知识。面对教学中的遇到的有趣的情形、问题会去研究其理，寻找更好的教法学法对策。从新手到成熟型教师，再走向专业型教师，需要的是觉醒与反思，多进行案例研究，从案例中观察、
不要偷走他人的声音天天_27d6
朱会利焦点讲师班五期洛阳坚持分享第634天《来访者才是主角》2018.08.02今天的中级班课堂上，老师再一次给我们强调了咨询目标的建立过程中，作为咨询师一定要明白，我们只是在协助来访者解决他自身的问题，所以一切以来访者为主，他想解决的问题才是咨询的目标。所以如果在谈话的过程中，出现了我们感觉不是我们想要的答案的时候，我们不是再极力去引导来访者按照我们的思路走，而是觉察自己的预设并且进行调整，谨言
xilinx vivado PULLMODE 设置思路坚持每天写程序 fpga开发
1.xilinx引脚分类XilinxIO的分类：以XC7A100TFGG484为例，其引脚分类如下：1.UserIO(用户IO)：用户使用的普通IO1.1专用(Dedicated)IO：命名为IO_LXXY_#、IO_XX_#的引脚，有固定的特定用途，多为底层特定功能的直接实现，如差分对信号、关键控制信号等，不能随意变更。1.2多功能(Multi-Function)IO：命名为IO_LXXY_ZZ
C语言判断回文数 Y雨何时停T c语言学习
一，回文数概念“回文”是指正读反读都能读通的句子，它是古今中外都有的一种修辞方式和文字游戏，如“我为人人，人人为我”等。在数学中也有这样一类数字有这样的特征，成为回文数。设n是一任意自然数。若将n的各位数字反向排列所得自然数n1与n相等，则称n为一回文数。例如，若n=1234321，则称n为一回文数；但若n=1234567，则n不是回文数。二，判断回文数实现思路一：数组与字符串将数字每一位按顺序放
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
好习惯和坏习惯炫舞阳光
好习惯和坏习惯文/炫舞阳光生活中有很多细节，可以体现出一个人的习惯。好的习惯让人保持清晰的头脑，坏的习惯常常让人丢东忘西，头脑混沌。生活中，我喜欢整理东西。厨房里，锅碗瓢盆各样东西我习惯各就其位。案板、勺子、铲子和刀具我习惯性的挂起来。大大小小的碗和盘子，我习惯性的立在收纳柜里。每次轮到我在家做饭时，我习惯于一边使用，一边收拾和擦拭归位。做好饭时，台面干干净净。我想把这种习惯影响和传递给家人。然而
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
5分钟说透AppStore审核原理，让你拥有上架新思路！ Q仔本人噢
在AppStore上架是越来越难了!相信非常多公司的技术人员都为此困扰，然而外包团队水平又层次不齐，容易遇坑，实在是内忧外患。是什么原因导致审核机制频繁调整？又是什么原因使得审核变得越发严格？那么接下来听小Q分解，马上给各位带来解答!首先看一下近一年的上下架的情况：近一年上架情况近一年下架情况通过数据我们发现越是马甲包产量权重高的分类里被下架的app数量越多，苹果此举可谓是上有政策，下有对策。通过
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
更改npm镜像源为淘宝镜像骆小骆基于node.js
npm常用指令后缀*最近复习了一下node.js整理了一下跟node.js相关的指令后缀*--save、-S参数意思是把模块的版本信息保存到dependencies（生产环境依赖）中，即你的package.json文件的dependencies字段中；–--save-dev、-D参数意思是把模块版本信息保存到devDependencies（开发环境依赖）中，即你的package.json文件的de
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

scrapy框架爬取建设行业数据实例（思路整理）

你可能感兴趣的:(scrapy框架爬取建设行业数据实例（思路整理）)