费弗里

（数据科学学习手札47）基于Python的网络数据采集实战（2）

一、简介

　　马上大四了，最近在暑期实习，在数据挖掘的主业之外，也帮助同事做了很多网络数据采集的内容，接下来的数篇文章就将一一罗列出来，来续写几个月前开的这个网络数据采集实战的坑。

二、马蜂窝评论数据采集实战

2.1 数据要求

　　这次我们需要采集的数据是知名旅游网站马蜂窝下重庆区域内所有景点的用户评论数据，如下图所示：

　　思路是，先获取所有景点的poi ID，即每一个景点主页url地址中的唯一数字：

这一步和（数据科学学习手札33）基于Python的网络数据采集实战（1）中做法类似，即在下述界面：

翻页抓取对应每个景点poi ID的部分即可：

比较简单，这里不再赘述，最终整理成数据框，景点名和poi ID一一对应。

　　接着根据得到的poi ID，再对每一个景点下的评论数据分别进行采集，但和之前遇到的最简单的静态网页不同，这里的评论数据是有js控制的，即当我们在景点页面内点击评论区块的下一页按钮，界面会刷新并显示下一页的评论内容，但浏览器url栏中的url地址并无改变，这就需要用更深入的方式来获取评论区域数据的真实url地址。

2.2 目标url地址的获取

　　以洪崖洞页面为例，点击页面内的蜂蜂点评进入评论内容区域：

当我们点击评论数据区域下方的下一页时，评论内容翻页刷新，但浏览器地址栏中的url地址并没有发生改变：

这时我们就需要找到控制评论数据区域的真实请求地址，在浏览器中按下F12，打开开发者工具，点击network项：

选择JS，这时可以发现下面并无内容，因为这里只会记录打开开发者工具后页面内新增的内容，这时我们点击评论区域下方的后一页按钮，随着界面内容的更新，下方network中随即出现了如下内容：

这就是请求评论区域内容的真实url地址，点击它，进入如下内容：

至此，我们便找到了控制评论区域发起请求的真实地址和相关属性，接下来我们先提取一下这些内容中我们需要的部分，为正式的采集做好准备；

2.3 伪装浏览器

　　要伪装浏览器，我们需要将上图中的Request Headers下除了cookies的内容复制下来，整理成一个叫做headers的字典如下（其中起关键作用的是User-Agent，其他的可以不记录）：

再将Request Headers下的cookies中由;分隔的内容同样整理成一个叫做cookies的字典如下：

这两个参数我们会在requests包中的get方法中传入，接下来我们来观察翻页请求url的规律；

2.4 探索url规律

　　我们找到下列内容中红圈指示的地方：

上面红圈中的内容是当前评论区域发起请求的真实url地址，下面红圈的内容是在当前url中的关键参数，很明显，params是一个字典，其中poi_id顾名思义即为当前景点（洪崖洞）对应的poi ID，page对应的则是当前评论内容所在的页数，just_comment这个参数我观察到在任何页中都不变，这里我们让它持续为1即可。

2.5 测试

　　了解到上述内容后，结合当前的url地址，可以得到下列替换规则：

http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApicallback=jQuery181042269431321668516_1534601996232¶ms=%7B%22poi_id%22%3A%226653%22%2C%22page%22%3A2%2C%22just_comment%22%3A1%7D&_=1534602025986

只需要控制红色区域内容的替换，我们即可实现对评论内容资源的请求，下面我们来做个测试，这里以解放碑（对应poi ID 1690）下第13页评论为例，按照上述规则，我们将网址分成素材和实时参数两部分，下面的url即为通过拼接最终得到的url地址：

url_left = 'http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18109093089574473625_1532513669920¶ms=%7B%22poi_id%22%3A%22'
url_middle = '%22%2C%22page%22%3A'
url_right = '%2C%22just_comment%22%3A1%7D&_=1532513718986'

url = url_left+'1690'+url_middle+'13'+url_right

我们在Python中进行测试，对上述url地址发起请求：

import requests


#设置请求头文件
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36',
    'Accept':'*/*',
    'Accept-Encoding':'gzip, deflate',
    'Accept-Language':'zh-CN,zh;q=0.9',
    'Connection':'keep-alive',
    'Referer':'http://www.mafengwo.cn/poi/6653.html'
}

#设置cookies
cookie = {
    'PHPSESSID':'1nivct21bumab1adia6i7k1a82',
    'mfw_uuid':'5b583768-bf26-19ea-0187-96a00686bd4d',
    'uva':'s%3A78%3A%22a%3A3%3A%7Bs%3A2%3A%22lt%22%3Bi%3A1532508009%3Bs%3A10%3A%22last_refer%22%3Bs%3A6%3A%22direct%22%3Bs%3A5%3A%22rhost%22%3Bs%3A0%3A%22%22%3B%7D%22%3B',
    '__mfwurd':'a%3A3%3A%7Bs%3A6%3A%22f_time%22%3Bi%3A1532508009%3Bs%3A9%3A%22f_rdomain%22%3Bs%3A0%3A%22%22%3Bs%3A6%3A%22f_host%22%3Bs%3A3%3A%22www%22%3B%7D',
    '__mfwuuid':'5b583768-bf26-19ea-0187-96a00686bd4d',
    'UM_distinctid':'164d0987902bb2-0bb3f4e59cf01f-3e3d560e-1fa400-164d098790328c',
    'oad_n':'a%3A3%3A%7Bs%3A3%3A%22oid%22%3Bi%3A1029%3Bs%3A2%3A%22dm%22%3Bs%3A15%3A%22www.mafengwo.cn%22%3Bs%3A2%3A%22ft%22%3Bs%3A19%3A%222018-07-25+16%3A40%3A08%22%3B%7D',
    '__mfwlv':'1532508009',
    '__mfwvn':'1',
    '__mfwlt':'1532508103'

}
url_left = 'http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18109093089574473625_1532513669920¶ms=%7B%22poi_id%22%3A%22'
url_middle = '%22%2C%22page%22%3A'
url_right = '%2C%22just_comment%22%3A1%7D&_=1532513718986'

url = url_left+'1690'+url_middle+'13'+url_right
r = requests.get(url=url, headers=headers, cookies=cookie)

得到网页内容如下：

这里的网页内容还未经过转码，这里我们使用下述方式转码，并将\替换为空字符：

'''对相应的网页内容进行转码'''
html = r.content.decode('unicode-escape').replace('\\','')

得到html为：

可以看到，需要的中文内容已经提取完毕，接下来我们需要做的是对我们感兴趣的内容进行提取,，这里我们感兴趣的是每条评论的文本内容、评分以及评论时间，这里使用正则表达式来提取：

import re
from bs4 import BeautifulSoup

obj = BeautifulSoup(html,'lxml')

# # '''利用findAll定位目标标签及其属性并返回其字符形式结果'''
text = list(obj.findAll('p', {'class': "rev-txt"}))
star = list(obj.findAll('span'))
Time = list(obj.findAll('span', {'class': "time"}))

#将每一条评论对应的内容提取出来
control = 0
for m in range(len(star)):
    try:
        if 'star' in str(star[m]):
            '''设置不同的正则规则来提取目标内容'''
            print(re.findall('[0-5]+', str(star[m]))[0])
            print(re.sub('[a-zA-Z="\-<> \/\n\r]+', '', str(text[control])))
            print(re.findall('<.*?>(.*?)<.*?>',str(Time[control]))[0])
            control += 1
    except Exception as e:
        print('error')

通过上面的测试，我们成功获取到该测试页内的所需内容，下面附上完整采集的代码，只是加上一些错误处理机制、随机暂停防ban机制和一些保存数据的内容：

2.6 完整的采集程序

　　正式采集部分沿用前面测试中的思想，具体代码如下：

'''这个脚本用于对JS脚本控制翻页的动态网页进行爬取'''

import requests
import time
import random
from bs4 import BeautifulSoup
import re
import json
import pandas as pd


#设置请求头文件
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36',
    'Accept':'*/*',
    'Accept-Encoding':'gzip, deflate',
    'Accept-Language':'zh-CN,zh;q=0.9',
    'Connection':'keep-alive',
    'Referer':'http://www.mafengwo.cn/poi/6653.html'
}

#设置cookies
cookie = {
    'PHPSESSID':'1nivct21bumab1adia6i7k1a82',
    'mfw_uuid':'5b583768-bf26-19ea-0187-96a00686bd4d',
    'uva':'s%3A78%3A%22a%3A3%3A%7Bs%3A2%3A%22lt%22%3Bi%3A1532508009%3Bs%3A10%3A%22last_refer%22%3Bs%3A6%3A%22direct%22%3Bs%3A5%3A%22rhost%22%3Bs%3A0%3A%22%22%3B%7D%22%3B',
    '__mfwurd':'a%3A3%3A%7Bs%3A6%3A%22f_time%22%3Bi%3A1532508009%3Bs%3A9%3A%22f_rdomain%22%3Bs%3A0%3A%22%22%3Bs%3A6%3A%22f_host%22%3Bs%3A3%3A%22www%22%3B%7D',
    '__mfwuuid':'5b583768-bf26-19ea-0187-96a00686bd4d',
    'UM_distinctid':'164d0987902bb2-0bb3f4e59cf01f-3e3d560e-1fa400-164d098790328c',
    'oad_n':'a%3A3%3A%7Bs%3A3%3A%22oid%22%3Bi%3A1029%3Bs%3A2%3A%22dm%22%3Bs%3A15%3A%22www.mafengwo.cn%22%3Bs%3A2%3A%22ft%22%3Bs%3A19%3A%222018-07-25+16%3A40%3A08%22%3B%7D',
    '__mfwlv':'1532508009',
    '__mfwvn':'1',
    '__mfwlt':'1532508103'

}

'''JS脚本发起的真实的网址请求对应的网址内容模板（及除去几个动态参数之外的死板的url内容）'''
url_left = 'http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18109093089574473625_1532513669920¶ms=%7B%22poi_id%22%3A%22'
url_middle = '%22%2C%22page%22%3A'
url_right = '%2C%22just_comment%22%3A1%7D&_=1532513718986'


data = pd.read_excel(r'C:\Users\windows\Desktop\summer_project\GIS\data\马蜂窝重庆景点评论数据（2018-7-26采集）\chongqing_scene.xlsx')

'''读入poi_id数据以在循环中进行url的构建'''

Q = {}
poi_id_list = []
scene_name = []
for key,value in zip(data['id'],data['景点名称']):
    Q[str(key)] = str(value)
    poi_id_list.append(str(key))
    scene_name.append(value)


comment = []
S = []
id = []
t = []

count = 1
for i in poi_id_list:
    print('{}采集开始'.format(Q[i]))

    '''构造包含poi_id内容的url前半部分内容'''
    url_first = url_left+i+url_middle
    for j in range(1,10000):
        try:
            '''构造包含翻页信息的完整url内容'''
            url_first = url_left + i + url_middle
            url = url_first + str(j) + url_right

            '''向构造好的真实网页发起请求'''
            r = requests.get(url=url, headers=headers, cookies=cookie)

            '''对相应的网页内容进行转码'''
            html = r.content.decode('unicode-escape')

            '''判断当前景点所有有效评论页面是否已被爬取完成'''
            if '暂无内容' in str(html):
                print('本景点评论数据已被爬完！')
                break
            else:
                '''将网页内容中的单\替换成空'''
                html = html.replace('\\', '')
                '''利用bs4对网页内容进行CSS解析'''
                obj = BeautifulSoup(html, 'lxml')

                # # '''利用findAll定位目标标签及其属性并返回其字符形式结果'''
                text = list(obj.findAll('p', {'class': "rev-txt"}))
                star = list(obj.findAll('span'))
                Time = list(obj.findAll('span', {'class': "time"}))

                '''设置一个复杂周密的错误处理机制以防止长时间爬虫任务中可能出现的各种错误中断任务主体'''
                control = 0
                for m in range(len(star)):
                    try:
                        if 'star' in str(star[m]):
                            '''设置不同的正则规则来提取目标内容'''
                            token = re.findall('[0-5]+', str(star[m]))[0]
                            comment.append(re.sub('[a-zA-Z="\-<> \/\n\r]+', '', str(text[control])))
                            t.append(re.findall('<.*?>(.*?)<.*?>',str(Time[control]))[0])
                            S.append(int(token))
                            id.append(i)
                            print('-'*100)
                            print('总第{}条评论被采集'.format(str(count)))
                            print('-' * 100)
                            count += 1
                            control += 1
                        else:
                            pass
                    except Exception as e:
                        pass

            '''设置随机睡眠机制以防止被ban'''
            print('='*100)
            print('{}的'.format(Q[i]),'第{}页被采集完'.format(str(j)))
            print('=' *100)
            time.sleep(random.randint(2,4))
        except Exception as e:
            pass
    print('{}采集结束'.format(Q[i]))



'''写出数据到数据框'''
df = pd.DataFrame({'id':id,
                   'comment':comment,
                   'S':S,
                   'Time':t})

df.to_excel('raw_data.xlsx',index=False)

运行结果：

最终得到的评论数据集格式如下：

　　以上就是关于本文的全部内容，如有不解之处，望指出。

CentOS下安装Nginx的详细步骤翻晒时光 nginx nginx centos linux
安装步骤：1、下载Nginx安装包wgethttp://nginx.org/download/nginx-1.27.0.tar.gz2、解压Nginx压缩包tarzxvfnginx-1.27.0.tar.gz3、进入Nginx目录下cd/nginx/nginx-1.27.04、配置安装运行目录./configure--prefix=/usr/local/nginx5、出现如下错误需要安装依赖包yu
vue 前端显示图片加token_手摸手，带你用vue撸后台系列二(登录权限篇) weixin_39562579 vue 前端显示图片加token vue本地存储 vue编辑页面和新增
完整项目地址：vue-element-adminhttps://github.com/PanJiaChen/vue-element-admin前言拖更有点严重，过了半个月才写了第二篇教程。无奈自己是一个业务猿，每天被我司的产品虐的死去活来，之前又病了一下休息了几天，大家见谅。进入正题，做后台项目区别于做其它的项目，权限验证与安全性是非常重要的，可以说是一个后台项目一开始就必须考虑和搭建的基础核心功
vs2019安装ironpython_选择并安装 Python 解释器 - Visual Studio | Microsoft Docs weixin_39861905
安装Python解释器InstallPythoninterpreters06/05/2019本文内容默认情况下，在VisualStudio2017和更高版本中安装Python开发工作负载也会同时安装Python3(64位)。Bydefault,installingthePythondevelopmentworkloadinVisualStudio2017andlateralsoinstallsPy
pex无人守护安装linux系统脚本 weixin_33800463
linux系统安装大体分为两个阶段1，anaconda阶段（anaconda程序借助linux内核和initrd文件实现），也称配置阶段在这个阶段是安装配置阶段，配置语言，键盘，等信息。同时boot提示符下能够向内核传递参数.2,安装阶段.安装前脚本配置安装软件包阶段安装后脚本配置...........................................................
支持向量机图像分类matlab,基于支持向量机的图像分类.MATLAB 流光微言支持向量机图像分类matlab
【实例简介】基于支持向量机的图像分类.MATLAB【实例截图】【核心代码】基于支持向量机的图像分类├──code.zip├──pictures│├──car││├──car10.jpg││├──car11.jpg││├──car12.jpg││├──car13.jpg││├──car14.jpg││├──car15.jpg││├──car16.jpg││├──car17.jpg││├──car18
Python打包和部署利器:Pex ivwdcwso 开发运维 python 开发语言开发
在Python项目开发中,如何高效地打包和部署代码一直是一个挑战。传统的方式需要在目标环境中预先安装所有依赖,非常繁琐。而Pex则为我们提供了一种更简单、更可靠的解决方案。一、Pex是什么?Pex的核心在于.pex文件,这是一种自包含的Python可执行环境。它类似于virtualenv,但更轻量、更易于部署。.pex文件包含了你的Python代码、依赖库以及运行所需的Python解释器(可选)。
Android外接USB扫码枪云启软件 Android原生 android
前言公司的设备以前接入的都是串口的扫码头，优点是直接通过串口读取流里面的数据就OK了，缺点是你需要知道每一款扫码器的型号以获取波特率及Android设备的串口地址。因为现在usb扫码器越来越方便且即插即用，不需要额外供电以及价格便宜等特点，公司以后开发的设备都打算采用usb扫码器。所以我开始尝试接入usb扫码器，下面就是我在接入时的方法以及遇到的一些问题。1.USB扫码器接入前面我有说过，usb扫
Python Flask中集成SQLAlchemy和Flask-Login ivwdcwso 开发 flask python 后端 web 开发
在现代Web应用开发中,数据库和用户认证是两个非常重要的功能。Flask作为一个轻量级的PythonWeb框架,本身只提供了最基本的Web功能。但是,它可以通过集成各种优秀的扩展库来增强功能。本文将介绍如何在Flask应用中集成SQLAlchemy(数据库)和Flask-Login(用户认证),并提供一个完整的示例供参考。©ivwdcwso(ID:u012172506)准备工作安装Python确保
论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》 StriveQueen 自然语言处理机器学习论文阅读笔记算法神经网络机器学习 Transformer
1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco
C/C++传递变参回调函数的使用 tiger1334
#includeint(*fp)(inta,intb);intadd(inta,intb){return(a+b);}intsub(inta,intb){return(a-b);}intcaller(int(*fp)(inta,intb),intm,intn){returnfp(m,n);//这里如何传递不同的参数？}intmain(void){inti=0;fp=add;i=caller(fp,
el-tree，父节点的复选框不显示 timoingff 前端 javascript html
对父节点的选择框禁用关键代码：computed:{defaultProps(){return{children:'children',label:'label',disabled:(data,node)=>{//isDir-判断是否为父节点returndata&&data.isDir}}}}//取消禁用样式/deep/[aria-disabled=true]>.el-tree-node__cont
1-C# 对象和类型（随笔）坐在墙上的猫 C#and Halcon
1-C#对象和类型（随笔）1.只读字段2.匿名类型3.结构3.1结构是值类型3.2结构和继承3.3结构的构造函数4.弱引用5.部分类6.静态类7.Object类7.1System.Object()方法8.扩展方法1.只读字段适用场景：需要一些变量，它的值在运行时不应改变，但在运行之前是未知的。readonly关键字比const灵活，允许把一个字段设置为常量，但是需要对其初始值进行确认。其规则是可以
Vite + Vue3 + TS项目配置前置路由守卫洛*璃 Vue.js vue.js 前端 javascript Vue-Router Pinia typescript
在现代前端开发中，使用Vue3和TypeScript的组合是一种流行且高效的开发方式。Vite是一个极速的构建工具，可以显著提升开发体验。本文博主将指导你如何在Vite+Vue3+TypeScript项目中配置前置路由守卫（NavigationGuards）。前置条件在开始配置项目前置路由守卫前，博主希望你能够先达成以下前置条件：1.完成Vue3前端项目搭建:Vite创建Vue3+TS项目2.引入
代码随想录1.25 我会非常幸运代码随想录跟练记录哈希算法散列表算法数据结构 c++力扣
文章目录哈希表理论242.有效的字母异位词349.两个数组的交集202.快乐数1.两数之和哈希表理论什么时候使用哈希法，当我们需要查询一个元素是否出现过，或者一个元素是否在集合里的时候，就要第一时间想到哈希法。哈希表结构：数组，集合，映射数组就是简单的哈希表，但是数组的大小可不是无限开辟的哈希函数哈希碰撞（拉链法、线性探测法）242.有效的字母异位词就是将字母映射到record数组中，数组的位置记
python程序发钉钉消息乌11111 python
参考：使用python通过接口方式发送钉钉消息分两步：1.在钉钉群---智能群助手里添加机器人，拿到webhook链接，设置关键词。2.写python代码，用requests请求接口的方式。参考代码和实现结果如下。#python发钉钉消息importjson,requestsdefsendDing(msg):dingding_url='https://oapi.dingtalk.com/robot
Python支持向量机（SVM）算法：面向对象的实现与案例详解闲人编程进阶算法案例支持向量机算法 python 深度学习数据分析
目录Python支持向量机（SVM）算法：面向对象的实现与案例详解引言一、支持向量机算法概述1.1支持向量机的基本思想1.2SVM的分类问题1.3SVM的优化目标二、面向对象的SVM实现2.1类的设计2.2Python代码实现2.3代码详解三、案例分析3.1案例一：鸢尾花分类问题描述数据准备模型训练与预测输出结果3.2案例二：手写数字识别问题描述数据准备模型训练与预测输出结果四、SVM的优化与核方
基于AT32(STM32)单片机的模块化代码之——按键代码模块化大白哦单片机 c语言案例项目开发
基于AT32(STM32)单片机的模块化代码之按键模块化1.环境介绍平台：AT32F415单片机，雅特力公司的AT32系列单片机其实跟STM32系列单片机大同小异，包括库函数等基本都是一样的，所以这款代码无论是AT32还是STM32都是适用的。开发环境：MDKV5forarm简介：最近做项目经常用得到按键模块，包括按键扫描，按键长按，短按，组合按的判定，所以特地把按键模块做了整理，让其模块化更加好
《随笔二》——C#中的“readonly 修饰符、” To-String C#中的随笔 readonly关键字 c#
readonly修饰符namespaceCh05Ex03{classRandomNum{constintcc=200;//const字段只可以在字段的声明语句中初始化readonlydoubleaa=3.14;//提供初始值readonlyintbb;//未提供readonlystaticintdd;//静态的readonly字段，必须在静态构造函数中初始化publicRandomNum(doub
字符串算法笔记骑狗看夕阳算法笔记算法笔记
字符串笔记说到字符串，首先我们要注意的就是字符串的输入以及输出，因为字符串的输入格式以及要求也分为很多种，我们就来说几个比较常见的格式getsgetsgets我们先来说这个函数的含义ÿ
学习TypeScript（一）家里有只小肥猫学习 typescript javascript
Ts静态类型可以直接在编译器进行类型检查js动态类型在代码执行期的时候才会进行类型检查好处优势程序中任何位置的代码都会有错误提示，避免浪费时间提高维护性让代码重构更容易只需要修改类型就可以全局安装打开cmd电脑全局安装npmi-gtypescript检查是否安装成功tsc-vTypeScript入门教程1.安装TypeScriptnpminstall-gtypescript2.创建TypeScri
初识内嵌iframe 家里有只小肥猫 iframe vue 前端
iframe的基本介绍与使用介绍iframe（内嵌框架）是HTML中一种用于将一个网页嵌入到另一个网页中的标签，它可以在一个页面中显示来自其他页面的内容。在网页中，使用标签可以将一个网页嵌套在另一个网页中，实现网页间的互联互通。基础使用标签的基本用法如下：例如：属性除了src属性，还可以使用其他属性来设置iframe的行为和样式，如allow、allowfullscreen、class、frame
组会20220616 m0_61799349 研究生组会深度学习计算机视觉神经网络
安装、使用Ubuntu系统花费了一定的时间2.看结肠镜息肉检测的论文wang.改进DeepLabv3+网络的肠道息肉分割方法[J].计算机科学与探索.2020.14(7):1673-9418Jhaetal.,"ResUNet++:AnAdvancedArchitectureforMedicalImageSegmentation,"2019IEEEInternationalSymposiumonMu
el-table表格单行表头 Is无糖 vue.js 前端 javascript
最近开发项目遇到一个订单列表展示的需要在每一行表头上进行订单的某些操作和数据展示如图：表格一般我都是使用elementui的el-table正常使用肯定是不能满足这个效果想了想也是有点思绪便做了一个demo记录一下效果图：父组件代码:importchilTabelfrom'./components/chilTable.vue';exportdefault{data(){return{tableDa
.NET 7迁移后OutOfMemoryException的解决之旅 t0_54coder 编程问题解决手册个人开发
引言最近，我们将应用从.NET5升级到了.NET7，并将UI框架从标准MVC升级到了Vue3。升级后，一切看起来都运行良好，但仅仅一周后，我们开始遇到了令人困惑的System.OutOfMemoryException。这些异常出现在代码库的不同、看似无关的部分，而这些部分并不总是处理大量数据。这篇博客将详细记录我们如何解决这些内存异常的问题。问题描述在迁移到.NET7后，我们开始频繁地看到Syst
.NET CORE消息队列RabbitMQ 精神小伙就是猛 .netcore rabbitmq 分布式
目录1.消息队列概述2.消息队列的特点及应用场景3.RabbitMQ3.1初始RabbitMQ3.2Docker安装RabbitMQ3.3RabbitMQ中的六大队列模式3.3.1简单队列模式3.3.2工作队列3.3.3发布订阅3.3.4路由模式3.3.5主题模式3.3.6RPC模式3.4RabbitMQ-消息确认模式3.4.1消息确认机制是什么？为什么需要消息确认？3.4.2生产者消息确认模式3
Vue2.0+ElementUI实现查询条件展开和收起功能组件热忱1128 elementui 前端 javascript
一、需求el-form如果查询条件过多，影响页面的展示效果。查询条件表单是我们系统中非常常见的功能，我们需要把它封装成一个通用的组件，方便在系统开发中提升开发效率。除了在实现基本查询条件的功能上，还需要实现多条件的折叠和展开功能二、效果图三、代码示例封装查询条件表单组件SearchButton.vue查询重置{{word}}exportdefault{props:{showAll:{type:Bo
JHipster入门 - 生成单体架构的应用 yorkwu1977 软件工程架构
JHipster入门-生成单体架构的应用目标准备工作生成基础功能输入指令开始问答环节问答环节结束，开始自动生成基础功能代码生成业务功能输入指令开始问答环节问答环节结束，开始自动生成业务功能代码调试启动启动后端服务启动前端服务访问前端页面打包启动构建启动访问前端页面关于数据库交给JHipster自己启动目标30分钟内生成一个开箱即用的单体架构应用。生成SpringBoot后端代码和Vue前端代码。基
PEX: Python Executable魔力工具箱史艾岭
PEX:PythonExecutable魔力工具箱pexAtoolforgenerating.pex(PythonEXecutable)files,lockfilesandvenvs.项目地址:https://gitcode.com/gh_mirrors/pe/pex项目基础介绍及主要编程语言PEX（PythonEXecutable）是Pantsbuild团队维护的一个强大开源项目，致力于简化Py
U-Net 生物医学图像分割开源项目介绍祝珺月
U-Net生物医学图像分割开源项目介绍unetU-NetBiomedicalImageSegmentation项目地址:https://gitcode.com/gh_mirrors/une/unet1.项目基础介绍及主要编程语言U-Net是由IntelAI开发的一个生物医学图像分割的开源项目。该项目基于TensorFlow和Keras框架，使用Python语言编写，旨在为医学图像分析提供高效的解决
PEX 开源项目教程束静研Kody
PEX开源项目教程pexPexisajavascript3dlibrary/engineallowingforseamlessdevelopmentbetweenPlaskandWebGLinthebrowser.项目地址:https://gitcode.com/gh_mirrors/pex/pex项目介绍PEX（PolyethyleneExchange）是一个基于高密度聚乙烯（HDPE）的管道和
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

（数据科学学习手札47）基于Python的网络数据采集实战（2）

你可能感兴趣的:(（数据科学学习手札47）基于Python的网络数据采集实战（2）)