网络数据杂谈

网络代理的选择以及使用解决方案分享

企业对非结构性数据的需求成指数增长，采集互联网公开数据也是获取非结构数据的常见的方式之一，而若想有效解决地域问题和风控问题导致的数据获取失败，代理IP是进行规模采集时不可或缺的一部分。

本文会对某知名公司的代理产品做一个测评，测评会对业内常见的代理IP解决方案做一个分析和对比，然后详细介绍某知名公司的不同类型的代理IP，以及与同类型的其他代理公司做一个简单的对比，为有代理需求的企业和个人提供一些参考和帮助。

常见的代理IP解决方案

1.公开免费代理IP

方案一：收集互联网上某些站点定期提供的免费代理IP来使用。这种方案唯一优点就是免费。缺点也显而易见，首先是IP质量和稳定性差，原因是使用的人太多；其次是IP数量较少，无法满足一定规模的采集。因此这种方案只适用于个人简单测试而已，无法用于生产环境。

2.自建代理IP

方案二：自己购买服务器、公网IP来搭建代理IP池。有些企业会选择这种方案来构建代理服务，这种方案的优点就是服务的稳定性、规模都是自己来掌控，可以根据自己的需求扩缩容。缺点就是搭建和维护成本极高，需要有大量的服务器和公网IP资源支撑，维护成本也是极高的，还有比较关键的一点就是一般企业掌握的公网IP都是数据中心的IP，使用这些IP去采集风控比较严格的平台，一般都是禁止访问的。

3.购买第三方代理IP服务

方案三：购买第三方代理服务。目前市面上有很多能提供代理IP服务的厂商，企业可以选择直接购买他们的服务，这种方式相对比较直接，无需搭建、维护代理相关的服务，直接拿来用即可，这种方案也是我比较推荐的一种。但由于可以提供服务的厂商太多了，往往令企业和用户不知道如何选择，这里有个小建议，就是在选择购买代理前先向厂商要一个测试，然后自己使用这些测试代理IP去做一个全面的测试，大致评估：不重复代理IP数量的量级、代理访问成功率、代理地域分布等，这样我们就能很清楚的了解这个代理服务的规模、质量到底如何，而不是盲目听信广告或销售所描述的虚假信息。

三种方案对比总结：

对比项	公开免费代理IP	自建代理IP	第三方代理IP服务
稳定性	较差	较为稳定	取决于代理服务商
规模化	无法规模化	可规模化，但成本极高	取决于代理服务商
易维护性	易维护	运维难度高、成本高	一般都易维护
服务商选型	无	无	服务商众多，选择困难
成本	免费	规模越大成本越高	取决于代理服务商

我个人以及企业都更倾向于使用知名厂商的代理产品，毕竟大厂商在各个方面都是有保障的，对于个人来讲按需使用成本也是可控的，而对于企业则节省了大量人力、硬件成本。

某知名公司的代理解决方案

接下来我们来介绍下亮数据 Bright Data的代理解决方案，亮数据 Bright Data目前有四种类型的代理IP，分别是：数据中心IP、静态住宅IP、动态住宅IP、移动端IP。不同类型的IP可以满足不同业务场景的需要，我们一一来看一下这几种类型的IP有什么不同。

1.数据中心IP

所谓数据中心IP就是在各个数据中心网络下构建的代理IP，这些IP比较固定，由于是在数据中心环境下构建的，因此服务的稳定性、响应速度比较有保障，但缺点就是爬取一些风控较高的平台可能会受限，被平台标记为风险IP，导致无法访问，所以这种IP适用于采集风控较低的平台，而且价格相对比较低廉。亮数据 Bright Data的数据中心IP量级大概在70万左右，而且支持共享模式和独享模式，共享就是大家同时共用一个IP池子，独享就是在你租用代理IP期间，别人无法使用。

2.静态住宅IP

静态住宅IP是由ISP，也就是运营商直接提供的IP，跟我们向运营商购买家庭宽带服务所提供的IP是一样的，这种IP对于目标采集平台来讲，是比较可信的IP，不像数据中心IP特征那么明显；还有这种IP是静态的，一般不会频繁变更，综上所述该IP适用的场景就是需要小规模且固定的ISP IP（隐匿性较高）的场景；此类型代理不太适用于需要大量IP的场景，因为此类型的IP量比较小，亮数据 Bright Data的静态住宅IP量级大概在10万左右，也支持共享模式和独享模式。

3.动态住宅IP

动态住宅IP是由大量真实家庭宽带IP构建的代理网络，一些家庭会选择将自己购买的宽带共享出去以赚取一定的报酬，比如有些家庭白天都在上班，家庭的宽带都是空闲的，因此可以选择白天将宽带IP共享出去。这种IP的真实性非常高，因为家庭成员肯定都有访问常见的网站、app等，也就是大概率被平台标记为真实用户，加上IP的数量非常庞大，因此这种类型的IP被风控的概率会非常低，适用于采集风控高的平台。但是这种类型的IP也有它的缺点，就是这种IP不稳定，不能固定使用，就像刚才说的，能不能用，什么时候能用取决于这个IP的主人所采用的共享策略，所以对于一些需要固定IP的场景，比如需要用户登录的场景就不适用，因此一旦登录，那么平台就知道你的身份了，这时如果来回切换IP，则可能会触发风控。目前亮数据 Bright Data动态住宅IP的量级已经达到了7200万。

4.移动端IP

所谓移动端IP就是我们常用的3G/4G/5G网络产生的IP，这些IP有一个特点就是被目标采集平台风控的概率是所有类型IP中最低的，那么为什么呢？原因是这些IP是由各个地方的基站产生的，也就是只有在某个基站附近的用户才会被分配到那个基站所产生的IP，也就是平台无法根据IP去封禁，因为IP哪个用户都有可能被分配到，如果封了，很可能影响其他正常用户，所以平台一般不会针对移动端IP去做限制，因此这种类型的IP适用于风控较严格的平台。亮数据 Bright Data移动端IP数量级大概在400万左右。

5.该知名公司的代理的优缺点

首先说说优点，第一，亮数据 Bright Data是全球最大的代理IP网络，拥有的IP数量极其庞大，赢得了很多评测机构评选的最大代理商的头衔，而且IP分布在全球各地，所以很适合采集全球化的平台，如亚马逊、eBay、谷歌等。

第二，支持丰富的代理IP类型，多种类型能支撑不同场景、不同平台的数据采集，同时也能灵活定制采集策略，比如优先使用数据中心IP（成本低），当遇到风控时再使用住宅IP、移动端IP，这样能有效节省成本。

第三，代理IP质量和稳定性都很优秀，经测试，访问Amazon、Google、eBay、Youtube，代理访问成功率都能达到90%以上，响应时间平均也都在5秒以内。

第四，安全合法，亮数据 Bright Data所掌握的住宅IP都是经过用户授权的，且允许采集的目标平台都是需要经过审核的，因此企业可以放心使用。

再说说缺点，第一，价格偏贵，尤其是采集数据量比较大的场景，因为代理是按流量付费的，要是长期使用的话成本确实不小，所以这一点企业要做好评估，看是否在预算范围内。

第二，官方文档不够完善，虽然亮数据 Bright Data官方有较为全面的FAQ，但普遍内容比较浅，缺乏深入的使用教程和场景用例，这对于想深入使用的用户比较不友好。

该知名公司的代理使用示例

在亮数据 Bright Data管理后台创建代理通道，选择你想使用的代理类型：

进行代理通道配置：

获取代理的信息：

调用代理，这里使用python3示例代码：

import urllib.request

opener = urllib.request.build_opener(
    # 设置请求代理，zone-后面为创建的代理通道名称,xxx为用户和密码信息
    urllib.request.ProxyHandler(
        {'http': 'http://xxx-zone-residential:[email protected]:22225',
        'https': 'http://xxx-zone-residential:[email protected]:22225'}
        )
    )
# 发起请求并读取数据进行打印
print(opener.open('http://lumtest.com/myip.json').read())

执行结果：

代理API除了支持上述的基本调用外，还支持自选代理IP国家、选择超级代理类型、DNS解析策略等，而且可以在管理后台选择好参数，自动生成对应的API：

还有一个需要注意的点，如果你是中国用户，那么超级代理要选择CN super proxy，不然可能会出现访问失败的问题。

可以看到整体的代理使用还是简单易上手的。

接下来再通过一个采集google的案例，比较一下数据中心IP和住宅IP的使用效果。

采集案例

这次我们将 Bright Data代理集成到Scrapy爬虫框架上使用。首先我们通过开发一个Scrapy的下载器中间件，来调用Bright Data代理：

from w3lib.http import basic_auth_header

  
class BrightProxyMiddleware(object):
    download_timeout = 60

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler.settings)

    def __init__(self, settings):
          # 实例化时从爬虫配置文件中获取代理信息
        self.proxy_url = settings.get('PROXY_URL')
        self.proxy_user = settings.get('PROXY_USER')
        self.proxy_pass = settings.get('PROXY_PASSWORD')

    def process_request(self, request, spider):
          # 请求体中设置配置的代理，实现代理调用
        request.meta['proxy'] = self.proxy_url
        request.headers['Proxy-Authorization'] = basic_auth_header(self.proxy_user, self.proxy_pass)
        request.meta['download_timeout'] = self.download_timeout

接下来我们在爬虫类里通过custom_settings指定代理和中间件的配置，这里我们先尝试使用数据中心IP：

class SerpSpider(scrapy.Spider):
    # 爬虫名称
    name = 'google'
    # 配置
    custom_settings = {
        'PROXY_URL': 'http://zproxy.lum-superproxy.io:22225',
        # 使用数据中心IP
        'PROXY_USER': 'brd-customer-xxxxxx-zone-data_center',
        'PROXY_PASSWORD': 'xxxxxxx',
        # 指定代理中间件
        'DOWNLOADER_MIDDLEWARES': {
            'brightdata.middlewares.BrightProxyMiddleware': 350
        },
    }

    def start_requests(self):
        # 请求google 100次
        url = 'https://www.google.com.hk/search?q=pizza'
        for i in range(100):
            yield scrapy.Request(url=url, meta={"index": i}, callback=self.parse, dont_filter=True)

    def parse(self, response):
        index = response.meta["index"]
        # 将返回的html存放到文件中
        with open(f'google_{index}.html', 'w') as file:
            file.write(response.text)

执行爬虫：

$ scrapy crawl google

执行完后，查看下载下来的文件，可以看到100个页面只下载下来了18个：

通过日志可以看到基本都被反爬了：

接下来我们切换动态代理IP试试，只需改变custom_settings的PROXY_USER和PROXY_PASSWORD即可：

custom_settings = {
        'PROXY_URL': 'http://zproxy.lum-superproxy.io:22225',
        # 使用动态住宅IP
        'PROXY_USER': 'brd-customer-xxxxx-zone-residential',
        'PROXY_PASSWORD': 'xxxxx',
        'DOWNLOADER_MIDDLEWARES': {
            'brightdata.middlewares.BrightProxyMiddleware': 350
        },

再执行爬虫看效果：

可以看到这次100个页面都下载下来了，而且查看html页面也都是成功页面。

从这个案例中我们可以看到住宅IP在采集风控比较严格的平台google时，表现比数据中心IP好很多，因此我们在选用代理IP时一定要根据自己的业务场景以及平台的风控等级来选择合适的代理IP，这样才能高效的获取数据。

总结

最后对各个代理IP解决方案的不同维度打了个分，仅代表个人看法：

评价项	BD数据中心IP	BD静态住宅IP	BD动态住宅IP	BD移动端IP	自建代理	公开免费代理
代理IP数量	★★★☆☆	★★☆☆☆	★★★★★	★★★☆☆	★★☆☆☆	☆☆☆☆☆
代理IP分布	★★★☆☆	★★☆☆☆	★★★★★	★★★☆☆	★★☆☆☆	☆☆☆☆☆
代理IP响应速度	★★★★★	★★★★☆	★★★☆☆	★★★★☆	★★★★★	☆☆☆☆☆
代理IP可用率	★★★★★	★★★★★	★★★★☆	★★★★☆	★★★★★	☆☆☆☆☆
抗风控能力	★★☆☆☆	★★★★★	★★★★★	★★★★★	★★☆☆☆	☆☆☆☆☆
易用性	★★★★★	★★★★★	★★★★★	★★★★★	★★★★☆	★★☆☆☆
价格	★★★☆☆	★☆☆☆☆	★★☆☆☆	★☆☆☆☆	★☆☆☆☆	★★★★★

亮数据Bright Data价格的竞争力较低是事实，但是在个人和企业使用代理IP的时候需要考虑的不仅是价格的问题，所谓贪小便宜误大事，就比如某911悄无声息的消失之后，使用其代理的简直是哀鸿遍野一片，这样的事情肯定谁都不希望遇到。因此在选择代理的时候，尤其目的是商用，更应该注重质量，效率，成功率等等。

技术革命、需求升级与商业生态迭代——基于开源AI大模型与智能商业范式的创新研究说私域人工智能开源小程序微信零售
摘要：本文以技术哲学与商业生态系统理论为分析框架，通过质性研究与案例分析法，系统阐释第三次与第四次科技革命如何通过技术范式创新引发用户需求跃迁，进而驱动商业生态系统的结构性变革。研究聚焦开源AI大模型、AI智能名片、S2B2C商城及小程序源码等前沿技术工具，解构其如何重构"技术赋权-需求进化-商业物种爆发"的价值传导链条。研究发现：技术革命通过创造新需求空间、重构价值网络拓扑结构、降低创新参与门槛
Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
CVE - 2016 - 6628 漏洞复现：深入剖析及实战演示 Waitccy 网络安全网络安全 java
CVE-2016-6628漏洞复现：深入剖析及实战演示一、引言在网络安全领域，漏洞复现是理解和应对安全威胁的重要手段。CVE-2016-6628是一个影响广泛的严重漏洞，它主要存在于某些版本的Android系统中，攻击者可利用此漏洞通过特制的应用程序获取敏感信息、执行任意代码等，给用户带来极大的安全风险。本文将详细介绍CVE-2016-6628漏洞的背景、原理，并进行完整的漏洞复现过程，帮助读者更
Redis Sentinel（哨兵模式）高可用性解决方案 π大星星️ redis sentinel git
一、概述RedisSentinel（哨兵模式）是Redis的高可用性（HighAvailability,HA）解决方案，它通过哨兵系统和Redis实例的协同工作，确保了Redis服务的高可用性和数据的持久性。哨兵系统由一个或多个哨兵进程组成，这些进程负责监控主从Redis服务器，并在主服务器出现故障时进行自动故障转移。二、主要功能监控哨兵系统会持续监控所有主从Redis服务器，以及哨兵系统自身的状
【猫狗分类】Pytorch VGG16 实现猫狗分类1-数据清洗+制作标签文件努力的小巴掌 pytorch分类项目 pytorch 分类人工智能
Pytorch猫狗分类用Pytorch框架，实现分类问题，好像是学习了一些基础知识后的一个小项目阶段，通过这个分类问题，可以知道整个pytorch的工作流程是什么，会了一个分类，那就可以解决其他的分类问题，当然了，其实最重要的还是，了解她的核心是怎么工作的。那首先，我们的第一个项目，就做猫狗的分类。声明：整个数据和代码来自于b站，链接：使用pytorch框架手把手教你利用VGG16网络编写猫狗分类
【ol-cesium】OpenLayers与Cesium的二三维联动不爱赖床的懒虫笔记前端 vue cesium openlayers 二三维联动
OpenLayers与Cesium的二三维联动本文主要介绍OpenLayers与Cesium二三维联动的实现过程，以及在实现的过程中所遇到的问题以及解决方法。研究二三维联动的动机是需要开发基于GeoServer地图服务器的地理场景可视化系统，其中涉及到对服务器中地理数据的展示与交互部分，同时在三维场景中展示数字高程与地表影像信息。地理场景可视化系统我后续也会站看介绍，感兴趣的读者可以关注我后续的博
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
【AI 天才研究院】从 MoE 架构到 AGI：DeepSeek 将给未来带来哪些影响？ AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型人工智能架构 agi DeepSeek
关键技术创新DeepSeek的成本优势主要源于以下几个方面的技术创新：混合专家（MoE）架构：通过选择性激活特定专家网络，大幅降低了计算成本。具体而言，DeepSeekMoE架构实现了：仅用大约40%的计算量，便达到了与LLaMA2-7B差不多的效果。这种选择性激活的方式大大提高了模型的参数效率，从而在保持高性能的同时，也能在计算资源的使用上保持高效。FP8低精度训练：DeepSeek采用了FP8
Swift高效解法！一文搞懂 LeetCode 236「二叉树的最近公共祖先」，助你快速拿下面试！网罗开发 Swift swift leetcode 面试
摘要最近公共祖先（LCA，LowestCommonAncestor）在二叉树、二叉搜索树（BST）等数据结构中有广泛应用，比如权限管理、网络路由、基因分析等。今天我们用Swift来解LeetCode236：「二叉树的最近公共祖先」，不仅会给出代码，还会分析它的时间复杂度、空间复杂度，并结合实际场景聊聊它的应用。问题描述给定一个二叉树，找到两个节点的最近公共祖先（LCA）。LCA的定义：“对于两个节
Android的Camera架构介绍 live123 android Android JNI UI C#C++
第一部分Camera概述Android的Camera包含取景器（viewfinder）和拍摄照片的功能。目前Android发布版的Camera程序虽然功能比较简单，但是其程序的架构分成客户端和服务器两个部分，它们建立在Android的进程间通讯Binder的结构上。以开源的Android为例，Camera的代码主要在以下的目录中：Camera的JAVA程序的路径：packages/apps/Cam
深入探索C++：从基础到高级 c++
深入探索C++：从基础到高级一、C++简介C++是一种通用的、静态类型的、大小写敏感的、自由格式的编程语言，支持过程化编程、面向对象编程和泛型编程。它最初由BjarneStroustrup在1980年代设计，目的是在C语言的基础上增加面向对象的功能。C++广泛应用于系统/应用程序软件、游戏开发、高性能服务器和客户端应用等领域。二、C++的核心特性（一）数据类型C++提供了丰富的数据类型，包括基本数
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
“大国品牌”建设全面启动，工业电商生态加速成型人工智能
3月17日，AMT企源与中国工业互联网研究院（简称“工联院”）于北京、上海两地同步举行“大国品牌”电商平台项目启动仪式。工联院相关领导和负责人，AMT企源团队负责人、项目经理和项目骨干，共同出席本次启动仪式。工联院成立于2018年，是工业和信息化部直属的科研机构，承担工业互联网相关的发展战略、规划、政策、标准研究，网络、平台、安全体系建设，国际交流与合作等工作。为落实品牌强国战略，加速优质品牌的培
C/C++学习路线概述 DustWind丶 C/C++c++
根据如下视频和文章总结：想做C语言/C++开发?这些才是你该学的东西！C语言/C++直通企业级开发的详细学习路线节选：肝了半个月，我整理出了这篇嵌入式开发学习学习路线+知识点梳理目录1C/C++学习概述1.1C语言的基础知识1.2C++的基础知识2C/C++编程学习四大件2.1数据结构和算法2.2操作系统2.3计算机网络2.3.1计算机网络分层2.3.2典型协议（以TCP/IP四层模型举例）2.4
SSRF 攻击与防御：从原理到落地实践花千树-010 架构设计网络安全运维容器网络安全 docker
1.什么是SSRF？SSRF（Server-SideRequestForgery）是一种常见的Web安全漏洞。当服务器提供了某种对外请求的功能，如“URL参数直接转发请求”，攻击者就可以通过精心构造的URL，让服务器“自己”去访问特定的地址，从而达到以下目的：扫描内网：探测企业内网中未暴露在公网的资产，如数据库、私有API等。获取云元数据：例如访问http://169.254.169.254/la
域名如何绑定服务我真的不想做程序员 java java 后端开发语言服务器阿里云容器
目录一、理解域名与Java服务之间的关系二、DNS解析三、配置DNS记录四、Java服务的配置1.部署Java应用2.配置反向代理五、DNS解析六、验证绑定是否成功七、代码示例八、总结在现代网络应用中，域名和Java服务的绑定是实现用户友好访问和后台服务的关键步骤。本文将详细介绍这一过程，包括DNS解析、反向代理以及Java服务的配置，最后会展示代码示例和视觉化流程图。一、理解域名与Java服务之
Profinet转ModbusTCP网关模块连发那科机器人与DCS通讯 BA_TU_AUTO_TECH Profinet转Modbus TCP网关 Modbus TCP转Profinet网关服务器网络
一、现场要求：发那科机器人作为服务器端，DCS作为客户端向发那科机器人发送读写请求，发那科机器人应答后DCS接收发那科机器人的数据，实现数据的传递。二、解决方案：在不增加编程任务的前提下只需在DCS与机器人中间添加巴图自动化Profinet转ModbusTCP网关（BT-ETHPN20）就可实现。本文将介绍如何使用巴图自动化Profinet转ModbusTCP网关（BT-ETHPN20）配置通讯三
基于kylin-v10安装docker 神奇侠2024 redis kylin 大数据 docker
1、下载地址Indexoflinux/static/stable/x86_64/2、下载docker-24.0.5.tgz.tar版本3、上传服务器解压tarxvfdocker-24.0.5.tgz.tar4、解压的docker拷贝或移动到/usr/bin/目录下cpdocker/*/usr/bin/5、编写docker.service文件加入Linux服务当中并开启守护进程vi/etc/syst
fork客户端mac使用教程 xtyzmnchen fork
1:安装fork:https://git-fork.com/2:登录账户,gitlab或者github账户3:克隆:复制服务器地址clone到本地4:gitfetch：相当于是从远程获取最新版本到本地，不会自动mergegitfetchoriginmastergitlog-pmaster..origin/mastergitmergeorigin/master以上命令的含义：首先从远程的origin
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
路由交换技术——多私网下NAPT、FTP服务公网映射配置的实验「J1e」网络网络协议 tcp/ip
网络地址转换（NAT）技术概述1.定义与背景网络地址转换（NetworkAddressTranslation,NAT）是一种在IP数据包传输过程中修改源或目标IP地址及端口的技术，主要用于解决IPv4地址短缺问题。随着互联网设备激增，NAT通过允许多个设备共享单一公网IP地址，显著延缓了IPv4地址耗尽的速度。2.工作原理NAT的核心是通过中间设备（如路由器、防火墙）建立内网私有地址与外网公有地址
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
弱网测试究竟要怎么做，才能防止漏测？学掌门 IT 软件测试程序员软件测试软件测试工程师
1、为什么要进行弱网测试？在游戏测试–黑盒测试中，分为功能测试与专项测试，在上几篇文章中说的都是功能测试，而专项测试主要包括弱网和性能测试。（其实弱网也是性能的一种。）功能测试主要是保证功能的完整性，能让玩家能够流程的体验整个游戏功能，而弱网测试就是其中需要关注的异常点。首先我们知道现在的网络场景一般是无网络2g3g4g和wifi，以及即将要到来的5g。弱网当然就包括无网、2g，3g不知道算不算，
bp抓IOS的包仙女很美哦 http udp https websocket 网络安全网络协议 tcp/ip
抓包工具的原理与使用指南一、抓包工具的原理抓包工具的核心原理是通过代理设置，使得浏览器访问请求经过抓包工具，再转发到服务器。具体流程如下：访问流程：浏览器>>抓包工具>>服务器响应流程：服务器>>抓包工具>>浏览器1.HTTP数据的抓包HTTP协议本身是明文传输的，因此抓包工具可以直接捕获并解析这些数据。2.HTTPS数据的抓包HTTPS协议在传输过程中是加密的，因此抓包工具需要模拟服务端和客户端
一个比Fiddler/Charles更好用的免费抓包神器金丝猴也是猿 http udp https websocket 网络安全网络协议 tcp/ip
Proxyman与Sniffmaster：抓包工具的双剑合璧在当今的网络开发与调试中，抓包工具是不可或缺的利器。无论是前端开发者、后端工程师，还是安全研究人员，都需要通过抓包工具来分析网络请求、调试接口、排查问题。今天，我们将介绍两款强大的抓包工具：Proxyman和Sniffmaster，它们各自拥有独特的功能，能够帮助你在不同的场景下高效完成工作。Proxyman简介Slogan：只是简单地点
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
如何提升 API 性能：来自 Java 和测试开发者的优化建议
你正在听你最喜欢的歌曲，测试你使用编写的新API。但等你听完一整首歌，API还没响应。哎呀！这是一个巨大的警告信号——是时候优化你的API响应时间了。让我们深入了解一些加速方法，让你的API跟你最喜欢的吉他独奏一样快。为什么API响应时间很重要想想看：API响应时间就是你的应用程序与服务器之间的对话速度。它响应得越快，用户就会越开心。API慢=用户沮丧，API快=用户高兴。所以，让我们解决那些延迟
《代码与灯影：一个互联网“搬砖者”的十六小时马拉松》
清晨6:30，手机闹钟第三次震动时，王昊的手指在黑暗中摸索着按下"稍后提醒"。枕边充电器散发的微光里，他瞥见钉钉群里跳动的99+未读消息——昨夜两点部署的自动化脚本还在生产环境报错。一、困顿清晨：在咖啡因里开机7:15，地铁早高峰的人流像被编译失败的代码，在闸机口不断堆栈溢出。他缩在车厢角落，用手机查看凌晨的服务器监控日志，突然发现某个API接口响应时间突破2000ms。"这得在晨会上重点提...
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默