younger_z

大数据抓取采集框架

随着BIG DATA大数据概念逐渐升温，如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。

我们来看一下作为人是怎么获取网页数据的呢？

1、打开浏览器，输入网址url访问页面内容。
2、复制页面内容的标题、作者、内容。
3、存储到文本文件或者excel。

从技术角度来说整个过程主要为网络访问、扣取结构化数据、存储。我们看一下用java程序如何来实现这一过程。

import java.io.IOException;

import org.apache.commons.httpclient.HttpClient;

import org.apache.commons.httpclient.HttpException;

import org.apache.commons.httpclient.HttpStatus;

import org.apache.commons.httpclient.methods.GetMethod;

import org.apache.commons.lang.StringUtils;

public class HttpCrawler {

public static void main(String[] args) {

String content = null ;

try {

HttpClient httpClient = new HttpClient();

//1、网络请求

GetMethod method = new GetMethod("http://www.baidu.com" );

int statusCode = httpClient.executeMethod(method);

if (statusCode == HttpStatus. SC_OK) {

content = method.getResponseBodyAsString();

//结构化扣取

String title = StringUtils.substringBetween(content, ""</code> <code>, </code><code>"" );

//存储

System. out .println(title);

}

} catch (HttpException e) {

e.printStackTrace();

} catch (IOException e) {

e.printStackTrace();

} finally {

}

通过这个例子，我们看到通过httpclient获取数据，通过字符串操作扣取标题内容，然后通过system.out输出内容。大家是不是感觉做一个爬虫也还是蛮简单呢。这是一个基本的入门例子，我们再详细介绍怎么一步一步构建一个分布式的适用于海量数据采集的爬虫框架。

整个框架应该包含以下部分，资源管理、反监控管理、抓取管理、监控管理。看一下整个框架的架构图：

资源管理指网站分类体系、网站、网站访问url等基本资源的管理维护；
反监控管理指被访问网站（特别是社会化媒体）会禁止爬虫访问，怎么让他们不能监控到我们的访问时爬虫软件，这就是反监控机制了；

一个好的采集框架，不管我们的目标数据在哪儿，只要用户能够看到都应该能采集到。所见即所得的无阻拦式采集，无论是否需要登录的数据都能够顺利采集。现在大部分社交网站都需要登录，为了应对登录的网站要有模拟用户登录的爬虫系统，才能正常获取数据。不过社会化网站都希望自己形成一个闭环，不愿意把数据放到站外，这种系统也不会像新闻等内容那么开放的让人获取。这些社会化网站大部分会采取一些限制防止机器人爬虫系统爬取数据，一般一个账号爬取不了多久就会被检测出来被禁止访问了。那是不是我们就不能爬取这些网站的数据呢？肯定不是这样的，只要社会化网站不关闭网页访问，正常人能够访问的数据，我们也能访问。说到底就是模拟人的正常行为操作，专业一点叫“反监控”。

那一般网站会有什么限制呢？

一定时间内单IP访问次数，没有哪个人会在一段持续时间内过快访问，除非是随意的点着玩，持续时间也不会太长。可以采用大量不规则代理IP来模拟。

一定时间内单账号访问次数，这个同上，正常人不会这么操作。可以采用大量行为正常的账号，行为正常就是普通人怎么在社交网站上操作，如果一个人一天24小时都在访问一个数据接口那就有可能是机器人了。

如果能把账号和IP的访问策略控制好了，基本可以解决这个问题了。当然对方网站也会有运维会调整策略，说到底这是一个战争，躲在电脑屏幕后的敌我双方，爬虫必须要能感知到对方的反监控策略进行了调整，通知管理员及时处理。未来比较理想应该是通过机器学习算法自动完成策略调整，保证抓取不间断。

抓取管理指通过url，结合资源、反监控抓取数据并存储；我们现在大部分爬虫系统，很多都需要自己设定正则表达式，或者使用htmlparser、jsoup等软件来硬编码解决结构化抓取的问题。不过大家在做爬虫也会发现，如果爬取一个网站就去开发一个类，在规模小的时候还可以接受，如果需要抓取的网站成千上万，那我们不是要开发成百上千的类。为此我们开发了一个通用的抓取类，可以通过参数驱动内部逻辑调度。比如我们在参数里指定抓取新浪微博，抓取机器就会调度新浪微博网页扣取规则抓取节点数据，调用存储规则存储数据，不管什么类型最后都调用同一个类来处理。对于我们用户只需要设置抓取规则，相应的后续处理就交给抓取平台了。

整个抓取使用了 xpath、正则表达式、消息中间件、多线程调度框架（参考）。xpath 是一种结构化网页元素选择器，支持列表和单节点数据获取，他的好处可以支持规整网页数据抓取。我们使用的是google插件 XPath Helper，这个玩意可以支持在网页点击元素生成xpath，就省去了自己去查找xpath的功夫，也便于未来做到所点即所得的功能。正则表达式补充xpath抓取不到的数据，还可以过滤一些特殊字符。消息中间件，起到抓取任务中间转发的目的，避免抓取和各个需求方耦合。比如各个业务系统都可能抓取数据，只需要向消息中间件发送一个抓取指令，抓取平台抓完了会返回一条消息给消息中间件，业务系统在从消息中间件收到消息反馈，整个抓取完成。多线程调度框架之前提到过，我们的抓取平台不可能在同一时刻只抓一个消息的任务；也不可能无限制抓取，这样资源会耗尽，导致恶性循环。这就需要使用多线程调度框架来调度多线程任务并行抓取，并且任务的数量，保证资源的消耗正常。

不管怎么模拟总还是会有异常的，这就需要有个异常处理模块，有些网站访问一段时间需要输入验证码，如果不处理后续永远返回不了正确数据。我们需要有机制能够处理像验证码这类异常，简单就是有验证码了人为去输入，高级一些可以破解验证码识别算法实现自动输入验证码的目的。

扩展一下 ：所见即所得我们是不是真的做到？规则配置也是个重复的大任务？重复网页如何不抓取？

1、有些网站利用js生成网页内容，直接查看源代码是一堆js。可以使用mozilla、webkit等可以解析浏览器的工具包解析js、ajax，不过速度会有点慢。
2、网页里有一些css隐藏的文字。使用工具包把css隐藏文字去掉。
3、图片flash信息。如果是图片中文字识别，这个比较好处理，能够使用ocr识别文字就行，如果是flash目前只能存储整个url。
4、一个网页有多个网页结构。如果只有一套抓取规则肯定不行的，需要多个规则配合抓取。
5、html不完整，不完整就不能按照正常模式去扣取。这个时候用xpath肯定解析不了，我们可以先用htmlcleaner清洗网页后再解析。
6、如果网站多起来，规则配置这个工作量也会非常大。如何帮助系统快速生成规则呢？首先可以配置规则可以通过可视化配置，比如用户在看到的网页想对它抓取数据，只需要拉开插件点击需要的地方，规则就自动生成好了。另在量比较大的时候可视化还是不够的，可以先将类型相同的网站归类，再通过抓取的一些内容聚类，可以统计学、可视化抓取把内容扣取出几个版本给用户去纠正，最后确认的规则就是新网站的规则。这些算法后续再讲。这块再补充一下（多谢zicjin建议）：

背景：如果我们需要抓取的网站很多，那如果靠可视化配置需要耗费大量的人力，这是个成本。并且这个交给不懂html的业务去配置准确性值得考量，所以最后还是需要技术做很多事情。那我们能否通过技术手段可以帮助生成规则减少人力成本，或者帮助不懂技术的业务准确的把数据扣取下来并大量复制。

方案：先对网站分类，比如分为新闻、论坛、视频等，这一类网站的网页结构是类似的。在业务打开需要扣取的还没有录入我们规则库的网页时，他先设定这个页面的分类（当然这个也可以机器预先判断，他们来选择，这一步必须要人判断下），有了分类后，我们会通过“统计学、可视化判断”识别这一分类的字段规则，但是这个是机器识别的规则，可能不准确，机器识别完后，还需要人在判断一下。判断完成后，最后形成规则才是新网站的规则

7、对付重复的网页，如果重复抓取会浪费资源，如果不抓需要一个海量的去重判断缓存。判断抓不抓，抓了后存不存，并且这个缓存需要快速读写。常见的做法有bloomfilter、相似度聚合、分类海明距离判断。

监控管理指不管什么系统都可能出问题，如果对方服务器宕机、网页改版、更换地址等我们需要第一时间知道，这时监控系统就起到出现了问题及时发现并通知联系人。

目前这样的框架搭建起来基本可以解决大量的抓取需求了。通过界面可以管理资源、反监控规则、网页扣取规则、消息中间件状态、数据监控图表，并且可以通过后台调整资源分配并能动态更新保证抓取不断电。不过如果一个任务的处理特别大，可能需要抓取24个小时或者几天。比如我们要抓取一条微博的转发，这个转发是30w，那如果每页线性去抓取耗时肯定是非常慢了，如果能把这30w拆分很多小任务，那我们的并行计算能力就会提高很多。不得不提的就是把大型的抓取任务hadoop化，废话不说直接上图：

提到如何搭建一个社会化采集系统架构，讲架构一般都比较虚，这一篇讲一下如何实战用低成本服务器做到日流水千万级数据的分布式采集系统。

有这样一个采集系统的需求，达成指标：需要采集30万关键词的数据、微博必须在一个小时采集到、覆盖四大微博（新浪微博、腾讯微博、网易微博、搜狐微博）。为了节约客户成本，硬件为普通服务器：E5200 双核 2.5G cpu， 4 G DDR3 1333内存，硬盘 500G SATA 7200转硬盘。数据库为mysql。在这样的条件下我们能否实现这个系统目标？当然如果有更好的硬件不是这个文章阐述的内容。现通过采集、存储来说明一下如何实现：

一、采集，目标是在一个小时内把30万关键词对应的数据从四大微博采集下来，能够使用的机器配置就是上面配置的普通服务器。采集服务器对硬盘没有太多要求，属于cpu密集型运算，需耗费一些内存。评估下来硬件资源不是瓶颈，看下获取数据的接口有什么问题？

1、通过各大微博的搜索api。就比如新浪微博API针对一个服务器IP的请求次数，普通权限限制是一个小时1w次，最高权限合作授权一个小时 4w次。使用应用时还需要有足够的用户，单用户每个应用每小时访问1000次，最高权限4w次需要40个用户使用你的应用。达到30w关键词，至少需要8 个应用，如果每个关键词需要访问3页，总共需要24个合作权限的应用。实际操作我们是不可能为这个项目做到开发24个合作权限的应用，所以这个方式不是很合适。新浪微博API限制参考链接。
2、通过各大微博的最新微博收集数据，微博刚推出的时候，各大微博都有微博广场，可以把最新的微博都收集下来，然后通过分词，如果出现了30万关键词中的一个就留下，其他就丢弃掉。不过现在除了腾讯微博和搜狐微博有微博广场类似的功能，新浪微博和网易微博已经没有这项功能了。另按照新浪微博之前公布的数据，注册用户已经超过5亿，每小时超过1亿条微博，如果全量采集对数据存储是个大的考验，也需要大量的系统资源，实际采集了一亿条，也许就1000w条有用，浪费了9000w条数据的资源。
3、通过各大微博的网页搜索，可见即可抓的方式，结合反监控系统模块模拟人的正常行为操作，搜索30万关键词数据，使资源最大化利用。为了保证在一个小时采集到，需要采用分布式多线程模式抓取，并发采集。并发的时候不能从同一个ip或者同一个ip网段出去，保证对方不会监测到我们的爬虫。

我们最后采用了第三种方式，目前运行状况为通过30w关键词搜索得到的所有微博加在一起总量1000多w条每天，新浪和腾讯最多，新浪微博略胜一筹。使用了6台普通PC服务器，就算一台机器7000元，总共4万元硬件设备解决采集硬件问题。整体部署图为：

二、存储，采集下来的数据如何处理？首先存储采集数据是个密集写的操作，普通硬盘是否能够支持，mysql数据库软件能否支持，未来量突然增加如何应对？再就是评估存储空间，每天增量这么多需要耗费大量的存储资源，如何存放并且易扩展。

1、如何存储。正常来说我们上面配置的服务器，mysql使用myisam引擎一张表最多20w，使用 innodb引擎最多400w，如果超过这个数量，查询更新速度奇慢。这里我们采用一个比较取巧的做法，使用mysql的innodb存储引擎做了一层缓存库，这个缓存库有两个缓存表，每个表只存储少于300w的数据，有一张表多于300w的数据就切换到另一张表插入直到超过300w再切换回去。切换成功后，把多于300w数据的表truncate掉，记得一定要没有数据插入的时候再truncate，防止数据丢失。这里一定要用truncate，不能使用delete，因为delete需要查询，要用到索引读写，并且delete还会写数据库log耗费磁盘IO，存储空间也没有释放。truncate和 drop是操作数据库删除数据比较好的做法。由于有两个表作为数据插入表，使用数据库表的自增id并不太合适，需要一个高速的唯一自增Id服务器提供生成分布式ID。另数据库完全可以关闭写事务日志，提高性能，因为抓取的数据当时丢失再启动抓取就可以了，这样数据库可以保持在一个比较高性能的情况完成插入操作。抓取缓存表结果如图：

2、存储空间。插入后的数据需要保存下来，不能在超过300w后被truncate掉了。我们需要有个程序在达到300万时被truncate掉之前把数据同步走，存放到另外一个库上（我们叫做结果库，结果库也是使用innodb引擎）。不过我们每天采集的数据 1000多万，按天递增，mysql一张表一天就撑爆了，我们这个表不是写操作密集型，所以结果库可以存储多点数据，设定上限500w，但是500万还是存不下1000万数据。我们需要对mysql最终结果分库分表。将数据先按照时间分机器分库，再按照数据源分表，比如201301通过hash计算的数据存放在一个机器，201302通过hash计算在另一个机器。到了机器后再按照天或者半天分表，比如表名为 weibo_2013020101 、weibo_2013020112。weibo_2013020101表示2月1日上午一个表，weibo_2013020112表示2月1日下午一个表。光这样分了还是不够，1000w/2=500w，经不起压力扩展。我们还需要把表再拆分，比如weibo_2013020101 拆成 weibo_2013020101_1（新浪微博）、weibo_2013020101_2（腾讯微博）、weibo_2013020101_3（网易微博）、weibo_2013020101_4（搜狐微博）。这样一张表平均就存放 500w/4 = 125w 条数据，远远小于500w上限，还可以应对未来突发的增长。再从存储空间来算，就算一条微博数据为1k，一天 1000w*1k=10G，硬盘500G最多存放50天的数据，所以我们规划机器的时候可以挂接多一点硬盘，或者增加机器。结果库分表如图：

按照这样的架构，我们使用开源免费软件、低成本服务器搭建的千万级数据采集系统在生产运转良好。

你可能感兴趣的:(大数据抓取采集框架)

深入理解 QObject的作用 @hdd Qt qt
QObject作为Qt库中所有对象的基类，其地位无可替代。几乎Qt框架内的每一个类，无论是负责构建用户界面的QWidget，还是专注于数据处理与呈现的QAbstractItemModel，均直接或间接继承自QObject。这种继承体系赋予Qt类库高度的一致性和可扩展性，使得开发者能够基于统一的接口和特性进行开发，极大地提高了开发效率和代码的可读性。从底层实现来看，QObject内部维护了一套元数据
Python爬虫 +数据采集分析：淘宝商品评论页面数据接口代码逐梦人爬虫技能晋升路线 python 爬虫开发语言
Python爬虫+数据采集分析：淘宝商品评论页面数据接口一、引言在当今数字化商业时代，电商平台的数据蕴含着巨大的价值。淘宝作为全球知名的电商平台，其商品评论数据能反映消费者的真实反馈、偏好和需求，对于商家优化产品、制定营销策略，以及研究人员进行市场分析等都具有重要意义。然而，直接从淘宝商品评论页面采集数据并非易事，淘宝有严格的反爬机制。为了高效、合法地获取这些数据，利用数据接口是一种可行的解决方案
java后端开发day19--学生管理系统升级元亓亓亓 java后端开发 java 开发语言
（以下内容全部来自上述课程）1.要求及思路1.总体框架2.注册3.登录4.忘记密码2.代码1.javabeanpublicclassUser1{privateStringusername;privateStringpassword;privateStringpersonID;privateStringphoneNumber;publicUser1(){}publicUser1(Stringuser
实战：用Spring Boot构建电商系统中的API接口 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介1998年，在经历了无数的创新革命之后，互联网成为科技界最重要的分支之一。随着时间的推移，互联网已经成为人类信息化革命的源头。如今的电子商务网站数量达到数百亿，这些网站都具有大规模的用户群体、丰富的内容、高频的交易、海量数据等特征。电商行业近几年有了很多变革，比如大数据分析、物流管理、供应链管理、订单评价、信用卡支付等等。其中API接口开发对于电商系统而言尤其重
创新思维培养：激发团队创造力的方法 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言创新思维的重要性在当今快速变化且竞争激烈的商业环境中，创新思维已经成为企业持续发展和竞争力的关键因素。创新不仅仅体现在产品和服务上，还渗透到了管理、运营和营销等多个方面。创新思维是一种能够帮助个体和团队在既定框架内突破限制、发现问题、提出解决方案的能力。《创新思维培养：激发团队创造力的方法》这本书正是为了帮助读者理解和掌握这一关键能力而编写的。它旨在探讨创新思维的理论基础、实践应用以及培养策略
什么是 QGraphicsWidget 和 QGraphicsScene ? 七贤岭双花红棍 Qt Charts 小课堂 qt
QGraphicsWidget和QGraphicsScene是Qt框架中用于构建复杂2D图形界面的核心类，属于GraphicsViewFramework的一部分。它们提供了强大的功能来管理、显示和交互复杂的图形元素。1.QGraphicsSceneQGraphicsScene是一个场景类，用于管理多个图形项（QGraphicsItem或其子类）。它充当了一个容器，负责管理所有图形项的布局、事件处理
QChart Class Reference 七贤岭双花红棍 Qt Charts 小课堂 qt
QChart是Qt框架中用于绘制图表的类，属于QtCharts模块。它提供了一种简单而强大的方式来创建各种类型的图表，如折线图、柱状图、饼图、散点图等。QChart可以与QChartView结合使用，将图表嵌入到应用程序的GUI中。QChart的核心功能多种图表类型：支持折线图、柱状图、饼图、散点图、面积图等多种图表类型。数据管理：通过QAbstractSeries的子类（如QLineSeries
Linux云计算运维有前景吗? 老男孩IT教育 linux 服务器
伴随着云计算技术的发展，越来越多的企业和组织开始使用云服务来部署和运行他们的应用程序和服务，因此对云计算技术人才的需求量也持续增长，那么Linux云计算运维有前景吗?这应该是很多人关心的问题，我们来探讨一下。综合情况来讲，Linux云计算运维的前景非常广阔。随着云计算和大数据技术的快速发展，Linux作为云计算领域的主流操作系统，其重要性日益凸显，越来越多的企业和组织将其IT基础设施迁移上云，以提
【软考高项】【英语知识】- 21 - 单词积累 oo寻梦in记软考高项（信息系统项目管理师）软考
目录一、常见计算机技术词汇二、项目管理词汇2.1十大知识域2.2五大过程组2.349个子过程2.4工具和技术汇总2.5输入和输出汇总一、常见计算机技术词汇序号中文英文1云计算Cloudcomputing2云存储Cloudstorage3云服务Cloudservice4软件即服务SaaS5平台即服务PaaS6基础设施即服务laaS7虚拟资源Virtualresources8大数据bigdata9大数
Linux在云计算和大数据的应用有哪些 coder_wwwdy Linux linux 云计算大数据
Linux在云计算和大数据领域的应用非常广泛，主要体现在以下几个方面：1.**云计算基础设施**：-Linux操作系统因其开源、稳定和高度可定制的特性，成为云计算平台的首选操作系统。例如，AmazonWebServices(AWS)、GoogleCloudPlatform(GCP)和MicrosoftAzure等主要云服务提供商都使用Linux作为其云基础设施的基础。-Linux提供了多种发行版，
Spring有哪些缺点? java1234_小锋 java spring java 后端
大家好，我是锋哥。今天分享关于【Spring有哪些缺点?】面试题。希望对大家有帮助；Spring有哪些缺点?1000道互联网大厂Java工程师精选面试题-Java资源分享网Spring框架是一个广泛使用的企业级Java开发框架，提供了丰富的功能和强大的灵活性。然而，尽管它有很多优点，也存在一些缺点。以下是Spring的一些缺点：学习曲线陡峭：Spring框架功能非常强大，涵盖了从依赖注入、面向切面
谁掌握了体育数据的密码就是胜利者翱翔的猪脑花服务器运维前端
体育数据分析正在重塑现代竞技体育的面貌。从NBA的投篮热区图到足球比赛中的跑动距离统计，数据已经渗透到体育领域的每个角落。职业球队每年投入数百万美元用于数据分析系统的建设，教练团队中数据分析师的比例持续上升。这种转变不仅改变了球队的训练和比赛策略，更深刻地影响着体育产业的发展方向。一、数据采集：竞技体育的数字化基础现代体育数据的采集已经形成了完整的生态系统。在NBA赛场上，每块场地安装的6个追踪摄
AI如何预测比赛结果：体育预测技术全解析翱翔的猪脑花人工智能
利用人工智能技术构建一个完整的体育预测系统，涵盖数据收集、模型构建到部署应用的完整流程。一、系统架构设计1.整体架构数据采集层数据处理层模型训练层预测服务层应用展示层2.技术选型Python3.8+TensorFlow/PyTorchScikit-learnPandas/NumpyFlask/FastAPI二、数据收集与处理1.数据源集成python复制importrequestsimportpa
Linux 在云计算中的应用有哪些？我们的五年游戏实现 linux 云计算运维
目录Linux在云计算中的应用1.云计算基础设施的核心2.虚拟化技术的基础3.容器化与微服务4.大数据与人工智能5.开源生态与社区支持6.在GoogleCloud上运行Linux的优势7.边缘计算与物联网总结Linux在云计算中的应用Linux作为开源操作系统的代表，在云计算领域扮演着至关重要的角色。其灵活性、稳定性和强大的社区支持使其成为云计算基础设施的理想选择。以下是Linux在云计算中的主要
Spring Boot 整合原生的 mybatis 小马不敲代码实战 spring boot mybatis 后端
Mybatis简介MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射。MyBatis避免了几乎所有的JDBC代码和手动设置参数以及获取结果集的工作。MyBatis可以使用简单的XML或注解来配置和映射原生信息，将接口和Java的POJOs(PlainOldJavaObjects,普通的Java对象)映射成数据库中的记录。核心特点1、简化数据库操作：MyBatis通过XM
头歌答案--爬虫实战 m0_74825502 爬虫 java 前端
目录urllib爬虫?第1关：urllib基础任务描述第2关：urllib进阶?任务描述requests爬虫第1关：requests基础任务描述第2关：requests进阶任务描述网页数据解析第1关：XPath解析网页?任务描述第2关：BeautifulSoup解析网页?任务描述JSON数据解析第1关：JSON解析?任务描述爬虫实战——网页抓取及信息提取第1关：利用URL获取超文本文件并保存至本地
Svelte 最新中文文档教程（17）—— 生命周期钩子
前言Svelte，一个语法简洁、入门容易，面向未来的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目，也是我做个人项目的首选技术栈。目前Svelte基于Svelte5发布了最新的官方文档，但却缺少对应的中文
Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_79856539 javaweb 大数据 python spark
本系统基于大数据设计并实现成都地铁客流量分析系统，使用网络爬虫爬取并收集成都地铁客流量数据，运用机器学习和时间序列分析等方法，对客流量数据进行预处理和特征选择，构建客流量预测模型，利用历史数据对模型进行训练和优化，实现客流量预测模型的部署和应用，通过系统界面展示预测结果。对预测模型进行评估和验证，并提出改进方案。设计步骤使用Python语言编写爬虫程序采集数据，并对原始数据集进行预处理；使用Pyt
第二个问题-阿西莫夫三定律的理解释迦呼呼 AI一千问人工智能
阿西莫夫三定律是由科幻小说家艾萨克·阿西莫夫提出的机器人伦理准则，旨在确保机器人（或人工智能，AI）在与人类互动时，优先保护人类的安全和利益。这三个定律分别是：机器人不得伤害人类，或坐视人类受到伤害。机器人必须服从人类的命令，除非这些命令与第一定律相冲突。机器人必须保护自己，除非这种保护与前两个定律相冲突。以下从几个方面详细探讨如何理解这一定律：1.阿西莫夫三定律的本质：伦理框架而非技术规范阿西莫
2025最新网站怎么引蜘蛛？引蜘蛛全攻略 OG站长工具箱 RTHHIMY 百度搜索引擎
网站引蜘蛛全攻略：提升收录与排名的关键技巧在竞争激烈的互联网世界中，网站若想获得更多的流量和曝光，被搜索引擎蜘蛛频繁抓取是关键。下面为大家详细介绍网站引蜘蛛的多种有效方法。优化网站结构创建清晰的目录结构：采用扁平式目录结构，尽量减少页面层级，让搜索引擎蜘蛛能够轻松地遍历网站的各个页面。例如，将重要内容放置在网站根目录或仅一级子目录下，方便蜘蛛快速定位。合理设置内部链接：内部链接就像网站的“高速公路
PHP爬虫实战：如何抓取网页表格数据数据小爬虫.网站开发-Brad php 爬虫开发语言
随着互联网和大数据时代的到来，越来越多的数据可以被收集和利用。而在众多从网页上获取数据的方法中，爬虫技术可以说是最为强大和高效的一种。在实际的应用场景中，我们经常需要从网页中抓取特定的数据，尤其是网页中的表格数据。因此，本文将介绍如何使用PHP爬虫技术来获取并解析网页中的表格数据。1、安装和配置PHP爬虫库在开始编写爬虫代码之前，我们需要先安装和配置一个PHP爬虫库。这里我们选择使用PHPSimp
大语言模型：从开发到运行的深度解构 nbsaas-boot 语言模型人工智能自然语言处理
一、LLM开发训练的全流程解析1.数据工程的炼金术数据采集：构建涵盖网页文本（CommonCrawl）、书籍、论文、代码等领域的超大规模语料库，典型规模可达数十TB。例如GPT-4的训练数据包含超过13万亿token数据清洗：通过质量过滤（去除低质内容）、去重（MinHash算法）、毒性检测（NSFW内容识别）等步骤构建高质量数据集数据增强：引入代码数据提升逻辑性（如GitHub代码）、多语言数据
Svelte 最新中文文档翻译（11）—— 动画相关语法 transition、in、out、animate 冴羽yayujs Svelte 中文文档前端 vue.js 前端框架 vue react.js 动画
前言Svelte，一个非常“有趣”、用起来“很爽”的前端框架。从Svelte诞生之初，就备受开发者的喜爱，根据统计，从2019年到2024年，连续6年一直是开发者最感兴趣的前端框架No.1：Svelte以其独特的编译时优化机制著称，具有轻量级、高性能、易上手等特性，非常适合构建轻量级Web项目，也是我做个人项目的首选技术栈。目前Svelte基于Svelte5发布了最新的官方文档，但却缺少对应的中文
生物可穿戴产品需要采集和监测哪些番茄老夫子人工智能
健康状态监测生理指标：包括心率、呼吸频率、体温等基础生理参数。例如，通过心率传感器实时监测动物的心跳，正常成年犬的心率在60-120次/分钟，若超出这个范围，可能提示动物存在健康问题，如心脏病、感染等；呼吸频率也是重要指标，犬的正常呼吸频率为10-30次/分钟，呼吸频率异常加快或减慢，可能与呼吸系统疾病、疼痛等有关；体温监测同样关键，猫狗的正常体温一般在37.5℃-39℃之间，体温异常往往是疾病的
研发IT规划与实施监理咨询_IPD研发项目体系管理咨询深圳科新咨询经验分享
咨询内容概览：从PDM到PLMPLM是一种技术辅助策略，它把跨越业务流程和不同用户群体的那些单点应用集成起来➢PDM（产品数据管理）➢CPD（协同产品设计）➢PPM（产品组合管理）➢CNM（客户需求管理）IT规划参考模型比较看点01引言伴随社会信息化进程加快、社会化媒体涌现、大数据时代来临及IT技术进步，各类组织逐步意识到IT技术及信息资源重要性并将其作为核心竞争力和重要资产，纷纷加大信息化投资并
Java高级开发所具知识技能码代码的小仙女 java知识高级开发必备技能 java 开发语言
以下是Java高级开发整理的知识技能，其中涵盖核心技术、框架、分布式架构、性能优化等关键领域：一、Java核心进阶JVM深度理解内存模型（堆、栈、方法区）垃圾回收算法（CMS、G1、ZGC）类加载机制与字节码增强JVM调优工具（jstat、jmap、VisualVM、Arthas）并发编程线程池（ThreadPoolExecutor、ForkJoinPool）锁机制（synchronized、Re
多线程处理大数据量数据码代码的小仙女 java知识
最近公司需要一个新的需求，需要一个接口去跑数据。数据量还蛮大的，大约50-60万数据（一条一条执行），其中还涉及到与其他接口的交互，因此这些数据跑下来要耗时很久，因此设计了一个方案，使用多线程的方式进行处理。方案1每次重数据库表中取一定量的数据（自己按实际情况定义）放在线程池缓存队列里，启动10个线程去线程池里去取数据。（相当于生产者和消费者的关系），这里需要有一个触发点，当我缓存里没有数据时，需
银行业务建模之三级模型 fajianchen IT架构系统设计架构设计数据模型金融科技
三级模型描述三级模型的建立意味着流程模型框架的确定，同时流程模型所具有的关键特性也能显现出来，本标准三级模型映射到“活动”。三级模型体现了流程模型价值驱动的特征。每个活动代表一段业务流程，具有明确的业务目的。三级模型体现了流程模型企业级的特征。每个活动代表着为外部客户或利益相关方等创造的价值。三级模型体现了流程模型标准化的特征。标准化的流程是可衡量的、可评价的、可共用的、标准的、灵活的流程。这样的
Spring MVC 与 Spring Boot：从“手动挡”到“自动驾驶”的进化论，兼谈前后端分离的哲学月落星还在 springBoot spring mvc spring boot 云原生
引言：当“造轮子”成为一门艺术在Java开发者的世界里，Spring框架就像空气一样无处不在。但你是否想过：为什么我们需要SpringBoot？为什么在“前后端分离”大行其道的今天，SpringMVC依然活跃在舞台上？这背后不仅是技术的迭代，更是一场关于开发效率与架构哲学的深刻博弈。让我们抛开教科书式的定义，用一场“时空穿越”的视角，重新审视这两个框架的恩怨情仇。第一章SpringMVC：那个“手
Python 微服务架构详解奔向理想的星辰大海技术研发架构 python 微服务
Python凭借其简洁易读的语法和强大的库生态系统成为实现微服务的受欢迎选择。本文将详细介绍如何使用Python开发微服务，包括选择框架、创建服务、通信机制以及服务发现等关键方面，并提供充足示例。选择微服务框架Python生态系统中有多个轻量级的框架可以用于构建微服务，例如Flask、FastAPI和Nameko。FlaskFlask是一个极简的Web框架，适合作为构建微服务的起点。它的轻量级和灵
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要