基于 Node.js 的声明式可监控爬虫网络从属于笔者的,记述了笔者重构我司简单爬虫过程中构建简单的爬虫框架的思想与实现,代码参考这里
基于 Node.js 的声明式可监控爬虫网络
爬虫是数据抓取的重要手段之一,而以 Scrapy、Crawler4j、Nutch 为代表的开源框架能够帮我们快速构建分布式爬虫系统;就笔者浅见,我们在开发大规模爬虫系统时可能会面临以下挑战:
网页抓取:最简单的抓取就是使用 HTTPClient 或者 fetch 或者 request 这样的 HTTP 客户端。现在随着单页应用这样富客户端应用的流行,我们可以使用 Selenium、PhantomJS 这样的 Headless Brwoser 来动态执行脚本进行渲染。
网页解析:对于网页内容的抽取与解析是个很麻烦的问题,DOM4j、Cherrio、beautifulsoup 这些为我们提供了基本的解析功能。笔者也尝试过构建全配置型的爬虫,类似于 Web-Scraper,然而还是输给了复杂多变,多层嵌套的 iFrame 页面。这里笔者秉持代码即配置的理念,对于使用配置来声明的内建复杂度比较低,但是对于那些业务复杂度较高的网页,整体复杂度会以几何倍数增长。而使用代码来声明其内建复杂度与门槛相对较高,但是能较好地处理业务复杂度较高的网页。笔者在构思未来的交互式爬虫生成界面时,也是希望借鉴 FaaS 的思路,直接使用代码声明整个解析流程,而不是使用配置。
反爬虫对抗:类似于淘宝这样的主流网站基本上都有反爬虫机制,它们会对于请求频次、请求地址、请求行为与目标的连贯性等多个维度进行分析,从而判断请求者是爬虫还是真实用户。我们常见的方式就是使用多 IP 或者多代理来避免同一源的频繁请求,或者可以借鉴 GAN 或者增强学习的思路,让爬虫自动地针对目标网站的反爬虫策略进行自我升级与改造。另一个常见的反爬虫方式就是验证码,从最初的混淆图片到现在常见的拖动式验证码都是不小的障碍,我们可以使用图片中文字提取、模拟用户行为等方式来尝试绕过。
分布式调度:单机的吞吐量和性能总是有瓶颈的,而分布式爬虫与其他分布式系统一样,需要考虑分布式治理、数据一致性、任务调度等多个方面的问题。笔者个人的感觉是应该将爬虫的工作节点尽可能地无状态化,以 Redis 或者 Consul 这样的能保证高可用性的中心存储存放整个爬虫集群的状态。
在线有价值页面预判:Google 经典的 PageRank 能够基于网络中的连接信息判断某个 URL 的有价值程度,从而优先索引或者抓取有价值的页面。而像 Anthelion 这样的智能解析工具能够基于之前的页面提取内容的有价值程度来预判某个 URL 是否有抓取的必要。
页面内容提取与存储:对于网页中的结构化或者非结构化的内容实体提取是自然语言处理中的常见任务之一,而自动从海量数据中提取出有意义的内容也涉及到机器学习、大数据处理等多个领域的知识。我们可以使用 Hadoop MapReduce、Spark、Flink 等离线或者流式计算引擎来处理海量数据,使用词嵌入、主题模型、LSTM 等等机器学习技术来分析文本,可以使用 HBase、ElasticSearch 来存储或者对文本建立索引。
笔者本意并非想重新造个轮子,不过在改造我司某个简单的命令式爬虫的过程中发现,很多的调度与监控操作应该交由框架完成。Node.js 在开发大规模分布式应用程序的一致性(JavaScript 的不规范)与性能可能不如 Java 或者 Go。但是正如笔者在上文中提及,JavaScript 的优势在于能够通过同构代码同时运行在客户端与服务端,那么未来对于解析这一步完全可以在客户端调试完毕然后直接将代码运行在服务端,这对于构建灵活多变的解析可能有一定意义。
总而言之,我只是想有一个可扩展、能监控、简单易用的爬虫框架,所以我快速撸了一个 declarative-crawler,目前只是处于原型阶段,尚未发布到 npm 中;希望有兴趣的大大不吝赐教,特别是发现了有同类型的框架可以吱一声,我看看能不能拿来主义,多多学习。
设计思想与架构概览
当笔者几年前编写第一个爬虫时,整体思路是典型的命令式编程,即先抓取再解析,最后持久化存储,就如下述代码:
await fetchListAndContentThenIndex(
'jsgc',
section.name,
section.menuCode,
section.category
).then(() => {
}).catch(error => {
console.log(error);
});
不过就好像笔者在 2016-我的前端之路:工具化与工程化 与 2015-我的前端之路:数据流驱动的界面 中讨论的,命令式编程相较于声明式编程耦合度更高,可测试性与可控性更低;就好像从 jQuery 切换到 React、Angular、Vue.js 这样的框架,我们应该尽可能将业务之外的事情交由工具,交由框架去管理与解决,这样也会方便我们进行自定义地监控。总结而言,笔者的设计思想主要包含以下几点:
关注点分离,整个架构分为了爬虫调度 CrawlerScheduler、Crawler、Spider、dcEmitter、Store、KoaServer、MonitorUI 等几个部分,尽可能地分离职责。
声明式编程,每个蜘蛛的生命周期包含抓取、抽取、解析与持久化存储这几个部分;开发者应该独立地声明这几个部分,而完整的调用与调度应该由框架去完成。
分层独立可测试,以爬虫的生命周期为例,抽取与解析应当声明为纯函数,而抓取与持久化存储更多的是面向业务,可以进行 Mock 或者包含副作用进行测试。
整个爬虫网络架构如下所示,目前全部代码参考这里。
自定义蜘蛛与爬虫
我们以抓取某个在线列表与详情页为例,首先我们需要针对两个页面构建蜘蛛,注意,每个蜘蛛负责针对某个 URL 进行抓取与解析,用户应该首先编写列表爬虫,其需要声明 model 属性、复写 before_extract、parse 与 persist 方法,各个方法会被串行调用。另一个需要注意的是,我们爬虫可能会外部传入一些配置信息,统一的声明在了 extra 属性内,这样在持久化时也能用到。
type ExtraType = {
module?: string,
name?: string,
menuCode?: string,
category?: string
};
export default class UAListSpider extends Spider {
displayName = "通用公告列表蜘蛛";
extra: ExtraType = {};
model = {
$announcements: 'tr[height="25"]'
};
constructor(extra: ExtraType) {
super();
this.extra = extra;
}
before_extract(pageHTML: string) {
return pageHTML.replace(//gim, " ");
}
parse(pageElements: Object) {
let announcements = [];
let announcementsLength = pageElements.$announcements.length;
for (let i = 0; i < announcementsLength; i++) {
let $announcement = $(pageElements.$announcements[i]);
let $a = $announcement.find("a");
let title = $a.text();
let href = $a.attr("href");
let date = $announcement.find('td[align="right"]').text();
announcements.push({ title: title, date: date, href: href });
}
return announcements;
}
/**
* @function 对采集到的数据进行持久化更新
* @param pageObject
*/
async persist(announcements): Promise {
let flag = true;
// 这里每个 URL 对应一个公告数组
for (let announcement of announcements) {
try {
await insertOrUpdateAnnouncement({
...this.extra,
...announcement,
infoID: href2infoID(announcement.href)
});
} catch (err) {
flag = false;
}
}
return flag;
}
}
我们可以针对这个蜘蛛进行单独测试,这里使用 Jest。注意,这里为了方便描述没有对抽取、解析等进行单元测试,在大型项目中我们是建议要加上这些纯函数的测试用例。
var expect = require("chai").expect;
import UAListSpider from "../../src/universal_announcements/UAListSpider.js";
let uaListSpider: UAListSpider = new UAListSpider({
module: "jsgc",
name: "房建市政招标公告-服务类",
menuCode: "001001/001001001/00100100100",
category: "1"
}).setRequest(
"http://ggzy.njzwfw.gov.cn/njggzy/jsgc/001001/001001001/001001001001/?Paging=1",
{}
);
test("抓取公共列表", async () => {
let announcements = await uaListSpider.run(false);
expect(announcements, "返回数据为列表并且长度大于10").to.have.length.above(2);
});
test("抓取公共列表 并且进行持久化操作", async () => {
let announcements = await uaListSpider.run(true);
expect(announcements, "返回数据为列表并且长度大于10").to.have.length.above(2);
});
同理,我们可以定义对于详情页的蜘蛛:
export default class UAContentSpider extends Spider {
displayName = "通用公告内容蜘蛛";
model = {
// 标题
$title: "#tblInfo #tdTitle b",
// 时间
$time: "#tblInfo #tdTitle font",
// 内容
$content: "#tblInfo #TDContent"
};
parse(pageElements: Object) {
...
}
async persist(announcement: Object) {
...
}
}
在定义完蜘蛛之后,我们可以定义负责爬取整个系列任务的 Crawler,注意,Spider 仅负责爬取单个页面,而分页等操作是由 Crawler 进行:
/**
* @function 通用的爬虫
*/
export default class UACrawler extends Crawler {
displayName = "通用公告爬虫";
/**
* @构造函数
* @param config
* @param extra
*/
constructor(extra: ExtraType) {
super();
extra && (this.extra = extra);
}
initialize() {
// 构建所有的爬虫
let requests = [];
for (let i = startPage; i < endPage + 1; i++) {
requests.push(
buildRequest({
...this.extra,
page: i
})
);
}
this.setRequests(requests)
.setSpider(new UAListSpider(this.extra))
.transform(announcements => {
if (!Array.isArray(announcements)) {
throw new Error("爬虫连接失败!");
}
return announcements.map(announcement => ({
url: `http://ggzy.njzwfw.gov.cn/${announcement.href}`
}));
})
.setSpider(new UAContentSpider(this.extra));
}
}
一个 Crawler 最关键的就是 initialize 函数,需要在其中完成爬虫的初始化。首先我们需要构造所有的种子链接,这里既是多个列表页;然后通过 setSpider 方法加入对应的蜘蛛。不同蜘蛛之间通过自定义的 Transformer 函数来从上一个结果中抽取出所需要的链接传入到下一个蜘蛛中。至此我们爬虫网络的关键组件定义完毕。
本地运行
定义完 Crawler 之后,我们可以通过将爬虫注册到 CrawlerScheduler 来运行爬虫:
const crawlerScheduler: CrawlerScheduler = new CrawlerScheduler();
let uaCrawler = new UACrawler({
module: "jsgc",
name: "房建市政招标公告-服务类",
menuCode: "001001/001001001/00100100100",
category: "1"
});
crawlerScheduler.register(uaCrawler);
dcEmitter.on("StoreChange", () => {
console.log("-----------" + new Date() + "-----------");
console.log(store.crawlerStatisticsMap);
});
crawlerScheduler.run().then(() => {});
这里的 dcEmitter 是整个状态的中转站,如果选择使用本地运行,可以自己监听 dcEmitter 中的事件:
-----------Wed Apr 19 2017 22:12:54 GMT+0800 (CST)-----------
{ UACrawler:
CrawlerStatistics {
isRunning: true,
spiderStatisticsList: { UAListSpider: [Object], UAContentSpider: [Object] },
instance:
UACrawler {
name: 'UACrawler',
displayName: '通用公告爬虫',
spiders: [Object],
transforms: [Object],
requests: [Object],
isRunning: true,
extra: [Object] },
lastStartTime: 2017-04-19T14:12:51.373Z } }
服务端运行
我们也可以以服务的方式运行爬虫:
const crawlerScheduler: CrawlerScheduler = new CrawlerScheduler();
let uaCrawler = new UACrawler({
module: "jsgc",
name: "房建市政招标公告-服务类",
menuCode: "001001/001001001/00100100100",
category: "1"
});
crawlerScheduler.register(uaCrawler);
new CrawlerServer(crawlerScheduler).run().then(()=>{},(error)=>{console.log(error)});
此时会启动框架内置的 Koa 服务器,允许用户通过 RESTful 接口来控制爬虫网络与获取当前状态。
接口说明
关键字段
// 判断爬虫是否正在运行
isRunning: boolean = false;
// 爬虫最后一次激活时间
lastStartTime: Date;
// 爬虫最后一次运行结束时间
lastFinishTime: Date;
// 爬虫最后的异常信息
lastError: Error;
// 最后一次运行时间
lastActiveTime: Date;
// 平均总执行时间 / ms
executeDuration: number = 0;
// 爬虫次数统计
count: number = 0;
// 异常次数统计
errorCount: number = 0;
countByTime: { [number]: number } = {};
http://localhost:3001/ 获取当前爬虫运行状态
[
{
name: "UACrawler",
displayName: "通用公告爬虫",
isRunning: false,
}
]
[
{
name: "UACrawler",
displayName: "通用公告爬虫",
isRunning: true,
lastStartTime: "2017-04-19T06:41:55.407Z"
}
]
[
{
name: "UACrawler",
displayName: "通用公告爬虫",
isRunning: true,
lastStartTime: "2017-04-19T06:46:05.410Z",
lastError: {
spiderName: "UAListSpider",
message: "抓取超时",
url: "http://ggzy.njzwfw.gov.cn/njggzy/jsgc/001001/001001001/001001001001?Paging=1",
time: "2017-04-19T06:47:05.414Z"
}
}
]
http://localhost:3001/start 启动爬虫
{
message:"OK"
}
http://localhost:3001/status 返回当前系统状态
{
"cpu":0,
"memory":0.9945211410522461
}
http://localhost:3001/UACrawler 根据爬虫名查看爬虫运行状态
[
{
"name":"UAListSpider",
"displayName":"通用公告列表蜘蛛",
"count":6,
"countByTime":{
"0":0,
"1":0,
"2":0,
"3":0,
...
"58":0,
"59":0
},
"lastActiveTime":"2017-04-19T06:50:06.935Z",
"executeDuration":1207.4375,
"errorCount":0
},
{
"name":"UAContentSpider",
"displayName":"通用公告内容蜘蛛",
"count":120,
"countByTime":{
"0":0,
...
"59":0
},
"lastActiveTime":"2017-04-19T06:51:11.072Z",
"executeDuration":1000.1596102359835,
"errorCount":0
}
]
自定义监控界面
CrawlerServer 提供了 RESTful API 来返回当前爬虫的状态信息,我们可以利用 React 或者其他框架来快速搭建监控界面。
你可能感兴趣的:(crawler,node.js)
npm 搭建 Vite 项目
渺小的虫子
viter 前端 javascript 开发语言
兼容性注意Vite需要Node.js版本>=12.0.0。1、使用npm安装Viter$npminitvite@latest使用npm初始化项目#npm6.xnpminitvite@latestmy-vue-app--templatevue#npm7+,需要额外的双横线:npminitvite@latestmy-vue-app----templatevue2、配置路由:npminstallvue-
npm 常用命令详解
马卫斌 前端工程师
npm
npm(NodePackageManager)是Node.js的包管理器,它允许用户方便地安装、共享和管理Node.js项目中的依赖。以下是一些npm常用命令的详解:1.查看npm版本npm-v这个命令用于查看本地已安装的npm版本。2.初始化项目npminit运行这个命令会引导你创建一个package.json文件,该文件包含了项目的元数据,如名称、版本、描述、作者等信息以及项目的依赖配置。若要
npm 包管理工具:常用命令详解与使用指南
LXHYouth
node.js npm node.js
npm常用命令的更详细解释和使用场景:npminit详细说明:此命令用于初始化一个新的Node.js项目。它会创建一个package.json文件,其中包含项目的基本信息,如名称、版本、描述、入口点(mainfile)、测试命令、git仓库地址等。这个文件是项目的心脏,记录了项目的元数据和依赖关系。使用示例:在命令行中输入npminit,然后根据提示填写项目信息。如果你想要快速生成一个默认的pac
如何快速上手Vue框架?
山间漫步人生路
vue.js 前端框架 vue.js
要快速上手Vue框架,可以按照以下步骤进行:一、准备工作了解Vue:Vue是一个构建用户界面的渐进式框架,核心库只关注视图层。环境准备:安装Node.js和npm,这是Vue开发的基础环境。二、安装Vue全局安装VueCLI:使用npm全局安装VueCLI,它是一个基于Vue.js进行快速开发的完整系统。npminstall-g@vue/cli三、创建Vue项目使用VueCLI创建新项目:vuec
Vue项目使用process.env关键字及Vue.config.js配置解决前端跨域问题
百思不得小李
JS实战记录 vue2实战记录 javascript 前端 vue.js
1.process.env是Node.js中的一个环境1.打开命令行查看环境:2.process.env与VueCLI项目VueCli有以下三种运行模式development模式用于vue-cli-serviceservetest模式用于vue-cli-servicetest:unitproduction模式用于vue-cli-servicebuild和vue-cli-servicetest:e2
随笔:一件尴尬的小事
Doubt_Fact
今天下午,朋友找我帮忙,想让我帮忙写一个随机点名的程序,我满口答应了下来,不过我不怎么会写窗口应用,就问他可不可以以网页代替,他同意了。我便写了一个html文件,除了中间遇到一个小插曲,一个缺少的英文“,”被漏掉了,到最后一直无法正常显示……在完成后,我到网页上看到了一种把网页制作成程序的方法,只需利用程序nativefier来操作,这个程序最后基于Node.js。我又很快在我的windows机器
Vue后台管理系统笔记-01
菜-卷
Vue vue.js 笔记 前端
npm(NodePackageManager)和yarn是两个常用的包管理工具,用于在Node.js项目中安装、管理和更新依赖项。它们有以下几个区别:性能和速度:在包的安装和下载方面,yarn通常比npm更快速。yarn使用了并行下载和缓存等优化策略,可以提供更快的安装速度。缓存机制:yarn具有更强大的缓存机制,能够更好地利用缓存,减少重复下载。这对于团队协作和构建机器上的重复构建是有益的,可以
深入解析:在 Node.js 中删除文件的正确姿势
咖啡加剁椒⑥
软件测试 node.js 功能测试 软件测试 自动化测试 程序人生 职场和发展
引言在Node.js中处理文件尤其是移除文件,对于维护高效应用程序至关重要。储存和秩序当道的今天,删除不必要或冗余的文件能力显得尤为关键。本文深入探讨你会想要使用这个强大功能的时刻和原因,并通过各种案例展示了这个概念,同时提供了技术机制的见解。Node.js文件删除的常见场景定期清理临时文件:应用程序经常生成临时数据,如缓存或日志文件。这些文件一旦完成它们的使命,便需定期清除以保持系统整洁。处理文
Node.js 自带的 http 模块来实现一个简单的本地服务器
鸿是江边鸟,曾是心上人
node.js http 服务器
1.创建一个server.js文件:consthttp=require('http');constfs=require('fs');constpath=require('path');constserver=http.createServer((req,res)=>{//获取请求的文件路径constfilePath=path.join(__dirname,'dist',req.url);//读取文
基于Node.js 和 FFmpeg构建自动化脚本用来转码视频
接着奏乐接着舞。
工作经验总结 node.js ffmpeg 自动化
这个脚本将监控一个特定的目录,自动转码新添加的视频文件,并将转码后的视频保存到指定目录。准备环境安装Node.js:访问Node.js官网,下载并安装适合你操作系统的Node.js版本。安装FFmpeg(不清楚的可以看我的上篇博客里有详细的安装步骤):对于Windows用户,可以从FFmpeg官方网站下载预编译的二进制文件,解压,并将bin目录添加到系统的环境变量中。macOS用户可以使用Home
TypeScript基本类型和语法
卷心菜007
TypeScript typescript javascript 前端
TypeScript安装环境搭建1.下载node.js(下载LTS稳定版、Current最近版不稳定)2.安装node.js3.使用npm全局安装TypeScript:npmi-gtypescript4.创建一个ts文件5.使用tsc对ts文件进行编译:cmd/终端到当前ts文件所在目录执行命令tscts文件名.tsTypeScript基本类型类型声明jsjs是动态类型的语言,变量是没有类型的概念
Node.js 中的 HTTP 模块教程
猿小白klp
node node.js http 网络协议 前端 后端
在Node.js中,HTTP模块是一个核心模块,用于处理网络请求和响应。通过HTTP模块,我们可以创建HTTP服务器和客户端,实现网络通信和数据交互。本教程将介绍如何使用Node.js的HTTP模块来创建一个简单的HTTP服务器。1.创建HTTP服务器首先,我们需要引入Node.js的HTTP模块:consthttp=require('http');然后,我们可以使用http.createServ
harmony 鸿蒙使用N-API开发Native模块
carlshen8
鸿蒙开发 harmonyos 华为
harmony鸿蒙使用N-API开发Native模块,其实就是Node.js官网中已经给出N-API接口基础能力,同时,方舟ArkTS运行时提供的N-API接口,封装了方舟引擎的能力,在功能上与Node.js社区保持一致。N-API是Node.jsAddonProgrammingInterface的缩写,是Node.js提供的一组C++API,封装了V8引擎的能力,用于编写Node.js的Nati
API接口技术开发商品详情接口采集宝贝详情页数据、宝贝ID、宝贝标题、价格、掌柜昵称、品牌名称等数据可支持高并发接入演示
APItesterCris
分享 API接口 数据挖掘 数据分析 数据挖掘 开发语言 数据库 前端
为了开发一个API接口来采集商品详情页(接入请求API)的数据,如宝贝详情、宝贝ID、宝贝标题、价格、掌柜昵称、品牌名称等,你需要遵循以下步骤:一、需求分析:确定需要采集的数据字段。确认数据来源,例如是某个电商平台的网页。分析平台是否有公开的API接口可以直接利用。二、选择技术栈:后端语言(如Python,Node.js,Java等)网络请求库(如requests,axios等)数据库(如果需要存
Node.js基础---使用Express写接口
爱健身的小刘同学
node.js node.js express
1.创建基本的服务器2.创建API路由模块//aoiRouter.js路由模块constexpress=require('express')constapiRouter=express.Router()module.exports=apiRouter//------------------------------------------//app.js导入并注册路由模块constapiRouter
Node.js概述与安装运行浅记
dami_king
随笔 node.js 前端 html5 开发语言
Node.js概述Node.js是一个开源、跨平台的JavaScript运行环境,用于在服务器端执行JavaScript代码。它不是一门新的编程语言,而是基于Google的V8JavaScript引擎构建的一个平台,允许开发者使用JavaScript编写服务器端应用。Node.js采用了异步非阻塞I/O模型,非常适合开发高性能、可扩展的网络应用,尤其是数据密集型实时应用(如聊天室、游戏后台服务、实
管理npm源:如何使用nrm工具提升你的开发效率
迎风斯黄
前端开发工程师 npm 前端 node.js
在JavaScript和Node.js的开发过程中,npm(NodePackageManager)扮演着至关重要的角色,它是管理项目依赖的主要工具。然而,由于网络环境的差异,特别是在中国大陆,直接使用npm官方源可能会遇到速度慢甚至无法访问的问题。幸运的是,有一些工具和技巧可以帮助开发者优化这一环节,其中nrm(npmregistrymanager)是一个非常高效的解决方案。什么是nrm?nrm是
【Node.js从基础到高级运用】五、NPM包管理
Vip_wk
node.js npm 前端
NPM包管理NodePackageManager(NPM)是Node.js的包管理器,它允许你安装、共享和管理依赖的库和工具。NPM不仅是一个命令行工具,还是一个庞大的软件包注册表,提供了数以万计的代码包。本节将介绍如何使用NPM安装和管理依赖,以及package.json文件的结构和作用。安装和使用NPMNPM随Node.js一起安装,因此当你安装了Node.js,你也就拥有了NPM。你可以通过
【Node.js从基础到高级运用】一、了解Node.js基础概念
Vip_wk
node.js javascript
Node.js入门:基础概念解析欢迎来到Node.js的世界!如果你是一名开发者,不论是初出茅庐还是有着丰富的前端经验,了解Node.js都是一个令人兴奋的旅程。在这篇博客文章中,我们将深入探讨Node.js的基础概念,帮助你建立起对这个强大平台的初步理解。什么是Node.js?Node.js是一个开源、跨平台的JavaScript运行环境,它允许开发者使用JavaScript来编写服务器端代码。
Webpack配置与运行基础教程
猿小白klp
Webpack webpack 前端 node.js 后端 学习
在前端开发中,Webpack是一款非常流行的模块打包工具,它可以帮助我们将多个文件打包成一个或多个静态资源文件,从而提高前端项目的性能和可维护性。本文将为你介绍Webpack的基础配置和运行方法,帮助你快速上手Webpack。什么是WebpackWebpack是一个基于Node.js的模块打包工具,它可以将各种资源,如JavaScript、CSS、图片等,视为模块,并通过各种loader和插件对这
vue | ubuntu安装vue
m0_57195758
分享 vue.js ubuntu 前端
nvm由于node.js的版本一直处于不断更新中,所以我们需要一个版本管理器来更好的使用node.js。nvm是一个开源的node版本管理器,通过它,你可以下载任意版本的node.js,还可以在不同版本之间切换使用。注意:安装nvm之前,要确保当前机子中不存在任何版本的node,如果有,则卸载掉。github:GitHub-nvm-sh/nvm:NodeVersionManager-POSIX-c
介绍Node.js+Electron框架下和常用(HID 串口 BLE)硬件通信方法
古木12345
分享 node.js electron javascript
介绍框架下的模块node.jsNode.js®是一个开源的、跨平台的JavaScript运行时环境。能通过node插件直接js调用c++(内置v8)Node.js(nodejs.org)electronElectron可以让我们使用纯JavaScript调用丰富的原生API来创建桌面应用。可以内嵌reactvue等前端框架,直接将web页面转换成桌面客户端程序。Electron|使用JavaScr
JavaScript DOM (Document Object Model) 面试题
qq_42431718
javascript 开发语言 ecmascript
JavaScriptDOM(DocumentObjectModel)面试题1.什么是DOM?DOM是DocumentObjectModel的缩写,它是一种表示和操作HTML、XML和XHTML文档的标准编程接口。DOM将文档解析为一个由节点和对象(包括元素、文本等)组成的结构树,开发者可以使用DOM提供的方法和属性来操作和修改文档的内容、结构和样式。2.什么是JSDOM?JSDOM是Node.js
Node.js中处理特殊字符的文件名,安全稳妥的方案
SailingCoder
NodeJS node.js
在Node.js中,通过path模块提供的basename方法,我们可以轻松地从文件路径中提取文件名。然而,这个方法在处理特殊字符时存在一些问题,因为它会对这些字符进行转义,导致在不同操作系统上的兼容性问题。在这篇文章中,我们将介绍一种安全稳妥的方法,结合使用dirname和长度计算,以处理特殊字符的文件名。问题背景考虑以下情况,我们有一个文件路径/Desktop/download/qu/uqu\
Vue3教程
m0_59519985
Vue vue
1.1配置环境vue官网:Vue.js-TheProgressiveJavaScriptFramework|Vue.js终端Linux和Mac上可以用自带的终端。Windows上推荐用powershell或者cmd。GitBash有些指令不兼容。安装Nodejs安装地址:Node.js安装@vue/cli打开GitBash,执行:npmi-g@vue/cli如果执行后面的操作有bug,可能是最新版
Node.js实现大文件断点续传
语无伦次¥!
node.js
前言平常业务需求:上传图片、Excel等,毕竟几M的大小可以很快就上传到服务器。针对于上传视频等大文件几百M或者几G的大小,就需要等待比较长的时间。这就产生了对应的解决方法,对于大文件上传时的暂停、断网、网络较差的情况下,使用切片+断点续传就能够很好的应对上述的情况,方案分析切片就是对上传视频进行切分,具体操作为:File.slice(start,end):返回新的blob对象拷贝blob的起始字
npm install 报错解决方法
m1chiru
npm
npminstall报错是在使用Node.js的包管理工具npm安装依赖时常见的问题。以下是一些常见的报错和相应的解决方法:本地node和npm版本不匹配使用node-v和npm-v查看本地node和npm的版本。如果版本不匹配,可以去node官网重新下载安装包,或者使用nvm(NodeVersionManager)来管理多个node版本。npmERR!cb()nevercalled!这是一个np
Node.js基础---模块化
爱健身的小刘同学
node.js node.js
基本概念模块化模块化是指解决一个复杂问题时,自上向下逐层把系统划分成若干模块的过程,对于整个系统来说,模块是可组合,分解和更换的单元遵守固定规则,把大文件拆分成独立并互相依赖的多个小模块好处:1.提高代码的复用性2.提高代码的可维护性3.实现按需加载Node.js中的模块化根据来源不同分为3大类:1.内置模块(由官方提供,例如fs、path、http等)2.自定义模块(用户创建的每个.js文件,都
Axios 面试题
qq_42431718
javascript 前端
Axios面试题问题描述:什么是Axios?它的主要特点是什么?答案:Axios是一个基于Promise的HTTP客户端库,用于在浏览器和Node.js中发送HTTP请求。它具有以下主要特点:支持浏览器和Node.js环境。提供简单且一致的API,易于使用。支持PromiseAPI,可以处理异步操作。提供拦截器(interceptors)来在请求和响应之间添加自定义逻辑。支持请求和响应的取消操作。
Node.js基础---Express路由
爱健身的小刘同学
node.js node.js express
1.路由的概念1.什么是路由广义上来讲,路由就是映射关系2.Express中的路由在Express中,路由指的是客户端的请求与服务器处理函数之间的映射关系Express中的路由分三部分:请求的类型、请求的URL地址,处理函数。如下:app.METHOD(PATH,HANDLER)3.Express中路由的例子//匹配GET请求,且请求URL为/app.get('/',function(req,re
C/C++Win32编程基础详解视频下载
择善Zach
编程 C++ Win32
课题视频:C/C++Win32编程基础详解
视频知识:win32窗口的创建
windows事件机制
主讲:择善Uncle老师
学习交流群:386620625
验证码:625
--
Guava Cache使用笔记
bylijinnan
java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常
我刚开始使用时还以为Guava Cache跟HashMap一样,get(null)返回null。
实际上Guava整体设计思想就是拒绝null的,很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。
2.Guava
解决ora-01652无法通过128(在temp表空间中)
0624chenhong
oracle
解决ora-01652无法通过128(在temp表空间中)扩展temp段的过程
一个sql语句后,大约花了10分钟,好不容易有一个结果,但是报了一个ora-01652错误,查阅了oracle的错误代码说明:意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因:一是临时表空间空间太小,二是不能自动扩展。
分析过程:
既然是temp表空间有问题,那当
Struct在jsp标签
不懂事的小屁孩
struct
非UI标签介绍:
控制类标签:
1:程序流程控制标签 if elseif else
<s:if test="isUsed">
<span class="label label-success">True</span>
</
按对象属性排序
换个号韩国红果果
JavaScript 对象排序
利用JavaScript进行对象排序,根据用户的年龄排序展示
<script>
var bob={
name;bob,
age:30
}
var peter={
name;peter,
age:30
}
var amy={
name;amy,
age:24
}
var mike={
name;mike,
age:29
}
var john={
大数据分析让个性化的客户体验不再遥远
蓝儿唯美
数据分析
顾客通过多种渠道制造大量数据,企业则热衷于利用这些信息来实现更为个性化的体验。
分析公司Gartner表示,高级分析会成为客户服务的关键,但是大数据分析的采用目前仅局限于不到一成的企业。 挑战在于企业还在努力适应结构化数据,疲于根据自身的客户关系管理(CRM)系统部署有效的分析框架,以及集成不同的内外部信息源。
然而,面对顾客通过数字技术参与而产生的快速变化的信息,企业需要及时作出反应。要想实
java笔记4
a-john
java
操作符
1,使用java操作符
操作符接受一个或多个参数,并生成一个新值。参数的形式与普通的方法调用不用,但是效果是相同的。加号和一元的正号(+)、减号和一元的负号(-)、乘号(*)、除号(/)以及赋值号(=)的用法与其他编程语言类似。
操作符作用于操作数,生成一个新值。另外,有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之:驱动和应用程序
aijuans
嵌入式学习
笔者学习嵌入式Linux也有一段时间了,很奇怪的是很多书讲驱动编程方面的知识,也有很多书将ARM9方面的知识,但是从以前51形式的(对寄存器直接操作,初始化芯片的功能模块)编程方法,和思维模式,变换为基于Linux操作系统编程,讲这个思想转变的书几乎没有,让初学者走了很多弯路,撞了很多难墙。
笔者因此写上自己的学习心得,希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题
asialee
循环引用 fastjson
我们先来看一个例子:
package com.elong.bms;
import java.io.OutputStream;
import java.util.HashMap;
import java.util.Map;
import co
ArrayAdapter和SimpleAdapter技术总结
百合不是茶
android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单,但它只能用于显示文字。而SimpleAdapter则有很强的扩展性,可以自定义出各种效果
ArrayAdapter;的数据可以是数组或者是队列
// 获得下拉框对象
AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信
bijian1013
人生 励志
有时候,莫名的心情不好,不想和任何人说话,只想一个人静静的发呆。有时候,想一个人躲起来脆弱,不愿别人看到自己的伤口。有时候,走过熟悉的街角,看到熟悉的背影,突然想起一个人的脸。有时候,发现自己一夜之间就长大了。 2014,写给人
Linux下安装MySQL Web 管理工具phpMyAdmin
sunjing
PHP Install phpMyAdmin
PHP http://php.net/
phpMyAdmin http://www.phpmyadmin.net
Error compiling PHP on CentOS x64
一、安装Apache
请参阅http://billben.iteye.com/admin/blogs/1985244
二、安装依赖包
sudo yum install gd
分布式系统理论
bit1129
分布式
FLP
One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码
白糖_
eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架,主要使用的技术如下:
spring做容器,管理了三层(dao,service,actioin)的对象
struts2实现与页面交互(MVC),自己做了一个异常拦截器,能拦截Action层抛出的异常
hibernate与数据库交互
BoneCp数据库连接池,据说比其它数据库连接池快20倍,仅仅是据说
MySql数据库
项目用eclipse
treetable bug记录
braveCS
table
// 插入子节点删除再插入时不能正常显示。修改:
//不知改后有没有错,先做个备忘
Tree.prototype.removeNode = function(node) {
// Recursively remove all descendants of +node+
this.unloadBranch(node);
// Remove
编程之美-电话号码对应英语单词
bylijinnan
java 算法 编程之美
import java.util.Arrays;
public class NumberToWord {
/**
* 编程之美 电话号码对应英语单词
* 题目:
* 手机上的拨号盘,每个数字都对应一些字母,比如2对应ABC,3对应DEF.........,8对应TUV,9对应WXYZ,
* 要求对一段数字,输出其代表的所有可能的字母组合
jquery ajax读书笔记
chengxuyuancsdn
jQuery ajax
1、jsp页面
<%@ page language="java" import="java.util.*" pageEncoding="GBK"%>
<%
String path = request.getContextPath();
String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法
comsci
数据结构 算法 工作 活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件,或者下载JWFD的全部代码进行分析
/* 流程图拓扑结构解析伪码描述算法
public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程
daizj
oracle
I/O 从属进程
I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如,磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程,可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样,写设备的进程(调用者)会收集大量数据,并交由写入器写出。数据成功地写出时,写入器(此时写入器是I/O 从属进程,而不是操作系统)会通知原来的调用者,调用者则会
高级排序:希尔排序
dieslrae
希尔排序
public void shellSort(int[] array){
int limit = 1;
int temp;
int index;
while(limit <= array.length/3){
limit = limit * 3 + 1;
初二下学期难记忆单词
dcj3sjt126com
english word
kitchen 厨房
cupboard 厨柜
salt 盐
sugar 糖
oil 油
fork 叉;餐叉
spoon 匙;调羹
chopsticks 筷子
cabbage 卷心菜;洋白菜
soup 汤
Italian 意大利的
Indian 印度的
workplace 工作场所
even 甚至;更
Italy 意大利
laugh 笑
m
Go语言使用MySQL数据库进行增删改查
dcj3sjt126com
mysql
目前Internet上流行的网站构架方式是LAMP,其中的M即MySQL, 作为数据库,MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多,有如下几种,有些是支持database/sql标准,而有些是采用了自己的实现接口,常用的有如下几种:
http://code.google.c...o-mysql-dri
git命令
shuizhaosi888
git
---------------设置全局用户名:
git config --global user.name "HanShuliang" //设置用户名
git config --global user.email "
[email protected] " //设置邮箱
---------------查看环境配置
git config --li
qemu-kvm 网络 nat模式 (四)
haoningabc
kvm qemu
qemu-ifup-NAT
#!/bin/bash
BRIDGE=virbr0
NETWORK=192.168.122.0
GATEWAY=192.168.122.1
NETMASK=255.255.255.0
DHCPRANGE=192.168.122.2,192.168.122.254
TFTPROOT=
BOOTP=
function check_bridge()
不要让未来的你,讨厌现在的自己
jingjing0907
生活 奋斗 工作 梦想
故事one
23岁,他大学毕业,放弃了父母安排的稳定工作,独闯京城,在家小公司混个小职位,工作还算顺手,月薪三千,混了混,混走了一年的光阴。 24岁,有了女朋友,从二环12人的集体宿舍搬到香山民居,一间平房,二人世界,爱爱爱。偶然约三朋四友,打扑克搓麻将,日子快乐似神仙; 25岁,出了几次差,调了两次岗,薪水涨了不过百,生猛狂飙的物价让现实血淋淋,无力为心爱银儿购件大牌
枚举类型详解
一路欢笑一路走
enum 枚举详解 enumset enumMap
枚举类型详解
一.Enum详解
1.1枚举类型的介绍
JDK1.5加入了一个全新的类型的”类”—枚举类型,为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。
Demo:一个最简单的枚举类
public enum ColorType {
RED
第11章 动画效果(上)
onestopweb
动画
index.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时,卡死现象解决汇总
ljf_home
eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时,经常出现卡死现象,在网上百度了N次,经过N次优化调整后,卡死现象逐步好转,具体那个方法起到作用,不太好讲。将所有用过的方法罗列如下:
1、取消验证
windows–>perferences–>validation
把 除了manual 下面的全部点掉,build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧
tomcat_oracle
mysql
每一行命令都是用分号(;)作为结束
对于MySQL,第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的,但当一行MySQL被插入在PHP代码中时,最好把后面的分号省略掉,例如:
mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs)
阿尔萨斯
Build
题目链接:zoj 3820 Building Fire Stations
题目大意:给定一棵树,选取两个建立加油站,问说所有点距离加油站距离的最大值的最小值是多少,并且任意输出一种建立加油站的方式。
解题思路:二分距离判断,判断函数的复杂度是o(n),这样的复杂度应该是o(nlogn),即使常数系数偏大,但是居然跑了4.5s,也是醉了。 判断函数里面做了3次bfs,但是每次bfs节点最多