nbyvy

JavaScript爬取网页并分析

任务分析

爬取三个网站下的新闻数据，这里选择网易新闻网（https：//news.163.com/）；
提取每条新闻的如下字段：标题，内容，发表日期，网址，关键词，作者，来源，评论等；
将爬取的数据写入数据库；
搭建前后端，实现对爬取数据的查询搜索分析等功能；

！！注：这篇博客只会对关键代码进行解析，完整代码在GitHub 中
代码链接：https://github.com/zgl-ai/a-crawler-about-javascript

爬虫部分

首先是爬取网易新闻网（https：//news.163.com/）
引入一些必须的包

var fs = require('fs');
var myRequest = require('request')
var myCheerio = require('cheerio')
var myIconv = require('iconv-lite')
require('date-utils');

fs负责文件读写，request负责获得服务端发来的html响应，cheerio负责解析html文件，incov-lite负责html文件的编码格式的转换；

爬取网页的基本信息

var source_name = "网易新闻";
var myEncoding = "gbk";
var seedURL = 'https://news.163.com/';

要注意的是这个网页的编码格式为GBK，之前我使用的是“utf-8”发现出现了乱码。
还有一些字段格式的声明在之后解释。

爬虫的步骤一般如下：

向目标服务端发送一个种子页面请求；
服务端返回这个页面的html文件；
转码，解析文件，获得所需要的tag中信息；
如果还需要获取种子页面下一些超链接的信息，那么就需要重复以上几步；
本次的实验也是按照以上的步骤进行的。

首先是构造相应的种子页面请求

//防止网站屏蔽我们的爬虫
var headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

//request模块异步fetch url
function request(url, callback) {
var options = {
url: url,
encoding: null,
//proxy: 'http://x.x.x.x:8080',
headers: headers,
timeout: 10000 //
}
myRequest(options, callback)
}

这是基于http协议构造的请求信息，包括了头部信息，网址，时间限制等信息。

得到种子页面的html文件后，解码并且解析

var html = myIconv.decode(body, myEncoding);
//console.log(html);
//准备用cheerio解析html
var $ = myCheerio.load(html, { decodeEntities: true });

我们的目的是通过网易新闻网的主页面，访问主页面中的新闻链接来获得新闻的信息。因此接下来我们要做的是，分析网易新闻网主页面中的新闻超链接，判断它是不是一个新闻的超链接（这里只提取文本类新闻）。
通过对比发现，网易所有文本类新闻的URL都有一个共同点：

那就是其中都有一个“article”字段。基于此来判断是不是一个有效的新闻链接
首先需要规范一下url的格式：
url不能是“undefined”，意思就是不能为空，

if (typeof(href) == "undefined") { // 有些网页地址undefined
return true;
}

url必须是以大写或者小写的“http：//”或者“https://”开头，否则就在前面加上“http：”
路径名规范为https：//news.163.com/……

if (href.toLowerCase().indexOf('http://') >= 0 || href.toLowerCase().indexOf('https://') >= 0) {
myURL = href; //http://开头的或者https://开头
//console.log(href);
}
else if (href.startsWith('//')) myURL = 'http:' + href; 开头的
else {
myURL = seedURL.substr(0, seedURL.lastIndexOf('/') + 1) + href; //其他
//console.log(href);
}

规范格式后就需要通过正则表达式的匹配来看有没有article字段：

var url_reg =/article/

if (!url_reg.test(myURL)){
//console.log(myURL);
return; //检验是否符合新闻url的正则表达式
}

接下来就是提取新闻的信息（标题，内容，发表日期，网址，关键词，作者，来源，评论等）；
需要分析一下网页的源文件

发现标题存放位置，在title标签中

var title_format = "$('title').text()";

关键词存储格式，在标签中的keywords-content键值对中

var keywords_format = " $('meta[name=\"keywords\"]').eq(0).attr(\"content\")";

正文内容是在，“post_body”这一个类别中

var content_format = "$('.post_body').text()";

同理其他的所有的读取格式都通过对比网页源码来获得

var keywords_format = " $('meta[name=\"keywords\"]').eq(0).attr(\"content\")";
var title_format = "$('title').text()";
//
var date_format =" $('meta[property=\"article:published_time\"]').eq(0).attr(\"content\")";
//
var author_format = " $('meta[name=\"author\"]').eq(0).attr(\"content\")";
var content_format = "$('.post_body').text()";
var desc_format = " $('meta[name=\"description\"]').eq(0).attr(\"content\")";
var source_format = "$('.post_info').text()";

将目标信息通过evel读取并且存入fetch结构体中

var fetch = {};
fetch.title = "";
fetch.content = "";
fetch.publish_date = (new Date()).toFormat("YYYY-MM-DD");
//fetch.html = myhtml;
fetch.url = myURL;
fetch.source_name = source_name;
fetch.source_encoding = myEncoding; //编码
fetch.crawltime = new Date();

发表日期的写入的时候要注意
因为有的文章没有发表日期，所以需要填上“未知”，再将所有的日期转换为“YYYY-MM-DD”的格式

if (date_format != "") {
fetch.publish_date = eval(date_format); //刊登日期 
if (!fetch.publish_date){
fetch.publish_date = "未知";
}else{
//fetch.publish_date = regExp.exec(fetch.publish_date)[0];
fetch.publish_date = fetch.publish_date.replace('年', '-')
fetch.publish_date = fetch.publish_date.replace('月', '-')
fetch.publish_date = fetch.publish_date.replace('日', '')
fetch.publish_date = new Date(fetch.publish_date).toFormat("YYYY-MM-DD");
}
}

来源部分也需要通过正则表达式来提取

if (source_format == "") fetch.source = fetch.source_name;
else {
fetch.source = eval(source_format).replace("\r\n", ""); //来源
var matchReg = /(?<=来源: ).*?(?=.\n)/gi;
fetch.source=(fetch.source.match(matchReg));
if(fetch.source==null){
fetch.source=source_name;
}
}

完成上面所有的步骤，就可以提取新闻的信息了，一下选取一篇新闻提取的信息来展示

将爬取到的所有信息存储到mysql数据库中

这需要已经提前下载好的mysql数据库,并且创建好crawl库

create database crawl;
use crawl;

创建表fetches

CREATE TABLE `fetches` (
`id_fetches` int(11) NOT NULL AUTO_INCREMENT,
`url` varchar(200) DEFAULT NULL,
`source_name` varchar(200) DEFAULT NULL,
`source_encoding` varchar(45) DEFAULT NULL,
`title` varchar(200) DEFAULT NULL,
`keywords` varchar(200) DEFAULT NULL,
`author` varchar(200) DEFAULT NULL,
`publish_date` date DEFAULT NULL,
`crawltime` datetime DEFAULT NULL,
`content` longtext,
`createtime` datetime DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`id_fetches`),
UNIQUE KEY `id_fetches_UNIQUE` (`id_fetches`),
UNIQUE KEY `url_UNIQUE` (`url`)
) ENGINE=InnoDB DEFAULT CHARSET=gbk;

JavaScript连接数据库需要相应的包

var mysql = require('./mysql.js');

插入数据库的语句，和插入的变量

var fetchAddSql = 'INSERT INTO fetches(url,source_name,source_encoding,title,' +
'keywords,author,publish_date,crawltime,content) VALUES(?,?,?,?,?,?,?,?,?)';
var fetchAddSql_Params = [fetch.url, fetch.source_name, fetch.source_encoding,
fetch.title, fetch.keywords, fetch.author, fetch.publish_date,
fetch.crawltime.toFormat("YYYY-MM-DD HH24:MI:SS"), fetch.content
];

执行插入语句

//执行sql，数据库中fetch表里的url属性是unique的，不会把重复的url内容写入数据库
mysql.query(fetchAddSql, fetchAddSql_Params, function(qerr, vals, fields) {
if (qerr) {
console.log(qerr);
}
}); //mysql写入

至此，从网易新闻官网爬取数据，并且存入数据库的任务已经完成，数据库里的数据展示如下

同理还爬取了搜狐（https://www.sohu.com）、腾讯新闻（https：//www.qq.com）的新闻。总共的数据有三百多条。工作量不大，就是需要向上文那样，产源码的结构，找出目标字段所在的标签，然后提取出来存入数据库。
因此写了三个爬虫文件分别爬取这三个代码

搜索和分析

这里需要一个前后端交互的功能，用到了express脚手架，具体的搭建方法这里就不详述了。最后可以创建一个路由架构。

主要的工作量是search.html文件，time.html文件和index.js文件。

search.html文件：实验按标题搜索关键词的前端网页。
首先是需要一个表单，来接受用户输入的关键词并传输给后端

<body>
<form>
<br> 标题：<input type="text" name="title_text">
<input class="form-submit" type="button" value="查询">
form>

用一个表来展示数据库传来的数据

<div class="cardLayout" style="margin: 10px 0px">
<table width="100%" id="record2">table>
div>

接下来需要通过javascript语言来与后端交互数据
与后段交互数据:
构造路由与出入数据

$va='/process_get?title=' + $("input:text").val();

传入数据后需要接受后端传来的数据，在data这个变量中

$.get($va, function(data) {

解析data数据存入表record2中

$("#record2").empty();
$("#record2").append('urlsource_name' +
'titleauthorpublish_date');
for (let list of data) {
let table = '';
$i=0;
Object.values(list).forEach(element => {
if($i==0){
table += (''+element+''+ '');
}else{
table += (element+'');
}
$i++;
});
$("#record2").append(table + '');

这里是一列一列的读取data，然后对每列再一个一个元素的读取。存入的时候需要了解html文件中表格的格式

除此之外，我还把url变成超链接的形式。url位于每一列的第一个元素中。上图的红框所示。
引入一个超链接指向time.html

<a href='time.html'>点击进行时间热度分析a>

index.js:负责后端的，与数据库交互，与前端交互
首先是search.html路由到的函数

router.get('/process_get', function(request, response) {
//sql字符串和参数
var fetchSql = "select url,source_name,title,author,publish_date " +
"from fetches where title like '%" + request.query.title + "%'";
mysql.query(fetchSql, function(err, result, fields) {
response.writeHead(200, {
"Content-Type": "application/json"
});
response.write(JSON.stringify(result));
response.end();
});
});

收到前端传来的title数据之后，向数据库发送查询命令

Select url,source_name,title,author,publish_date
From fetches 
Where title like ‘%……%’

（这个是查询包含关键词$title的语法）
查询之后，结果写到了result变量中，然后以json格式传到前端的data中。

这两个part运行的结果如下：
工作目录下运行node bin/www
浏览器输入：localhost：3000/search.html

time.html文件：实现按照时间热度搜索关键词的前端页面。逻辑和search.html差不多
inde.js中负责处理time.html文件的函数

router.get('/time_get', function(request, response) {
//sql字符串和参数
var fetchSql = "select publish_date,COUNT(keywords) " +
"from fetches where keywords like'%" + request.query.title + "%' GROUP BY publish_date ORDER BY COUNT(keywords) DESC";
mysql.query(fetchSql, function(err, result, fields) {
response.writeHead(200, {
"Content-Type": "application/json"
});
console.log(result);

response.write(JSON.stringify(result));
response.end();
});
});

它在接受到title之后，向数据库发送查询指令

Select publish_date,count(keywords)
From fetches 
Where keywords like ‘%……%’
Group by publish_date
Order by count(keywords) desc;

这样可以做到使搜索结果按照发表日期做好统计。

点击这个之后就可以看到运行结果

发现目前统计的新闻数据中，4月27发表的新闻最多。
搜索“裙子”关键词

总结

这次项目的几个难点

为了找到新闻url，需要查看很多新闻的url，找到相似处，由于每个企业对网页的格式定义不同，我们也需要相应的改写相关的正则表达式；
读取相关字段，如标题，日期作者等等。在选取本次实验的三个种子网页（腾讯，网易，搜狐）之前，我还尝试爬取过虎扑，东方财经等其他新闻网页。但是在爬取过程中总是碰到一些奇怪的问题。比如有的字段藏在了很复杂的标签块中，在爬虫代码中不好以统一的格式定义，因此在代码运行的过程中总是出现爬取到空字段的情况。还有就是每个网站的编码格式不一样，有的是utf-8有的又是gbk，所以在爬取的时候需要都试一试。
虽然如此，这些网页还是会采用一些通用的标准来编写，比如“标题，关键字，摘要”等信息。
统一每个网页爬取到的信息。在爬取“时间”这一个字段是，有的网页是“2021-4-29”，有的又是“4/29/2021”，有的又是“2021年4月29号”，虽然统一起来不是很难吧，但也很麻烦。
前后端路由。由于对Javascript语法不是很熟悉，所以在编写代码中也遇到很多问题，就比如前后端路由的时候。具体一点，就是前端怎么向后端传数据，后端接受数据后怎么读取出来。后端怎么向前端传数据，前端接收到之后，怎么将json格式的数据读取出来。在搞清语法上花了很多时间。
本来之前还想做很多任务的，比如对展示结果进行分页，用css做一个好看一点的前端，在交互上做的好一点。但是自己的这方面知识确实太贫瘠了，作业提交时间也快到了。因此也就完成了这些基本功能。
好在之前有数据库，python flask，php等相关基础，因此还是完成了这次实验。

手动搭建PHP环境：步步为营，解锁Web开发奔跑吧邓邓子项目攻略 php 手动搭建php环境
目录一、引言二、准备工作2.1明确所需软件2.2下载软件三、Windows系统搭建步骤3.1安装Apache服务器3.2安装PHP3.3集成Apache与PHP3.4安装MySQL3.5配置PHP连接MySQL四、Linux系统搭建步骤（以Ubuntu为例）4.1更新系统4.2安装Apache4.3安装MySQL或MariaDB4.4安装PHP及其扩展五、macOS系统搭建步骤5.1安装Homeb
exports使用 package.json字段控制如何访问你的 npm 包前端贾公子 json npm 前端
目录想象一下你正在开发一个npm包……术语什么是exports领域？exports好处保护内部文件多格式包将子路径映射到dist目录子路径导出单一入口点多个入口点公开软件包文件的子集有条件出口设置使用条件默认条件句法针对Node.js和浏览器想象一下你正在开发一个npm包……您希望提供多个入口点，但同时限制对内部文件的访问。您需要同时支持CJS和ESM，包含类型定义，甚至可能还要确保浏览器兼容性。
伪数组转换为真正的数组会飞的鱼先生 javascript 前端 vue.js
在JavaScript中，**伪数组（类数组对象）**是指具有数字索引和length属性，但不具备数组原生方法的对象。常见的伪数组包括函数的arguments对象、DOM集合（如document.querySelectorAll的返回值）等。要将伪数组转换为真正的数组，可以使用以下几种方法：1.使用Array.from()Array.from()是一种简洁且高效的方法，可以将伪数组转换为真正的数组
Ubuntu安装Electron环境咖喱鱼蛋 Web项目记录 ubuntu electron linux
前言Electron官方文档要开发Electron应用，您需要安装Node.js运行环境和它的包管理器npm。我们推荐安装最新的长期支持(LTS)版本。安装nvmnode.js的版本管理工具curl-o-https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh|bash 安装最新的LTS版本的Node.jsnvminsta
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
python爬虫-国家企业信用信息公示系统_GitHub - yong771/Crack-JS: Python3爬虫项目进阶实战、JS加解密、逆向教程 - 犀牛数据 | 美团美食 | 企名片 | 七麦... 日向夕阳
Crack-JSPython3爬虫实战、JS加解密、逆向教程犀牛数据|美团美食|企名片|七麦数据|淘大象|梦幻西游藏宝阁|漫画柜|财联社|中国空气质量在线监测分析平台|66ip代理|零度ip|国家企业信用信息公示系统|中国产品大目录Author咸鱼微信公众号咸鱼学PythonIntroduce数据解密、反爬处理、逆向教程一、代码配套说明目录JS解密案例│├──lingduip//-----零度ip
python的pywebview库结合Flask和waitress开发桌面应用程序简介 czliutz python 笔记 python flask 开发语言
pywebview的用途与特点用途pywebview是一个轻量级Python库，用于创建桌面应用程序（GUI）。它通过嵌入Web浏览器组件（如Windows的Edge/IE、macOS的WebKit、Linux的GTKWebKit），允许开发者使用HTML/CSS/JavaScript构建界面，并用Python处理后端逻辑。这种方式结合了Web技术的灵活性和Python的强大功能，适合快速开发跨平
ReactJS与Node.js：前后端整合之道
背景简介在当前的Web开发领域中，ReactJS作为前端框架的佼佼者，其组件化和声明式的编程方式广受开发者喜爱。而Node.js作为后端技术的热门选择，也因其实时、非阻塞I/O的特性而大放异彩。当ReactJS与Node.js结合时，我们可以构建出全栈的应用程序，实现从前端到后端的无缝对接。本文将从ReactJS与FacebookAPI的集成讲起，逐步过渡到使用Node.js来构建React应用的
[数据库优化] 10个MySQL/MariaDB索引优化技巧：大幅提升查询性能 Clownseven 数据库 mysql mariadb
更多服务器知识，尽在hostol.com你的网站或应用程序是不是经常因为数据库查询缓慢而让用户等到“地老天荒”？CPU占用率不高，内存也足够，服务器看起来一点都不忙，但页面就是出奇地慢？如果你遇到了这种情况，那么恭喜你（也可能是不幸），你很可能遇到了数据库性能优化中最常见也最关键的一环——索引问题！很多开发者和初级DBA（数据库管理员）可能会觉得索引这东西“玄之又玄”，或者简单粗暴地给每个列都加上
MySQL（1）哪里不会点哪里. MySQL mysql 数据库
目录数据库的简介MySQL数据库的安装和卸载MySQL数据库概念SQL语言（操作数据库）SQL的分类数据库的操作（CURD）创建数据库（重点）查看数据库（重点）删除数据库（重点）修改数据库表结构操作（CURD）创建表数据库的数据类型（重点）单表的约束（了解）删除和查看表修改表数据的操作（CRUD）（重点）插入数据（insert）MySQL插入中文数据乱码修改数据（update）删除数据（delet
前端——HTML 哪里不会点哪里. 前端 html 前端
目录HTML简介HTML基本框架JavaScript内嵌JavaScript外引JavaScriptCSS内部样式外部样式HTML简介HTML的全称为超文本标记语言，是一种标记语言。它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本，HTML命令可以说明文字，图形、动画、声音、表格、链接等。超文本是
数据库管理-第349期 Oracle DB 23.9新特性一览（20250717）胖头鱼的鱼缸（尹海文） Oracle 数据库 oracle
数据库管理349期2025-07-17数据库管理-第349期OracleDB23.9新特性一览（20250717）1JavaScript过程和函数的编译时语法检查2不再需要JAVASCRIPT上的EXECUTE权限3GROUPBYALL4使用SQL创建并测试UUID5IVF索引在线重组6JSON到二元性迁移器：使用JSONschema进行模式推理7数据库认证的多因素认证8多语言引擎支持数据库驻留连
MySQL部门员工表实验 2301_81097039 数据库 mysql
一、要求（一）数据表1、dept表CREATETABLEdept(deptnoINT(2)NOTNULLCOMMENT'部门编号',dnameVARCHAR(15)COMMENT'部门名称',locVARCHAR(20)COMMENT'地理位置');--添加主键ALTERTABLEdeptADDPRIMARYKEY(deptno);--添加数据INSERTINTOdept(deptno,dname
【计算机毕业设计】基于SSM+Vue的游戏攻略网站系统【源码+lw+部署文档+讲解】
目录1绪论1.1研究背景1.2目的和意义1.3论文结构安排2相关技术2.1SSM框架介绍2.2B/S结构介绍2.3Mysql数据库介绍3系统分析3.1系统可行性分析3.1.1技术可行性分析3.1.2经济可行性分析3.1.3运行可行性分析3.2系统性能分析3.2.1易用性指标3.2.2可扩展性指标3.2.3健壮性指标3.2.4安全性指标3.3系统流程分析3.3.1操作流程分析3.3.2登录流程分析3
MySQL 核心知识点梳理(5) 小刘| mysql 数据库
目录事务MySQL事务的四大特性ACID原子性持久性隔离性事务的隔离级别读未提交读已提交可重复读串行化事务的隔离级别如何实现MVCC版本链READVIEW高可用MySQL数据库的读写分离主从复制主从同步延迟怎么处理分库策略水平分库分表的策略事务MySQL事务的四大特性事务是一条或多条SQL语句组成的执行单元。四个特性分别是原子性、一致性、隔离性和持久性。原子性保证事务中的操作要么全部执行、要么全部
MySQL 核心知识点梳理(4) 小刘| mysql java 数据库
目录为什么InnoDB使用B+树作为底层B+树的叶子节点是单向链表还是双向链表？如果从大值向小值检索，如何操作？一个B+树可以存储多少数据呢?索引为什么用B+树不用普通二叉树呢?为什么索引不用B树用B+树为什么用B+树不用跳表呢B+树的范围查找是怎么做的B+树索引和hash索引的的区别聚簇索引和非聚簇索引的区别什么是回表MRR联合索引覆盖索引什么是最左前缀原则MySQL中有哪几种锁说说行锁加sel
Vue3 - 实现一个雨水滴落的动画效果程序员的成长之路 Vue3 html5 javascript vue
在Vue3中实现一个雨水滴落的动画效果，可以使用HTML5的元素和JavaScript来绘制和控制动画。以下是一个实现雨水滴落效果的示例：创建一个Vue3项目首先，确保你已经创建了一个Vue3项目。如果还没有，可以使用VueCLI来创建：vuecreaterain-animationcdrain-animation添加Canvas组件创建一个新的Vue组件来包含我们的元素和动画逻辑。创建一个名为R
工业物联网中的时序数据库应用
1.引言工业物联网（IndustrialInternetofThings,IIoT）通过传感器、边缘计算和云计算等技术，实现设备数据的实时采集、存储与分析，以提高生产效率、预测设备故障并优化资源管理。然而，IIoT环境通常涉及高频、海量、多源异构的时序数据，传统数据库（如MySQL、Oracle）难以满足其高吞吐写入、低延迟查询和高效存储的需求。时序数据库（Time-SeriesDatabase,
node.js 为什么要装 express组件思静鱼 node.js node.js express
在Node.js中安装Express组件（框架）主要是为了解决以下核心问题：1.原生Node.js开发HTTP服务的痛点原生http模块虽然能创建服务器，但需要手动处理大量底层细节：consthttp=require('http');constserver=http.createServer((req,res)=>{//需要手动解析URL、HTTP方法、请求头等if(req.url==='/'&&
MySQL 多表关联执行计划全面解析：从 N-LJ 到子查询优化
在实际企业开发中，多表关联查询更为常见，也是导致SQL执行效率低下的重要原因之一。今天，我们将系统性地解析MySQL多表关联查询的执行机制，重点包括：多表关联底层执行机制（N-LJ嵌套循环连接）为什么多表查询容易性能差，以及驱动表的选择有多重要多表查询执行计划分析与优化技巧（附实际案例）一、MySQL多表关联的执行机制：N-LJ嵌套循环连接在MySQL中，多表连接最常见的执行策略就是NestedL
MySQL 大数据量分页查询优化实战：从 90秒到 965毫秒的性能飞跃要阿尔卑斯吗. mysql 数据库分布式架构 java
在日常开发中，我们经常需要对数据库中的数据进行分页展示。特别是当表数据量达到几十万甚至上百万级时，传统的LIMIT分页方式会面临严重的性能瓶颈。今天，我将分享一个真实的性能优化案例，通过模拟大页码查询的现场，从90秒缩短到965毫秒，显著提升了查询效率。本篇文章将从问题出现的原因、索引原理、优化思路和最终实战效果等方面，为你全面讲解如何高效处理MySQL大数据分页查询问题。一、问题背景：大页码分页
.NET CORE 分布式事务(四) CAP实现最终一致性精神小伙就是猛 .netcore 分布式架构微服务
目录引言：1.0最终一致性介绍2.0CAP2.0架构预览3.0.NETCORE结合CAP实现最终一致性分布式事务3.1准备工作(数据库，本文使用的是MySql)3.1.1数据模型3.1.2DbContext3.1.3数据库最终生成3.2Nuget引入3.3appsettings.json3.4docker启动一个RabbitMQ3.5Program.cs3.6用户1API控制器3.7用户2API控
用SQLyog连接出现2058错误时处理方法 chilavert318 点点滴滴
win10系统更新安装Mysql8.0，连接SQLyog的时候出现下面错误1.打开cmd：mysql-uroot-p输入密码root2.进入mysql依次执行下面语句ALTERUSER'root'@'localhost'IDENTIFIEDBY'root'PASSWORDEXPIRENEVER;#修改加密规则ALTERUSER'root'@'localhost'IDENTIFIEDWITHmysq
如何清除 npm 缓存 BIBI2049 前端开发 Windows npm 缓存前端 node.js
清除npm缓存：利弊分析与操作指南在使用Node.js和npm进行项目开发时，我们经常会与npminstall命令打交道。这个过程中，npm会在本地建立一个缓存机制，用以存储已下载的包，从而显著提升后续安装的速度。然而，有时这个缓存也可能成为问题的根源。本文将探讨清除npm缓存的利弊，并提供清晰的操作指引。清除npm缓存的好处清除npm缓存主要能带来以下几点好处：解决依赖安装失败问题：当缓存中的包
你的博客为什么不更新了？
博客为什么不更新了很久没有写过博客了，为什么呢？因为工作了，成为了一名社畜因为没时间因为没有学习新的东西，所以无法分享因为不思进取…笔者写博客的初衷只是为了总结知识，让我学到的知识能从我这里输出出去，并且别人能看懂。如果结果能帮助更多人了解某个东西，那自然是最好的。三年前写了人生第一篇博客：SQL语句中，MySQL不支持的几种情况。反响平平，两千阅读。之后又陆续发表了几篇博客，数量不多，9篇文章。
aws rds mysql 连接_使用 Amazon RDS 代理连接到 Amazon RDS MySQL 数据库实例或 Aurora MySQL 数据库集群... 仁安同学 aws rds mysql 连接
如何使用AmazonRDS代理连接到我的AmazonRDSMySQL数据库实例或AuroraMySQL数据库集群？上次更新时间：2020年9月21日如何使用AmazonRDS代理连接到运行MySQL的AmazonRelationalDatabaseService(AmazonRDS)数据库实例或AmazonAurora数据库集群？简短描述您可以使用AmazonRDS代理来管理与应用程序之间的连接。
AWS RDS MySQL是否能实现登录限制类需求 shiran小坚果 RDS aws 云计算 database mysql
问题描述：此类问题一般来说在等保中会频繁遇到：对于AWSRDSMySQL5.7和8.0的实例，能否做到如下限制和需求：1.一个连接到数据库的session，超过一段时间以后被RDSMySQL结束的功能：RDSMySQL5.7和8.0中，均可以通过更改参数组中wait_timeout和interactive_timeout参数来设置。当连接空闲并超过参数设置的时长，那么会导致RDSMySQL自动断掉
深入理解Mysql索引底层数据结构与算法桑翔
一.索引的本质索引是帮助MySQL高效获取数据的排好序的数据结构二.索引数据结构1.二叉树2.红黑树3.Hash表4.B-Tree1.叶节点具有相同的深度,叶节点的指针为空2.所有索引元素不重复3.节点中的数据索引从左到右递增排序B-Tree5.B+Tree1.非叶子节点不存储data,可以放更多的索引2.叶子节点包含所有索引字段3.叶子节点用指针连接,提高区间访问的性能(体现在做范围查询的时候)
AWS-rds 表主从不一致如何解决与数据交流的路上 AWS mysql mysql sql 数据库
一、背景因为某些修改造成了表的主从不一致，所以需要备份表恢复数据，物理机大家都有很多种做法，但是因为awsrds限制了账户的权限，所以这里用不到普通的办法，想了一阵想到一种可行性的方法，暂时没有发现隐患，或者更好的办法，如果有大佬知道的话，欢迎随时指教二、步骤1.查看主库二进制状态（主库执行）#记录当前的二进制和pos点,mysql-bin.123,111showmasterstatus2.等待一
使用 Amazon RDS Proxy 提升应用程序可用性
AmazonRDSProxy的最大优势，在于显著缩短数据库故障转移之后的应用程序恢复时间。RDSProxy能够同时支持MySQL与PostgreSQL引擎，但在本文中，我们将单纯使用MySQL测试工作负载向大家展示RDSProxy如何在故障转移之后，将AmazonAuroraMySQL客户端的恢复时间缩短达79%，并将AmazonRDSforMySQL的故障恢复时间缩短达32%。本文还将阐述RDS
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

JavaScript爬取网页并分析

JavaScript爬取网页并分析

任务分析

爬虫部分

将爬取到的所有信息存储到mysql数据库中

搜索和分析

总结

你可能感兴趣的:(爬虫,mysql,javascript,node.js)