xi1213

js玩儿爬虫

前言

提到爬虫可能大多都会想到python，其实爬虫的实现并不限制任何语言。
下面我们就使用js来实现，后端为express，前端为vue3。

实现功能

话不多说，先看结果：

这是项目链接：https://gitee.com/xi1213/worm
项目用到的库有：vue、axios、cheerio、cron、express、node-dev
计划功能有：

微博热榜爬取。
知乎热榜爬取。
B站排行榜爬取。
三个壁纸网站爬取。
随机生成人脸。
爬取指定页面所有图片。
删除爬取的数据。
定时任务(开发中)。

使用形式为：
双击打包出的exe(最好右键管理员运行，以防权限不足)。

双击exe后会弹出node后端启动的黑框。

自动在浏览器中打开操作界面(用户界面)。

爬取出的数据在exe同级目录下的exportData中。

具体实现

微博热榜

打开微博官网，f12分析后台请求，会发现它的热榜数据列表在请求接口：https://weibo.com/ajax/side/hotSearch 中，无参。

在接口列表realtime中根据页面信息，推测其字段含义：

word为关键字，
category为类别，
https://s.weibo.com/weibo?q=%23 + word为链接，
num为热度。

既然数据是现成的，那我们直接使用axios即可。
获取到数据列表后将其遍历拼接成指定格式的字符串，写入txt，下面是具体方法：
weibo.js

let axios = require('axios'),
    writeTxt = require("../utils/writeTxt"),
    { addMsg } = require("../store/index");

//抓取weibo
async function weiboWorm(dir, time) {
    let com = 'https://weibo.com';
    addMsg(`${com} 爬取中...`)
    let res = await axios.get(`${com}/ajax/side/hotSearch`);
    //拼接数据
    let strData = `微博热榜\r\n爬取时间：${time}\r\n`
    await res.data.data.realtime.forEach((l, index) => {
        strData = strData +
            '\r\n序号：' + (index + 1) + '\r\n' +
            '关键字：' + l.word + '\r\n' +
            '类别：' + l.category + '\r\n' +
            '链接：https://s.weibo.com/weibo?q=%23' + l.word.replace(/\s+/g, "") + '\r\n' +
            '热度：' + l.num + '\r\n' +
            '\r\n\r\n=================================================================================================================='
    })
    writeTxt(`${dir}/weibo_${Date.now()}.txt`, strData);//写入txt
    addMsg('$END');
}

module.exports = weiboWorm;

writeTxt.js

let fs = require('fs');

//写入txt
function writeTxt(filePath, data) {
    fs.writeFile(filePath, data, (err) => {
    })
}

module.exports = writeTxt;

需要注意的是在windows中换行使用的是\r\n，在链接中需要去掉空格。

知乎热榜

打开知乎官网，会发现它是需要登录的。
f12后点击左上角第二个按钮，在浏览器中切换为手机布局，刷新后即可不登录显示文章信息。
分析请求发现文章数据在请求接口：https://www.zhihu.com/api/v3/explore/guest/feeds 中，参数为limit，限制文章数。

根据页面信息推测接口字段含义：

target.question.title为问题标题，
https://www.zhihu.com/question/ + target.question.id为问题链接，
target.question.answer_count为问答数，
target.question.author.name为提问的用户名，
https://www.zhihu.com/org/ + target.question.author.url_token为提问的用户链接，
target.content为高赞回答的内容。

需要注意的是高赞回答的内容中有html的标签，需要自己str.replace(/xxx/g,‘’)去除。
数据的具体获取方法同微博类似。

B站排行榜

打开B站官网，找到排行榜，f12后发现数据在接口请求：https://api.bilibili.com/x/web-interface/ranking/v2 中，无参。

推测接口字段含义：

title为视频标题，
short_link_v2为视频短链，
stat.view为视频浏览量，
desc为视频描述，
pic为视频封面，
owner.name为视频作者，
pub_location为发布地址，
https://space.bilibili.com/ + owner.mid为作者链接。

数据的具体获取方法同微博类似。

壁纸网站爬取

项目使用了下面三个网站作为例子：
http://www.netbian.com/

https://www.logosc.cn/so/

https://bing.ioliu.cn/

具体思路如下：

用axios请求页面。
将请求到的数据使用cheerio.load解析(cheerio为node中的jq,语法同jq)。
f12分析需要的数据在什么元素中，使用cheerio获取到该目标元素。
获取到元素中img的src内容。
axios请求src(需要encodeURI转码，防止中文报错)，记得设置responseType为stream。
有分页的需要考虑到动态改变url中的页码。
需要保证下载顺序，一张图片下载完成后才能下载另一张，否则下载量过大会有下载失败的可能，使用for配合async与await即可。

具体实现代码如下：
bian.js

let fs = require('fs'),
    cheerio = require('cheerio'),
    axios = require('axios'),
    downloadImg = require("../utils/downloadImg.js"),
    { addMsg } = require("../store/index");

//抓取彼岸图片
async function bianWorm(dir, pageNum) {
    let page = pageNum,//抓取页数
        pagUrlList = [],
        imgList = [],
        index = 0,
        com = 'https://pic.netbian.com';
    addMsg(`${com} 爬取中...`)
    for (let i = 1; i <= page; i++) {
        let url = i == 1 ? `${com}/index.html` : `${com}/index_${i}.html`;
        let res = await axios.get(url);
        let $ = cheerio.load(res.data);//解析页面
        let slistEl = $('.slist');//找到元素列表
        slistEl.find('a').each(async (j, e) => {
            pagUrlList.push(`${com}${$(e).attr('href')}`);//获取到页面url列表
        })
    }
    pagUrlList.forEach(async (p, i) => {
        let pRes = await axios.get(p);
        let p$ = cheerio.load(pRes.data);//解析页面
        let imgEl = p$('.photo-pic').find('img');//找到元素列表
        let imgUrl = `${com}${imgEl.attr('src')}`;//获取图片url
        imgList.push(imgUrl);
        index++;
        //循环的次数等于列表长度时获取图片
        if (index == pagUrlList.length) {
            let dirStr = `${dir}/bian_${Date.now()}`;
            fs.mkdir(dirStr, (err) => { })
            downloadImg(imgList, dirStr);//下载图片
        }
    })
}

module.exports = bianWorm;

downloadImg.js

let fs = require('fs'),
    axios = require('axios'),
    { addMsg } = require("../store/index");

//下载图片
async function downloadImg(list, path) {
    if (list.length == 0) {
        addMsg('$END');
        return;
    }
    // console.log(list.length);
    for (let i = 0; i < list.length; i++) {
        let url = encodeURI(list[i]);//转码,防止url中文报错
        try {
            //计算下载的百分比
            let percent = ((i + 1) / list.length * 100).toFixed(2);
            let msgStr = `${percent}% 爬取中... ${url}`;
            addMsg(msgStr);
            if (i == list.length - 1) {
                msgStr = `图片爬取完成，共${list.length}项。`
                addMsg(msgStr);
                addMsg('$END');
            }
            let typeList = ['jpg', 'png', 'jpeg', 'gif', 'webp', 'svg', 'psd', 'bmp', 'tif', 'tiff', 'ico'];
            let type = typeList.find((item) => {
                return url.includes(item);
            });//获取图片类型
            (type == undefined) && (type = 'jpg');//判断type是否为undefined
            const imgPath = `${path}/${i + 1}.${type}`;//拼接本地路径
            const writer = fs.createWriteStream(imgPath);
            const response = await axios
                .get(url, { responseType: 'stream', timeout: 5000 }).catch(err => { });
            response.data.pipe(writer);
            await new Promise((resolve, reject) => {
                writer.on('finish', resolve);
                writer.on('error', reject);
            });

        } catch (error) { }
    }
}
module.exports = downloadImg;

值得注意的是需要保证准确获取图片资源的不同后缀。

随机生成人脸

这里可没有人脸算法之类的，调用的是https://thispersondoesnotexist.com/ 站点的接口，此接口每次刷新可生成不同人脸。
axios请求接口后，使用fs的createWriteStream创建可写流，将数据流写入文件中，下面是具体实现方法：
randomFace.js

let fs = require('fs'),
    axios = require('axios'),
    { addMsg } = require("../store/index");

//生成随机人脸
async function randomFace(dir, faceNum) {
    let com = 'https://thispersondoesnotexist.com';
    addMsg(`人脸生成中...`);
    let dirStr = `${dir}/randomFace_${Date.now()}`;
    fs.mkdir(dirStr, (err) => { })
    for (let i = 1; i <= faceNum; i++) {
        await axios.get(com, { responseType: 'stream' })
            .then((resp) => {
                const writer = fs.createWriteStream(`${dirStr}/${i}.jpg`);// 创建可写流
                resp.data.pipe(writer);// 将响应的数据流写入文件
                writer.on('finish', () => {
                    //计算下载的百分比
                    let percent = ((i) / faceNum * 100).toFixed(2);
                    let msgStr = `${percent}% 人脸生成中... ${dirStr}/${i}.jpg`;
                    addMsg(msgStr);
                    if (i == faceNum) {
                        msgStr = `人脸生成完成，共${faceNum}张。`
                        addMsg(msgStr);
                        addMsg('$END');
                    }
                });
                writer.on('error', (err) => { addMsg('$END'); });
            })
    }
}

module.exports = randomFace;

爬取指定页面所有图片

思路同上面获取壁纸类似，只不过这次是获取页面所有的img标签的src。
由于范围扩大到所有页面了，所以需要考虑的情况就会比较多。
有的src中是没有http或者https的，有的src使用的是相对路径，有的可能有中文字符，还有很多我没考虑到的情况。
所以并不能爬取任意页面的所有图片，比如页面加载过慢，或者用了懒加载、防盗链等技术。
下面是我实现的方法：
allWebImg.js

let fs = require('fs'),
    cheerio = require('cheerio'),
    axios = require('axios'),
    downloadImg = require("../utils/downloadImg.js"),
    { addMsg } = require("../store/index");

//网站所有图片
async function allWebImgWorm(dir, com) {
    let imgList = [];
    addMsg(`${com} 爬取中...`);
    let res = await axios.get(com).catch(err => { });
    if (!res) {
        addMsg('$END');
        return
    }
    let $ = cheerio.load(res.data);//解析页面
    //获取到页面所有图片标签组成的列表
    $('img').each(async (j, e) => {
        let imgUrl = e.attribs.src;//获取图片链接
        if (imgUrl) {
            !imgUrl.includes('https') && (imgUrl = `https:${imgUrl}`);//判断是否有https,没有则加上
            imgList.push(imgUrl);
        }
    })
    let dirStr = `${dir}/allWebImg_${Date.now()}`;
    fs.mkdir(dirStr, (err) => { })
    downloadImg(imgList, dirStr);//下载图片
}

module.exports = allWebImgWorm;

删除爬取的数据

使用fs.unlinkSync删除文件，fs.rmdirSync删除目录。
需要提前判断文件夹是否存在。
需要遍历文件，判断是否为文件。为文件则删除，否则递归遍历。
下面是我的方法：
deleteFiles.js

let fs = require('fs'),
    path = require('path');

//删除文件夹及文件夹下所有文件
const deleteFiles = (directory) => {
    if (fs.existsSync(directory)) {
        fs.readdirSync(directory).forEach((file) => {
            const filePath = path.join(directory, file);
            const stat = fs.statSync(filePath);
            if (stat.isFile()) {
                fs.unlinkSync(filePath);
            } else if (stat.isDirectory()) {
                deleteFiles(filePath);
            }
        });
        if (fs.readdirSync(directory).length === 0) {
            fs.rmdirSync(directory);
        }
    }
    fs.mkdir('./exportData', (err) => { })
};

module.exports = deleteFiles;

定时任务

项目中该功能正在开发中，只放了一个按钮，但思路已有了。
在node中的定时操作可用cron实现。
下面是一个小例子，每隔10秒打印一次1：

const cron = require('cron');

async function startTask() {
     let cronJob = new cron.CronJob(
    //秒、分、时、天、月、周
    //通配符：,（时间点）-（时间域）*（所有值）/（周期性,/之前的0与*等效）?（不确定）
     '0/10 * * * * *',
     async () => {
     console.log(1);
         },
         null,
         true,
         'Asia/Shanghai'//时区标识符
     );
};

注意事项

Server-Sent Events(SSE)

该项目中前后端数据交互接口大多使用的是get请求，但有一个除外，反显爬取进度的接口：/getTaskState。
该接口使用的是SSE，爬取的进度与链接是实时显示的。
最近火热的ChatGPT的流式输出(像人打字一样一个字一个字的显示)使用的便是这个。
SSE虽然与WebSocket一样都是长链接，但不同的是，WebSocket为双工通信(服务器与客户端双向通信)，SSE为单工通信(只能服务器向客户端单向通信)。
项目中node服务端发送数据是这样的：

// 事件流获取任务状态
    app.get('/getTaskState', async (req, res, next) => {
        res.writeHead(200, {
            'Content-Type': 'text/event-stream',
            'Cache-Control': 'no-cache',
            'Connection': 'keep-alive',
        });
        let sendStr = ''//发送的消息
        let id = setInterval(() => {
            msgList = getMsg();
            //消息列表不为空且最后一条消息不等于上一次发送的消息才能执行
            if (msgList.length != 0 && msgList[msgList.length - 1] != sendStr) {
                sendStr = msgList[msgList.length - 1];
                console.log('\x1B[32m%s\x1B[0m', sendStr)
                res.write(`data: ${sendStr}\n\n`);//发送消息
            }
        }, 10);
        req.on('close', () => {
            clearMsg();//清空消息
            res.end();//结束响应
            clearInterval(id);//清除定时器(否则内存泄漏)
        });
    });

需要在res.writeHead中Content-Type设置为text/event-stream即表示使用SSE发送数据。
res.write(‘data: test\n\n’)即表示发送消息:test，每次发送消息需要以data:开头，\n\n结尾。
使用setInterval控制消息发送频率。
需要在服务端监听何时关闭，使用req.on(‘close’,()=>{})。
监听到关闭时执行响应结束res.end()与清除定时器clearInterval(id)。
在vue客户端接收数据是这样的：

//事件流获取任务状态
const getTaskState = () => {
  stateMsg.value = "";
  isState.value = true;
  let eventSource = new EventSource(origin.value + '/getTaskState');
  eventSource.onmessage = (event) => {
    if (event.data != '$END') {
      stateMsg.value = event.data;
    } else {
      eventSource.close();//关闭连接(防止浏览器3秒重连)
      stateMsg.value = '执行完成！是否打开数据文件夹？';
      isState.value = false;
      setTimeout(() => {
        confirm(stateMsg.value) &&
          axios.get(origin.value + '/openDir').then(res => { })//打开数据文件夹
      }, 100);
    }
  };
  //处理错误
  eventSource.onerror = (err) => {
    eventSource.close();//关闭连接
    stateMsg.value = ''
    isState.value = false;
  };
};

直接在方法中new一个EventSource(url)，这是H5中新提出的对象，可用于接收服务器发送的事件流数据。
使用EventSource接收数据，直接在onmessage中获取event.data即可。
关闭连接记得使用eventSource.close()方法，因为服务器单方面关闭连接会触发浏览器3秒重连。
处理错误使用eventSource.onerror方法。
关于关闭SSE连接的时机，这是由node服务端决定的。
我在后端有一个store专门用于存储消息数据：
store/index.js

let msgList = [];//消息列表

function addMsg(msg) {
    msgList.push(msg);
}

function getMsg() {
    return msgList;
}

function clearMsg() {
    //清空msgList中元素
    msgList = [];
}

module.exports = {
    addMsg,
    getMsg,
    clearMsg
};

在爬取数据时，后端会计算爬取的进度，将生成的消息字符串push到msgList列表中，每隔10ms发送给前端msgList列表中的最后一个元素。
当后端数据爬取完成时会向msgList中push存入指定字符串：$END，表示获取完成。
当前端识别到获取的消息为$END时，关闭连接。
后端监听到前端连接被关闭，则后端也关闭连接。

pkg打包

全局安装pkg时最好网络环境为可访问github的环境，否则你只能手动下载那个失败的包再扔到指定路径。
pkg安装完成后需要在package.json中配置一番(主要是配置assets，将public与需要的依赖包打包进exe中)。
这是我的package.json配置：

{
  "name": "worm",
  "version": "0.1.3",
  "description": "",
  "bin": "./index.js",
  "scripts": {
    "start": "node-dev ./index.js",
    "dist": "node pkg-build.js"
  },
  "pkg": {
    "icon": "./public/img/icon.ico",
    "assets": [
      "public/**/*",
      "node_modules/axios/**/*.*",
      "node_modules/cheerio/**/*.*",
      "node_modules/cron/**/*.*",
      "node_modules/express/**/*.*"
    ]
  },
  "author": "",
  "license": "ISC",
  "dependencies": {
    "axios": "^0.27.2",
    "cheerio": "^1.0.0-rc.12",
    "cron": "^2.3.1",
    "express": "^4.18.2",
    "node-dev": "^8.0.0"
  }
}

我的打包命令是通过scripts中的dist在pkg-build.js中引入的，因为我需要将版本号输出在打包出的exe文件名中。
若打包命令直接写在package.json的scripts中会无法读取打包进程中项目的version。
这是我的pkg-build.js：

//只有通过node xxx.js方式执行的命令才能获取到package.json的version
const pkg = require('./package.json'),
    { execSync } = require('child_process');

const outputName = `dist/worm_v${pkg.version}.exe`;//拼接文件路径
const pkgCommand = `pkg . --output=${outputName} --target=win --compress=GZip`;//打包命令
execSync(pkgCommand);//执行打包命令

上面命令中的output表示输出路径(包含exe文件名)，target表示打包的平台，compress表示压缩格式。
需要注意的是使用pkg打包时，项目中axios的版本不能太高。
否则即使你将axios写在pkg的打包配置里也无济于事，我使用的axios版本为0.27.2。

解决跨域

我node使用的是express，直接在header中配置Access-Control-Allow-Origin为* 即可。

app.all('*', (req, res, next) => {
        res.header("Access-Control-Allow-Origin", "*");//允许所有来源访问(设置跨域)
        res.header("Access-Control-Allow-Headers", "X-Requested-With,Content-Type");//允许访问的响应头
        res.header("Access-Control-Allow-Methods", "PUT,POST,GET,DELETE,OPTIONS");//允许访问的方法
        res.header("X-Powered-By", ' 3.2.1');//响应头
        res.header("Content-Type", "application/json;charset=utf-8");//响应类型
        next();
    });

child_process模块

众所周知，node是单线程运行的，在主线程中执行大量计算任务时会产生无响应的问题。
但node内置的child_process模块却可以创建新的进程，在新进程中执行操作不会影响到主进程的运行。
在此项目中自动打开浏览器、打开指定文件夹、执行打包命令用的就是它。

// 打开数据文件夹
app.get('/openDir', (req, res) => {
    res.send('ok');
   //打开文件夹,exe环境下需要使用exe所在目录
    let filePath = isPkg ?
        `${path.dirname(process.execPath)}${dir.replace('./', '\\')}` :
        path.resolve(__dirname, dir);
    exec(`start ${filePath}`);
});

//监听端口
app.listen(port, () => {
    let url = `http://${ipStr}:${port}`;
    isPkg && exec(`start ${url}`);//打包环境下自动打开浏览器
    //判断是否存在exportData文件夹，没有则创建
    fs.exists(dir, async (exists) => {
        !exists && fs.mkdir(dir, (err) => { });
    })
    console.log(
        '\x1B[31m%s\x1B[0m',
        `\n
${time} 爬虫服务开启!\n
运行过程中禁止点击此窗口!\n
如需关闭爬虫关闭此窗口即可！\n`
    );
});

设置静态资源

前端使用vue开发时，需要将vue.config.js中的publicPath配置设置为./之后再打包。
将vue打包后dist内的文件拷贝到node项目的public目录下。
需要在express设置请求头之前使用static(path.join(__dirname, ‘./public’))设置静态资源：

const app = express();
const isPkg = process.pkg;//判断是否为打包环境
const port = isPkg ? 2222 : 1111;//端口
const ipStr = getLocalIp();//获取本机ip
let time = getFormatTime();//获取格式化时间
let dir = './exportData';
app.use(express.json());//解析json格式
app.use(express.static(path.join(__dirname, './public')));//设置静态资源
app.all('*', (req, res, next) => {
    res.header("Access-Control-Allow-Origin", "*");//允许所有来源访问(设置跨域)
    res.header("Access-Control-Allow-Headers", "X-Requested-With,Content-Type");//允许访问的响应头
    res.header("Access-Control-Allow-Methods", "PUT,POST,GET,DELETE,OPTIONS");//允许访问的方法
    res.header("X-Powered-By", ' 3.2.1');//响应头
    res.header("Content-Type", "application/json;charset=utf-8");//响应类型
    next();
});

关于运行时的黑框

双击exe时，不仅会弹出浏览器用户页面，还会弹出黑框，点击黑框内部还会暂停程序运行。
我有想过使用pm2守护进程干掉黑框，但想到关闭爬虫时只需关闭黑框即可，便留下了黑框。

限制爬取次数

做人，特别是做开发，你得有道德，你把人家网站给玩儿崩了这好吗(′⌒`)？
没有任何东西是无限制的，我的限制是放在前端的(可能不太严谨)，以爬取壁纸为例，调用inputLimit(num)，入参为执行次数，方法是这样的：

//输入限制
const inputLimit = (pageNum) => {
  let val = prompt(`输入执行次数(小于等于${pageNum})`, "");
  if (val == null || isNaN(val) || parseInt(val) < 1 || parseInt(val) > pageNum) {
    return false;
  }
  return parseInt(val);
};

//彼岸壁纸
const bianWorm = () => {
  let val = inputLimit(10);
  if (val) {
    axios.get(origin.value + '/bianWorm?pageNum=' + val).then(res => { });
    getTaskState();
  }
};

后端获取到pageNum参数后，以此作为执行爬虫逻辑的循环依据。

结语

这是我第一次用js玩儿爬虫，很多地方可能不太完善，还请大佬们指出，谢谢啦！
此项目仅供学习研究，勿作他用。

原文链接：https://xiblogs.top/?id=60

基于SpringBoot和Leaflet的区域冲突可视化系统（2025企业级实战方案）知识产权13937636601 计算机 spring boot 后端 java
摘要在全球地缘冲突与应急事件频发的2025年，区域态势可视化系统成为政府及企业的决策刚需。本文提出基于SpringBoot3.2后端与Leaflet1.9.5前端的冲突可视化解决方案，融合多源异构数据（卫星影像、舆情热力、设施状态）构建动态冲突图谱。关键技术突破包括：矢量切片实时聚合（支持100万+目标呈现）、多维度冲突因子权重模型、态势推演沙盘，并在某跨国能源集团实测中实现风险识别效率提升8倍，
G DOM 操作.js
前言：DOM（文档对象模型）操作是实现动态交互的关键技术。通过DOM操作，我们可以获取、修改网页元素，为用户提供了一个丰富多彩的交互体验。目录一、DOM操作的初体验认识元素获取二、DOM操作的进阶元素内容的修改三、DOM操作的高阶元素样式的动态变化四、DOM操作的巅峰元素的添加、删除与事件处理五、DOM操作的奥秘元素遍历与家族关系六、DOM操作的终极挑战性能优化与复杂交互总结一、DOM操作的初体验
基于Vue.js的图书管理系统前端界面设计的javascript逻辑部分
前文，我们实现了一个使用Vue3构建的图书管理系统的html部分，接下来我们看一下JavaScript逻辑部分。html部分以及整个系统的完整代码可以查看我的文章：基于Vue.js的图书管理系统前端界面设计-CSDN博客一、Vue3简介Vue3是渐进式JavaScript框架Vue.js的第三个主要版本，它延续了Vue易于上手、灵活性高和高效的特点，并在性能、可维护性和开发体验上进行了显著提升。（
主流视频流格式及 Vue3 实现方案玛卡巴卡半夜不睡觉 html5 前端 vue.js
1.HLS(HTTPLiveStreaming)技术原理：基于HTTP的流媒体协议，使用.m3u8索引文件+.ts分片文件。特点：高兼容性（尤其iOS）、10+秒延迟、支持自适应码率。Vue3实现（video.js）：npminstallvideo.jsvideojs-contrib-hlsimport{ref,onMounted,onUnmounted}from'vue';importvideo
前端领域的前端可视化设计案例解析前端视界前端艺匠馆前端 ai
前端可视化设计案例解析：从技术实现到用户体验的全链路剖析关键词：前端可视化、数据可视化、设计案例、D3.js、ECharts、可视化框架、用户体验摘要：本文通过深度解析多个典型前端可视化案例，系统阐述数据可视化的核心技术原理、设计方法论及工程实践经验。从基础概念到复杂场景应用，结合D3.js、ECharts、AntV等主流框架的实战案例，详细讲解数据映射、视觉编码、交互设计的实现细节，分析不同业务
Python 爬虫实战：12306 登录与余票监控（图形验证码识别 + 并发请求） Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、引言12306作为中国铁路客户服务中心的官方网站，承载着海量的火车票预订业务。在春运、节假日等高峰期，票源紧张，及时获取余票信息对于抢票来说至关重要。本文将详细讲解如何使用Python爬虫技术实现12306的模拟登录，并监控余票信息，包括图形验证码的识别和并发请求的处理。二、环境搭建在开始之前，首先需要搭建好Python爬虫环境，确保已安装Python解释器，并安装以下必要的库：pipinst
Python 爬虫实战：GitHub 热门项目分析（Star 趋势 + 技术栈聚类） Python核芯 Python爬虫实战项目 python 爬虫 github
前言今天我们要一起完成一个实战项目：通过爬取GitHub热门项目，分析它们的Star趋势以及技术栈聚类。这个项目不仅能让我们熟悉GitHubAPI的使用，还能锻炼我们数据处理和可视化的能力。GitHub作为全球最大的代码托管平台，拥有海量的开源项目。通过分析这些项目的Star趋势和技术栈，我们可以了解当前热门的技术方向，这对我们的技术选型和职业发展都有很大的帮助。本文将分为以下几个部分：爬取Git
LeetCode 热题 100 - 贪心算法 - 买卖股票的最佳时机 - javascript Jxxli LeetCode hot100 leetcode 算法贪心算法 javascript
题目给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0。示例1：输入：[7,1,5,3,6,4]输出：5解释：在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，
阿里云一句话语音识别
前端：阿里云语音识别应用（一句话语音识别）{{isRecording?'停止录音':'开始录音'}}识别结果:{{recognitionResult}}WebSocket状态:{{websocketStatus}}使用的音频格式:{{usedMimeType}}import{ref,onMounted,onUnmounted}from'vue'//状态管理constisRecording=ref(
vue3 组件函数式调用 xx小怪兽 vue.js 前端 javascript
做一个消息提示框组件，封装成vue实例，然后函数式调用1、先准备一个想要做的提示组件文件Message.vue2、新建Message.js文件，内容是提供一个能够显示Message组件的函数3、挂载到全局指令上准备一个DOM容器，里面装消息提示组件；然后将组件编译为虚拟DOM，利用render函数渲染到DOM容器里。//导入消息提示组件import{createVNode,render}from'
基于Rust编写数独、deepseek调用、Mis系统 KENYCHEN奉孝 Rust rust 开发语言后端
Rust是开发人员最流行的语言之一，因为它具有开源、快速、可靠和高性能的特点。在Rust中构建新的API时，重要的是要考虑Web框架对前端和后端开发的优缺点。在本文中，我们将讨论什么是Web框架，并探索Rust生态系统中用于前端和后端开发的各种Web框架，排名不分先后。让我们开始吧。Rust编写Web版本得数独游戏开发环境配置确保安装Rust工具链和Cargo包管理器，推荐使用rustup安装最新
【算法系列】买卖股票的最佳时机【JS代码】 DTcode7 算法系列 #前端基础入门三大核心之JS 算法 javascript 最佳时机
【算法系列】买卖股票的最佳时机【JS代码】问题描述基本概念和作用说明解决方案暴力解法一次遍历法代码示例总结与讨论在前端开发中，虽然我们主要关注的是构建用户界面和交互逻辑，但掌握一些基本的算法和数据结构知识也是非常有用的。今天，我们就来探讨一个经典的问题：“买卖股票的最佳时机”。这个问题看似与前端开发无关，但实际上，它背后的算法思想对于优化我们的程序和解决问题有着极大的帮助。问题描述假设你有一个数组
vue文本插值翻滚吧键盘 vue vue.js javascript ecmascript
好的，我们来详细讲解Vue中最基础的数据展示方式：文本插值和在其内部使用的JavaScript表达式。1.文本插值(TextInterpolation)知识点:文本插值是Vue中最基本的数据绑定形式。它使用“Mustache”语法（双大括号{{}}）将数据直接渲染到HTML的文本内容中。核心作用:将Vue实例中setup函数返回的数据，动态地显示在页面的指定位置。响应式:当大括号内所依赖的数据发生
如何用postman进行自动化测试？ AIZHINAN postman 测试工具自动化测试
使用Postman进行自动化测试的完整指南Postman不仅可以用于手动API测试，还提供了强大的自动化测试功能。以下是详细的使用方法：B站讲的最好的Postman接口自动化测试教程，只需一小时自学入门，学会直接上手项目实战！一、基础自动化测试设置1.编写测试脚本在Postman请求的"Tests"标签页中，你可以用JavaScript编写测试脚本：javascript//检查状态码是否为200p
Python 爬虫实战：微博用户数据爬取 Python核芯 Python爬虫实战项目 python 爬虫开发语言
一、前言微博作为国内最大的社交媒体平台之一，蕴含着大量有价值的公开数据。本文将详细介绍如何使用Python爬取微博数据，包括环境搭建、登录模拟、数据抓取、反爬应对、数据存储等完整流程。二、准备工作1.环境准备与工具选择1.1必需工具包安装爬虫所需的库：pipinstallrequestspandasbeautifulsoup4requests：发送HTTP请求。pandas：数据处理和分析。bea
Springboot实现后台图片上传
文章目录整体流程概览后端实现细节1.文件上传控制器(`UploadController.java`)2.静态资源服务控制器(`StaticResourceController.java`)演示总结本文将深入探讨一个标准的Web应用后台管理系统中，图片上传功能的完整实现流程。我们将从前端用户交互开始，一直到后端的文件处理、存储和最终的URL返回。整体流程概览图片上传功能的核心流程可以分为以下几个步骤
买卖股票的最佳时机--js 算法 stoneSkySpace 算法 javascript 数据结构
一、买卖股票的最佳时机给定一个数组prices，它的第i个元素prices[i]表示一支给定股票第i天的价格。你只能选择某一天买入这只股票，并选择在未来的某一个不同的日子卖出该股票。设计一个算法来计算你所能获取的最大利润。返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润，返回0；贪心算法：每次发现更低价格立即更新买入点（minPrice）每次发现更高利润立即更新卖出收益（maxProf
Python爬虫实战：研究httplib2库相关技术 ylfhpy 爬虫项目实战 python 爬虫 php httplib2
1.引言1.1研究背景与意义随着互联网的快速发展，网络上的信息量呈爆炸式增长。如何从海量的网页中高效地获取有价值的数据，成为了当前信息技术领域的一个重要研究课题。网络爬虫作为一种自动获取互联网信息的程序，能够按照一定的规则，自动地抓取网页内容并提取和整理信息，为信息检索、数据分析、机器学习等领域提供了丰富的数据来源。在电子商务领域，爬虫可以用于价格监控、竞品分析和市场调研；在学术研究中，爬虫可以帮
Python爬虫实战：研究stdlib库相关技术 ylfhpy 爬虫项目实战 python 爬虫前端开发语言 stdlib 标准库
1.引言1.1研究背景与意义在当今信息爆炸的时代，互联网上的数据量呈指数级增长。网络爬虫作为一种自动获取网页内容的工具，在信息检索、数据挖掘、舆情分析等领域发挥着重要作用。Python由于其简洁的语法和丰富的库支持，成为开发网络爬虫的首选语言。本文旨在探讨如何利用Python标准库构建一个功能完整的网络爬虫系统，避免依赖过多第三方库，提高系统的可移植性和稳定性。1.2研究目标本文的研究目标是设计并
Python爬虫实战：研究urllib 库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 urllib
1.引言1.1研究背景与意义互联网每天产生海量数据，如何高效获取和利用这些数据成为重要研究方向。网页爬虫作为自动获取网络信息的核心技术，在市场调研、舆情分析、学术研究等领域具有广泛应用。Python凭借其简洁语法和丰富库支持，成为爬虫开发的首选语言。1.2相关技术概述Python爬虫技术栈主要包括：标准库：urllib、re、csv等第三方库：Requests、BeautifulSoup、Scra
Redis 地理空间索引实践 Hello.Reader 人工智能缓存技术数据库 redis 数据库缓存
一、地理空间索引概览Redis支持两种地理空间索引类型：GEO：对单个地理坐标点（经度、纬度）建立索引，适合“查找半径内的点”场景。GEOSHAPE：通过WKT（Well-KnownText）格式定义点、线、面等几何体，支持更丰富的空间关系查询（如包含、相交、相离等）。二、GEO索引2.1创建GEO索引假设你的JSON文档中有一字段location，存放"lon,lat"格式的字符串，使用以下命令
vue中cdn方式引入和构建工具创建代码的不同翻滚吧键盘 vue vue.js javascript 前端
你观察得非常准确，而且这个问题直击了现代JavaScript开发中两种不同模块化思想的核心。是的，你总结的完全正确。为什么会有const{createApp,ref}=Vue;和import{createApp,ref}from'vue';这两种不同的方式呢？答案在于代码的来源和作用域完全不同。我们用一个比喻来解释。方式一：CDN-公共广播系统你可以把使用CDN的方式，想象成在你的办公室里安装了一
Python爬虫实战：研究pycurl库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 pycurl
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，传统爬虫框架在处理大规模数据采集任务时面临性能瓶颈。特别是在需要处理大量并发请求、高频率数据更新的场景下，提升爬虫的效率和稳定性成为关键挑战。Python作为最流行的爬虫开发语言，提供了多种网络请求库，其中pycurl因其基于C语言的libcurl库而具有出色的性能表现。1.2相关技术概述Python爬虫生态系统中的主要网络请求库包括：标准
精准定义 RediSearch 索引 Schema Hello.Reader 数据库缓存技术人工智能 django python 后端
一、Schema基础概念索引（Index）：对Redis中的Hash或JSON文档进行反向索引，以支持全文、标签、数值、地理、向量等多种查询模式。Schema：定义索引结构，包括哪些字段（fields/attributes）、字段类型、是否可排序、权重（relevanceweight）、过滤条件等。在执行FT.CREATE时，必须指定：数据类型：ONHASH或ONJSONKey前缀（可选）：PRE
Vue3 首款 3D 数字孪生编辑器 ❀͜͡傀儡师 3d 编辑器
对于多数前端开发者而言，用ThreeJS打造炫酷的数字孪生场景并不容易，需掌握大量专业知识。现在这个基于Vue3、ThreeJS和NaiveUI的数字孪生开发框架——Astral3DEditor正式开源，为Web3D开发带来新转机。Astral3DEditor的在这里插入图片描述1.优势功能丰富：支持多种3D模型格式，可导入导出多类型模型，方便资源整合。它还提供插件系统，可扩展更多功能。同时，支持
Augment code + axure 一键生成前端代码人工智能前端
上一篇文章我们讲了怎么通过Augmentcode+FigmaMCP生成前端代码，同时我也用了cursor，做了简单对比，结果如下：cursor+FigmaMCP速度快。可以导出Figma文件中的图标到项目中。整体还原度不咋地。对话式，会不断询问。Augmentcode+FigmaMCP速度慢。还原度高。基本不需要手动干预。访问项目整体性好，能检测到项目是否已经配置依赖等等。今天我们同样使用Augm
JavaScript性能优化实战：表格控件高效开发指南 javascript
引言在现代Web应用开发中，电子表格功能已成为数据分析、报表展示等场景的核心需求。SpreadJS作为一款高性能的纯前端电子表格控件，能够完美兼容Excel文件格式，支持百万级数据量和复杂公式计算。然而随着数据规模的增长和业务逻辑的复杂化，性能优化成为开发者必须面对的挑战。本文将深入剖析几种SpreadJS性能优化技巧，通过实际案例和代码演示，帮助开发者构建响应迅速、用户体验优异的电子表格应用。正
Excel高效转Json工具类详解你一身傲骨怎能输游戏工具链 excel json
文章摘要该工具类提供Excel到Json的转换功能，主要包含：ExcelToJsonToolEditor：核心编辑器类，处理Excel批量/单表转换、文件路径操作类型定义：TypeValue存储字段信息，JsonKeyType标识键类型转换流程：读取Excel→生成Json→自动创建对应C#配置类代码扩展性：支持指定表转换、错误处理、代码模板化生成关键方法：DoXlsxToJson处理单表转换，G
游戏配置表导出工具深度解析你一身傲骨怎能输游戏工具链游戏
文章摘要TableExportTool是一个用于表格数据导出的工具，主要包含表格读取、数据解析、导出和代码生成四大模块。它支持读取Excel/CSV文件，解析字段和类型后转换为JSON、二进制、Lua等多种格式，并自动生成C#、Lua等数据结构代码。工具还提供Unity集成功能，支持一键导出、Asset生成和热更新。核心流程包括读取表头、类型校验、数据组装和导出，通过NPOI/EPPlus实现表格
前端--深入理解HTTP协议菜鸡想成为大佬前端前端 http 网络协议
HTTP协议简介HTTP（HyperTextTransferProtocol，超文本传输协议）是一个应用层协议，用于在客户端（通常是浏览器）和服务器之间传输超文本数据（如HTML、CSS、JavaScript等）。它是万维网（WorldWideWeb）的核心协议，通过HTTP，用户能够在浏览器中访问网站。HTTP的特点无状态：HTTP协议是无状态协议，即服务器不会自动保存每次请求之间的上下文信息。
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比