萌萌哒の瑞萌萌

都2023年了还不会Node.js爬虫？快学起来！

爬虫简介

什么是爬虫

爬虫（Web Crawler）是一种自动化程序，可以在互联网上自动抓取网页，并从中提取有用的信息。

爬虫可以模拟人类浏览器的行为，自动访问网站、解析网页、提取数据等。

通俗来说，爬虫就像是一只蜘蛛，它会沿着网页上的链接不断爬行，把整个网站的内容都爬取下来。

这样，我们就可以从大量的网页中获取到我们需要的数据。

爬虫的应用场景

爬虫在很多领域都有广泛的应用，比如：

数据采集：爬虫可以自动抓取各种网站上的数据，比如商品信息、新闻、股票数据等等。
SEO优化：通过爬虫可以获取到竞争对手网站的信息，从而进行SEO优化。
网络安全：爬虫可以扫描网站漏洞、检测恶意软件等等。
数据分析：通过爬虫获取到的数据可以进行各种分析，比如情感分析、舆情监测等等。
总之，爬虫是一种非常强大的工具，可以帮助我们更好地利用互联网上的信息资源。

爬虫的优缺点

优点：

自动化：爬虫可以自动化地从互联网上抓取数据，大大节省了人力成本和时间成本。
数据量大：爬虫可以从大量的网页中抓取数据，可以获取到丰富的信息，这对于一些数据分析和挖掘工作非常有用。
实时性：爬虫可以实时地抓取数据，可以获取到最新的信息，这对于一些需要实时监控的应用非常有用。
可扩展性：爬虫可以很容易地扩展到其他网站，只需要修改一些配置参数即可。
隐私性：爬虫可以在不需要登录的情况下抓取数据，保护了用户的隐私。

缺点：

法律风险：爬虫可能会侵犯他人的版权、隐私等权益，如果不合法使用可能会面临法律风险。
网站负担：爬虫可能会对网站的服务器造成一定的负担，如果抓取频率过高可能会导致网站崩溃。
数据质量：由于网页的结构和格式不一定统一，爬虫可能会抓取到一些不规范、不准确或者重复的数据。
反爬虫机制：为了保护自己的权益，一些网站可能会采取反爬虫机制，比如验证码、IP封锁等等，这会给爬虫带来一定的困难。
维护成本：由于网页结构和格式的变化，爬虫需要不断地进行维护和更新，这会增加一定的开发成本和维护成本。

为什么要使用Node.js来编写爬虫

Node.js是一种基于Chrome V8引擎的JavaScript运行环境，它可以在服务器端运行JavaScript代码。

相比于其他编程语言，Node.js具有以下优点：

与前端技术栈相似：Node.js是基于JavaScript的运行时环境，而JavaScript是前端开发中最常用的编程语言之一。因此如果你是一名前端工程师，使用Node.js编写爬虫可以让你更快地上手，不需要学习新的编程语言。
易用性：JavaScript是一种非常流行的编程语言，很多人都已经掌握了它的基础知识。
生态系统：Node.js有非常丰富的第三方模块和工具，可以帮助我们更快速地开发爬虫。比如，Cheerio可以帮助我们更方便地进行HTML解析，Request可以帮助我们更方便地进行网络请求等等。
高效性：Node.js使用事件驱动、非阻塞I/O模型，可以处理大量并发请求。这对于爬虫来说非常重要，因为爬虫需要频繁地进行网络请求和数据解析。
跨平台：Node.js可以在多个平台上运行，包括Windows、Mac、Linux等等。这意味着，你可以在你喜欢的操作系统上编写爬虫，并且不需要担心兼容性问题。

因此，使用Node.js来编写爬虫是非常合适的选择。

爬虫的基本流程

爬虫的基本流程通常包括以下几个步骤：

发送网络请求：爬虫首先需要发送网络请求，获取网页的HTML代码。Node.js有很多第三方模块可以帮助我们进行网络请求，比如Request、Axios等等。这些模块可以帮助我们发送HTTP请求，并且可以设置请求头、请求参数等等。
解析HTML页面：爬虫需要解析HTML页面，提取出有用的信息，比如标题、正文、链接等等。在Node.js中，我们可以使用Cheerio模块来解析HTML页面。Cheerio是一个类似于jQuery的库，可以帮助我们更方便地进行HTML解析和DOM操作。
存储数据：爬虫需要把提取出来的数据存储到数据库或者文件中，以便后续的使用。Node.js有很多第三方模块可以帮助我们进行数据存储，比如MongoDB、MySQL、Redis等等。
遍历链接：如果需要爬取整个网站，爬虫需要遍历网页中的链接，不断地进行网络请求和HTML解析。

OK经过上面的简单介绍，现在大家大概已经知道了爬虫是什么

但是纸上得来终觉浅，接下来我会用多个爬虫实例带你完全入门Node爬虫

Node爬虫多案例实战

百度首页

我们先来从百度下手，啊不是，是从百度开始

我们来写一个简单的爬虫 demo，它可以爬取百度首页的标题和链接：

// 爬取百度首页的标题和链接
const http = require('http');
const cheerio = require('cheerio');

const url = 'http://www.baidu.com';

// 使用 Node.js 的 http 模块来发起 GET 请求
http.get(url, (res) => {
  let html = '';

  res.on('data', (chunk) => {
    html += chunk;
  });

  res.on('end', () => {
    // 使用 cheerio 模块来解析 HTML，将 HTML 转换成一个类似于 jQuery 的对象 $
    const $ = cheerio.load(html);
    const links = [];

    // 使用 $ 来查找页面中所有的链接
    $("a").each((i, el) => {
      const title = $(el).text();
      const href = $(el).attr("href");
      links.push({ title, href });
    });

    // 最后输出到控制台
    console.log(links);
  });
});

上面这段代码使用了 Node.js 的 http 模块来发起 GET 请求，并使用 cheerio 模块来解析 HTML

它首先获取百度首页的 HTML，然后使用 cheerio 将 HTML 转换成一个类似于 jQuery 的对象 $

接着使用 $ 来查找页面中所有的链接，并将它们的标题和链接保存到一个数组中

最后将这个数组输出到控制台上，我们来看看控制台会输出什么：

百度热搜

接着我们来试试看爬一下百度热搜，我们要拿到中间这部分的一个热搜列表，我们来看一下对应的网页结构，我们想拿到每一条热搜的标题以及后面的热度指数：

OK，知道了标题和热度的HTML结构，拿到这个元素就很简单了，接下来我们来直接实现爬虫的逻辑：

const https = require('https');
const cheerio = require('cheerio');
const fs = require('fs')

const url = 'https://top.baidu.com/board?tab=realtime';

https.get(url,{ rejectUnauthorized: false }, (res) => {
  let html = '';

  res.on('data', (chunk) => {
    html += chunk;
  });

  res.on('end', () => {
    const $ = cheerio.load(html);
    const news = [];

    $('.container-bg_lQ801 div:nth-child(2) .category-wrap_iQLoo.horizontal_1eKyQ').each(function () {
        const title = $('.c-single-text-ellipsis', this).text().trim();
        const hot = '热度指数：' + $('.hot-index_1Bl1a', this).text().trim();
        news.push({ title, hot });
      });

    // console.log(news);
    //将数据写入文件中
    fs.writeFile("./baidu1.json", JSON.stringify(news), function (err, data) {
      if (err) {
        throw err;
      }
      console.log("文件保存成功");
    });
  });
});

这段代码我做了两个地方的改进：

将http模块换成了https模块，因为百度热搜页面用的是https协议
我们不直接将news打印在控制台，而是使用了fs模块将爬取到的数据写入JSON文件中

我们来看看生成的JSON文件：

[
  { "title": "重要主场外交拉开帷幕", "hot": "热度指数：4966106" },
  { "title": "杜苏芮登陆 猛烈暴雨将席卷南北多省", "hot": "热度指数：4918080" },
  { "title": "外交部网站更新王毅部长致辞", "hot": "热度指数：4836982" },
  { "title": "相聚盛会 成就梦想", "hot": "热度指数：4796643" },
  { "title": "台风致泉州39人受轻伤 超50万户停电", "hot": "热度指数：4674698" },
  { "title": "普里戈任自叛乱后首次在俄露面", "hot": "热度指数：4592932" },
  { "title": "东方甄选直播间被关原因曝光", "hot": "热度指数：4456629" },
  { "title": "媒体：要求孩子10小时不哭闹不妥", "hot": "热度指数：4301611" },
  { "title": "#杨紫琼与相恋19年男友结婚#", "hot": "热度指数：4247090" },
  { "title": "体育馆受损 泉州五月天演唱会咋办", "hot": "热度指数：4119379" },
  { "title": "微信已把帐号改为账号", "hot": "热度指数：4031742" },
  { "title": "厦门暴雨似飞瀑倾泄而下", "hot": "热度指数：3926578" },
  { "title": "双台风来了！第6号台风卡努生成", "hot": "热度指数：3872443" },
  { "title": "广东省防风应急响应调整为Ⅳ级", "hot": "热度指数：3727314" },
  { "title": "出纳挪用2500多万理财7年获利6400", "hot": "热度指数：3637531" },
  { "title": "敦煌景区骆驼“罢工”？驼户回应", "hot": "热度指数：3546268" },
  { "title": "黄晓明这回真听劝了", "hot": "热度指数：3496660" },
  { "title": "整条街的胶带都因台风卖没了", "hot": "热度指数：3363853" },
  { "title": "汉庭如家，房价直逼香格里拉", "hot": "热度指数：3214298" },
  { "title": "这一次，苏州反超深沪", "hot": "热度指数：3177049" },
  { "title": "台风来临瞬间：晋江鱼排剧烈抖动", "hot": "热度指数：3005969" },
  { "title": "林嘉欣发文宣布离婚", "hot": "热度指数：2966910" },
  { "title": "李玟丈夫：不会参与财产分配", "hot": "热度指数：2807755" },
  { "title": "薇娅夫妇公司被起诉侵权", "hot": "热度指数：2738958" },
  { "title": "杨洋：谢谢大家的包容陪伴批评建议", "hot": "热度指数：2650834" },
  { "title": "3000多名官兵紧急出动支援厦门", "hot": "热度指数：2520075" },
  { "title": "杜苏芮最大风力已提升至17级", "hot": "热度指数：2423179" },
  { "title": "海员记录在杜苏芮影响下航行遭遇", "hot": "热度指数：2314662" },
  { "title": "云南一医院设置野生毒菌展示柜", "hot": "热度指数：2294344" },
  { "title": "车队未经批准穿越保护区 3死1失踪", "hot": "热度指数：2134253" },
  { "title": "世界跆拳道大赛 中国队跳“僵尸舞”", "hot": "热度指数：2078125" }
]

豆瓣TOP250

既然提到了爬虫，怎么能少得了豆瓣呢！豆瓣：烦不烦，每次都爬我！
和之前一样，分析一下我们想爬的网页结构，提取列表中的我们想要的信息（标题、评分、图片链接）：

代码实现：

const https = require('https')
const cheerio = require('cheerio')
const fs = require('fs')

//获取页面的html结构
https.get('https://movie.douban.com/top250', function (res) {
    let html = ''
    res.on('data', function (chunk) {
        //得到数据流，通过字符串拼接得到html结构
        html += chunk
    })

    res.on('end', function () {
        // 获取html中的数据
        const $ = cheerio.load(html)
        let movies = []
        $('li .item').each(function () {
            const title = $('.title', this).text()
            const star = $('.info .bd .rating_num', this).text()
            const pic = $('.pic img', this).attr('src')
            //数据以对象的形式存放在数组中
            movies.push({
                title: title,
                star: star,
                pic: pic
            })
        })
        //将数据写入文件中
        fs.writeFile('./douban.json', JSON.stringify(movies), function (err, data) {
            if (err) {
                throw err
            }
            console.log('文件保存成功');
        })
    })
})

看一下我们生成的JSON文件，是不是和我们期望爬取的数据一样：

[
  {
    "title": "肖申克的救赎 / The Shawshank Redemption",
    "star": "9.7",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg"
  },
  {
    "title": "霸王别姬",
    "star": "9.6",
    "pic": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2561716440.jpg"
  },
  {
    "title": "阿甘正传 / Forrest Gump",
    "star": "9.5",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2372307693.jpg"
  },
  {
    "title": "泰坦尼克号 / Titanic",
    "star": "9.5",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2889314814.jpg"
  },
  {
    "title": "这个杀手不太冷 / Léon",
    "star": "9.4",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p511118051.jpg"
  },
  {
    "title": "千与千寻 / 千と千尋の神隠し",
    "star": "9.4",
    "pic": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2557573348.jpg"
  },
  {
    "title": "美丽人生 / La vita è bella",
    "star": "9.6",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg"
  },
  {
    "title": "辛德勒的名单 / Schindler's List",
    "star": "9.6",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p492406163.jpg"
  },
  {
    "title": "星际穿越 / Interstellar",
    "star": "9.4",
    "pic": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2614988097.jpg"
  },
  {
    "title": "盗梦空间 / Inception",
    "star": "9.4",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p513344864.jpg"
  },
  {
    "title": "楚门的世界 / The Truman Show",
    "star": "9.4",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p479682972.jpg"
  },
  {
    "title": "忠犬八公的故事 / Hachi: A Dog's Tale",
    "star": "9.4",
    "pic": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2587099240.jpg"
  },
  {
    "title": "海上钢琴师 / La leggenda del pianista sull'oceano",
    "star": "9.3",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2574551676.jpg"
  },
  {
    "title": "三傻大闹宝莱坞 / 3 Idiots",
    "star": "9.2",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p579729551.jpg"
  },
  {
    "title": "放牛班的春天 / Les choristes",
    "star": "9.3",
    "pic": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2884280708.jpg"
  },
  {
    "title": "机器人总动员 / WALL·E",
    "star": "9.3",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p1461851991.jpg"
  },
  {
    "title": "无间道 / 無間道",
    "star": "9.3",
    "pic": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2564556863.jpg"
  },
  {
    "title": "疯狂动物城 / Zootopia",
    "star": "9.2",
    "pic": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2614500649.jpg"
  },
  {
    "title": "控方证人 / Witness for the Prosecution",
    "star": "9.6",
    "pic": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p1505392928.jpg"
  },
  {
    "title": "大话西游之大圣娶亲 / 西遊記大結局之仙履奇緣",
    "star": "9.2",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2455050536.jpg"
  },
  {
    "title": "熔炉 / 도가니",
    "star": "9.4",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1363250216.jpg"
  },
  {
    "title": "教父 / The Godfather",
    "star": "9.3",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p616779645.jpg"
  },
  {
    "title": "触不可及 / Intouchables",
    "star": "9.3",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1454261925.jpg"
  },
  {
    "title": "当幸福来敲门 / The Pursuit of Happyness",
    "star": "9.2",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2614359276.jpg"
  },
  {
    "title": "龙猫 / となりのトトロ",
    "star": "9.2",
    "pic": "https://img9.doubanio.com/view/photo/s_ratio_poster/public/p2540924496.jpg"
  }
]

CSDN首页

我们最后来爬一个CSDN首页的文章列表

我们这次想拿到列表里每篇文章的标题、简介和作者

来看实现代码：

const https = require('https');
const cheerio = require('cheerio');
const iconv = require('iconv-lite');
const fs = require('fs')

const url = 'https://blog.csdn.net/nav/web';

https.get(url, { rejectUnauthorized: false }, (res) => {
  let html = '';

  res.on('data', (chunk) => {
    html += iconv.decode(chunk, 'utf-8');
  });

  res.on('end', () => { 
    const $ = cheerio.load(html);
    const courses = [];

    $('.Community .active-blog').each(function () {
      const title = $('.blog-text', this).text().trim();
      const desc = $('.desc', this).text().trim();
      const author = $('.operation-c a span', this).text().trim();
      courses.push({ title, desc, author });
    });

    // console.log(courses);
    //将数据写入文件中
    fs.writeFile('./csdn.json', JSON.stringify(courses), function (err, data) {
      if (err) {
        throw err
      }
      console.log('文件保存成功');
    })
  });
});

最后生成的JSON文件如下，文章的标题、简介、作者都成功拿到了：

[
  {
    "title": "“前端已死”",
    "desc": "我再说一遍，希望大家不要嫌啰嗦，使用工具的能力，并不能作为核心竞争力，因为现在学习资料很丰富，社区很活跃，什么问题都可以找到解决方案，你能做到的别人也能做到，没有任何优势，不属于竞争力。甚至是工作以外的特长都可以，我是钓鱼大佬，我是跑步达人，我是综艺专家，我是健身狂人，都可以，因为一个人能坚持自己的爱好并做到出众，也是不简单的。人是趋利性的动物，就算你眼光独到，命运垂怜，抢得先机，但数年之后呢？没有任何吸引人的信息，给人感觉，就是个普通的前端从业人员，领导安排个需求，然后接受，排期，完成开发，上线，这种。",
    "author": "作者：夜栩"
  },
  {
    "title": "html网页设计小作业(个人主页)",
    "desc": "简易的个人网页小作业，只用了html+css 布局制作，没啥好说的，直接上图！！！",
    "author": "作者：Space-oddity-fang"
  },
  {
    "title": "别找了！前端那些好用的网站都在这里了！【文末送书】",
    "desc": "一、渐变神器Gradient二、两款阴影工具在线网站三、网站UI配色宝藏网站UI Design Daily四、Small Dev tools实用工具合集五、Glass Morphism在线制作 CSS 玻璃风格神器六、Keyframes 在线动画、阴影和颜色七、BGJar 在线SVG 背景",
    "author": "作者：在下周周ovo"
  },
  {
    "title": "VSCode安装配置使用教程（最新版超详细保姆级含插件）一文就够了",
    "desc": "Visual Studio Code 是一个轻量级功能强大的源代码编辑器，支持语法高亮、代码自动补全（又称 IntelliSense）、代码重构、查看定义功能，并且内置了命令行工具和 Git 版本控制系统。适用于 Windows、macOS 和 Linux。它内置了对 JavaScript、TypeScript 和 Node.js 的支持，并为其他语言和运行时（如 C++、C#、Java、Python、PHP、Go、.NET）提供了丰富的扩展生态系统。",
    "author": "作者：神兽汤姆猫"
  },
  {
    "title": "【实战】React 必会第三方插件 —— Cron 表达式生成器（qnn-react-cron）",
    "desc": "qnn-react-cron 可以看做 react-cron-antd 的升级版（具体“渊源”可见文档），现有功能如下：-  全面支持 cron：秒、分、时、日、月、周、年-  日及周条件互斥，自动改变响应值-  支持反解析 cron 表达式到 UI-  可结合此组件与 Antd 的下拉及输入组件封装成下拉输入框-  国际化支持-  TypeScript 支持",
    "author": "作者：程序边界"
  },
  {
    "title": "40个web前端实战项目，练完即可就业，从入门到进阶，基础到框架，html_css【附视频+源码】",
    "desc": "40个web前端实战项目，练完即可就业，从入门到进阶，基础到框架，html_css【附视频+源码】",
    "author": "作者：兔子的编程日记"
  },
  {
    "title": "两小时快速入门 TypeScript 基础（一）工作流、基本类型、高级类型",
    "desc": "本文介绍了TypeScript的工作流、基本类型和高级类型，并对一些类型做了举例说明，最后对本文章进行了总结...",
    "author": "作者：前端杂货铺"
  },
  {
    "title": "【前端｜CSS系列第3篇】CSS盒模型、浮动及定位",
    "desc": "CSS盒模型是用来描述HTML元素在页面中所占空间的模型。每个元素都被看作是一个矩形的盒子，包含内容区域、内边距、边框和外边距四个部分。理解盒模型对于控制元素的大小、边距和布局非常重要。浮动是一种布局方式，可以使元素脱离文档流，向左或向右移动，其他元素则围绕其周围进行布局。常用于实现多栏布局或图文混排等效果。定位是一种布局方式，用于控制元素在页面中的精确位置。常用的定位方式有相对定位、绝对定位和固定定位。通过本篇博客的学习，我们详细介绍了CSS的盒模型、浮动与清除浮动以及定位与层叠等常用样式属性。",
    "author": "作者：程序员小豪"
  },
  {
    "title": "2023年总结的web前端学习路线分享（学习导读）",
    "desc": "以上是博主自学一年前端总结的一些经验，虽然不是特别的准确但是至少能够给刚入学的前端小白一个借鉴的分享，我也会把一些人可能问到的问题总结如下，给大家分享一下我的经历：前端难不难？前端相较于后端语言来说还是比较简单的，不用考虑太多的算法方面知识，如果你的编程能力不是特别的优秀又想从事编程行业，前端可以说是一个不错的选择。前端好就业吗？近几年由于培训机构输出大量的程序员，导致现在前端有一点饱和，人数的众多导致企业对人才的要求也提高了，如果你想从事前端，建议早最准备学习多项技术才能让自己不被淘汰下去。",
    "author": "作者：亦世凡华、"
  },
  {
    "title": "vue面试题八股文简答大全 让你更加轻松的回答面试官的vue面试题",
    "desc": "此时我们就需要先根据真实dom生成虚拟dom， 当虚拟dom某个节点的数据改变后会生成有一个新的Vnode, 然后新的Vnode和旧的Vnode作比较，发现有不一样的地方就直接修改在真实DOM上，然后使旧的Vnode的值为新的Vnode。这种方法比直接操作真实DOM要快得多。从源码中可以知道，Vue判断两个节点是否相同时主要判断两者的key和元素类型等，因此如果不设置key,它的值就是undefined，则可能永 远认为这是两个相同的节点，只能去做更新操作，这造成了大量的dom更新操作，明显是不可取的。",
    "author": "作者：奶糖 肥晨"
  },
  {
    "title": "微信小程序--》从零实现小程序项目案例",
    "desc": "️作者简介：大家好，我是亦世凡华、渴望知识储备自己的一名在校大学生座右铭：人生亦可燃烧，亦可腐败，我愿燃烧，耗尽所有光芒。引言⚓经过web前端开发的学习，相信大家对于前端开发有了一定深入的了解，今天我开设了微信小程序专栏，主要想从移动端开发方向进一步发展，而对于我来说写移动端博文的第一站就是小程序开发，希望看到我文章的朋友能对你有所帮助。今天借助黑马的本地生活案例，加强一下自己对小程序的学习，并将学习过程分享出来，希望能和以前学习的知识相互印证。",
    "author": "作者：亦世凡华、"
  },
  {
    "title": "15套前端经典实战项目大合集，小白练手必备实战项目",
    "desc": "15套前端经典实战项目大合集，悄悄练习，你会惊艳所有人。今日我以内卷为荣，明日内卷以我为荣，不管学习哪门语言都要做出实际的东西来，这个实际的东西就是项目。这里整理了15前端经典实战项目，每套都有完整且详细的视频教程和源码，你可从中选择自己喜欢的项目做参考练手，也可以从中寻找灵感去做自己的项目。",
    "author": "作者：编程小老太"
  },
  {
    "title": "vue3 vite Uncaught (in promise) ReferenceError: Cannot access ‘xx‘ before initialization",
    "desc": "Uncaught (in promise) ReferenceError: Cannot access 'xxx' before initialization",
    "author": "作者：qq_18872627"
  },
  {
    "title": "Element table组件动态设置expand展开项以及同时只展开一项",
    "desc": "场景一：table表格展开项过多，界面数据太繁杂影响查看。场景二：Element Table加载的数据发生变化时，会重新渲染界面，之前的展开项会自动关闭，用户需要手动去打开展开项，频繁的手动操作会极大的影响客户体验。",
    "author": "作者：lucky_fd_"
  },
  {
    "title": "js如何获取对象中的所有属性",
    "desc": "并逐个输出它们的值；每次执行时，都会将一个属性名赋值给所定义的变量。该方法返回一个数组，数组内包含对象自身所有可枚举属性值。，该方法返回一个数组，数组内包括对象内可枚举属性。方法三：Object.values()方法二：Object.keys()方法一：for...in。所有属性(属性名和属性值)",
    "author": "作者：翻滚的露西"
  },
  {
    "title": "VUE登录注册页面,完整vue，直接复制",
    "desc": "VUE登录注册页面，直接复制全部",
    "author": "作者：good_good_study5"
  },
  {
    "title": "CSS3模拟小仓鼠一直奔跑的动画特效",
    "desc": "今天就通过CSS3来实现一只一直奔跑着的小仓鼠。",
    "author": "作者：经海路大白狗"
  },
  {
    "title": "别找了诸位 【十二款超级好用的谷歌插件都在这】(确定不来看看？）",
    "desc": "十二款超级好用的谷歌插件《第一款、油猴插件第二款、Adblock Plus - 免费的广告拦截器第三款、谷歌清理大师（CleanMaster）第四款、google翻译第五款、OneTab第六款、infinity新标签页第七款：SimilarSites（发现类似网站）第八款、Talend API Tester - Free Edition第九款、Octotree （为GitHub而生）第十款、XPath Helper第十一》............",
    "author": "作者：在下周周ovo"
  },
  {
    "title": "Vue框架--Ruoyi解析(前端)",
    "desc": "Vue框架--Ruoyi(前端)",
    "author": "作者：开发那点事儿~"
  },
  {
    "title": "vue3 antd项目实战——table表格的自定义筛选【纯前端filters过滤、自定义筛选table表格数据】",
    "desc": "vue3 ant design vue搭建的后台管理系统中，使用filters属性自定义筛选table表格中大量的数据。文章将通过三个实例详细介绍如何实现table表格的表头自定义筛选",
    "author": "作者：Dorable_Wander"
  }
]

通用爬虫模版抽取

经过上面五个爬虫案例的学习，有没有发现其实我们的代码结构很相似，只需要分析好我们想爬取的网页DOM元素结构，然后修改一些代码里获取的HTML元素即可。

我们来把代码抽成一个通用的爬虫模块：

// 根据爬取的页面自行选择是http还是https
// const http = require('http'); 
const https = require('https');
const cheerio = require('cheerio');
const iconv = require('iconv-lite');
const fs = require('fs')

const url = '你想要爬取的网页地址';

https.get(url, { rejectUnauthorized: false }, (res) => {
  let html = '';

  res.on('data', (chunk) => {
    html += iconv.decode(chunk, 'utf-8');
  });

  res.on('end', () => { 
    const $ = cheerio.load(html);
    const list = [];

    // 这里是解析HTML的重点，根据网页结构分析自行修改即可
    $('').each(function () {
      const title = $('', this).text().trim();
      // const desc = $('', this).text().trim();
      list.push({ title, desc });
    });

    // console.log(courses);
    //将数据写入文件中
    fs.writeFile('./文件名称.json', JSON.stringify(list), function (err, data) {
      if (err) {
        throw err
      }
      console.log('文件保存成功');
    })
  });
});

经过刚刚上面五个爬虫案例的实测，我们使用这个模版可以简单爬取大部分没有反爬机制的静态页面

但是一些动态渲染出来的页面或者有反爬机制的页面我们没有办法用这个模版爬取

爬虫总结

一般来说，以下类型的页面比较难爬：

动态页面：动态页面是指页面内容是通过 JavaScript 或者其他脚本语言动态生成的页面，这种页面往往需要使用浏览器来执行脚本才能获取到完整的页面内容，因此比较难以爬取。
验证码页面：验证码页面是指需要用户输入验证码才能访问的页面，这种页面需要使用 OCR 技术或者人工识别验证码才能获取到完整的页面内容，因此比较难以爬取。
反爬虫页面：反爬虫页面是指采用了一系列技术手段来防止爬虫访问的页面，如 IP 封禁、请求频率限制、请求头识别等，这种页面需要使用一些反爬虫技巧才能获取到完整的页面内容，因此比较难以爬取。
除此之外，还有一些其他的原因会导致页面难以爬取，如：页面结构复杂、数据分散在多个页面中、数据需要登录才能访问等。

针对这些问题，需要使用一些技巧和工具来解决：

使用正则表达式或者 XPath 来解析页面结构
使用分布式爬虫来爬取多个页面
使用模拟登录的方式来获取登录后的数据
使用代理可以帮助我们隐藏真实IP地址，从而避免被封锁
伪装请求头中的信息或延迟请求

之后我会再写一篇爬虫进阶，用 Puppeteer 带你实现如何爬取动态渲染页面

总结

本篇博客我们主要介绍了以下内容：

爬虫简介：介绍了什么是爬虫、爬虫的应用场景、爬虫的优缺点、为什么要使用Node.js来编写爬虫等
爬虫实战：通过五个爬虫案例（百度首页、百度热搜、豆瓣TOP250、CSDN）实战带大家完全入门了Node.js爬虫，并且我们抽取了一套适用静态页面的通用爬虫模版

总之，爬虫是一门综合性很强的技术，需要掌握多种技巧和工具，并且需要不断地学习和实践才能掌握！

你可能感兴趣的:(前端,node.js,爬虫)

Java List 集合详解：从基础到实战，掌握 Java 列表操作全貌大葱白菜 java合集 java 开发语言后端学习个人开发
作为一名Java开发工程师，你一定在项目中频繁使用过List集合。它是Java集合框架中最常用、最灵活的数据结构之一。无论是从数据库查询出的数据，还是前端传递的参数列表，List都是处理这些数据的首选结构。本文将带你全面掌握：List接口的核心方法与特性常见实现类（如ArrayList、LinkedList、Vector、CopyOnWriteArrayList）List的遍历、增删改查、排序、线
2025前端面试题全攻略：高频考点解析与实战指南
助力金三银四跳槽季，覆盖90%大厂核心考点，技术进阶+面试技巧双提升一、HTML/CSS核心篇1.语义化与布局实战问题1：如何用HTML5语义化标签优化新闻详情页？答案要点：使用包裹主体内容，划分章节标记发布时间，+处理图文SEO优势：提升关键内容权重，增强可访问性问题2：实现等间距三栏布局（中间自适应）.container{display:flex;gap:20px;/*关键：替代margin方
Java实习模拟面试之创玖科技：前后端交互、数据库、Spring全家桶、性能优化与Linux实战培风图南以星河揽胜 java面试 java 面试科技
关键词：JavaScript、JQuery、Ajax、Node.js、MySQL、Oracle、Spring、SpringMVC、SpringBoot、MyBatis、Tomcat、Redis、Nginx、Linux、Git、SAAS系统开发一、面试开场：自我介绍面试官提问：请做个自我介绍，重点突出你的技术栈和项目经验。候选人回答：您好，我是一名计算机科学与技术专业的应届生，具备扎实的Java基础
前端实现抛物线小球动画效果：从原理到代码实践编程随想▿ 前端抛物线 JS vue react.js
目录引言一、抛物线动画的核心原理二、纯HTML/CSS实现抛物线动画1.HTML结构2.CSS动画3.效果说明三、动态交互：JavaScript实现抛物线动画1.HTML结构2.JavaScript逻辑3.效果说明四、Vue.js实现抛物线动画1.组件结构2.实现思路五、React实现抛物线动画1.组件代码2.实现思路六、注意事项七、总结引言在前端开发中，动画效果是提升用户体验的重要手段之一。抛物
JavaScript的介绍及嵌入方式紫罗兰丶
JavaScript介绍JavaScript是运行在浏览器端的脚步语言，JavaScript主要解决的是前端与用户交互的问题，包括使用交互与数据交互。JavaScript是浏览器解释执行的，前端脚本语言还有JScript（微软，IE独有），ActionScript(Adobe公司，需要插件)等。JavaScript嵌入页面的方式1.页面script标签嵌入vara="你好!"2.外部引用
Gemini CLI 用户界面系统深度解析：从命令行到智能交互的完美转换步子哥交互人工智能
前言在深入探索了GeminiCLI的核心引擎、沙盒系统、扩展机制和构建发布系统后，今天我们将深入研究用户直接接触的最前端——CLI用户界面系统。这个系统不仅是用户与AI交互的桥梁，更是一个完整的交互式智能终端¹，它将复杂的AI能力转化为直观、高效的命令行体验。注解1-交互式智能终端：不同于传统的命令行工具，GeminiCLI的用户界面系统实现了真正的智能交互。它既支持传统的命令行操作，又提供了现代
爬虫基础理论总结 qianxun0921
一、什么是爬虫爬虫：又称网页蜘蛛,网络机器人，从互联网上自动抓取数据的程序，通俗地讲，就是可以爬取浏览器中看得到的数据二、爬虫的基本流程1、分析网站，得到目标url2、根据url，发起请求，获取页面的HTML源码3、从页面源码中提取数据：a、提取到目标数据，做数据的筛选和持久化存储b、从页面中提取新的url地址，继续执行第二步操作4、爬虫结束：所有的目标url都提取完毕，并且得到数据了，再也没有其
Flutter基础（前端教程①③-单例） aaiier Flutter flutter 前端
现实类比：公司打印机假设你们公司有一台共享打印机：非单例（重复创建）：每个员工都自己买一台打印机放在工位上结果：浪费钱，占空间，难维护单例（唯一实例）：全公司只买一台打印机，放在公共区域所有人都用这台打印机结果：省钱，省空间，统一管理代码中的单例在Flutter中，如果不使用单例，每次调用newCalculator()都会创建一个新的计算器：//非单例：创建多个计算器实例finalcalc1=ne
Flutter基础（前端教程①④-data.map和assignAll和fromJson和toList） aaiier Flutter flutter
1.data.map((item)=>...)作用：遍历一个列表，把每个元素「转换」成另一种形式。类比：就像工厂的流水线，每个产品经过加工变成新的样子。//原始数据finalnumbers=[1,2,3];//把每个数字变成它的平方finalsquared=numbers.map((num)=>num*num);print(squared);//输出:(1,4,9)在你的代码中：把JSON对象列表
Python爬虫热点项目之实现代理IP池（IP proxy pool）薛定谔的猫96 Python 爬虫
代理池概述代理池就是由多个稳定可用代理IP组成的池子。用来应对ip反爬，而网上的免费代理稳定可用的极少，更有甚者连收费的也不都是稳定可用。开发环境：windous，python3，sublimetext使用的主要模块：requests，lxml，pymongo，Flask完整源码请前往我的github仓库查看：https://github.com/R2h1/ProxyPool欢迎star哦！！！代
前端框架对比与选择：全面解析前端开发的得力助手 @sinner 技术选型前端前端框架
一、引言在当今快速发展的互联网时代，前端开发扮演着至关重要的角色。前端框架的出现极大地提高了开发效率、提升了用户体验。然而，市场上存在着众多的前端框架，如React、Vue、Angular等，对于开发者来说，如何在这些框架中做出合适的选择成为了一个关键问题。本文将对一些主流的前端框架进行深入对比，分析它们的特点、优势、劣势以及适用场景，希望能为广大开发者在前端框架的选择上提供有益的参考。二、Rea
Python返回函数完全指南：从基础到高级应用 Python_trys python 数据库开发语言 Python教程 Python技巧 Python入门 Python基础
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取】前言在Python编程中，函数不仅可以执行操作，还可以作为返回值，这种特性为编程带来了极大的灵活性和强大的表达能力。本文将全面介绍Python中的返回函数，从基础概念到高级应用场景，帮助开发者掌握这一重要特性。一、返回函数的基本概念1.1什么是返回函数？返回函数指的是一个函数可以返回另一个函数作为其结果。在Python中，函数是一等对象，可
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
大前端开发者如何应对 AI 浪潮：技能提升与职业发展规划欧阳天羲大前端与 AI 的深度融合 #AI 大前端行业应用与趋势篇人工智能前端
AI技术的爆发正深刻重塑大前端领域的技术栈与职业边界——从代码生成到智能交互，从自动化测试到自主化应用，AI不再是“可选技能”，而是“生存必备”。对于前端开发者而言，这既是挑战（传统技能贬值加速），更是机遇（新职业赛道涌现）。本文将系统梳理AI时代前端开发者的技能升级路线图，解析三大核心职业方向的能力要求，并提供可落地的学习路径与实践方案，帮助开发者在技术变革中实现竞争力跃迁。一、AI时代对大前端
python爬虫从入门到精通大模型猫叔 python 爬虫数据库
目录一、正确认识Python爬虫二、了解爬虫的本质1.熟悉Python编程2.了解HTML3.了解网络爬虫的基本原理4.学习使用Python爬虫库三、了解非结构化数据的存储1.本地文件2.数据库四、掌握各种技巧，应对特殊网站的反爬措施1.User-Agent2.Cookies3.IP代理五、学习爬虫框架，搭建工程化的爬虫1.创建Scrapy项目2.创建Spider3.编写Spider4.运行Spi
2025年面试官常用的前端开发笔试考题豆豆（前端开发+ui设计） vue.js javascript 前端面试职场和发展
填空题(20道)ReactHooks中，用于模拟类组件生命周期componentDidMount的Hook是________。useEffect在Vue3中，使用________API可以替代Vue2中的data和methods。CompositionWebpack的________插件可以帮助将CSS提取到单独的文件中。MiniCssExtractPlugin在JavaScript中，Promi
python爬虫入门（小白五分钟从入门到精通）一百天成为python专家 python 爬虫开发语言网络爬虫 python3.11 ipython
网络爬虫的介绍本节主要介绍Pytbon语言中支持网络爬虫的库,此外还将介绍如何获取网站的爬取规则，读者在学习和践过程中一定要严格遵守网站提供的爬取规则。网络爬虫网络爬虫通俗来讲就是使用代码将HTML网页的内容下载到本地的过程。爬取网页主要是为了获取网中的关键信息，例如网页中的数据、图片、视频等。Python语言中提供了多个具有爬虫功能的库，下面将具urHIib库:是Python自带的标准库，无须下
前端面试专栏-工程化：27.工程化实践（CI/CD、代码规范）爱分享的程序员前端面试通关指南前端面试 ci/cd
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情项目实战与工程化模块-工程化实践（CI/CD、代码规范）在团队协作的项目实战中，工程化实践是保障开发效率与代码质量的核心支柱。当项目规模从几人协作扩展到数十人团队时，单纯依赖人工沟通和经验规范会导致效率低下、bug频发。本文聚焦工程化的两大核
前端面试专栏-工程化：28.团队协作与版本控制（Git）爱分享的程序员前端面试通关指南 node.js 前端 javascript
欢迎来到前端面试通关指南专栏！从js精讲到框架到实战，渐进系统化学习，坚持解锁新技能，祝你轻松拿下心仪offer。前端面试通关指南专栏主页前端面试专栏规划详情项目实战与工程化模块-团队协作与版本控制（Git）在多人协作的项目中，代码的版本管理是保障开发效率与代码质量的核心环节。Git作为目前最流行的分布式版本控制系统，不仅能追踪代码变更历史，更能通过分支策略、协作流程规范团队工作方式。本文从实战角
Node.js特训专栏-实战进阶：16. RBAC权限模型设计爱分享的程序员 Node.js node.js 安全算法前端
欢迎来到Node.js实战专栏！在这里，每一行代码都是解锁高性能应用的钥匙，让我们一起开启Node.js的奇妙开发之旅！Node.js特训专栏主页专栏内容规划详情我将从RBAC权限模型的基础概念、核心组件讲起，详细阐述其设计原则、数据库模型设计，还会结合代码示例展示在实际开发中的实现方式，以及探讨模型的扩展与优化。RBAC权限模型设计：从理论到实战的完整方案在现代应用系统中，权限管理是保障数据安全
前端开发好用的AI工具介绍爱分享的程序员人工智能AI相关人工智能
以下是前端开发中提升效率的AI工具推荐，涵盖代码生成、UI设计、调试优化等场景：一、代码生成与辅助工具工具名称特点适用场景GitHubCopilot基于OpenAI，智能代码补全（支持JS/TS/React/Vue）快速生成代码片段、函数逻辑Codeium免费开源，多语言支持，IDE插件丰富（VSCode/WebStorm）代码补全、注释生成AmazonCodeWhispererAWS生态集成，支
基于 Python/PHP/Node.js 的淘宝 API 商品数据抓取开发教程
在电商数据分析、竞品监控等场景中，抓取淘宝商品数据是常见需求。淘宝开放平台（OpenPlatform）提供了标准化的API接口，通过合法途径调用可高效获取商品信息。本文将分别基于Python、PHP、Node.js三种语言，详解淘宝API商品数据抓取的开发流程，并提供完整代码示例。一、淘宝API准备工作在开发前，需完成以下准备步骤：注册开发者账号访问注册账号并完成实名认证，创建应用（应用类型选择“
LangGraph人机交互 wwx0622 人机交互 AIGC AI编程 gpt
Agent开发框架之Langgraph第一章Langgraph简介与入门第二章LangGraph条件边与工具调用第三章LangGraph人机交互：中断与调试文章目录Agent开发框架之Langgraph前言一、LangGraph人机交互代码总结前言在一些程序中，可能需要用户的状态才能使程序继续执行。例如，假如我们部署了一个web页面，在前端的输入框中得到了用户输入，接着后端接收该信息并注入到任务中
前端开发中的字体子集化实现 aiguangyuan 前端架构前端开发系统架构
字体子集化（FontSubsetting）是指从一个完整的字体文件中提取出页面实际使用的字符，并生成一个包含这些字符的精简字体文件。这种技术可以大幅减少字体文件的大小，从而提高网页加载速度，特别是在多语言网站中，子集化可以显著优化资源加载效率。在现代Web开发中，字体优化是提升性能的关键步骤之一。在很多设计或者文档网站，字体都是可以灵活设置的，那就导致有一个问题：字体文件加载会非常消耗性能。所以我
Vite的优缺点（精简版）
优点作为一款前端构建工具，它的核心特点是“快”，并且充分利用了现代浏览器对ESModules的原生支持，一切围绕这一点展开快启动：通过ESModules，它省去了打包整个应用的时间，可以直接在浏览器中加载模块，使得启动时间大大缩短热更新：提供热模块替换功能，并且由于省去了打包环节，只请求变化了部分，几乎实现了实时的热模块替换。缺点兼容性：某些深层依赖或动态引入的CommonJS模块可能出问题。并且
Event Loop 在浏览器和 Node.js 中的区别阿珊和她的猫 node.js 前端
前端开发工程师、技术日更博主、已过CET6阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1牛客高级专题作者、打造专栏《前端面试必备》、《2024面试高频手撕题》、《前端求职突破计划》蓝桥云课签约作者、上架课程《Vue.js和Egg.js开发企业级健康管理项目》、《带你从入门到实战全面掌握uni-app》文章目录一、事件循环的阶段浏览器Node.js二、微任务队列的处理浏览器Node
Python批量爬取谷歌原图，2021年最新可用版
文章目录前言一、环境配置1.安装selenium2.使用正确的谷歌浏览器驱动二、使用步骤1.加载chromedriver.exe2.设置是否开启可视化界面3.输入关键词、下载图片数、图片保存路径三、爬取效果四、完整代码前言作为一名CVer，数据集获取少不了用到数据、图片爬虫技术，谷歌作为全球最大的数据搜索网站，如何从中快速获取大量有用图片数据尤为重要，但是技术更新，很多代码大多就会失效，爬与反爬永
Flutter基础（前端教程①⑤-API请求转化为模型列成列表展示实战） aaiier Flutter flutter
models/post_model.dart定义Post数据模型包含fromJson()方法用于解析JSONcontrollers/post_controller.dart管理帖子数据的获取和状态使用http包请求API通过RxList和RxBool实现响应式状态管理views/post_list_view.dart展示帖子列表的UI使用Obx监听状态变化包含加载中、错误和数据展示三种状态main
前端安全指南：防御XSS与CSRF攻击天天进步2015 前端开发前端安全 xss
引言随着互联网的快速发展，Web应用安全问题日益突出。作为前端开发者，了解常见的安全威胁及其防御措施至关重要。本文将重点介绍两种最常见的前端安全威胁：跨站脚本攻击（XSS）和跨站请求伪造（CSRF），并提供实用的防御策略。XSS攻击解析什么是XSS攻击？XSS（Cross-SiteScripting，跨站脚本）攻击是一种注入类型的攻击，攻击者通过在目标网站上注入恶意脚本代码，当用户浏览该页面时，恶
带你读书之“红宝书”：第三章语法基础（中）之数据类型前部分前端不许笑
「这是我参与2022首次更文挑战的第5天，活动详情查看：2022首次更文挑战」写在前头大多数小伙伴看技术书籍都会用“啃”来描述读书的直观感受，当然我也是一个前端小白，白的透明那种，但是我在读技术书籍感觉到“啃”的时候，我希望把我啃红宝书第四版的过程的想法，总结带给大家，以供后来者能够更快上手。注：本文由于作者水平原因，如有错误之处，恳请大家指正,另外随着学习的深入，体会的加深，我会不断回来更新，修
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &