zhoumouren88

nodejs爬虫--抓取CSDN某用户全部文章

最近正在学习node.js，就像搞一些东西来玩玩，于是这个简单的爬虫就诞生了。

准备工作

node.js爬虫肯定要先安装node.js环境
创建一个文件夹
在该文件夹打开命令行，执行npm init初始化项目

正式开始

安装依赖

express 用来搭建一个简单http服务器，也可以使用node原生api
cheerio 相当于node版的jQuery，用来解析页面
superagent 用来请求目标页面
eventproxy 解决同时处理多个页面的问题

直接使用npm install express cheerio superagent eventproxy 来安装依赖包，当然你也可以用别的方法。

创建建好目录

node-spider-csdn
├─ .gitignore 
├─ node_modules 
├─ README.md 
├─ index.js 			项目入口
├─ package-lock.json
├─ package.json
└─ routes
  └─ csdn.js			爬虫主要代码

创建一个Http服务器

在index.js文件中，实例化一个express对象，启动一个Http服务

const express = require('express');

const app = express();

app.listen(3000, function() {
    console.log('running in http://127.0.0.1:3000');
});

这样就启动了一个简单的Http本地服务，执行node index.js后通过http://127.0.0.1:3000就可以访问到这个服务器。有关Express的更多内容可以参考官方文档。

编写`csdn.js`模块

先引入csdn.js文件并且添加路由

const express = require('express');
const csdn = require('./routes/csdn.js');

const app = express();

app.use(csdn);

app.listen(3000, function() {
    console.log('running in http://127.0.0.1:3000');
});

然后开始编写csdn.js

整体结构

// 引入需要的第三方包
const cheerio = require('cheerio');
const superagent = require('superagent');
const express = require('express');
const eventproxy = require('eventproxy');

const router = express.Router(); // 挂载路由
const ep = new eventproxy();

router.get('/csdn/:name', function(req, res) {
    const name = req.params.name; // 用户id
    // 具体实现...
});

// 将router暴露出去
module.exports = router;

分析页面

整体结构写好后就要开始分析CSDN用户文章页面的HTML了。

随便找一个人的博客，经过观察发现：

原创文章的完整url:https://blog.csdn.net/l1028386804/article/list/2?t=1
CSDN的文章列表是40篇一页
分页控件是动态生成的，所以无法直接通过HTML解析获得

然后我们通过开发者工具查看文章列表结构，可以发现：

文章信息都在类名为article-item-box的盒子中
id信息在该盒子的data-articleid属性中

还有一些其他的信息都很容易能查到，比如博主原创文章总数值等，可以在以后需要的时候再过来查看。

获取所有文章页面

因为无法直接获得分页信息，所以我们通过文章总数 / 每页文章数来获取所有的页面。

首先获取文章的总数：

/**
 * 获取总文章数目
 * @param {String} url 页面路径
 * @param {Function} callback 回调
 */
let getArticleNum = function (url, callback) {
    superagent.get(url).end(function (err, html) {
        if (err) {
            console.log(`err = ${err}`);
        }
        let $ = cheerio.load(html.text);
        let num = parseInt($('.data-info dl').first().attr('title'));

        callback(num);
    });
};

然后利用简单的循环获取所有文章页面：

// ...
router.get('/csdn/:name', function(req, res) {
    const name = req.params.name;
    getArticleNum(`https://blog.csdn.net/${name}`, function (num) {
        let pages = []; // 保存要抓取的页面

        let pageNum = Math.ceil(num / 40); // 计算一共有多少页面

        for (let i = 1; i <= pageNum; i++) {
            pages.push(`https://blog.csdn.net/${name}/article/list/${i}?t=1`);
        }
        // ...
    });
});
// ...

我们可以通过console.log()或者res.send()来查看获取的网址是否正确

遍历获取所有页面的HTML

// ...
router.get('/csdn/:name', function (req, res) {
    const name = req.params.name;

    getArticleNum(`https://blog.csdn.net/${name}`, function (num) {
        let pages = [];
        let articleData = []; // 保存所有文章数据
        
        let pageNum = Math.ceil(num / 40); // 计算一共有多少页面

        for (let i = 1; i <= pageNum; i++) {
            pages.push(`https://blog.csdn.net/${name}/article/list/${i}?t=1`);
        }

        // 获取所有页面的文章信息
        pages.forEach(function (targetUrl) {
            superagent.get(targetUrl).end(function (err, html) {
                if (err) {
                    console.log(`err ${err}`);
                }
                let $ = cheerio.load(html.text);
                
				// 当前页面的文章列表
                let articlesHtml = $('.article-list .article-item-box');

                // 遍历当前页的文章列表
                for (let i = 0; i < articlesHtml.length; i++) {
                    // 解析获取文章信息
                    // push到articleData中
                    // ...
                }
            });
        });
    });
});
// ...

解析文章信息

因为获取到的有些文本中空格太多，所以需要用到正则表达式来去除多余的空格。

cheerio对于Document的操作和jQuery基本一样，所以有前端基础的可以很轻松上手。

/**
 * 解析html字符串，获取文章信息
 * @param {String} html 包含文章信息的html
 * @param {Number} index 文章索引
 */
let analysisHtml = function (html, index) {
    return {
        id: html.eq(index).attr('data-articleid'),
        title: html.eq(index).find('h4 a').text().replace(/\s+/g, '').slice(2),
        link: html.eq(index).find('a').attr('href'),
        abstract: html.eq(index).find('.content a').text().replace(/\s+/g, ''),
        shared_time: html.eq(index).find('.info-box .date').text().replace(/\s+/, ''),
        read_count: html.eq(index).find('.info-box .read-num .num').first().text().replace(/\s+/, ''),
        comment_count: html.eq(index).find('.info-box .read-num .num').last().text().replace(/\s+/, '')
    };
};

// ...
// 遍历当前页的文章列表
for (let i = 0; i < articlesHtml.length; i++) {
    let article = analysisHtml(articlesHtml, i);
    articleData.push(article);
    // ...
}
// ...

我们已经获取到所有文章的信息数据，但是因为获取各个页面的文章时是并发异步进行的，所以要同时利用这些数据特殊的方法。

处理并发异步操作

这里我使用的是“计数器”eventproxy，还有很多其他的方法都可以解决这个问题。

// ...
pages.forEach(function (targetUrl) {
    superagent.get(targetUrl).end(function (err, html) {
        if (err) {
            console.log(`err ${err}`);
        }
        let $ = cheerio.load(html.text);

        let articlesHtml = $('.article-list .article-item-box');

        for (let i = 0; i < articlesHtml.length; i++) {
            let article = analysisHtml(articlesHtml, i);
            articleData.push(article);

            ep.emit('blogArtc', article); // 计数器
        }
    });
});

// 当所有'blogArtc'完成后，触发回调
ep.after('blogArtc', num, function (data) {
    res.json({
        status_code: 0,
        data: data
    });
});
// ...

这样，一个简单的node爬虫就写好了，执行node index.js启动服务后，在浏览器中输入http://127.0.0.1:3000/csdn/xxxx就可以获得xxxx（这是id）的全部文章了。

完整代码

node-spider-csdn

参考文章

分分钟教你用node.js写个爬虫
【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」
10分钟教你撸一个nodejs爬虫系统
node.js 学习笔记004:使用eventproxy控制并发

你可能感兴趣的:(技术)

从入门到精通，解锁AI新高度——DeepSeek学习手册周师姐学习
资料链接：https://pan.quark.cn/s/c927326f70c5你是否渴望掌握前沿AI技术，却在复杂的理论和实践中迷茫？现在，一本由清华大学出品的《DeepSeek：从入门到精通》学习手册横空出世，为你开启AI新世界的大门。作为人工智能领域的新兴力量，DeepSeek以其卓越的性能和创新的技术，正在重塑我们对AI的认知。这本手册，由清华大学顶尖科研团队精心编写，是DeepSeek技
Pytorch使用手册--将 PyTorch 模型导出为 ONNX（专题二十六） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
注意截至PyTorch2.1，ONNX导出器有两个版本。torch.onnx.dynamo_export是最新的（仍处于测试阶段）导出器，基于PyTorch2.0发布的TorchDynamo技术。torch.onnx.export基于TorchScript后端，自PyTorch1.2.0起可用。一、torch.onnx.dynamo_export使用在60分钟入门中，我们有机会从高层次上了解PyT
Spring 核心技术解析【纯干货版】- XII：Spring 数据访问模块 Spring-R2dbc 模块精讲 m0_74825003 面试学习路线阿里巴巴 spring java 后端
在现代应用架构中，高并发、低延迟的需求推动了响应式编程的发展，而传统的JDBC由于其同步阻塞机制，在高吞吐场景下可能成为瓶颈。R2DBC（ReactiveRelationalDatabaseConnectivity）作为响应式关系型数据库访问标准，正是为了解决这一问题而诞生的。SpringR2DBC作为Spring生态对R2DBC的封装，提供了非阻塞、异步的数据库访问能力，并与SpringWebF
Spring Boot的项目结构 m0_74823983 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot的项目结构技术背景SpringBoot项目结构遵循Maven或Gradle的标准目录结构，同时融入了SpringBoot的特定约定。良好的项目结构不仅有助于代码组织，还能提高开发效率和项目可维护性。了解SpringBoot的项目结构对于开发高质量的应用至关重要。1.基础项目结构1.1标准目录结构基本的SpringBoot项目结构如下：myproject/├──src/│├──m
深入剖析 Java 反序列化：FASTjson 漏洞与 Shiro 漏洞阿贾克斯的黎明网络安全 php web安全开发语言
目录深入剖析Java反序列化：FASTjson漏洞与Shiro漏洞引言Java反序列化原理示例代码FASTjson漏洞分析漏洞成因示例代码防护措施Shiro漏洞分析漏洞成因示例代码（模拟攻击场景）防护措施总结引言在Java应用开发中，反序列化是一项重要的技术，但同时也隐藏着巨大的安全风险。FASTjson和Shiro作为Java开发中常用的工具和框架，其反序列化漏洞曾引发了广泛关注。本文将深入探讨
前端开发中的常见问题与疑惑：解析与应对策略 lina_mua javascript vue.js html 前端 es6
1.引言1.1前端开发的复杂性前端开发涉及HTML、CSS、JavaScript等多种技术，同时还需要考虑性能优化、跨浏览器兼容性、用户体验等问题。随着前端技术的快速发展，开发者面临的挑战也越来越多。1.2本文的目标本文旨在总结前端开发中常见的问题与疑惑，并提供相应的解决方案和应对策略，帮助开发者更好地应对挑战。2.HTML/CSS常见问题2.1布局问题：如何实现复杂的页面布局？问题描述：实现复杂
Transformer 代码剖析2 - 模型训练（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、模型初始化模块参考：项目代码1.1参数统计函数defcount_parameters(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)遍历模型参数筛选可训练参数统计参数数量返回总数技术解析：numel()方法计算张量元素总数requires_grad筛选需要梯度更新的参数统计结果反映模型复杂度，典型Tran
文心一言产品拆解调研报告 Charlues.k AI产品经理文心一言 ai
目录一、产品概述二、目标用户与市场定位三、核心功能分析1.功能列表2.功能使用流程3.交互体验四、用户体验评估1.用户视角1.1学习曲线1.2操作流畅度1.3用户心理预期满足程度2.情感设计2.1细节设计与用户情感体验2.2界面与交互符合用户预期3.使用场景3.1高频场景下的操作体验3.2低频或紧急场景下的操作便利性总结五、数据和技术分析1.技术架构1.1技术架构概述1.2核心功能支持与稳定性1.
从零开始：使用ArcBlock构建你自己的DID YekForth 区块链
随着区块链技术的发展，去中心化身份（DecentralizedIdentifiers，DID）成为了数字身份管理的重要组成部分。DID提供了一种去中心化的方式来验证和管理数字身份，使得用户可以更好地掌握自己的身份信息。在本文中，我们将介绍如何使用ArcBlock构建和管理自己的DID，并提供相关的源代码示例。DID是一个唯一标识符，它与特定的实体（如个人、组织或物品）相关联。ArcBlock是一个
Java微服务的注册中心Nacos 铁锤学代码微服务 java 微服务开发语言
文章目录Nacos的主要作用Nacos实现动态配置更新的技术Nacos实现CAPNacos实现CAP原理Nacos使用Distro和Raft分别干什么用？ZAB与Raft的区别Nacos的主要作用配置中心:可以将微服务中的一些配置信息放到Nacos进行统一管理，也可以通过Nacos实现动态配置管理。也可以将不同环境的配置放在不同的Namespace下的group下，实现动态选择配置发布部署。服务注
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
Linux驱动开发: USB驱动开发 DS小龙哥 Linux系统编程与驱动开发 linux USB驱动嵌入式
一、USB简介1.1什么是USB?USB是连接计算机系统与外部设备的一种串口总线标准，也是一种输入输出接口的技术规范，被广泛地应用于个人电脑和移动设备等信息通讯产品，USB就是简写，中文叫通用串行总线。最早出现在1995年，伴随着奔腾机发展而来。自微软在Windows98中加入对USB接口的支持后，USB接口才推广开来，USB设备也日渐增多，如数码相机、摄像头、扫描仪、游戏杆、打印机、键盘、鼠标等
【产品经理修炼之道】-产品经理的警钟：当DeepSeek向传统工业软件发起挑战 xiaoli8748_软件开发产品经理
随着AI技术的飞速发展，工业领域正经历一场深刻的数字化变革。本文深入探讨了以DeepSeek为代表的低成本AI模型如何对传统工业信息系统发起冲击，甚至引发了“软件大灭绝”的危机。01一场由低成本AI引发的“工业软件大变革”当某家年产值10亿元的制造企业，用DeepSeek提供的AI模型替代了沿用十年的SAPBusinessObjects报表系统时，其IT总监在项目总结会上说：“我们每年花300万维
怎么在体育直播系统进行足球赛事的直播 sanx18 java 阿里云
在网络直播技术的带动下，体育赛事直播平台看比赛变得越来越普及。下面就详细介绍如何运用源码搭建一个的体育直播系统，让大家能够进行足球赛事的直播。第一步：搭建系统平台首先需要得到一个体育直播系统源码。该源代码有一套完整的平台框架，功能对标虎牙和斗鱼等各大体育直播平台。第二步：注册和申请主播认证完成搭建系统后，接下去需要添加用户或进行注册。通过注册账户，能申请成为主播。申请后，需要登录后台进行审核通过，
硬盘数据恢复操作全攻略 AR新视野
本文还有配套的精品资源，点击获取简介：硬盘数据恢复是一项需要精确操作的技术活动，主要针对丢失、误删或损坏的文件进行恢复。本教程通过深入探讨数据恢复的基础知识和步骤，指导用户如何安全有效地执行数据恢复。教程强调了在硬盘故障发生时的正确处理方式，包括避免在受损硬盘上直接操作、使用保护卡或克隆技术复制数据，以及选择合适的数据恢复软件等。教程还提供了数据恢复的基本步骤，并告诫用户在数据非常关键或硬件问题复
【LangChain编程：从入门到实践】实现多模态代理 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】实现多模态代理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：LangChain编程，多模态代理，自然语言处理，多媒体数据融合，复杂任务解决能力1.背景介绍1.1大背景与问题的提出随着人工智能技术的飞速发展，尤其是大模型在自然语言处理领域的突破，如通义千问、通义万相、阿里云通义大模型等，我们正迎来一个全
网络安全加密python代码黑客Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快网络信息安全中遇到的各种攻击是防不胜防的，采取适当的防护措施就能有效地保护网络信息的安全,包括防火墙、入侵检测系统、漏洞扫描技术以及加密技术等多种防护措施。而信息安全的本质就是要保护信息本身和信息系统在存储、传输中的完整性和保密性,保障不被攻击和篡改,上述的主动攻击、被动攻击和病毒袭击都会造成信息的破坏和泄密,我们以信息安全中的基础理论出
222222222222222 智能与优化开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas是基于Nu
以笔触编织计算机领域的故事** 爱编程的Loren 活动文章活动文章
###活动启事大学生们，是时候拿起你的笔，释放你的创造力了！我们正在举办一个为期14天的写作博客创作挑战赛，邀请你一同参与，挖掘你的创作潜能，展现你的写作才华。这个活动旨在发掘写作的魅力，共同编织我们的故事。 ####活动背景这个挑战赛专为热爱写作的大学生博主设立，意在为大家提供一个展现自己计算机领域专业知识、观点与创意的平台。无论是想要深入探索某个计算机技术领域，还是分享个人编程经
白帽黑客系列教程之Windows驱动开发（64位环境）入门教程（七）黑客影儿技术分享原创文章系统安全驱动开发 c语言 windows 系统安全程序人生学习方法 visual studio
为什么要写这篇文章呢？作为一名白帽黑客，如果想要学习ROOTKIT攻防技术，就必须要有能力进行驱动开发！本文章仅提供学习，切勿将其用于不法手段！在Windows操作系统的64位环境中，进行ROOTKIT攻防，就必须要学会Windows驱动开发！Windows驱动开发，是掌握Rootkit技术的硬性基础之一！不会Windows环境下的驱动开发，你就难以透彻理解ROOTKIT攻防技术的真相！接上一篇文
开目CAPP三维装配工艺设计在企业的应用价值开目软件开目CAPP 三维装配工艺设计三维装配工艺设计应用价值
目前，国内三维装配CAPP技术的应用还处于起步阶段，其主要应用于高产值、高附加值以及信息化程度较高的航空航天、汽车、军用电子等行业。通过应用，主要实现了以下价值：提升产品上市速度在产品设计到产品交付的过程中，通过采用数字化预装配进行装配工艺规划，可以帮助企业通过装配过程的模拟分析尽早发现和解决问题，优化装配方案，为设计与工艺、制造的并行提供条件，从而提高装配设计、现场装配工作的工作效率，缩减产品交
【3D格式转换SDK】HOOPS Exchange技术概览（一）：3D 数据处理高效能与定制化工业3D_大熊 3D CAD开发工具 3d 3D建模 3D模型轻量化 3D模型Web可视化 3D数据格式转换 3D格式转换 CAD格式转换
HOOPSExchange是一款专为3D工程应用开发而设计的SDK，旨在助力开发者便捷地访问和重用由CAD与BIM设计应用所生成的3D数据，为3D产品运营提供了强大的数据基础。借助单一且集成化的界面，HOOPSExchange能够高效地导入、转换以及导出超过30种原生及标准格式的3D数据，具体涵盖以下格式：机械计算机辅助设计（MCAD）领域：CATIA、NX、Creo、SOLIDWORKS、Inv
一个基于 React + SpringBoot 的在线多功能问卷系统（附源码）程序员-李旭亮 Java项目源码 react.js spring boot 前端
简介：一个基于React+SpringBoot的在线多功能问卷系统前端技术栈：React、React-Router、Webpack、Antd、Zustand、Echarts、DnDKit后端技术栈：SpringBoot、MySQL、MyBatisPlus、Redis项目源码下载链接：https://pan.quark.cn/s/2e32786e0c61部分页面静态预览：主要前端业务需求与技术突破：
DeepSeek R1 简单指南：架构、训练、本地部署和硬件要求爱喝白开水a 人工智能 AI大模型 DeepSeek R1 DeepSeek 算法人工智能训练大模型部署
DeepSeek推出的LLM推理新策略DeepSeek最近发表的论文DeepSeek-R1中介绍了一种创新的方法，通过强化学习（RL）提升大型语言模型（LLM）的推理能力。这项研究在如何仅依靠强化学习而不是过分依赖监督式微调的情况下，增强LLM解决复杂问题的能力上，取得了重要进展。DeepSeek-R1技术概述模型架构DeepSeek-R1不是一个单独的模型，而是包括DeepSeek-R1-Zer
Java与Spring的“甜蜜毒药”：从辉煌到疲态的技术反思步子哥 java spring python
“Java生态就像一场漫长的婚姻，Spring是那个看似完美的伴侣，但当你意识到对方的控制欲时，已经为TA背上了巨额房贷。”Java，这位曾经的企业级开发之王，如今却像一位中年危机的技术巨人，站在2023年的技术浪潮中，显露出疲态。而Spring，这个曾经被誉为“轻量级救世主”的框架，早已从灵活的工具箱变成了沉重的枷锁。今天，我们就来聊聊这对技术界的“黄金搭档”，如何从蜜月期走向了“分居边缘”。Ⅰ
基于STM32的智能健康监测手环系统 STM32发烧友 stm32 嵌入式硬件单片机
1.引言传统健康监测设备存在功能单一、数据孤立等问题，难以满足现代健康管理的个性化需求。本文设计了一款基于STM32的智能健康监测手环系统，通过多生理参数采集、AI健康评估与云端协同技术，实现人体健康状态的实时监测与预警，推动主动健康管理模式的普及。2.系统设计2.1硬件设计主控芯片：STM32L476RG，超低功耗设计（7天）无线充电（Qi标准，2小时充满）2.2软件架构生理信号处理：小波变换消
基于STM32的无人机自主导航与避障系统 STM32发烧友 stm32 无人机嵌入式硬件
目录引言环境准备2.1硬件准备2.2软件准备无人机自主导航与避障系统基础3.1控制系统架构3.2功能描述代码实现：实现无人机自主导航与避障系统4.1数据采集模块4.2数据处理与控制算法4.3通信与远程监控实现4.4用户界面与数据可视化应用场景：无人机智能化与任务执行问题解决方案与优化收尾与总结1.引言无人机自主导航与避障技术是无人机系统实现智能化和高效任务执行的核心功能。基于STM32微控制器，该
Spring Boot 集成 Kafka m0_74823471 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
《从空指针到百万访问：小丁学Java的1024天创作者之路》小丁学Java 创作者纪念日
文章目录文章目录✨机缘收获日常️成就憧憬文章目录✨机缘提示：可以和大家分享最初成为创作者的初心，例如实战项目中的经验分享、日常学习过程中的记录、通过文章进行技术交流等…收获提示：在这创作过程中都有哪些收获，例如获得了多少粉丝的关注、获得了多少正向的反馈如赞、评论、阅读量等、认识和哪些志同道合的领域同行等…日常️提示：当前创作和你的工作、学习是什么样的关系，例如创作是否已经是你生活的一部分了、有限的
月之暗面改进并开源了 Muon 优化算法，对行业有哪些影响？互联网之路. 知识点开源算法
互联网各领域资料分享专区(不定期更新)：Sheet正文月之暗面团队改进并开源的Muon优化算法在深度学习和大模型训练领域引发了广泛关注，其核心创新在于显著降低算力需求（相比AdamW减少48%的FLOPs）并提升训练效率，同时通过开源推动技术生态的共建。1.显著降低大模型训练成本，推动技术普惠算力需求锐减：Muon通过引入权重衰减和一致的RMS更新，解决了原始Muon在大规模训练中的稳定性问题，使
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他