用nodejs和python实现一个爬虫来爬网站（智联招聘）的信息

最近研究了一下网站爬虫，觉得python和nodejs都有优点，所以我决定实现一个爬虫，用python来抓取网页的源代码，用nodejs的cheerio模块来获取源代码内的数据。正好我有明年换工作的打算，于是我选择爬智联招聘的网站。
代码地址：https://github.com/duan602728596/ZhiLianUrllib

1.用python进行一个http请求

# coding: utf-8
# http.py

import sys
import types
import urllib
import urllib2

# 获取传递的参数
# @param argv[0]{string}：脚本名称
# @param argv[1]{string}：请求方式，get或post
# @param argv[2]{string}：请求地址
# @param argv[3]{string}：请求的数据
argv = {
    'filename': sys.argv[0],
    'method': sys.argv[1],
    'url': sys.argv[2],
    'data': sys.argv[3],
}


class Http:
    # 初始化数据
    def __init__(self, method, url, data = ''):
        self.method = method            # 请求的类型
        self.url = url                  # 请求的地址
        self.data = self.getData(data)  # 请求的数据
        # 请求头
        self.header = {
            'Accept-Encoding': 'deflate',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
            'cache-control': 'no-cache',
        }
    # 获取请求数据的
    def getData(self, data):
        if type(data) is types.StringType:
            gd = data
        elif type(data) is types.DictionaryType:
            gd = urllib.urlencode(data)
        else:
            gd = ''
        return gd
    # get
    def get(self):
        if self.data == '':
            u = self.url
        else:
            u = self.url + '?' + self.data
        request = urllib2.Request(u)
        response = urllib2.urlopen(request)
        return response.read()
    # post
    def post(self):
        request = urllib2.Request(self.url, self.data, self.header)
        response = urllib2.urlopen(request)
        return response.read()
    # init
    def init(self):
        if self.method == 'get':
            self.result = self.get()
        elif self.method == 'post':
            self.result = self.post()
        else:
            self.result = ''

# 初始化请求
http = Http(argv['method'], argv['url'], argv['data'])
http.init()
text = http.result

# 输出请求
print(text)

在该脚本中，使用sys库获取命令行传递的各种参数，使用types库进行数据类型的判断，使用urllib库和urllib2库进行网页内容的抓取。传递的参数有请求的方式、请求的url地址、请求的数据。初始化后，根据传递的请求方式决定执行get请求还是post请求，执行请求后将结果输出出来，传回nodejs程序中。

2.nodejs和python实现通信

/**
 * pyhttp.js
 *
 * 与python脚本通信，进行一个请求
 * @param info{object}：与python脚本通信的配置
 * @param callback{function}：通信完成后执行的事件，传递参数为返回的数据
 */

const childProcess = require('child_process');


function pyhttp(info, callback){
    /* 发送请求 */
    return new Promise((resolve, reject)=>{
        // cmd
        const cps = childProcess.spawn('python', [
            // avgs
            info.file,
            info.method,
            info.url,
            info.data
        ]);
        // 储存文本
        let txt = '';

        // 错误
        cps.stderr.on('data', function(data){
            reject(data);
        });

        // 获取数据
        cps.stdout.on('data', function(data){
            txt += data;
        });

        // 获取完数据
        cps.on('exit', function(code){
            resolve(txt);
        });

    }).then(callback).catch((error)=>{
        console.log(error);
    });
}

module.exports = pyhttp;

在nodejs脚本中执行其他脚本并返回执行结果，使用child_process模块，语法为** child_process.spawn(command, [args], [options]) ，command是命令，args是参数。在这里我遇到了一个小小的坑，我之前是用的child_process.exec(command, [options], callback)，但是这个的返回值是有大小限制的，因为网站的源代码比较大，导致报错。用child_process.spawn(command, [args], [options])**或者重新设置返回值大小可解决。调用pyhttp.js需要传递两个参数，第一个参数是运行python脚本的命令配置，第二个参数是回调函数，，传递脚本的运行结果。

3.对源代码进行处理


/**
 * deal.js
 *
 * 处理数据
 * @param dealText{string}：获取到的页面源代码
 * @param ishref{boolean}：是否获取下一页的地址，默认为false，不获取
 */

const cheerio = require('cheerio');


/* 提取冒号后面的文本 */
const mhtext = text => text.replace(/.+：/, '');

function each($, ishref = false){
    const a = [];
    // 获取table
    const $table = $('#newlist_list_content_table').children('table');
    for(let i = 0, j = $table.length; i < j; i++){
        const $this = $table.eq(i);
        const $tr = $this.children('tr'),
            $tr0 = $tr.eq(0),
            $tr1 = $tr.eq(1);
        const $span =  $tr1.children('td').children('div').children('div').children('ul').children('li').children('span');

        if($this.children('tr').children('th').length <= 0){
            a.push({
                // 职位招聘
                'zwzp': $tr0.children('.zwmc').children('div').children('a').html(),
                // 招聘地址
                'zpdz': $tr0.children('.zwmc').children('div').children('a').prop('href'),
                // 反馈率
                'fklv': $tr0.children('.fk_lv').children('span').html(),
                // 公司名称
                'gsmc': $tr0.children('.gsmc').children('a').html(),
                // 工作地点
                'gzdd': $tr0.children('.gzdd').html(),
                // 进入地址
                'zldz': $tr0.children('.gsmc').children('a').prop('href'),
                // 公司性质
                'gsxz': mhtext($span.eq(1).html()),
                // 公司规模
                'gsgm': mhtext($span.eq(2).html())
            });
        }
    }

    const r = {};
    r['list'] = a;
    if(ishref != false){
        r['href'] = $('.pagesDown').children('ul').children('li').children('a').eq(2).prop('href').replace(/&p=\d/, '');
    }
    return r;
}

function deal(dealText, ishref = false){
    const $ = cheerio.load(dealText, {
        decodeEntities: false
    });


    return each($, ishref);
}

module.exports = deal;

deal.js用cheerio模块来对抓取到的源代码进行处理。传递参数dealText为源代码，ishref 为是否抓取分页的地址。
注意，在用cheerio模块来获取数据时有一个问题，

const cheerio = require('cheerio');
const html = `
                
                  1
                  2
                  3
                 
              `;
const $ = cheerio.load(html);
/*  获取li */
$('#demo').children('li');                // 这样是获取不到li的
$('#demo').children('ul').children('li'); // 获取到了li

虽然cheerio的语法和jquery一样，但是原理千差万别，因为网页的数据被解析成了object对象，所以必须通过子节点一级一级向下查找，不能跳级。
数据处理：公司性质和公司规模删除掉了：和：前面的文字，下一页的url地址删除掉&p=\d参数，该参数是分页参数。

4.nodejs和python实现通信

/* app.js */
const fs = require('fs');
const pyhttp = require('./pyhttp');
const deal = require('./deal');
const _result = {};

/**
 * 请求地址和参数
 *
 * jl：地点
 * kw：职位关键字
 * sf：工资范围下限
 * st：工资范围上限
 * el：学历
 * et：职位类型
 * pd：发布时间
 * p:  分页page
 * ct：公司性质
 * sb：相关度
 * we: 工作经验
 *
 */

const info = (url, method = 'get', data = '')=>{
    return {
        // python脚本
        file: 'http.py',
        // 请求类型
        method: method,
        // 请求地址
        url: url,
        // 请求数据
        data: data
    }
};

const page = 4; // 循环次数

// 回调
const callback = (text)=>{
    return new Promise((resolve, reject)=>{
        resolve(text);
    });
};

pyhttp(info(encodeURI('http://sou.zhaopin.com/jobs/searchresult.ashx?' +
                       'jl=北京&kw=web前端&sm=0&sf=10001&st=15000&el=4&we=0103&isfilter=1&p=1&et=2')), function(text){

    const p0 = deal(text, true);
    _result.list = p0.list;

    const n = [];
    for(let i = 0; i < page; i++){
        n.push(pyhttp(info(`${p0.href}&p=${i + 2}`)), callback);
    }

    Promise.all(n).then((result)=>{
        for(let i in result){
            _result.list = _result.list.concat(deal(result[i]).list);
        }
    }).then(()=>{
        fs.writeFile('./result/result.js', `window._result = ${JSON.stringify(_result, null, 4)};`, (error)=>{
            if(error){
                console.log(error);
            }else{
                console.log('写入数据成功！');
            }
        });
    });
});

将pyhttp.js和deal.js包含进来后，首先对智联的搜索页进行一次请求，回调函数内处理返回的源代码，将第一页数据添加到数组，并且获取到了分页的地址，使用Promise.all并行请求第2页到第n页，回调函数内对数据进行处理并添加到数组中，将数据写入result.js里面（选择js而不是json是为了便于数据在html上展现）。
获取到的数据：

1.jpg

5.页面上展现数据

/* 渲染单个数据 */
const Group = React.createClass({
    // 处理a标签
    dela: str => str.replace(/.*<\/a>/g, ''),
    // 处理多出来的标签
    delb: str => str.replace(/<\/?[^<>]>/g, '),
    render: function(){
        return (
            {this.delb(this.props.obj.zwzp)}
            {this.props.obj.fklv}
            {this.dela(this.props.obj.gsmc)}
            {this.props.obj.gzdd}
            {decodeURI(this.props.obj.zldz)}
            {this.props.obj.gsxz}
            {this.props.obj.gsgm}
        );
    }
});

/* 表格类 */
const Table = React.createClass({
    // 渲染组
    group: function(){
        return window._result.list.map((object, index)=>{
            return ();
        });
    },
    render: function(){
        return (
            {this.group()}
                
                    
                        职位
                        反馈率
                        公司名称
                        工作地点
                        智联地址
                        公司性质
                        公司规模
                    
                
                
            
        );
    }
});

ReactDOM.render(
    ,
    document.getElementById('result')
);
在页面上展示数据，使用react和bootstrap。其中在展示时，公司名称发现有无用a标签，职位内有b标签，使用正则表达式删除它们。
 页面结果：

 
   
    
     
    
   
  
    2.jpg 
   
 

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(用nodejs和python实现一个爬虫来爬网站（智联招聘）的信息)
        
            
                
                    深度解析：DETR的多尺度特征融合
                        AI天才研究院
AI大模型企业级应用开发实战DeepSeekR1&大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型AIAGILLMJavaPython架构设计AgentRPA
                        "深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
                    
                    浏览器自动复制插件-速记超人记事本V1.0
                        铁头大蚂蚁
javascript开发语言ecmascript
                        有这么一个需求，就是经常要复制某些网站的资料存到word、txt、或者excel中反复切换浏览器比较麻烦，思索再三，开发了一个浏览器插件取名为“速记超人记事本”功能如下：当我复制网页内容的时候会自动存储到浏览器插件中，如图：记录的内容自动存储到插件中，可以删除，编辑搜索，也可以导出为excel,txt格式这样我们就可以直接愉快的ctrl+c了，待我复制完成后，一键导出就可以了之前做了个1.0版本，
                    
                    1.0 双指针专题：双指针思想
                        熊峰峰
数据结构c++算法
                        常⻅的双指针有两种形式，⼀种是对撞指针，⼀种是左右指针。一、对撞指针对撞指针：⼀般⽤于顺序结构中，也称左右指针。对撞指针从两端向中间移动。⼀个指针从最左端开始，另⼀个从最右端开始，然后逐渐往中间逼近。对撞指针的终⽌条件⼀般是两个指针相遇或者错开（也可能在循环内部找到结果直接跳出循环），也就是：left==right（两个指针指向同⼀个位置）left>right（两个指针错开）二、快慢指针快慢指针：
                    
                    ES6之解构
                        Hopebearer_
ES6es6前端javascript开发语言ecmascript
                        文章目录ES6之解构一、数组解构1.基本解构2.部分解构3.默认值4.剩余参数5.嵌套解构6.交换变量二、对象解构1.基本解构2.重命名3.默认值4.剩余参数三、函数参数结构1.数组参数解构2.对象参数解构3.默认值四、注意事项1.解构顺序2.undefined情况3.剩余元素4.对象的方法解构ES6之解构解构是JavaScript（ES6及以后版本）中一种非常强大的语法特性，它允许我们按照一定模
                    
                    基于transformer实现机器翻译(日译中)
                        小白_laughter
课程学习transformer机器翻译深度学习
                        文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
                    
                    Java的定时器Timer和TimerTask使用全解析
                        程序员总部
javajavapython开发语言
                        在Java编程中，定时任务是一个常见的需求。无论是定期执行某些操作，还是在特定时间点执行任务，Java提供的Timer和TimerTask类就可以帮助我们轻松实现这些功能。今天将详细介绍如何使用这两个类，包括任务的执行和暂停。理解Timer和TimerTaskTimer是一个可以安排任务在指定的时间或周期性地执行的类。TimerTask是一个抽象类，表示要被定时执行的任务。使用Timer时，我们需
                    
                    vue + antd使用a-select的placeholder默认显示不生效
                        ai~yun
antdvue.jsjavascript前端前端框架
                        代码：<<
                    
                    QOpenGLShaderProgram 对象
                        阳光开朗_大男孩儿
OpenGLc++OpenGL
                        本篇文章是基于完整例子和调用关系qtOpenGL-CSDN博客补充疑惑说明，但单独观看也不影响理解。shaderProgram是一个QOpenGLShaderProgram对象，负责管理和使用OpenGL着色器程序。在OpenGL中，着色器是用来在图形渲染流水线中处理顶点和像素的程序，它们定义了如何绘制每个顶点和每个像素的颜色。具体来说，shaderProgram在这个代码中做的事情包括：1.加载
                    
                    OpenGL疑惑
                        阳光开朗_大男孩儿
OpenGL算法c++qtOpenGL
                        本篇文章基于完整例子和调用关系qtOpenGL-CSDN博客进行的疑惑补充，建议先观看例子，在看此篇。1.为什么glBindVertexArray解绑和绑定是一样的？glBindVertexArray是用来绑定和解绑顶点数组对象（VAO）的。绑定VAO的目的是告诉OpenGL在当前上下文中使用哪个VAO，它会保存和管理与该VAO相关的顶点缓冲区对象（VBO）和其他状态。绑定VAO（glBindVe
                    
                    拷贝构造函数和移动构造函数
                        阳光开朗_大男孩儿
c++笔记开发语言
                        目录1.拷贝构造函数和移动构造函数概念2.拷贝构造函数和移动构造函数调用时机2.1移动构造函数通常在以下情况被使用：2.2拷贝构造函数通常在以下情况被使用：2.3如果没有移动构造函数呢右值调用拷贝构造吗？2.4移动构造默认生成的条件？2.5拷贝构造默认生成的条件3.为什么有移动构造函数？4.拷贝构造函数为什么使用const？5.非临时对象可以调用移动构造函数吗？6.返回局部对象和拷贝构造返回局部对
                    
                    Ant design vue中的a-select在动态给option赋值之后，placeholder失效
                        丑小鸭变黑天鹅
Vue日常总结vue.jsjavascriptecmascript
                        Antdesignvue中的a-select在动态给option赋值之后，placeholder失效一、问题描述二、解决办法1、方法一（不推荐）2、方法二一、问题描述最近做一个项目，用到了a-select，placeholder出现了问题先看一下不起作用的代码<a-select-optionv-for="iteminallCollege":key
                    
                    Android 11 DAC和MAC
                        Optimus●Prime
androidframeworksAndroidDACMAC权限控制
                        在Android11中，DAC（DiscretionaryAccessControl，自主访问控制）和MAC（MandatoryAccessControl，强制访问控制）是两种不同的访问控制机制，主要用于权限管理、安全性以及进程间访问控制。1.DAC（自主访问控制）DAC（DiscretionaryAccessControl，自主访问控制）是Android的传统权限管理机制，基于用户ID（UID）
                    
                    【UDS诊断（ClearDiagnosticInformation_0x84服务）测试用例CAPL代码全解析⑦】
                        车端域控测试工程师
测试用例汽车经验分享CANoe学习
                        ISO14229-1:2023UDS诊断【ClearDiagnosticInformation_0x84服务】_TestCase07作者：车端域控测试工程师更新日期：2025年03月11日关键词：UDS诊断协议、清除诊断信息服务、ClearDiagnosticInformation_0x84服务、ISO14229-1:2023TC84-007测试用例用例ID测试场景验证要点参考条款预期结果TC84
                    
                    关于uni-app发布手机APP上架各应用商城，隐私政策书写方案说明
                        Otaku love travel
uni-app应用发布政策说明uni-app应用发布隐私政策
                        uni-app应用隐私政策书写与上架方案说明一、前言随着移动互联网监管日趋严格，隐私政策已成为APP上架应用商城的核心合规文件。隐私政策不仅体现开发者对用户数据的尊重，更是满足《个人信息保护法》《网络安全法》《数据安全法》等法规的法律义务。核心目标：清晰告知用户数据收集与使用规则，建立用户信任。适用对象：所有通过uni-app开发并计划上架主流应用商城（如苹果AppStore、华为应用市场、小米应
                    
                    页面跳转隐藏url参数
                        Otaku love travel
htmlhtml前端
                        在某些特定的情况下，直接请求会在url显示参数传值等，基于简单的安全性考虑，可以去掉参数，但是传参问题有出现了，以下提供了一个简单的解决方案1、a标签直接url跳转改为点击事件2、调用以下方法httpPostLocationUrl/***页面跳转*@paramurl请求地址xxx\xxx?xxx=xx&xx=xx*@paramparams可选参数json对象数据{‘a’:1}*/functionh
                    
                    如果，你想找 AI大模型相关的工作，这三个建议你一定要看！
                        我爱学大模型
人工智能chatgptAI大模型AI大模型入门转行程序员
                        01各种大厂小厂创业团队和AI擦边的面试难度，由难到简单，依次是：大模型算法（⭐⭐⭐⭐⭐）模型部署加速（⭐⭐⭐⭐）RAG等相关技术（⭐⭐⭐）纯应用（⭐⭐）Prompt工程师等其他自媒体（⭐）会简单应用就行02这结果方向，B站找几个视频看看，这里推荐用Qwen7B，开源的模型，一个3060都能跑。例如这个，如何微调Qwen开源模型。https://www.bilibili.com/video/BV1
                    
                    HIBERNATE - 符合Java习惯的关系数据库持久化
                        popkiler
Atleap代码读解hibernate数据库javasessionclasspayment
                        HIBERNATE-符合Java习惯的关系数据库持久化Hibernate2参考文档2.1.1TableofContents前言1.在Tomcat中快速上手1.1.开始Hibernate之旅1.2.第一个可持久化类1.3.映射cat1.4.与猫同乐1.5.结语2.体系结构2.1.总览2.2.持久化对象标识（PersistentObjectIdentity）2.3.JMX集成2.4.JCA支持3.Se
                    
                    你了解TikTok的矩阵玩法吗？这一策略能帮助你实现精准引流！
                        m0_74891046
矩阵
                        TikTok已经不再是一个单纯的娱乐平台，它逐渐成为了很多人商业变现的利器。今天，咱们来聊聊TikTok矩阵玩法，看看如何利用多个账号协同作战，实现精准的引流和推广。什么是TikTok矩阵玩法？矩阵玩法是一种通过多个TikTok账号配合运营，进行内容推广和流量引导的策略。通过精细化分工和协同作战，每个账号都有不同的目标和任务，从而实现更高效的流量转化和用户增长。矩阵玩法的优势：精准引流每个账号针对
                    
                    【NLP 39、激活函数 ⑤ Swish激活函数】
                        L_cl
NLP自然语言处理人工智能
                        我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
                    
                    Monorepo与pnpm：前端项目管理的完美搭档
                        秋の本名
前端pnpm前端框架mojo
                        一、什么是pnpmpnpm又称performantnpm，翻译过来就是高性能的npm。1.节省磁盘空间提高安装效率pnpm通过使用硬链接和符号链接（又称软链接）的方式来避免重复安装以及提高安装效率。硬链接：和原文件共用一个磁盘地址，相当于别名的作用，如果更改其中一个内容，另一个也会跟着改变符号链接（软链接）：是一个新的文件，指向原文件路径地址，类似于快捷方式官网原话：当使用npm时，如果你有100
                    
                    ES6语法详解
                        八月五
前端前端es6
                        ES的全称是ECMAScript,它是由ECMA国际标准化组织,制定的一项脚本语言的标准化规范。ES6实际上是一个泛指，泛指ES2015及后续的版本。目录1.let关键字和const关键字let关键字const关键字2.解构赋值数组解构赋值对象解构赋值解构赋值用于传参3.字符串新增特性模板字符串字符串实例新增方法4.数值新增特性新增二进制和八进制表示方法Number构造函数本身新增方法和属性安全整
                    
                    CentOS停更；阿里发布全新操作系统（Anolis OS）
                        萌褚
Linux运维
                        镜像下载、域名解析、时间同步请点击阿里云开源镜像站Linux系统对于Java程序员来说，就好比“乞丐手里的碗”，任何业务都离不开他的身影，因为服务端的广泛使用，也因此衍生出了各种不同的发行版，其中我个人用的最多、且最喜欢的就是CentOS；不幸的是，2021年底CentOS8宣布停止了维护；不过，喜欢CentOS的朋友们不用为此而难过；21年的云栖大会上，阿里云发布全新操作系统“龙蜥”（Anoli
                    
                    公务员行测之速算分数记忆检验-无答案版本
                        Lemon爱吃苹果
公务员公务员计算机
                        前言为了提高速算速度，有一些分数是必须要记忆的，这个博客是为了检验自己记忆效果的，答案在下一篇博客上面，自己查看哟！！！速算之分数记忆检验12=%\frac{1}{2}=\%21=%13=%\frac{1}{3}=\%31=%14=%\frac{1}{4}=\%41=%15=%\frac{1}{5}=\%51=%16=%\frac{1}{6}=\%61=%17=%\frac{1}{7}=\%71=
                    
                    Halcon 3月License 持续更新
                        lkasi
haclon计算机视觉c++
                        大家新年快乐啊！3月License:仅仅支持以下版本24.05和24.1111月:呜呜呜呜，才装的23，又要装24了12月:yeah!我是24.05！！！1月:新的一年，24还是可以用大家春节快乐呀2月:新的一年，24依然可以用3月:24.0524.11依然可以用！！！链接:https://pan.baidu.com/s/1GmymNfYVFlokESK2r1HnmA?pwd=agey提取码:ag
                    
                    零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了
                        奕澄羽邦
python开发语言
                        第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
                    
                    机器学习(Machine Learning)
                        七指琴魔御清绝
大数据学习
                        原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
                    
                    Python 字符串操作
                        iteye_13776
PythonPythonCC++C#
                        Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
                    
                    ES6解构赋值详解
                        漫天转悠
ES6es6前端ecmascript
                        ES6解构赋值详解ES6解构赋值是JavaScript语言的一项强大特性，它允许从数组或对象中提取数据，并将其赋值给变量。这一特性不仅简化了代码，提高了可读性，还增强了代码的灵活性。本文将详细介绍ES6解构赋值的基本概念、语法、应用场景以及一些高级用法。1.基本概念解构赋值是对赋值运算符的扩展。它允许按照一定的模式，从数组或对象中提取值，并赋值给变量。这种语法使得从复杂数据结构中提取数据变得更加简
                    
                    【PX4】Ubuntu20.04安装PX4教程
                        davidson1471
PX4git无人机linuxubuntu
                        *建议早上安装*1.下载以往版本从github上clone源码gitclonehttps://github.com/PX4/PX4-Autopilot.git进入PX4-Autopilot文件夹cdPX4-Autopilot查看当前分支，位于origin/maingitstatus查看所有远程分支，带release的gitbranch-r|grep"release"切换到发行分支v1.12gitc
                    
                    ES6解构语法详解
                        勇敢小陈
javascriptvue.js前端es6
                        ES6的解构语法简化了我们开发过程中复杂的取值过程，可能你在a.b.c.d的时候别人早就把值一开始就取出来了，使代码更加简洁。下面开始进行语法的详解。一、单层解构单层解构constearth={people:'人类',animal:'动物'}const{people,animal}=earthconsole.log(people,animal);//人类动物单层解构并更改变量名称consteart
                    
                                java解析APK
                                    3213213333332132
javaapklinux解析APK
                                    解析apk有两种方法 
1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 
2、利用相关jar包里的集成方法解析apk 
 
这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 
 
 

public class ApkUtil
{
	/**
	 * 日志对象
	 */
	private static Logger	 
                                
                                nginx自定义ip访问N种方法
                                    ronin47
nginx 禁止ip访问
                                    　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。 
　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种： 
　　　一：把ip段放在redis里，写一段lua 
          二：利用geo传递变量，写一段
                                
                                mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性
                                    dcj3sjt126com
mysql
                                    timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 
  
1. 
  
CURRENT_TIMESTAMP  
  
当要向数据库执行insert操作时，如果有个timestamp字段属性设为 
  
CURRENT_TIMESTAMP，则无论这
                                
                                struts2+spring+hibernate分页显示
                                    171815164
Hibernate
                                    分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。 
 
　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： 
 
 
 
 
 
public in
                                
                                构建自己的Wrapper应用
                                    g21121
rap
                                            我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。 
  
        首先，创建项目应用 
  
&nb
                                
                                [简单]工作记录_多线程相关
                                    53873039oycg
多线程
                                         最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求)     方案一 使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回     缺点       测试发现必须3个接
                                
                                调试jdk中的源码，查看jdk局部变量
                                    程序员是怎么炼成的
jdk 源码
                                    转自：http://www.douban.com/note/211369821/ 
  
 学习jdk源码时使用-- 
    学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。 
 
可惜的是sun提供的jdk并不能查看运行中的局部变量
                                
                                Oracle RAC Failover 详解
                                    aijuans
oracle
                                    Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言， 是感觉不到这种切换。 
 
 Oracle 10g RAC 的Failover 可以分为3种： 
 1. Client-Si
                                
                                form表单提交数据编码方式及tomcat的接受编码方式
                                    antonyup_2006
JavaScripttomcat浏览器互联网servlet
                                    原帖地址：http://www.iteye.com/topic/266705 
 
form有2中方法把数据提交给服务器，get和post,分别说下吧。 
（一）get提交 
1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。 
   
对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
                                
                                JS初学者必知的基础
                                    百合不是茶
js函数js入门基础
                                    JavaScript是网页的交互语言,实现网页的各种效果, 
JavaScript 是世界上最流行的脚本语言。

JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。

JavaScript 被设计为向 HTML 页面增加交互性。

许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的 
                                
                                iBatis的分页分析与详解
                                    bijian1013
javaibatis
                                            分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
                                
                                精通Oracle10编程SQL(15)使用对象类型
                                    bijian1013
oracle数据库plsql
                                    /*
 *使用对象类型
 */
--建立和使用简单对象类型
--对象类型包括对象类型规范和对象类型体两部分。
--建立和使用不包含任何方法的对象类型
CREATE OR REPLACE TYPE person_typ1 as OBJECT(
  name varchar2(10),gender varchar2(4),birthdate date
);

drop type p
                                
                                【Linux命令二】文本处理命令awk
                                    bit1129
linux命令
                                    awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 
  awk命令用来做什么？ 
1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 
2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 
3.awk实际工
                                
                                JAVA(ssh2框架)+Flex实现权限控制方案分析
                                    白糖_
java
                                      
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。 
【SSH2权限系统的实现机制】 
权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
                                
                                angular.forEach
                                    boyitech
AngularJSAngularJS APIangular.forEach
                                    angular.forEach   描述:   循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)   
                                
                                java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树
                                    bylijinnan
二叉排序树
                                    
import java.util.LinkedList;

public class CreateBSTfromSortedArray {

	/**
	 * 题目:给定一个排序数组，如何构造一个二叉排序树
	 * 递归
	 */

	public static void main(String[] args) {
		int[] data = { 1, 2, 3, 4, 
                                
                                action执行2次
                                    Chen.H
JavaScriptjspXHTMLcssWebwork
                                    xwork 写道   <action name="userTypeAction" 
class="com.ekangcount.website.system.view.action.UserTypeAction"> 
<result name="ssss" type="dispatcher"> 
                                
                                [时空与能量]逆转时空需要消耗大量能源
                                    comsci
能源
                                     
 
        无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 
 
        在进行时空穿梭的实验中,消耗超大规模的能源是必然
                                
                                oracle的正则表达式(regular expression)详细介绍
                                    daizj
oracle正则表达式
                                        正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。 
正则表达式中常用到的元数据(metacharacter)如下： 
^ 匹配字符串的开头位置。 
$ 匹配支付传的结尾位置。 
* 
                                
                                报表工具与报表性能的关系
                                    datamachine
报表工具birt报表性能润乾报表
                                    在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？ 
要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。 
  
一、报表处理的一般过程分析 
1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 
  
2、
                                
                                初一上学期难记忆单词背诵第一课
                                    dcj3sjt126com
wordenglish
                                    what 什么  
your 你 
name 名字 
my 我的 
am 是 
one 一 
two 二 
three 三 
four 四 
five 五 
class 班级，课 
  
six 六 
seven 七 
eight 八 
nince 九 
ten 十 
zero 零 
how 怎样 
old 老的 
eleven 十一 
twelve 十二 
thirteen 
                                
                                我学过和准备学的各种技术
                                    dcj3sjt126com
技术
                                    语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html 
                                
                                struts2中token防止重复提交表单
                                    蕃薯耀
重复提交表单struts2中token
                                    struts2中token防止重复提交表单 
  
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 
蕃薯耀 2015年7月12日 11:52:32 星期日 
ht
                                
                                线性查找二维数组
                                    hao3100590
二维数组
                                    1.算法描述 
  
有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 
  
2.使用到的相关知识： 
结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 
  
3.使用数组名传递 
这个的不便之处很明显，一旦确定就是不能设置列值 
  
//使
                                
                                spring security 3中推荐使用BCrypt算法加密密码
                                    jackyrong
Spring Security
                                    spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， 
Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt 
Bcrpt中的salt可以是随机的，比如： 
 
 
 

int i = 0;
	while (i < 10) {
		String password = "1234
                                
                                学习编程并不难,做到以下几点即可!
                                    lampcy
javahtml编程语言
                                    不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各 异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发 各种神奇的软件啦。 
1、确定目标 
学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
                                
                                架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in)
                                    nannan408
right join
                                    1.前言。 
  如题。 
2.代码 
(1)单表查重复数据,根据a分组 
  


SELECT m.a,m.b, INNER   JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A   GROUP BY a HAVING rank>1 )k ON m.a=k.a



 
（2）多表查询 ， 
 使用改为le
                                
                                jQuery选择器小结 VS 节点查找（附css的一些东西）
                                    Everyday都不同
jquerycssname选择器追加元素查找节点
                                    最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下： 
  
测试页面： 
<html>
	<head>
		<script src="jquery-1.7.2.min.js"></script>
		<script>
		/*$(function() {
			$(documen
                                
                                关于EXT
                                    tntxia
ext
                                      
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 
  
  
  
ExtJs最开始基于YUI技术，由开发人员Jack 
                                
                                一个MIT计算机博士对数学的思考
                                    xjnine
Math
                                     在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.