CoreJT

Python爬虫实战 | (11) 爬取网络小说并存入MongoDB数据库

之前在Python爬虫实战(2)中我们曾爬取过网络小说，本篇博客的爬取解析过程和之前几乎完全一样，不同的是数据存储方式，之前是存储到文件中(csv,txt,json,excel等)，这次我们将提取的小说存储到MongoDB数据库中。下面是首页链接：

http://www.xbiquge.la/xiaoshuodaquan/

首先打开上面的网址，我们会发现是小说列表，选择其中一部小说，打开会是章节列表，打开某一章后才是文本。所以，我们要首先获取小说列表，然后打开某一部小说后，再获取章节列表，最后在爬取对应的内容。依旧是四部曲：

首先搭建起程序主体框架：

import os
import re
import time
import requests
from requests import RequestException
import pymongo


def get_page(url):
    pass


def get_list(page):
    pass


def get_chapter(novel_url):
    pass


def get_content(chapter, name):
    pass





if __name__ == '__main__':

    #连接MongoDB
    client = pymongo.MongoClient('mongodb://localhost:27017')
    #指定数据库
    db = client.novel
    #指定集合
    novel_col = db.novels  #存储小说名和章节名
    chapter_col = db.chapters #存储章节名和章节内容

    # 首页url
    url = 'http://www.xbiquge.la/xiaoshuodaquan/'
    # 发送请求，获取响应
    page = get_page(url)
    # 获取小说列表 解析响应
    novel_list = get_list(page)
    print(novel_list)


    for item in novel_list:
        novel_chapter = get_chapter(item[0]) #得到章节列表
        print(novel_chapter)
        # 按小说章节 分别保存到文本文件
        for chapter in novel_chapter:
            get_content(chapter, item[1])

发送请求，获取响应：

def get_page(url):
    try:
        headers = {
            'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
        }
        response = requests.get(url,headers=headers)
        if response.status_code==200:
            response.encoding = response.apparent_encoding
            return response.text
        return None
    except RequestException:
        return None

解析首页的响应，获取小说列表：

发现首页所有的小说都在li标签中，每个小说都包在一个a标签中，并有链接。

def get_list(page):
    #我们可以只通过a标签来解析
    pattern = re.compile('(.*?)',re.S)
    list = pattern.findall(page)
    return list[10:] #只通过a标签来解析 前10个并不是小说，所以从第11个开始

获取小说的章节列表：

发现小说的所有章节都在dd标签中，每个章节都包在一个a标签中，并有链接。

def get_chapter(novel_url):
    html = get_page(novel_url)
    pattern = re.compile("(.*?)",re.S)
    chapters = pattern.findall(html)
    return chapters[:5] #取前5章 也可以取全部

获取章节内容：

章节内容在上图的div标签中。

def get_content(chapter, name):
    chapter_url = 'http://www.xbiquge.la' + chapter[0]
    html = get_page(chapter_url)
    pattern = re.compile('(.*?)', re.S) #获取章节内容
    chapter_content = pattern.findall(html)
    for content in chapter_content:
        content = content.replace("    ", "").replace("
", "")
        #插入mongodb
        novel_col.insert_one({'name':name,'chapter':chapter[1]})
        chapter_col.insert_one({'name':chapter[1],'content':content})

爬取效果，确保安装了mongodb和可视化管理工具Robo3T，打开Robo3T：

novels集合：存储小说名和章节名

chapters集合：存储章节名和章节内容

完整代码：

import os
import re
import time
import requests
from requests import RequestException
import pymongo


def get_page(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
        }
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            response.encoding = response.apparent_encoding
            return response.text
        return None
    except RequestException:
        return None


def get_list(page):
    # 我们可以只通过a标签来解析
    pattern = re.compile('(.*?)', re.S)
    list = pattern.findall(page)
    return list[10:]  # 只通过a标签来解析 前10个并不是小说，所以从第11个开始


def get_chapter(novel_url):
    html = get_page(novel_url)
    pattern = re.compile("(.*?)", re.S)
    chapters = pattern.findall(html)
    return chapters[:5]  # 取前5章 也可以取全部


def get_content(chapter, name):
    chapter_url = 'http://www.xbiquge.la' + chapter[0]
    html = get_page(chapter_url)
    pattern = re.compile('(.*?)', re.S)
    chapter_content = pattern.findall(html)
    for content in chapter_content:
        content = content.replace("    ", "").replace("
", "")
        novel_col.insert_one({'name':name,'chapter':chapter[1]})
        chapter_col.insert_one({'name':chapter[1],'content':content})





if __name__ == '__main__':

    #连接MongoDB
    client = pymongo.MongoClient('mongodb://localhost:27017')
    #指定数据库
    db = client.novel
    #指定集合
    novel_col = db.novels
    chapter_col = db.chapters

    # 首页url
    url = 'http://www.xbiquge.la/xiaoshuodaquan/'
    # 发送请求，获取响应
    page = get_page(url)
    # 获取小说列表 解析响应
    novel_list = get_list(page)
    print(novel_list)


    for item in novel_list:
        novel_chapter = get_chapter(item[0]) #得到章节列表
        print(novel_chapter)
        # 按小说章节 分别保存到文本文件
        for chapter in novel_chapter:
            get_content(chapter, item[1])

你可能感兴趣的:(Python爬虫实战 | (11) 爬取网络小说并存入MongoDB数据库)

鸿蒙HarmonyOS应用开发 |鸿蒙技术分享HarmonyOS Next 深度解析：分布式能力与跨设备协作实战一键难忘 harmonyos 分布式华为 HarmonyOS Next
鸿蒙技术分享：HarmonyOSNext深度解析：分布式能力与跨设备协作实战随着万物互联时代的到来，操作系统作为连接设备、应用与用户体验的核心，扮演着不可或缺的角色。华为最新发布的HarmonyOSNext（鸿蒙操作系统下一代版本）不仅在技术架构上实现了颠覆性升级，更在生态体验上迈向了一个新的高度。本文将从技术架构、生态优势和开发实践三个方面深入探讨HarmonyOSNext的技术特点，并通过一个
鸿蒙系统架构解析：深入理解分层设计与功能实现斯陀含 harmonyos 架构华为
鸿蒙系统架构解析：深入理解分层设计与功能实现鸿蒙操作系统(HarmonyOS)是华为推出的全新分布式操作系统，其独特的架构设计是其核心竞争力之一。本文将深入探讨鸿蒙系统的分层架构，从内核层到应用层，逐层剖析其功能和作用，并结合实例帮助读者更好地理解鸿蒙系统的设计理念。一、鸿蒙系统架构概览鸿蒙系统采用分层架构设计，将系统划分为四个层次：内核层、系统服务层、框架层和应用层。这种分层架构具有以下优势：模
112：vue+cesium 设置镜头光晕效果还是大剑师兰特 #cesium综合教程200+大剑师 cesium教程 cesium示例 cesium高级 Cesium API
作者：还是大剑师兰特，曾为美国某知名大学计算机专业研究生，现为国内GIS领域高级前端工程师，CSDN知名博主，深耕openlayers、leaflet、mapbox、cesium，canvas，echarts等技术开发，欢迎加微信（gis-dajianshi），一起交流。查看本专栏目录-本文是第:112`篇文章文章目录一、示例效果图:二、示例介绍三、配置说明四、示例源代码（共171行）五、核心方法
python使用matplotlib库绘制饼图 zhan114514 python科学绘图 python matplotlib 开发语言
使用python的matplotlib库绘制饼图，包括普通饼图、堆叠饼图、嵌套饼图，并一一封装成了方法，直接调用使用。先安装matplotlib库，pipinstallmatplotlib代码如下：fromtypingimportSequenceimportmatplotlib.pyplotaspltimportmatplotlibimportnumpyasnpmatplotlib.rcParam
PYQT5的UI转换报错：fatal python error: _pyinterpreterstate_get(): no current thread state解决办法 QX大黄蜂 python ui qt python
使用QT可视化工具设计界面，在将UI文件转换为py文件的时候报错：fatalpythonerror:_pyinterpreterstate_get():nocurrentthreadstatepythonrun原因可能是python版本与QT不兼容，具体原因不知道解决办法：使用以下配置将UI转换为py，再将py文件给其它程序调用python版本：3.7.1pyqt5版本：5.11.3pyqt5-t
【保姆级】阿里云codeup配置Git的CI/CD步骤 CodeCaptain 阿里云 GitLab DevOps 阿里云 git ci/cd
以下是通过阿里云CodeUp的Git仓库进行CI/CD配置的详细步骤，涵盖前端（Vue3）和后端（SpringBoot）项目的自动化打包，并将前端打包结果嵌入到Nginx的Docker镜像中，以及将后端打包的JAR文件拷贝至Docker指定目录的完整流程：前提条件阿里云账号：已注册并登录阿里云CodeUp。项目代码：前端（Vue3）和后端（SpringBoot）项目代码已托管到CodeUp仓库。D
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
史上最贵iPhone，苹果首款折叠iPhone预计售价超1.6万佳晓晓 django 智能手机 harmonyos pygame scikit-learn
史上最贵iPhone！苹果首款折叠屏手机售价超1.6万，能否颠覆折叠屏市场？一、天价折叠屏：苹果的“奢侈品”战略2025年3月，苹果首款折叠屏iPhone的定价传闻引爆科技圈。据英国巴克莱银行分析师蒂姆·龙（TimLong）预测，这款机型起售价将高达2300美元（约合人民币16637元），远超当前旗舰机型iPhone16ProMax的1199美元，成为苹果史上最贵智能手机。而供应链分析师郭明錤此前
信号传输与通信：光纤通信中的信号处理_（11）.相干光通信技术 kkchenkx 信号处理技术仿真模拟信号处理
相干光通信技术相干光通信技术是一种在光纤通信系统中广泛应用的技术，通过使用相干检测方法来提高信号的传输性能。与传统的强度调制/直接检测（IM/DD）系统相比，相干光通信技术能够实现更高的数据传输速率和更长的传输距离，这是因为相干检测技术能够有效地提取信号的相位和幅度信息，从而在接收端实现更精确的信号恢复。1.相干光通信的基本概念相干光通信系统的核心在于相干检测，通过使用本地振荡器（LocalOsc
基于STM32设计的健康检测设备(测温心率计步)（局域网） DS小龙哥智能家居与物联网项目实战 stm32 嵌入式单片机
1.项目介绍1.1开发背景本项目设计一款基于STM32F103RCT6微控制器的便携式健康监测设备，该设备能够实时监测并记录用户的生理参数，包括人体温度、心率以及日常活动中的步数，并具备将这些数据可视化显示在设备自带的OLED屏幕上的能力。此外，该设备还提供了通过Wi-Fi模块ESP8266将收集到的数据无线传输至用户的智能手机或个人计算机的功能，以便用户能够更加方便地管理自己的健康信息。为了实现
Pytorch使用手册-DCGAN 指南（专题十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
1.Introduction本教程将通过一个示例介绍DCGANs（深度卷积生成对抗网络）。我们将训练一个生成对抗网络（GAN），在给它展示大量真实名人照片后，它能够生成新的“名人”图片。这里的大部分代码来源于PyTorch官方示例中的DCGAN实现，而本文档将对该实现进行详细解释，并阐明这种模型的运行机制及其背后的原因。无需担心，你不需要事先了解GAN的知识，但初次接触的读者可能需要花一些时间来理
外星人入侵-Python-二 Java版蜡笔小新 Python python pygame 开发语言
武装飞船开发一个名为《外星人入侵》的游戏吧！为此将使用Pygame，这是一组功能强大而有趣的模块，可用于管理图形、动画乃至声音，让你能够更轻松地开发复杂的游戏。通过使用Pygame来处理在屏幕上绘制图像等任务，可将重点放在程序的高级逻辑上。你将安装Pygame，再创建一艘能够根据用户输入左右移动和射击的飞船。在接下来的两章，你将创建一群作为射杀目标的外星人，并改进该游戏：限制可供玩家使用的飞船数，
gcc version 11.4.0 (Ubuntu 11.4.0-1ubuntu1~22.04) 上编译问题笔记老爸我爱你开发语言 c++
编译错误如下：Infileincludedfrom/usr/include/glib-2.0/glib/glib-typeof.h:39,from/usr/include/glib-2.0/glib/gatomic.h:28,from/usr/include/glib-2.0/glib/gthread.h:32,from/usr/include/glib-2.0/glib/gasyncqueue.
B+树深入解析：为什么数据库索引都爱用这个结构？程序猿小白菜数据库后端java生态圈数据库数据结构 B+树
一、从图书馆索引理解B+树想象一个超大型图书馆存放着500万册图书，管理员需要设计一个高效的检索系统。传统目录柜（类似二叉树）的问题：目录卡片过多导致柜子太高，查找时需要频繁上下梯子（磁盘IO）热门书籍的目录卡片被翻烂（节点频繁修改）找某个范围的书籍（如TP311.1到TP311.9）需要反复开柜门B+树就是为这类场景设计的完美解决方案，它像一本智能目录：目录本很厚但每页记录很多条目（多路平衡）所
记录华为OBS文件上传下载多种方式 yychen_java java 华为 java spring
公司要从阿里的oss切换到华为的obs，为了尽量小代价的改动，所以想找和阿里一样上传的方式，之前阿里做的是后端生成文件上传的url，前端做上传动作，这里记录一下obs的多种上传方式。直接上代码：1、获取OBS配置引入mavencom.huaweicloudesdk-obs-java3.21.11其中的各种配置自己在华为平台找到哦。importcom.obs.services.ObsClient;i
解锁区块链智能合约的未来：构建支持仿真测试的MySQL环境墨夶数据库学习资料1 区块链智能合约 mysql
在区块链技术快速发展的今天，智能合约作为其核心组件之一，正在改变我们处理交易、管理资产乃至构建商业逻辑的方式。然而，对于许多开发者而言，在正式部署之前如何有效地测试和验证智能合约的行为仍然是一个不小的挑战。本文将详细介绍如何设计并实现一个基于MySQL的支持智能合约仿真执行的环境，使您能够在传统的关系型数据库中体验到智能合约的强大功能。一、为什么选择MySQL？尽管以太坊等平台提供了专门用于编写和
Apache Tomcat 远程代码执行漏洞复现(CVE-2025-24813)（附脚本） iSee857 漏洞复现 apache tomcat java web安全安全
免责申明：本文所描述的漏洞及其复现步骤仅供网络安全研究与教育目的使用。任何人不得将本文提供的信息用于非法目的或未经授权的系统测试。作者不对任何由于使用本文信息而导致的直接或间接损害承担责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x01产品描述：ApacheTomcat是一个开源的JavaServlet容器和Web服务器，支持运行JavaServlet、JavaServerP
Spring Boot 外部化配置 (Externalized Configuration) 超详解：灵活管理应用配置，打造可移植、可扩展的应用无眠_ spring boot 数据库 oracle
引言在SpringBoot应用开发中，配置管理是至关重要的环节。不同的环境(开发、测试、生产)通常需要不同的配置参数，例如数据库连接、端口号、日志级别、第三方API密钥等等。SpringBoot外部化配置(ExternalizedConfiguration)提供了一套强大的机制，允许我们将应用的配置从代码中解耦出来，并通过多种外部来源进行灵活管理，从而打造出可移植、可扩展、易于维护的SpringB
Android 和 Linux 之间关联和区别测试也是会开发的 android linux 运维
1.核心：基于Linux内核底层依赖：Android的核心系统服务（如进程管理、内存管理、硬件驱动等）依赖于Linux内核。Android使用Linux内核的修改版本（如AndroidCommonKernel），并针对移动设备的特性（电源管理、低内存优化等）进行了定制。开源协议：Linux内核采用GPL协议，因此Android对内核的修改必须开源（厂商发布的Android设备内核代码需公开）。2.
Vue3-笔记002-Ref与Reactive ·焱· vue3学习笔记笔记 vue.js javascript
002-Ref与Reactive-目录Refref案例ref与RefifRefshallowReftriggerRefcustomRefdom元素的refReactive与ref的共同点与ref的不同点数组的异步赋值问题readonlyshallowReactivetoReftoRefstoRawRef接受一个内部值并返回一个响应式且可变的ref对象。ref对象仅有一个.valueproperty
《Java线程池深度解析：从核心参数到饱和策略实战》云之兕 java基础入门到精通 java 开发语言
"线程池核心数设置多少合适？为什么任务队列满了会导致OOM？如何设计可降级的异步任务系统？"本文通过电商秒杀场景贯穿线程池参数调优全过程，结合ThreadPoolExecutor源码解析核心机制，并给出动态线程池与监控报警的最佳实践。一、线程池核心参数关系图解graphLRA[提交任务]-->B{核心线程是否已满?}B-->|否|C[创建核心线程执行]B-->|是|D{队列是否已满?}D-->|否
Kotlin代码示例及详细解析（Kotlin 1.3.11）淮山2 kotlin
//Kotlin1.3.11编译器版本//无包声明//1.基础变量声明//声明实例变量AAA1，类型为Int，初始值为0，类似C语言先声明后初始化的习惯varAAA1:Int=0//声明实例变量AAA2，类型为Double，初始值为0.0varAAA2:Double=0.0//声明实例变量AAA3，类型为String，初始值为空字符串varAAA3:String=""//2.静态变量声明//声明静
Angular 动态加载组件与服务注入 t0_54program 编程问题解决手册 angular.js javascript ecmascript 个人开发
在Angular项目中，动态加载组件是一种常见的优化策略，特别是对于那些不常使用但体积庞大的组件。今天我们将探讨如何在Angular16+版本中使用MatDialog来动态加载组件，并解决与服务注入相关的问题。背景介绍假设我们有一个名为TestAComponent的组件，它需要在特定条件下打开一个对话框，显示一个名为TestBComponent的组件。由于TestBComponent非常大，并且使
【JavaScript】11-JS高阶技巧 beibeibeiooo JavaScript【已完结】javascript 前端 ecmascript es6
本文介绍JS中的一些高阶技巧。目录1.深浅拷贝1.1浅拷贝1.2深拷贝1.2.1通过递归实现1.2.2lodash/cloneDeep1.2.3JSON.stringify()2.异常处理2.1throw抛异常2.2try/catch捕获异常2.3debugger3.处理this3.1this指向3.1.1普通函数this3.1.2箭头函数的this3.2改变this3.2.1call方法改变3.
鸿蒙特效教程09-深入学习animateTo动画苏杰豪 HarmonyOS Next 鸿蒙特效教程 harmonyos 学习华为
鸿蒙特效教程09-深入学习animateTo动画本教程将带领大家从零开始，一步步讲解如何讲解animateTo动画，并实现按钮交互效果，使新手也能轻松掌握。效果演示通过两个常见的按钮动画效果，深入学习HarmonyOSNext的animateTo动画，以及探索最佳实践。缩放按钮效果抖动按钮效果一、基础准备1.1理解ArkUI中的动画机制HarmonyOS的ArkUI框架提供了强大的动画支持，常见有
策略模式详解：实现灵活多样的支付方式 Dong雨策略模式 java
多支付方式的实现：策略模式详解策略模式（StrategyPattern）是一种行为设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以互换使用。策略模式使得算法可以独立于使用它的客户端变化。本文将通过一个具体的业务场景来介绍策略模式，并给出相应的代码实现。业务场景我们以一个电商平台为例，该平台支持多种支付方式，包括信用卡支付、PayPal支付和比特币支付。我们希望在不修改客户端代码的情况
C++多线程苜柠 C++c++
线程：async和thread锁：C++11中的std::atomic和std::mutex推荐文章：C++11多线程（std::thread）详解_c++11线程使用-CSDN博客c++标准库多线程-云山漫卷-博客园std::lock_guard是一个RAII风格的简单的锁管理器，它在构造时自动加锁，在析构时自动解锁。#include#include#include#includestd::mu
QT-LINUX-Bluetooth蓝牙开发大象荒野嵌入式QT开发笔记 qt
BlueToothAPIQT-BlueToothApiQtBluetooth6.8.2官方提供的蓝牙API不支持linux。D-Bus的API实现蓝牙确保系统中安装了BlueZ（版本需≥5.56），并且Qt已正确安装并配置了D-Bus支持。默默看了下自己的版本.....D-BUS的API也不支持。在D-Bus中，org目录是D-Bus对象路径（ObjectPath）的一部分，用于唯一标识系统中的对
java面向对象基础 miehamiha java 开发语言
引入三大特征封装核心思想就是“隐藏细节”、“数据安全”，将对象不需要让外界访问的成员变量和方法私有化，只提供符合开发者意愿的公有方法来访问这些数据和逻辑，保证了数据的安全和程序的稳定。所有的内容对外部不可见。继承子类可以继承父类的属性和方法，并对其进行拓展。将其他的功能继承下来继续发展。多态同一种类型的对象执行同一个方法时可以表现出不同的行为特征。通过继承的上下转型、接口的回调以及方法的重写和重载
uni-app 设置背景图在手机中无效 catino uni-app
如下写法在微信开发者工具中显示正常，但在真机调试下，手机端背景图并未显示内容文字exportdefault{data(){return{imageBgURL:'../../static/imageBg.png'};}}解决方案如下：1，将图片转为base64编码2，将图片文件上传至服务器，使用网络地址3，使用image标签替代，如文本内容.textBg{height:114rpx;width:62
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他