CatalinaCatherine

python爬取CSDN文章并保存为pdf文档

目录

一、安装requests、parsel和pdfkit库

二、获取发送请求的url地址

三、获取数据

1.headers

2.获取响应体的属性内容，获取网页源代码。

四、解析数据

1.把获取到的html字符串数据转成 selector 解析对象，返回的就是selector对象

2.根据标签属性内容，提取相关数据

2.1查找每一篇文章的url地址

2.2把每一个url地址提取出来

2.3获取文章详情页标题和内容

五、保存数据

1.把文章内容保存成html文件

2.替换特殊字符

六、把html文件转成pdf文件

全部代码：

wkhtmltopdf下载地址

wkhtmltopdf安装

一、安装requests、parsel和pdfkit库

确保已经安装了requests、parsel和pdfkit。以下是安装命令：

pip install pdfkit

pip install parsel

pip install requests

安装失败可能的原因：

1.pip不是内部命令
需要设置python的环境变量
2.安装到一半出现很多红色报错
网络连接超时，切换成国内镜像源
3.安装成功了，但是pycharm调用失败
I.是否安装多个python版本
II.pycharm里面python解释器是否设置好

二、获取发送请求的url地址

搜索标题，Response就是服务器给我们返回的文章内容。

点击Preview就是预览的意思。

Request URL:发送请求的url地址

https://blog.csdn.net/m0_74830349/article/details/133458302

Request Method:请求方式

Request Headers:请求头，参数就在这个里面

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36

三、获取数据

1.headers

headers请求头，把python代码伪装成浏览器进行请求，可以在开发者工具里面进行查询。
user-agent：浏览器的基本信息。
response对象：200状态码，表示请求成功。

import requests

url = 'https://blog.csdn.net/m0_74830349/article/details/133458302'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}

response = requests.get(url=url,headers=headers)

print(response)

2.获取响应体的属性内容，获取网页源代码。

# print(response)
print(response.text)

四、解析数据

进入主页，url地址改变了：

import requests
import parsel

url = 'https://blog.csdn.net/m0_74830349?spm=1018.2226.3001.5343'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}

response = requests.get(url=url,headers=headers)

# print(response)
# print(response.text)
selector = parsel.Selector(response.text)
print(type(selector))

1.把获取到的html字符串数据转成 selector 解析对象，返回的就是selector对象

2.根据标签属性内容，提取相关数据

# print(type(selector))
href = selector.css('.mainContent a::attr(href)').getall()
print(href)

2.1查找每一篇文章的url地址

由图可知，每一篇文章的地址都在mainContent下

2.2把每一个url地址提取出来

getall返回的是列表，现在对于文章详情页url地址发送请求。

# print(href)
for index in href:
    print(index)
    response_1 = requests.get(url=index,headers=headers)
    print(response_1.text)
    break

2.3获取文章详情页标题和内容

# print(response_1.text)
selector_1 = parsel.Selector(response_1.text)
title = selector_1.css('#articleContentId::text').get()
content_views = selector_1.css('#content_views').get()
print(title)
print(content_views)
break

五、保存数据

1.把文章内容保存成html文件

os：文件操作模块

保存下来的html文件存放在pdf文件夹下面。

import os

filename = 'pdf\\' #文件名字
if not os.path.exists(filename): #如果没有这个文件夹的话
    os.mkdir(filename) #自动创建一下这个文件夹

html_str = """



	
	Document


{article}


"""

html_content = html_str.format(article=content_views)
    # print(title)
    # print(content_views)
    # break
    with open(filename + title + '.html', mode='w',encoding='utf-8')as f:
        f.write(html_content)
        print('正在保存:', title)

2.替换特殊字符

在Windows系统中文件名不能包含\/:*?"<>|

import re

def change_title(name):
    mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]')
    new_name = re.sub(mode,'_',name)
    return new_name

new_title = change_title(title)

删掉之前的pdf文件夹，重新运行一下。

六、把html文件转成pdf文件

import pdfkit

new_title = change_title(title)
    content_views = selector_1.css('#content_views').get()
    html_content = html_str.format(article=content_views)
    html_path = filename + new_title + '.html'
    pdf_path = filename + new_title + '.pdf'
    # print(title)
    # print(content_views)
    # break
    with open(html_path, mode='w',encoding='utf-8') as f:
        f.write(html_content)
        print('正在保存:', title)

    config = pdfkit.configuration(wkhtmltopdf=r'D:\wkhtmltopdfoct\wkhtmltopdf\binwkhtmltopdf.exe')
    pdfkit.from_file(html_path,pdf_path,configuration=config)

下载完成：

全部代码：

import requests
import parsel
import os
import re
import pdfkit

def change_title(name):
    mode = re.compile(r'[\\\/\:\*\?\"\<\>\|]')
    new_name = re.sub(mode,'_',name)
    # new_name = re.sub(r'[\\\/\:\*\?\"\<\>\|]','_',name)
    return new_name

filename = 'pdf\\' #文件名字
if not os.path.exists(filename): #如果没有这个文件夹的话
    os.mkdir(filename) #自动创建一下这个文件夹

html_str = """



	
	Document


{article}


"""

url = 'https://blog.csdn.net/m0_74830349?spm=1018.2226.3001.5343'

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}

response = requests.get(url=url,headers=headers)

# print(response)
# print(response.text)
selector = parsel.Selector(response.text)
# print(type(selector))
href = selector.css('.mainContent a::attr(href)').getall()
# print(href)
for index in href:
    # print(index)
    response_1 = requests.get(url=index,headers=headers)
    # print(response_1.text)
    selector_1 = parsel.Selector(response_1.text)
    title = selector_1.css('#articleContentId::text').get()
    new_title = change_title(title)
    content_views = selector_1.css('#content_views').get()
    html_content = html_str.format(article=content_views)
    html_path = filename + new_title + '.html'
    pdf_path = filename + new_title + '.pdf'
    # print(title)
    # print(content_views)
    # break
    with open(html_path, mode='w',encoding='utf-8') as f:
        f.write(html_content)
        print('正在保存:', title)

    config = pdfkit.configuration(wkhtmltopdf=r'D:\wkhtmltopdfoct\wkhtmltopdf\binwkhtmltopdf.exe')
    pdfkit.from_file(html_path,pdf_path,configuration=config)

填写自己软件的安装地址：D:\wkhtmltopdfoct\wkhtmltopdf\binwkhtmltopdf.exe

wkhtmltopdf下载地址

wkhtmltopdf

wkhtmltopdf安装

http://t.csdnimg.cn/2YZZH

你可能感兴趣的:(python,python,pdf,开发语言)

练手代码之使用Python实现合并PDF文件 Wcowin Python python pdf 前端
如果你有合并PDF的需要，你会怎么办我们无所不能的程序员会选择写一个Python代码来实现（谁会这么无聊？是我），如果真的有PDF操作需要，我推荐你使用PDFExpert这个软件哈~话不多说直接上代码：importosimportPyPDF2fromtkinterimportTkfromtkinter.filedialogimportaskopenfilenamesdefcombine_pdfs(
Python面向对象面试题及参考答案大模型大数据攻城狮 python 面试继承封装接口隔离弱引用元类
目录什么是面向对象编程？Python中的类和对象是什么？什么是继承？Python如何实现继承？什么是多态？Python如何实现多态？Python中的类属性和实例属性有什么区别？类属性和实例属性的访问优先级规则是什么？Python中的实例方法、类方法和静态方法有什么区别？静态方法、类方法、实例方法的参数传递差异是什么？什么是构造函数（init）？解释__init__方法与__new__方法的区别Py
Python中dataframe的to_list和to_list()差距 emmmmXxxy python list
先新建一个dataframe数据框df=pd.DataFrame({'a':[1,2,3],'b':[3,4,5],'c':[5,6,7]})df结果然后看一下两者的区别dataframe的to_list1df['b']结果031425Name:b,dtype:int642df['b'].to_list结果3看一下数据类型type(df['b'].to_list)结果methoddataframe
打印pdf itext 的多个pdf合并并删除旧的pdf文件 aoxiang94 jfinal
有时候我们打印pdf时需要生成多个pdf文件，最后合成一个新的pdf来打印，我们又嫌这么多pdf占内存所以合并后把之前的pdf删除掉。/***打印出库单(导出pdf文件)**@throwsIOException*@method:printChuku()*@TODO:void*/publicvoidprintChuku(){try{//刊的状态0常用，1不常用Integerpub_state=get
Python实现观察者模式麦田里走一夜 PYTHON python 观察者模式开发语言
请关注【来玩AI】公众号体验人工智能来玩AI>>>Python实现观察者模式观察者模式python代码实现说明应用场景观察者模式模式是一种常用的设计模式，可以在对象之间建立一对多的依赖关系。Python中实现观察者模式有多种方式，下面给出一种基于类和装饰器的实现方式：python代码实现classObserver:defupdate(self,observable,*args,**kwargs):
自然语言处理系列（5）——情感分析的原理与实战 DoYangTan 自然语言处理人工智能
自然语言处理系列（5）——情感分析的原理与实战情感分析（SentimentAnalysis）是自然语言处理中的一项经典任务，目的是通过分析文本，判断其表达的情感倾向性。情感分析广泛应用于社交媒体监控、市场调研、客户服务等领域，帮助企业和机构快速了解用户的情感态度。在本文中，我们将深入探讨情感分析的基本概念、常用方法，并展示如何使用Python和现代NLP工具实现情感分析任务。1.情感分析的基本概念
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽黑客鹏哥 web安全 CTF 网络安全大赛 python Linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
anaconda 创建虚拟环境 yuweififi 环境搭建
1.打开AnacondaPrompt2.创建环境condacreate--nametorchpython=3.62.输入activatetorch安装的anacondapython虚拟环境打开，torch为创建的env名字3.condainfo--env查看所有创建的环境4.关闭环境deactivate切记先激活环境
Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
网络安全工具 AWVS 与 Nmap：原理、使用及代码示例阿贾克斯的黎明网络安全安全 web安全网络
目录网络安全工具AWVS与Nmap：原理、使用及代码示例AWVS：Web漏洞扫描的利器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用AWVSAPI进行扫描）Nmap：网络探测与端口扫描的神器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用Nmap进行扫描）总结在网络安全领域，AWVS（AcunetixWebVulnerabilityScanner）和Nmap是
深入剖析 Weblogic、ThinkPHP、Jboss、Struct2 历史漏洞阿贾克斯的黎明网络安全 web安全
目录深入剖析Weblogic、ThinkPHP、Jboss、Struct2历史漏洞一、Weblogic漏洞（一）漏洞原理（二）漏洞利用代码（Python示例）（三）防范措施二、ThinkPHP漏洞（一）漏洞原理（二）漏洞利用代码（示例，假设存在漏洞的代码片段）（三）防范措施三、Jboss漏洞（一）漏洞原理（二）漏洞利用代码（Java示例，用于构造恶意序列化数据）（三）防范措施四、Struct2漏洞
【Python专栏】Python的发展历程雾岛心情 Python入门到精通 python 开发语言
Python的创始人为吉多·范罗苏姆（GuidovanRossum），人称龟叔1989年，为了打发圣诞节假期，Guido开始写Python语言的编译器。Python这个名字，来自Guido所挚爱的电视剧MontyPython’sFlyingCircus。他希望这个新的叫做Python的语言，能符合他的理想：创造一种C和shell之间，功能全面，易学易用，可拓展的语言。Python的具体发展历史和版
Stable diffusion 3.5本地运行环境配置记录寸先生的牛马庄园扩散模型 stable diffusion
1.环境配置创建虚环境condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda=12.1-cpytorch-cnvidiaJupyter能使用Anaconda虚环境condainstallipykernelpython-mi
阿里巴巴DIN模型原理与Python实现 eso1983 python 开发语言算法推荐算法
阿里巴巴的DeepInterestNetwork(DIN)是一种用于点击率预测（CTR）的深度学习模型，特别针对电商场景中用户兴趣多样化和动态变化的特性设计。其核心思想是通过注意力机制动态捕捉用户历史行为中与当前候选商品相关的兴趣。1.DIN模型原理1.核心问题传统推荐模型（如Embedding+MLP）将用户历史行为视为固定长度的向量，忽略了用户兴趣的多样性。例如，用户历史行为中可能包含多个互不
pytorch基础-比较矩阵是否相等 yuweififi pytorch 人工智能
1、使用NumPy库NumPy是Python中用于科学计算的常用库，它提供了array_equal和allclose函数来判断矩阵是否相等。array_equal用于精确比较，allclose用于考虑一定误差范围的近似比较，适合浮点数矩阵。importnumpyasnp#创建示例矩阵matrix_a=np.array([[1,2,3],[4,5,6]])matrix_b=np.array([[1,
一学就会：A*算法详细介绍（Python）不去幼儿园人工智能（AI）#启发式算法算法 python 人工智能机器学习开发语言
本篇文章是博主人工智能学习以及算法研究时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在启发式算法专栏：【人工智能】-【启发式算法】（6）---《一学就会：A*算法详细介绍（Python）》一学就会：A*算法详细介绍（Python）目录A*算法介绍A*算法的核心概念A*算法的特点A*算法示例：迷宫
电竞赛事数据分析：LNG vs BLG的胜利背后烧瓶里的西瓜皮 python 自动驾驶人工智能数据可视化机器学习
电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作
如何使用Python编程实现捕获笔记本电脑麦克风的音频并通过蓝牙耳机实时传输 winfredzhang python 音视频实时传输蓝牙耳机
在现代的工作和生活环境中，音频传输的需求日益增加。无论是远程会议、在线教育，还是家庭娱乐，音频的实时传输都扮演着至关重要的角色。今天，我将向大家介绍一个简单而实用的应用程序，它能够捕获笔记本电脑麦克风的音频，并通过蓝牙耳机实时传输。这款应用程序特别适用于需要在会议室等场景中远程听取声音的情况。接下来，我将详细讲解这个应用程序的实现过程，并提供完整的代码和使用指南。引言想象一下这样的场景：你需要离开
网络安全加密python代码黑客Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快网络信息安全中遇到的各种攻击是防不胜防的，采取适当的防护措施就能有效地保护网络信息的安全,包括防火墙、入侵检测系统、漏洞扫描技术以及加密技术等多种防护措施。而信息安全的本质就是要保护信息本身和信息系统在存储、传输中的完整性和保密性,保障不被攻击和篡改,上述的主动攻击、被动攻击和病毒袭击都会造成信息的破坏和泄密,我们以信息安全中的基础理论出
python 商城性能,python商城项目总结 Yvetzy python 商城性能
importhashlib#实例化md5对象md5=hashlib.md5()#md5.update()方法的参数必须是字节型数据md5.update(bytes(request.POST['password'],encoding="UTF-8"))#以16进制格式存储md5.hexdigest()'''这里有个坑必须注意：md5.update()方法会将每次加密的字符进行拼接，所以每次加密前都要
用Python写一个商城系统潮水岩
如果要用Python写一个商城系统，可以先定义需要实现的功能，再按照功能模块分别进行开发。下面是一个简单的开发流程：数据模型设计：需要定义商品、订单、用户等数据模型，并且将它们存储在数据库中。用户模块：用户可以注册、登录、查看个人信息、修改密码等。商品模块：商家可以发布商品、管理商品信息、查看商品列表等；用户可以查看商品详情、加入购物车等。订单模块：用户可以下单、查看订单详情、取消订单、评价订单等
python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例 weixin_39955149 python pandas 读取数据库
Python+Pandas获取数据库并加入DataFrame的实例实例如下所示：importpandasaspdimportsysimportimpimp.reload(sys)fromsqlalchemyimportcreate_engineimportcx_Oracledb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbins
python导出结果_Python连接Oracle数据查询导出结果 weixin_39712821 python导出结果
python连接oracle，需用用到模块cx_oracle，可以直接pip安装，如网络不好，可下载离线后本地安装本人由于工作需要，期望便捷查询所得结果，且固定输出某个格式具体代码如下：#!coding:utf-8importcx_Oracleconn=cx_Oracle.connect('username/password@IP/连接名')cur=conn.cursor()cur.execute
Python—kafka操作蓝魔Y Python编程 kafka
文档结构1、概念简介2、环境搭建3、操作实践1、概念简介2、环境搭建接口手册：https://kafka-python.readthedocs.io/en/master/Python操作kafka的模块为：kafka-python模块安装pipinstallkafka-python3、操作实践=============================================over====
python使用kafka原理详解_Python操作Kafka原理及使用详解形象顧問Aking
Python操作Kafka原理及使用详解一、什么是KafkaKafka是一个分布式流处理系统，流处理系统使它可以像消息队列一样publish或者subscribe消息，分布式提供了容错性，并发处理消息的机制二、Kafka的基本概念kafka运行在集群上，集群包含一个或多个服务器。kafka把消息存在topic中，每一条消息包含键值(key)，值(value)和时间戳(timestamp)。kafk
python把oracle的查询结果导出为insert语句优游的鱼 oracle python 数据库开发语言
可以使用cx_Oracle库在Python中连接Oracle数据库并执行查询。然后，可以使用pandas库将查询结果读取为DataFrame，并使用to_sql()方法将其导出为insert语句。示例代码如下：importcx_Oracleimportpandasaspd#ConnecttoOracledatabaseconn=cx_Oracle.connect('username/passwor
python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算路过炊烟 python画出roc曲线 auc计算逻辑
前言ROC(ReceiverOperatingCharacteristic)曲线和AUC常被用来评价一个二值分类器(binaryclassifier)的优劣。这篇文章将先简单的介绍ROC和AUC，而后用实例演示如何python作出ROC曲线图以及计算AUC。AUC介绍AUC(AreaUnderCurve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不平衡有更大的容忍性，
【spug】使用勤不了一点 CI/CD python django ci/cd 运维 devops
目录简介下载与安装初始化配置启动与日志版本更新登录与使用工作台主机管理批量执行配置中心应用发布系统管理监控与告警使用问题简介手动部署|Spugwalle的升级版本轻量级无Agent主机管理主机批量执行主机在线终端文件在线上传下载应用发布部署在线任务计划配置中心监控报警如果有测试错误请指出。下载与安装测试环境：Python3.7.8CentOSLinuxrelease7.4.1708(Core)sp
记一次从mysql数据迁移到oralce （基于python和pandas） qq_36532060 mysql oracle pandas python
记一次从mysql数据迁移到oralce（基于python）前景提要具体实现创建数据库链接读取mysql数据写入orcale结语前景提要公司最近有个从mysql迁移数据到oracle的需求，于是进行了一下方案调研和分析，但作为一个之前从没接触过Oracle的人真的感到好难，但再难也难上，这篇文章主要是记录一下做这件事时遇到的坑以及分享一下最终的方案及代码。具体实现创建数据库链接其实我觉得这个算是最
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他