vergilwang

基于libsvm的中文文本分类原型

支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性（即对特定训练样本的学习精度，Accuracy）和学习能力（即无错误地识别任意样本的能力）之间寻求最佳折衷，以期获得最好的推广能力（或称泛化能力）。SVM理论的学习，请参考jasper的博客。

LIBSVM 是台湾大学林智仁(Chih-Jen Lin)博士等开发设计的一个操作简单、易于使用、快速有效的通用 SVM 软件包,可以解决分类问题(包括 C−SVC 、ν−SVC )，回归问题(包括 ε − SVR 、v− SVR ) 以及分布估计(one − class − SVM ) 等问题,提供了线性、多项式、径向基和 S 形函数四种常用的核函数供选择，可以有效地解决多类问题、交叉验证选择参数、对不平衡样本加权、多类问题的概率估计等。LIBSVM是一个开源的软件包,。他不仅提供了 LIBSVM 的 C++语言的算法源代码,还提供了 Python、Java、R、MATLAB、Perl、Ruby、LabVIEW以及 C#.net 等各种语言的接口,可以方便的在 Windows 或 UNIX 平台下使用,也便于科研工作者根据自己的需要进行改进(譬如设计使用符合自己特定问题需要的核函数等)。

文本分类，大致分为如下几件事情：样本，分词，特征提取，向量计算，分类训练，测试和调试。

1.样本选择

搜狗语料http://www.sogou.com/labs/dl/c.html，下精简版吧，如果实验用用，这足够了，你要下107M的也可以。当然，你也可以自己找语料，不过麻烦点而已，把各大门户网站的对应频道下的文章都爬下来。

2.分词

Bamboo分词，这是基于CRF++的分词模块，既然是研究统计学习，分词也得用基于统计的不是，如果还是用一字典来分词，那就太out啦。

http://code.google.com/p/nlpbamboo/wiki/GettingStarted。安装完毕bamboo，还要下载训练好的模型（这个模型是基于人民日报1月语料）

http://code.google.com/p/nlpbamboo/downloads/list，下载index.tar.bz2，解压到/opt/bamboo/index下。

因为咱主要目的是研究分类，不是分词，就不要去搞分词的训练了，如果想训练可以看我的另外一篇博客：CRF++中文分词指南。

nlpbamboo安装的几个要点

1、CRF++使用默认目录安装

2、编译完nlpbamboo后执行下/opt/bamboo/bin/bamboo看看bamboo是否安装成功

如果提示ERROR: libcrfpp.so.0: cannot open shared object file: No such file or directory需要执行以下操作

ln -s /usr/local/lib/libcrfpp.so.* /usr/lib/
ldconfig

3、安装PHP扩展后下载index.tar.bz2这个模型，然后在php.ini中添加

bamboo.parsers = crf_seg

因为官方的 index.tar.bz2 中只包含 crf_seg 的 model，所以不加 crf_pos 那些；否则php将无法

可以试试：/opt/bamboo/bin/bamboo -p crf_seg filename，如果成功证明装好了。

稍微注意以下，搜狗的词库是gb2312的，所以，请转为utf8，再分词，这是python写的函数：输入一个文件名，转为utf8，再分词，分词文件以.seg为后缀。

[python]view plaincopy
        
    
defseg(fn):
ifnotos.path.isfile(fn+'.utf8'):
cmd='iconv-fgb2312-tutf8-c%s>%s.utf8'%(fn,fn)
printcmd
os.system(cmd)
cmd='/opt/bamboo/bin/bamboo-pcrf_seg%s.utf8>%s.seg'%(fn,fn)
printcmd
os.system(cmd)

分词结果如下：

一家刚刚成立两年的网络支付公司，它的目标是成为市值 100亿美元的上市公司。
这家公司叫做快钱，说这句话的是快钱的 CEO 关国光。他之前曾任网易的高级副总裁，负责过网易的上市工作。对于为什么选择第三方支付作为创业方向，他曾经对媒体这样说： “ 我能看到这个胡同对面是什么，别人只能看到这个胡同。 ” 自信与狂妄只有一步之遥 ―― 这几乎是所有创业者的共同特征，是自信还是狂妄也许需要留待时间来考证。

3.特征提取

svm不是在高维模式识别具有优势吗，咋还要特征提取呢，把所有词都当成特征不就行了吗？对于词库来说，十几万的词是很常见的，把对类别区分度（GDP，CPI，股票对经济类的区分度就高，其他一些高频词，如我们，大家，一起等就没有区分度）高的词挑选出来，一来可以减少计算量，二来应该是可以提高分类效果。

据说，开方检验（CHI）信息增益（IG）对于挑选特征好，我选择的是CHI。两者的概念，请google。

首先统计词在文档中的次数

[python]view plaincopy
        
    
#ingoresometerm
defingore(s):
returns=='nbsp'ors==''ors==''ors=='/t'ors=='/n'/
ors=='，'ors=='。'ors=='！'ors=='、'ors=='―'/
ors=='？'ors=='＠'ors=='：'/
ors=='＃'ors=='%'ors=='＆'/
ors=='（'ors=='）'ors=='《'ors=='》'/
ors=='［'ors=='］'ors=='｛'ors=='｝'/
ors=='*'ors==','ors=='.'ors=='&'/
ors=='!'ors=='?'ors==':'ors==';'/
ors=='-'ors=='&'/
ors=='<'ors=='>'ors=='('ors==')'/
ors=='['ors==']'ors=='{'ors=='}'
 
#termtimes
defgetterm(fn):
fnobj=open(fn,'r')
data=fnobj.read()
fnobj.close()
arr=data.split('')
docterm=dict()
forainarr:
a=a.strip('/n/t')
ifnotingore(a)andlen(a.decode('utf-8'))>=2:
times=docterm.get(a)
iftimes:
docterm[a]=times+1
else:
docterm[a]=1
returndocte
#cls_term:cls,term,artcount
#term_cls:term,cls,artcount
defstat(cls,fn,cls_term,term_cls):
docterm=getterm(fn)
termdi=cls_term.get(cls)
ifnottermdi:
termdi=dict()
cls_term[cls]=termdi
#term,times
fortindocterm.iterkeys():
artcount=termdi.get(t)
ifnotartcount:
artcount=0
termdi[k]=artcount+1
clsdi=term_cls.get(t)
ifnotclsdi:
clsdi={}
term_cls[k]=clsdi
artcount=clsdi.get(cls)
ifnotartcount:
artcount=0
clsdi[cls]=artcount+1

分别计算每个词的a/b/c/d

a：在这个分类下包含这个词的文档数量

b：不在该分类下包含这个词的文档数量

c：在这个分类下不包含这个词的文档数量

d：不在该分类下，且不包含这个词的文档数量

因为前面统计了每个类下，每个词，文章数和每个词，每个类，文章数。所以很容易得到a,b,c,d的值。

z1 = a*d - b*c
x2 = (z1 * z1 * float(N)) /( (a+c)*(a+b)*(b+d)*(c+d) )

计算之后，排序，并取出前1000个词（这里指的每个类别的特征词）。

li = sorted(termchi.iteritems(), key=lambda d:d[1], reverse = True)

循环每个分类，并把每个类别的特征合并（合并成一个文件，作为特征词典），合并后存为feature文件，第一列是序号，第二列是对应的词，序号就是特征号。

1 逐项
2 深市
3 九寨沟
4 岛内
5 期望
6 第20分钟
7 合理
8 谢杏芳
9 赛迪
10

注：特征选择的目的就是选择在该类下，不在其他类下的特征，但是重复是避免不了的，合并的文件肯定是排重过的。先选择每个类下的1000个词，假如10个类，则共选择10 * 1000个词，然后去重，并生成特征的唯一id。

4.训练和测试样本组织

搜狐语料的1990篇中的1890作为训练集，100篇作为测试集，分别形成train和test文件，libsvm的训练集的格式为：

lable1 index1:featureValue1 index2:featureValue2 index3:featureValue3 ...

lable2 index1:featureValue1 index2:featureValue2 index3:featureValue3 ...

对应到文本分类上就是：类别ID 特征序号（第3步计算的特征序号）：特征值（TFIDF值）......

如，我摘了一行，这是一篇文章的例子，8就是类别ID，189是特征“189 指导"的序号，0.171153是特征值：

8 189:0.171153 253:0.081381 298:0.630345 504:0.135512 562:79.423503 578:0.072219 698:0.078896 710:0.036074 740:0.215368 868:0.263524 1336:0.114355 1365:0.076494 1372:0.085780 1555:0.572497 1563:3.932806 1598:0.114717 1685:0.129870 1972:0.193693 2282:0.061828 2865:0.026699 2897:0.099020 3040:0.039621 3041:0.258073 3191:0.091276 3377:0.125544 3454:0.062189 3623:0.139698 3653:0.128304 3932:2.990233 4353:0.202133 4394:0.312992 4420:0.356354 4424:0.482424 4522:0.447795 4675:3.618182 4767:0.065334 4848:0.270417 4875:0.213588 4941:0.407453 5004:0.070447 5125:0.717893 5214:3.222299 5250:0.052897 5251:0.281352 5310:2.010101 5357:0.203956 5474:0.034037 5504:0.193900 5861:0.859426 6120:1.320504 6129:0.107941 6364:0.184225 6373:0.287843 6379:0.080727 6385:0.712241 6847:0.209023 7007:0.147802 7121:1.320504 7547:0.248161 7636:0.108981

采用TFIDF的算法，数据处理和特征选择类似，计算每个类，每篇文档，每个词的次数，以包含这个词的文档数。每篇文章的每个特征项，用TF/DF的值作为特征值。（后记：用TF * IDF，然后用svm-scale缩放到0,1之间，效果比TF/DF要好，准确率能达到82%。，计算方式如下：

tf = float(times) / total
idf = math.log( N / float(term_count[term]) )
term_times[term] = tf * idf

）

[python]view plaincopy
        
    
#doc_term:classdoctermtimes
#term_doc:termdoccount
deftfidf(doc_term,term_doc):
print'begincomputetf*idf'
forcls,docdiindoc_term.iteritems():
fordoc,termdiindocdi.iteritems():
total=0
forterm,timesintermdi.iteritems():
total+=times
forterm,timesintermdi.iteritems():
tf=float(times)/total
df=float(term_doc[term])/N
termdi[term]=tf/df

注意：用CHI是提取类别的特征词，而这里用TFIDF是计算文档的特征向量，前者是要体现类别的区分度，后者要体现文档的区分度，两者概念和所做的事情不一样，所以采用的方法也不一样。

5.用libsvm训练

你看，忙活了半天，还没有到libsvm呢，其实前面几步很麻烦的，libsvm的资料不少，但是都是一个几行数据的简单例子，这不具有实际应用的价值，只有把样本，分词，特征提取/特征计算搞定了，分类才能做好。

下载libsvm：http://www.csie.ntu.edu.tw/~cjlin/cgi-bin/libsvm.cgi?+http://www.csie.ntu.edu.tw/~cjlin/libsvm+zip

解压，make

svm-scale：特征缩放的工具 svm-train：训练工具 svm-predict：测试工具

toos/grid.py：寻找参数的工具

用默认参数试试：

./svm-train train.s model.s

./svm-predict test.s model.s result.s

结果

Accuracy = 74.3889% (1339/1800) (classification)

不算太理想，也不算太差。如果只是2个类，结果能到95%。我想可以从如下几个方面改进：

增加分词的样本数，训练更好的分词模型。
特征提取后，用人工进行调整，因为很多词对于类别区分度不高。
用grid.py寻找合适的参数。

参考资料：

jasper的博客，SVM理论的学习资料：http://www.blogjava.net/zhenandaci/category/31868.html

通俗易懂，要好好读读。

libsvm的官方网站：http://www.csie.ntu.edu.tw/~cjlin/libsvm/

看了理论性的东西，最好实践以下，libsvm就是很好的实践工具。

Vapnik的两本书，我买了第二本，发现公式太多，好晦涩。准备买第一本，据说第一本比较浅显易懂一些

《统计学习理论的本质》

http://product.dangdang.com/product.aspx?product_id=20602023&ref=search-0-A

《统计学习理论》

http://product.dangdang.com/product.aspx?product_id=20529098&ref=search-0-A

你可能感兴趣的:(lib)

Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
SpringCloudAlibaba—Sentinel(限流) 菜鸟爪哇
前言：自己在学习过程的记录，借鉴别人文章，记录自己实现的步骤。借鉴文章：https://blog.csdn.net/u014494148/article/details/105484410Sentinel介绍Sentinel诞生于阿里巴巴，其主要目标是流量控制和服务熔断。Sentinel是通过限制并发线程的数量（即信号隔离）来减少不稳定资源的影响，而不是使用线程池，省去了线程切换的性能开销。当资源
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
【Python】已解决：ModuleNotFoundError: No module named ‘PIL’ 屿小夏 python 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘PIL’一、分析问题背景当你在Python环境中尝试导入PIL（PythonImagingLibrary）模块时，可能会遇到“ModuleNotFoundError:Nomodulenamed‘PIL’”的错误。这通常发生在尝试使用PIL
Ubuntu18.04 Docker部署Kinship(Django)项目过程 Dante617
1Docker的安装https://blog.csdn.net/weixin_41735055/article/details/1003551792下载镜像dockerpullprogramize/python3.6.8-dlib下载的镜像里包含python3.6.8和dlib19.17.03启动镜像dockerrun-it--namekinship-p7777:80-p3307:3306-p55
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
python画图|同时输出二维和三维图西猫雷婶 python 开发语言
前面已经学习了如何输出二维图和三维图，部分文章详见下述链接：python画图|极坐标下的3Dsurface-CSDN博客python画图|垂线标记系列_如何用pyplot画垂直x轴的线-CSDN博客有时候也需要同时输出二位和三维图，因此有必要学习一下。【1】官网教程首先我们打开官网教程，链接如下。https://matplotlib.org/stable/gallery/mplot3d/mixed
解决SDK Manager 中没有 Support Library 木鱼wzh
1、直接修改SDK-MANAGER打开sdk-manager—->Tools—->options然后点击packages—->showobsoletepackages即可在最下面的Extras目录下找到推荐两个自己使用的镜像服务器：mirrors.neusoft.edu.cn端口80mirrors.dormforce.net端口802、去官网下载SupportLibrar点击这里进入官网进入百度云
python编写直方图和饼图 2301_80421078 python 开发语言
1.直方图#直方图的绘制#语法格式：plt.hist(x,bins),其中x:数据集；bins:统计数据的分布区间importmatplotlib.pyplotaspltimportpandasaspd#导入文件excel=pd.read_excel('成绩.xlsx')#print(excel)#避免乱码plt.rcParams['font.sans-serif']=['SimHei']x=ex
pythonpandas函数详解_Python pandas常用函数详解 Senvn
本文研究的主要是pandas常用函数，具体介绍如下。1import语句importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportdatetimeimportre2文件读取df=pd.read_csv(path='file.csv')参数：header=None用默认列名，0，1，2，3...names=['A','B','C'
python画出分子化学空间分布（UMAP） Sakaiay python
利用umap画出分子化学空间分布图安装pipinstallumap-learn下面是用一个数据集举的例子importtorchimportumapimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfromsklearn.manifoldimportTSNEfromrdkit.Chemimport
Sentinel 眼泪落在琴弦 springcloud java java
Sentinel（服务熔断降级限流）1.引入spring-cloud-starter-alibaba-sentinel2.下载sentinel服务器3.配置application地址信息4.在控制台调整参数【默认所以流控设置保存在内存中，重启失效】5.想实时监控需每个微服务导入actuator，并配置application暴露所有端口6.自定义sentinel流控返回数据7.配置sentinel类
talib的python库安装 jesonwz python 开发语言
talib的python库安装反正用清华源装不上发现talib的指标好多，想着用用，结果在python里装不上，清华源里提示找不到。也难怪，这个库上网查了一下，最新一次更新是在2013年，太老了。废话不说，上我的解决办法。解决方法步骤（靠谱的）思路：既然在线装不上，就用离线的1.下载对应python版本的talib的whl版本安装文件，链接在这：https://blog.csdn.net/FL16
Makefile问答之 04 优化异常与警告设置捕鲸叉 Linux使用 Linux系统编程 Makefile linux
Makefile怎样指定优化选项，包括编译和链接优化，常用的选项有哪些？在Makefile中，你可以通过设置编译器和链接器的选项来指定优化选项。优化选项可以分为编译优化和链接优化，以下是如何在Makefile中指定这些选项，以及一些常用的选项。示例Makefile#编译器CC=gcc#编译选项CFLAGS=-Wall-O2#链接选项LDFLAGS=-O2#需要链接的库LDLIBS=#目标文件TAR
TA-Lib Python 库 Windows 64位安装包黄桥壮Quinn
TA-LibPython库Windows64位安装包TA.rar项目地址:https://gitcode.com/open-source-toolkit/3ff39简介本仓库提供了一个适用于Windows64位系统的TA-LibPython库安装包。TA-Lib是一个广泛用于金融技术分析的库，支持多种技术指标的计算。资源文件文件名TA-Lib-0.4.29-cp312-win-amd64.whl描
python绘制等高线和等值面初步 bcbobo21cn 图形学和3D python 开发语言 Matplotlib NumPy 等高线
importmatplotlib.pyplotaspltimportnumpyasnpx=np.linspace(-5,6,210)y=np.linspace(-5,6,210)x,y=np.meshgrid(x,y)z=(1-x/2+x**5+y**4)*np.exp(-x**2-y**2)plt.contour(x,y,z,levels=9,colors='black')plt.show()i
python模块TA_Lib文件whl下载地址汇总国产bug零零柒 whl python linux windows
序号项目名称下载地址1TA_Lib-0.4.28-cp312-cp312-win32.whl.zip点我下载2TA_Lib-0.4.28-cp38-cp38-win32.whl.zip点我下载3TA_Lib-0.4.28-cp312-cp312-win_amd64.whl.zip点我下载4TA_Lib-0.4.28-cp38-cp38-win_amd64.whl.zip点我下载5TA_Lib-0.
py获取系统缩放比例 xu-jssy Python自动化脚本 python 前端
fromwin32.libimportwin32conimportwin32api,win32gui,win32printscaling=1.0defget_real_resolution():"""获取真实的分辨率"""hDC=win32gui.GetDC(0)wide=win32print.GetDeviceCaps(hDC,win32con.DESKTOPHORZRES)high=win32
python抓取网页内容401应该用哪个库_python3使用requests模块爬取页面内容入门坂田月半
python的爬虫相关模块有很多，除了requests模块，再如urllib和pycurl以及tornado等。相比而言，requests模块是相对简单易上手的。通过文本，大家可以迅速学会使用python的requests模块爬取页码内容。1.Requests唯一的一个非转基因的PythonHTTP库，人类可以安全享用。官网：http://cn.python-requests.org/zh_CN/
python的request请求401_Python模拟HTTPS请求返回HTTP 401 unauthorized错误 weixin_39599372
Python模拟HTTPS请求返回HTTP401unauthorized错误开始是使用的httplib模块，代码如下：header={"Content-type":"application/json","Accept":"*/*"}params={‘source‘:‘en‘,‘target‘:‘es‘,‘text‘:match.group(1)}data=urllib.urlencode(para
python使用MD5 18.程序员哈希算法算法
一、要使用Python进行MD5加密，可以使用Python标准库中的hashlib模块。二、案例importhashlibstring="Hello,World!"#要进行加密的字符串hash_object=hashlib.md5(string.encode())#将字符串编码并进行MD5加密hash_hex=hash_object.hexdigest()#获取加密后的十六进制字符串print(h
【Python爬虫】百度百科词条内容 PokiFighting 数据处理 python 爬虫开发语言
词条内容我这里随便选取了一个链接，用的是FBI的词条importurllib.requestimporturllib.parsefromlxmlimportetreedefquery(url):headers={'user-agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/80.
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
python下载pandas库镜像_下载pandas库 weixin_39791152
背景交代：在下载matplotlib库时，我已经将pip的下载源手动更改为清华的镜像，所以，如果有小伙伴在下载库遇到问题，如timeout，请先将下载源改为国内镜像，具体操作见我的另一篇文章：今天的主题是安装pandas库~首先，按田字格+R，打开cmd，输入：pipinstallpandas嗯，不出所料地报错了……主要原因：pip._vendor.urllib3.exceptions.ReadT
锋哥写一套前后端分离Python权限系统基于Django5+DRF+Vue3.2+Element Plus+Jwt 视频教程，帅呆了~~ java1234_小锋 Python 权限系统 django权限系统 python web权限系统 django DRF VUE权限 python
大家好，我是java1234_小锋老师，最近写了一套【前后端分离Python权限系统基于Django5+DRF+Vue3.2+ElementPlus+Jwt】视频教程，持续更新中，计划月底更新完，感谢支持。视频在线地址：打造前后端分离Python权限系统基于Django5+DRF+Vue3.2+ElementPlus+Jwt视频教程（火爆连载更新中..）_哔哩哔哩_bilibili项目介绍本课程采
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他