hongyesuifeng

NLP Task5

学习内容

朴素贝叶斯
朴素贝叶斯的原理
利用朴素贝叶斯模型进行文本分类

SVM模型
SVM的原理
利用SVM模型进行文本分类

LDA主题模型
pLSA、共轭先验分布
LDA
使用LDA生成主题特征，在之前特征的基础上加入主题特征进行文本分类
LDA数学八卦

朴素贝叶斯

贝叶斯定理

讲朴素贝叶斯之前，先普及一个概率论的小知识点，贝叶斯定理，这个定理也是朴素贝叶斯算法的基础。即
$P(Y|X)=\frac{P(XY)}{P(X)}=\frac{P(X|Y)P(Y)}{P(X)}$
因为实际生活中经常遇到这种情况：我们可以很容易直接得出P(X|Y)，P(Y|X)则很难直接得出，但我们更关心P(Y|X)，贝叶斯定理就为我们打通从P(X|Y)获得P(Y|X)的道路。比如Y表示待预测变量，X表示数据的特征，通常情况我们需要根据特征X预测结果Y，所以通过该定理就可以由数据得出预测模型。

朴素贝叶斯分类器

SVM模型

LDA主题模型

pLSA

pLSA主要是改进了LSA模型，在LSA模型在概率层次的拓展，是一种主题模型。LSA是类似SVD在推荐系统中的应用，其使用在文档的表示上面，通过文档中词汇的频数或权重，将其进行矩阵分解，达到降维的目的。
pLSA的原理图如下：

主要的思想是通过引入中间变量Z（主题），来进行建模，算法的流程如下：

通过数据可以得到P(d,w),需要求取P(w|d)则需要对P(z|d)和P(w|z)进行求解。对概率函数求取最大似然可得：

其中，为n（dm,wn）表示文档-单词对出现的次数。为加以区分，之后上标进行修改M’,N’，使用与标识对应文档与词汇数量。

下面就是根据EM算法来进行迭代求解，主要分为E步和M步，基本实现思想是：
(1)E步骤：求隐含变量Given当前估计的参数条件下的后验概率。
(2)M步骤：最大化Complete data对数似然函数的期望，此时我们使用E步骤里计算的隐含变量的后验概率，得到新的参数值。
两步迭代进行直到收敛。
E步求解隐变量的后验概率:

M步求解该最大似然：

最后可得下式进行迭代循环：

通过M步求得的条件概率，带回E步进行迭代循环。

共轭先验分布

因为在贝叶斯中有一个规律：先验+最大似然=后验，如果使得先验和后验的分布相同的话，如果后验概率和先验概率满足同样的分布律（同分布），那么，先验分布叫作似然函数的共轭先验分布，先验分布和后验分布被叫作共轭分布。共轭先验的好处主要在于代数上的方便性，可以直接给出后验分布的封闭形式，否则的话只能数值计算。同时从先验到后验的变化过程中从数据补充到的物理知识，也有助于物理解释。

LDA原理

许多背景知识就不详细介绍了，一些数据的相关理论背景可以参考，《LDA数学八卦》和《LDA漫游指南》，这两本的在理论上面介绍的非常详细了。
主要将pLSA和LDA进行对比理解：

首先，我们来看看PLSA和LDA生成文档的方式。在PLSA中，生成文档的方式如下：

按照概率 $p(d_i)$ 选择一篇文档 $d_i$
根据选择的文档 $d_i$ ，从从主题分布中按照概率 $p(\zeta_k \mid d_i)$ 选择一个隐含的主题类别 $\zeta_k$ .
根据选择的主题 $\zeta_k$ , 从词分布中按照概率 $p(\omega_j \mid \zeta_k)$ 选择一个词 $\omega_j$ .

LDA 中，生成文档的过程如下：

按照先验概率 $p(d_i)$ 选择一篇文档 $d_i$
从Dirichlet分布 $\alpha$ 中取样生成文档 $d_i$ 的主题分布 $\theta_i$ ，主题分布 $\theta_i$ 由超参数为 $\alpha$ 的Dirichlet分布生成
从主题的多项式分布 $\theta_i$ 中取样生成文档 $d_i$ 第 j 个词的主题 $z_{i, j}$
从Dirichlet分布 $\beta$ 中取样生成主题 $z_{i, j}$ 对应的词语分布 $\phi_{z_{i, j}}$ ，词语分布 $\phi_{z_{i, j}}$ 由参数为 $\beta$ 的Dirichlet分布生成
从词语的多项式分布 $\phi_{z_{i, j}}$ 中采样最终生成词语 $\omega_{i, j}$

pLSA原理图：

LDA原理图：

LDA的求解方法一般有两种：第一种是基于Gibbs采样算法求解，第二种是基于变分推断EM算法求解。

代码范例

import tensorflow as tf
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import roc_auc_score
from sklearn.metrics import auc
from sklearn.metrics import f1_score,precision_score,recall_score
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
import lda

#导入sklearn自带的文本分类包，包括20个类别
newsgroups_train = fetch_20newsgroups(subset='train')
from pprint import pprint
pprint(list(newsgroups_train.target_names))

#进取我4个类别作为文本分类样例，并根据词频来进行特征矩阵构建（LDA需要词频矩阵）
categories = ['alt.atheism', 'talk.religion.misc',
              'comp.graphics', 'sci.space']
newsgroups_train = fetch_20newsgroups(subset='train',
                                      categories=categories)
vectorizer = CountVectorizer()
vectors = vectorizer.fit_transform(newsgroups_train.data)
vectors.shape
#训练贝叶斯模型，并计算F1值
newsgroups_test = fetch_20newsgroups(subset='test',
                                     categories=categories)
vectors_test = vectorizer.transform(newsgroups_test.data)
clf = MultinomialNB(alpha=.01)
clf.fit(vectors, newsgroups_train.target)
pred = clf.predict(vectors_test)
metrics.f1_score(newsgroups_test.target, pred, average='macro')
#训练SVM模型并计算F1值
clf = SVC(kernel='linear')
clf.fit(vectors, newsgroups_train.target)
pred = clf.predict(vectors_test)
metrics.f1_score(newsgroups_test.target, pred, average='macro')
#训练LDA模型，并进行数据特征转换，讲主题特征加入原来数据
model = lda.LDA(random_state=1, n_topics=20, n_iter=1000)
model.fit(vectors)
lda_vectors = model.transform(vectors)
lda_vectors_test = model.transform(vectors_test)
#再次模型并计算，F1值
#贝叶斯
newsgroups_test = fetch_20newsgroups(subset='test',
                                     categories=categories)
vectors_test = vectorizer.transform(newsgroups_test.data)
clf = MultinomialNB(alpha=.01)
vectors_add_lda = np.hstack((vectors.toarray(),lda_vectors))
clf.fit(vectors_add_lda, newsgroups_train.target)
vectors_test_add_lad = np.hstack((vectors_test.toarray(),lda_vectors_test))
pred = clf.predict(vectors_test_add_lad)
metrics.f1_score(newsgroups_test.target, pred, average='macro')
#SVM
clf = SVC(kernel='linear')
vectors_add_lda = np.hstack((vectors.toarray(),lda_vectors))
clf.fit(vectors_add_lda, newsgroups_train.target)
vectors_test_add_lad = np.hstack((vectors_test.toarray(),lda_vectors_test))
pred = clf.predict(vectors_test_add_lad)
metrics.f1_score(newsgroups_test.target, pred, average='macro')

结论

最后发现加入LDA后对结果的影响不大，因为本来数据中特征数量大，大于1W，但是训练的主题仅选择20，维度远小于原数据，所以对结果影响不大，样例仅提供参考方法，实际使用的时候，要根据实际情况来进行处理。

参考资料

统计学习方法
https://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html
https://blog.csdn.net/hongyesuifeng/article/details/79674163
https://blog.csdn.net/u013710265/article/details/73480332
https://blog.csdn.net/KIDGIN7439/article/details/69831490
https://blog.csdn.net/puqutogether/article/details/43309717
https://blog.csdn.net/m0_37788308/article/details/78935021
https://blog.csdn.net/fengzhizi76506/article/details/79639585
https://blog.csdn.net/TiffanyRabbit/article/details/76445909

你可能感兴趣的:(python,机器学习,NLP)

windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
Python 实战：构建本地多线程定时任务调度器 xiaocainiao881 python 开发语言
引言在企业自动化流程、数据周期更新、本地脚本执行等场景中，定时任务调度器是不可或缺的一类工具。尽管Linux有crontab，Windows有任务计划，但它们不够灵活，缺乏图形界面，不适合动态启停、可视化控制等需求。本文将带你实现一个本地运行的多线程定时任务调度器，具备以下功能：一、项目功能说明1.1功能亮点多任务并行运行（非阻塞）每个任务支持独立间隔设置支持任务启动/停止/删除/修改支持即时日志
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
Mac 电脑crontab执行定时任务【Python 实战】 qifengle2014 Linux Docker Java Python技术分享合集 macos python 开发语言
1、crontab-e编辑定时任务列表crontab-e查看当前定时任务列表，长按i编辑，编辑完之后按esc退出编辑，然后输入:wq保存并提出。如下：(base)charles@zl~%crontab-e5815***/Library/Frameworks/Python.framework/Versions/3.8/bin/python3/Users/charles/Documents/first
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
Windows系统python安装教程 I`m 程序媛 windows python 开发语言
一、准备工作访问Python官网：打开浏览器，进入Python官网。选择安装包：在官网的下载页面，根据自己的操作系统位数（32位或64位）选择对应的安装包。大多数现代电脑都是64位的，因此选择64-bit的安装包。建议选择“StableReleases”（稳定发布版本），这些版本已经经过测试，相对稳定。二、下载与安装下载Python安装包：点击选定的安装包链接，下载Python的安装程序。运行安装
Ubuntu系统下pip install的accelerate包没有安装至conda环境下，而是错误放入.local文件中
服务器上跑模型时莫名报了一个没有‘torch’包的错误Traceback(mostrecentcalllast):File"/home/ubuntu/.local/bin/accelerate",line5,infromaccelerate.commands.accelerate_cliimportmainFile"/home/ubuntu/.local/lib/python3.10/site-p
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
Python Code Acceleration（Python代码加速）李伯爵的指间沙 Python
对于Python的代码执行效率较低的问题，参考博客：https://developer.51cto.com/art/201809/583695.htm进行相应的测试。参考代码如下：fromnumbaimportjitimporttimedeffoo(x,y):tt=time.time()s=0foriinrange(x,y):s+=iprint('Timeused:{}sec'.format(ti
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
2023年最新Python安装详细教程_python自定义安装 2401_89213215 python 开发语言
1、选择python的稳定发布版本StableReleases点击进入windows操作系统对应的页面，显示python安装版本，这些python安装版本适合windows操作系统。图3-1python稳定与预发布版本图3-1左边是稳定发布版本StableReleases，右边是预发布版本Pre-releases，前者是经过测试，相对完善、稳定的版本，后者还处于测试中，可能不完善，因此，我们下载左
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
用Python和OpenCV从零搭建一个完整的双目视觉系统（三） presenttttt 双目立体视觉数码相机
本系列文章旨在系统性地阐述如何利用Python与OpenCV库，从零开始构建一个完整的双目立体视觉系统。本项目github地址：https://github.com/present-cjn/stereo-vision-python.git在上一篇文章中，我们为项目设计了清晰的架构。现在，我们将深入第一个，也是整个双目视觉系统最关键的模块——相机标定(CameraCalibration)。如果说双目
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
虚拟环境已安装该包，且已激活，但报错
排查原因：是否存在这样的现象命令结果condalist显示的是base环境的包piplist显示的是你当前虚拟环境的包激活了Conda的base环境，但运行的Python实际来自其他路径（如virtualenv创建的虚拟环境或系统Python）Python路径与Conda环境不一致我主要在base的基础上激活了新的虚拟环境，导致环境不一致解决：退出所有环境，重新激活虚拟环境验证是否一致
android studio调用python_Android Studio调用python运行thensorflow模型--CLE方案实现孔良 android studio调用python
AndroidStudio调用python运行thensorflow模型--CLE方案实现AndroidStudio调用python运行thensorflow模型--CLE方案实现我使用的是虚拟android设备，故对应的CLE中库文件版本为/x86，你可以根据自己开发环境找到对应的版本。调用的python版本为3.7，以下为主要步骤：1、环境准备在官网下载最新的CLEforAndroid开发包，
FastAPI 实用教程：构建高性能 Python Web API 的终极指南熊猫钓鱼>_> 大数据 hadoop 分布式
本文为原创实战教程，涵盖FastAPI核心特性、路由设计、数据验证、数据库集成、认证授权、测试部署全流程，4000+字助你快速掌握现代PythonWeb开发利器。一、FastAPI为何成为开发者新宠？在PythonWeb框架领域，Flask和Django长期占据主导地位。但FastAPI自2018年发布以来迅速崛起，其魅力在于：极致的性能：基于Starlette（异步Web框架）和Pydantic
在Android Studio中成功集成Python功能指南
本文还有配套的精品资源，点击获取简介：在移动应用开发中，由于Python的易用性和丰富的库，越来越多的开发者希望在Android应用中使用Python。Chaquopy作为一个开源的Android库，使得开发者可以在Android应用中直接运行Python代码。本文将详细介绍如何在AndroidStudio中集成Chaquopy，配置Python环境，调用Python代码，使用Python库，以及
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他