weixin_39801165

pythonallowpos_Python 爬取热词并进行分类数据分析-[数据修复]

日期：2020.02.01

博客期：140

星期六

【本博客的代码如若要使用，请在下方评论区留言，之后再用(就是跟我说一声)】

所有相关跳转：

a.【简单准备】

c.【拓扑数据】

d.【数据修复】(本期博客)

i . 【App制作】

j . 【安全性改造】

今天问了一下老师，好像是之前数据爬取的内容就不对，不应该爬取标签，我仔细想了一下，也确实不是，所以今天我们来爬取IT新闻里的高频词！

我大致分了下面几个步骤

1、选择想要爬取的网站

之前那个网站有标签，所以我按照那个爬的，实际上没有必要，随便一个IT新闻网站都可以爬的！而且上一次的爬取网站有很大的问题就是它不能加载太多数据，加载个200次，就基本卡死了！所以我们尽量要找到一个有页数下表的列表类型的网页，要不然就是有“下一页”或“下一篇新闻”类似的链接的网页。

下面是提供参考的网站：

(1)、IT之家(大概可以爬到700条数据，数据大致横跨7天，推荐每周爬取一次，并进行汇总查重，其中有非信息类新闻夹杂)

(2)、博客园(推荐，大概可以一次爬3000条数据，数据大致横跨2个月零4天，推荐隔2个月爬一次，其中有少量非信息类新闻夹杂，且单项数据的文字数目较少)

(3)、DoNews(这个是针对互联网的)

(4)、ZOL中关村在线(这个只有一页，数据横跨两周，推荐隔13天爬)

(5)、IT界(可以直接一次爬取14969项新闻，其中有少量非信息类新闻夹杂，仅提供一次性爬取，最早数据日期为2012-04-23)

(6)、51CTO(上次推荐的网站，有标签标记和关键索引)

(7)、走廊网(和上面一样是滚动式网站，一样的弊病，还有这个网站分类有IT类，但是内容不完全是IT相关的)

(8)、说IT资讯网(数据都是老数据了，2011年还行，我们要的是热词，不推荐)

2、开始针对于网站进行爬取(目标：获得文字内容和网址链接)

我最终还是决定爬博客园了(我爬我自己)，因为数据量足够(虽然不及老师的要求10万，但以上几个网站的数据量都那样吧，想要大量新闻数据...也说不定还有第三次重新数据爬取的博客呢！)

分析博客园的新闻链接地址

第一页链接：https://news.cnblogs.com/

第二页链接：https://news.cnblogs.com/n/page/2/

第n(n>=2&n<=100)页链接：https://news.cnblogs.com/n/page/{$n}/

来分析数据项

需要爬取标题、内部内容和本地链接，如果需要以“下一篇”的形式做数据跳转，那你还需要爬取下一篇的链接地址

爬取数据格式如下：

import codecs

class News:

title = ""

info = ""

link = ""

def __init__(self,title,info,link):

self.title = title

self.info = info

self.link = link

def __toString__(self):

return self.title+"\t"+self.info+"\t"+self.link

def __toFile__(self,filePath):

f = codecs.open(filePath, "a+", 'utf-8')

f.write(self.__toString__() + "\n")

f.close()

News.py

数据处理以后对应格式如下：

import codecs

class KeyWords:

word = ""

link = ""

num = 0

def __init__(self,word,link,num):

self.word = word

self.link = link

self.num = num

def __toString__(self):

return self.word +"\t"+str(self.num)+"\t"+self.link

def __toFile__(self,filePath):

f = codecs.open(filePath, "a+", 'utf-8')

f.write(self.__toString__() + "\n")

f.close()

KeyWords.py

爬取工具编写：

这个工具写了很久，因为博客园爬取需要模拟验证码登录，但你以为我成功找到了自动输入验证码的工具了吗？不！我只是取巧了一下：Canvas的代码我还不太了解，不可能深入去学习的(因为今天必须要爬到数据)，嗯，怎么解决呢？你想一下，步枪有全自动的也有半自动的啊！我就不能来个半自动爬取吗？诶！我还真就是这样做的，登录需要点击验证码，我们就使用time.sleep()方法让代码晚一点再执行，等到它模拟出来了验证码，咱们人工给它验证一下！再然后呢？就等着它的数据自动被爬了呗！当然，等待多少时间因你的主机情况和网速而定，网速较慢的话，就给等待时间长一点！

单个新闻页面爬取类

import parsel

from urllib import request

import codecs

from selenium import webdriver

import time

# [ 一次性网页爬取的对象 ]

from itWords.retire.Kord import News

# [ 对字符串的特殊处理方法-集合 ]

class StrSpecialDealer:

# 取得当前标签内的文本

@staticmethod

def getReaction(stri):

strs = StrSpecialDealer.simpleDeal(str(stri))

strs = strs[strs.find('>')+1:strs.rfind('

return strs

# 去除基本的分隔符

@staticmethod

def simpleDeal(stri):

strs = str(stri).replace(" ", "")

strs = strs.replace("\t", "")

strs = strs.replace("\r", "")

strs = strs.replace("\n", "")

return strs

# 删除所有标签标记

@staticmethod

def deleteRe(stri):

strs = str(stri)

st = strs.find('

while(st!=-1):

str_delete = strs[strs.find('')+1]

strs = strs.replace(str_delete,"")

st = strs.find('

return strs

# 删除带有日期的句子

@staticmethod

def de_date(stri):

lines = str(stri).split("。")

strs = ""

num = lines.__len__()

for i in range(0,num):

st = str(lines[i])

if (st.__contains__("年") | st.__contains__("月")):

pass

else:

strs += st + "。"

strs = strs.replace("。。", "。")

return strs

# 取得带有日期的句子之前的句子

@staticmethod

def ut_date(stri):

lines = str(stri).split("。")

strs = ""

num = lines.__len__()

for i in range(0, num):

st = str(lines[i])

if (st.__contains__("年")| st.__contains__("月")):

break

else:

strs += st + "。"

strs = strs.replace("。。","。")

return strs

@staticmethod

def beat(stri,num):

strs = str(stri)

for i in range(0,num):

strs = strs.replace("["+str(i)+"]","")

return strs

class Oranpick:

basicURL = ""

profile = ""

# ---[定义构造方法]

def __init__(self, url):

self.basicURL = url

self.profile = webdriver.Firefox()

self.profile.get("https://account.cnblogs.com/signin?returnUrl=https%3A%2F%2Fnews.cnblogs.com%2Fn%2F654191%2F")

self.profile.find_element_by_id("LoginName").send_keys("初等变换不改变矩阵的秩")

self.profile.find_element_by_id("Password").send_keys("password") # your password

time.sleep(2)

self.profile.find_element_by_id("submitBtn").click()

# 给予 15s 的验证码人工验证环节

time.sleep(15)

self.profile.get(url)

# 重新设置

def __reset__(self,url):

self.basicURL = url

self.profile.get(url)

# ---[定义释放方法]

def __close__(self):

self.profile.quit()

# 获取 url 的内部 HTML 代码

def getHTMLText(self):

a = self.profile.page_source

return a

# 获取基本数据

def getNews(self):

index_html = self.getHTMLText()

index_sel = parsel.Selector(index_html)

context = index_sel.css('#news_title a')[0].extract()

context = StrSpecialDealer.getReaction(context)

context = StrSpecialDealer.simpleDeal(context)

conform = index_sel.css('#news_body')[0].extract()

conform = StrSpecialDealer.deleteRe(conform)

conform = StrSpecialDealer.simpleDeal(conform)

news = News(title=context, info=conform, link=self.basicURL)

return news

def main():

url = "https://news.cnblogs.com/n/654221/"

ora = Oranpick(url)

# print(ora.getNews().__toString__())

# main()

Oranpick.py

新闻页面地址爬取类

import time

import parsel

from urllib import request

import codecs

from itWords.retire.Oranpick import Oranpick

# [ 连续网页爬取的对象 ]

class Surapity:

page = 1

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36'}

basicURL = ""

oran = ""

# ---[定义构造方法]

def __init__(self):

self.page = 1

self.basicURL = "https://news.cnblogs.com/"

self.oran = Oranpick("https://start.firefoxchina.cn/")

def __close__(self):

self.oran.__close__()

def __next__(self):

self.page = self.page + 1

self.basicURL = 'https://news.cnblogs.com/n/page/'+str(self.page)+'/'

# 获取 url 的内部 HTML 代码

def getHTMLText(self):

req = request.Request(url=self.basicURL, headers=self.headers)

r = request.urlopen(req).read().decode()

return r

# 获取页面内的基本链接

def getMop(self,filePath):

index_html = self.getHTMLText()

index_sel = parsel.Selector(index_html)

links = index_sel.css(".news_entry a::attr(href)").extract()

size = links.__len__()

for i in range(0,size):

link = "https://news.cnblogs.com"+links[i]

self.oran.__reset__(link)

self.oran.getNews().__toFile__(filePath)

def fileReset(filePath):

f = codecs.open(filePath, "w+", 'utf-8')

f.write("")

f.close()

def main():

filepath = "../../testFile/rc/news.txt"

s = Surapity()

fileReset(filepath)

s.getMop(filepath)

s.__next__()

s.getMop(filepath)

while s.page <= 100:

s.__next__()

s.getMop(filepath)

s.__close__()

main()

Surapity.py

这样就能够爬取到相关数据

3、利用 Python 的开源 jieba 组件进行中文词频统计

我的下载方法：(确保电脑处于联机状态——就是你联网了，你也可以参照上述官网下载地址的下载方法)

(1)打开PyCharm

(2)在非菜单栏、非窗口、非代码演示部分鼠标右击，并选中"Open in Terminal"

(3) 输入命令(因你运行的 Python 环境而异)

easy_install jieba 　　无限制

pip install jieba 　　 Python 2 & Python 3

pip3 install jieba　　 Python 3

(4)等待其下载完成，如图：

使用方法参照以下博客(本期博客非针对jieba，不再过多赘述)：

小注：

其实我们对 jieba 组件的使用还有一些问题的，不过我们只要高频词，使用那三种模式应该无所谓了(还是推荐精准模式)

4、制作词语筛选部分，并进行封装

测试文件

《2019年OPPO开放平台年度总结》正式发布

近日，OPPO开放平台通过官微平台发布了《2019年OPPO开放平台年度总结》。

这份年度总结对OPPO智能服务新生态的用户属性、用户偏好、市场增长，以及OPPO开放平台的技术能力和服务能力进行了详细的介绍，帮助开发者及合作伙伴挖掘数据背后的衍生价值，携手共创更优质的用户体验。

ColorOS全球月活超3.2亿，以优质年轻群体为主

根据《2019年OPPO开放平台年度总结》显示，目前ColorOS全球月活跃用户数已超过3.2亿，覆盖国家和地区超过140个。而在国内用户中，25岁~34岁的优质年轻群体占比更是高达63%，24岁以下用户占比为21%，足见OPPO手机设备深受年轻群体所喜爱。

正因如此，OPPO无论是硬件端的产品创新，还是软件端的“黑科技”研发，也都始终迎合年轻群体偏好。如在2019年10月上市的OPPO Reno Ace，其配置为骁龙855 Plus、65W超级闪充、90Hz电竞屏、最高12GB+256GB存储组合，2999元起的高性价比优势，让其开售5分钟销售额破亿，斩获全平台手机单品销量＆销售额双冠军。

此外，该产品搭载OPPO“五大系统能力开放引擎”之一的Hyper Boost，并与游戏厂商深度合作，更充分地发挥了硬件性能。OPPO Reno Ace高性价比的产品配置以及“黑科技”加持，让年轻消费者直呼“这很Ace！”。

OPPO开放平台携手合作伙伴共建智能服务新生态，打造优质用户体验

产品受到用户喜爱，同样也离不开智能服务新生态的建设。OPPO开放平台为了给用户带来更优质的产品体验，将其技术能力深度赋能给合作伙伴，携手合作伙伴合作共赢。

根据《2019年OPPO开放平台年度总结》显示，在OPPO开放平台的应用分发情况分析中，视频播放类、教育学习类、实用工具类APP是最受用户青睐的应用类别。

时代大环境下，OPPO积极建设视频功能迎合用户需求，OPPO短视频业务月活跃用户已突破6000万，每日人均使用时长超过50分钟，为优质的视频内容分发和应用分发，提供了可以结合用户手机操作偏好的又一大渠道。

在短视频类目的软件能力建设方面，OPPO也始终走在创新前沿。当抖音、快手等热门短视频类APP接入“五大系统能力开放引擎”之一的CameraUnit，调用OPPO手机核心功能“超级防抖”，就能够让用户直接拍摄出稳定、清晰的视频。

深度挖掘数据的衍生价值，OPPO早已不再是一家纯粹的手机公司

硬件产品受到年轻用户喜爱，软件能力不断创新，也让OPPO的业务线早已不再局限于手机制造。当前，OPPO已经建设了更为完善的开放生态，除了技术能力加持赋能合作伙伴，依托自身市场优势，也为应用、游戏、快应用、小游戏等产品分发推广和联运提供了更为广阔的发展空间，为各链端合作伙伴提供全方位的服务。

根据《2019年OPPO开放平台年度总结》显示，以OPPO软件商店和游戏中心的全球月活跃用户数已超过3亿，全球日分发次数也超过7.8亿次。同时，OPPO开放平台还在积极扩展自身的业务服务范围，并不断创新服务形式。以应用分发业务为例，通过数据赋能、活动赋能、素材A/B test、活动组建化赋能等形式，帮助开发者实现更加高效的APP运营。

除此之外，OPPO还在科技的各个领域积极探索。例如，在2019年12月19日的2019 OPPO开发者大会上发布IoT“启能行动”，将帮助更多品牌厂商快速实现产品的智能化。

此外，2020年OPPO将继续投入价值10亿资源，为应用、服务、内容、出海领域的优秀合作伙伴，提供开发、流量、营销推广等一系列的资源支持，全方位助力合作伙伴的业务发展；OPPO荣获中文机器阅读理解挑战赛DuReader 2019年度冠军，AI领域再次取得新突破……

由此可见，通过对多维度技术的持续、广泛的布局，OPPO早已不再是一家纯粹的手机公司。据OPPO创始人陈明永介绍，OPPO未来三年将投入500亿研发预算，持续关注5G、人工智能、AR、大数据等前沿技术，并着力构建底层硬件核心技术以及软件工程和系统能力。

OPPO开放平台作为B端业务的主要窗口，这份《2019年OPPO开放平台年度总结》的公布既能让行业窥见到OPPO综合能力的一方天地，也将吸引更多合作伙伴加入OPPO开放平台，合作共创新未来。

查看完整年度总结，请关注OPPO开放平台官方微信公众号“OPPO开发者”或微博“OPPO开放平台”。

ad.txt

标准规范类

# 新闻段落高频词分析器

import jieba

import jieba.analyse

class ToolToMakeHighWords:

test_str = ""

# 初始化

def __init__(self,test_str):

self.test_str = str(test_str)

pass

def buildWithFile(self,filePath,type):

file = open(filePath, encoding=type)

self.test_str = file.read()

def buildWithStr(self,test_str):

self.test_str = test_str

pass

# 统计词

def getWords(self,isSimple,isAll):

if(isSimple):

words = jieba.lcut_for_search(self.test_str)

return words

else:

# True - 全模式 , False - 精准模式

words = jieba.cut(self.test_str, cut_all=isAll)

return words

# 统计词频并排序

def getHighWords(self,words):

data = {}

for charas in words:

if len(charas) < 2:

continue

if charas in data:

data[charas] += 1

else:

data[charas] = 1

data = sorted(data.items(), key=lambda x: x[1], reverse=True) # 排序

return data

# 以频率要求数目为依据进行筛选

def selectObjGroup(self,num):

a = jieba.analyse.extract_tags(self.test_str, topK=num, withWeight=True, allowPOS=())

return a

def selectWordGroup(self,num):

b = jieba.analyse.extract_tags(self.test_str, topK=num, allowPOS=())

return b

def main():

file = open('../testFile/rc/ad.txt', encoding="utf-8")

file_context = file.read()

ttmhw = ToolToMakeHighWords(file_context)

li = ttmhw.selectWordGroup(2)

print(li)

main()

ToolToMakeHighWords.py

测试截图

5、相关类进行关联得到需要的数据

整理以上代码

对已经写好的Surapity.py文件进行修改：(使其在爬取的过程中，直接完成统计，并记录网址)

import time

import parsel

from urllib import request

import codecs

from itWords.retire.Kord import KeyWords

from itWords.retire.Oranpick import Oranpick

# [ 连续网页爬取的对象 ]

from itWords.retire.highWords import ToolToMakeHighWords

class Surapity:

page = 1

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36'}

basicURL = ""

oran = ""

# ---[定义构造方法]

def __init__(self):

self.page = 1

self.basicURL = "https://news.cnblogs.com/"

self.oran = Oranpick("https://start.firefoxchina.cn/")

def __close__(self):

self.oran.__close__()

def __next__(self):

self.page = self.page + 1

self.basicURL = 'https://news.cnblogs.com/n/page/'+str(self.page)+'/'

# 获取 url 的内部 HTML 代码

def getHTMLText(self):

req = request.Request(url=self.basicURL, headers=self.headers)

r = request.urlopen(req).read().decode()

return r

# 获取页面内的基本链接

def getMop(self,filePath):

index_html = self.getHTMLText()

index_sel = parsel.Selector(index_html)

links = index_sel.css(".news_entry a::attr(href)").extract()

size = links.__len__()

for i in range(0,size):

link = "https://news.cnblogs.com"+links[i]

self.oran.__reset__(link)

news = self.oran.getNews()

ttm = ToolToMakeHighWords(news.getSimple())

words = ttm.getHighWords(ttm.getWords(False,False))

leng = words.__len__()

# 频数要在 15次以上

for i in range(0,leng):

if words[i][1]<=15:

break

keyw = KeyWords(word=words[i][0],link=link,num=words[i][1])

keyw.__toFile__(filePath)

def fileReset(filePath):

f = codecs.open(filePath, "w+", 'utf-8')

f.write("")

f.close()

def main():

filepath = "../../testFile/rc/news.txt"

s = Surapity()

fileReset(filepath)

s.getMop(filepath)

s.__next__()

s.getMop(filepath)

while s.page <= 100:

s.__next__()

s.getMop(filepath)

s.__close__()

main()

Surapity.py

对应测试截图：

小注：这只是中间过程，需要进一步统计(上述是实现了每一篇新闻的频数大于15的高频词)

上述结果已经可以导入MySql了，如果不想用文件导入，就用下面的Sql语句，别忘了输出之前先建表(words表)

有了文件sql语句可以由此生成：

import codecs

filePath = "../../testFile/rc/words_sql.txt"

f = codecs.open(filePath, "w+", 'utf-8')

f.write("")

f.close()

fw = open("../../testFile/rc/news.txt", mode='r', encoding='utf-8')

tmp = fw.readlines()

num = tmp.__len__()

for i in range(0,num):

group = tmp[i].split("\t")

group[0] = "'" + group[0] + "'"

group[2] = "'" + group[2][0:group[2].__len__()-1] + "'"

f = codecs.open(filePath, "a+", 'utf-8')

f.write("Insert into words values ("+group[0]+","+group[1]+","+group[2]+");"+"\n")

f.close()

SqlDeal.py

之后建立视图 keywords

视图定义如下：

SELECT

`words`.`word` AS `word`,

sum(`words`.`num`) AS `num`

FROM

`words`

GROUP BY

`words`.`word`

ORDER BY

`num` DESC

keywords(View)

视图展示：

然后，将第136期博客的 Servlet 修改一下：

package com.servlet;

import java.io.IOException;

import java.sql.SQLException;

import java.util.List;

import javax.servlet.ServletException;

import javax.servlet.ServletOutputStream;

import javax.servlet.annotation.WebServlet;

import javax.servlet.http.HttpServlet;

import javax.servlet.http.HttpServletRequest;

import javax.servlet.http.HttpServletResponse;

import org.json.JSONArray;

import org.json.JSONObject;

import com.dblink.basic.utils.SqlUtils;

import com.dblink.basic.utils.sqlKind.MySql_s;

import com.dblink.basic.utils.user.UserInfo;

import com.dblink.bean.BeanGroup;

import com.dblink.sql.DBLink;

@SuppressWarnings("unused")

public class ServletForWords extends HttpServlet{

/**

private static final long serialVersionUID = 1L;

//----------------------------------------------------------------------//

public void doPost(HttpServletRequest request,HttpServletResponse response) throws ServletException, IOException

{

request.setCharacterEncoding("utf-8");

response.setCharacterEncoding("utf-8");

response.setContentType("application/json");

response.setHeader("Cache-Control", "no-cache");

response.setHeader("Pragma", "no-cache");

JSONArray jsonArray = new JSONArray();

DBLink dbLink = new DBLink(new SqlUtils(new MySql_s("rc"),new UserInfo("root","123456")));

BeanGroup bg = null;

try {

bg = dbLink.getSelect("Select * From keywords ").beans;//where num > 6

int leng = bg.size();

for(int i=0;i

{

JSONObject jsonObject = new JSONObject();

jsonObject.put("name",bg.get(i).get(0));

jsonObject.put("value",bg.get(i).get(1));

jsonArray.put(jsonObject);

}

} catch (SQLException e) {

// Do Nothing ...

}

dbLink.free();

ServletOutputStream os = response.getOutputStream();

os.write(jsonArray.toString().getBytes());

os.flush();

os.close();

}

//---------------------------------------------------------------------------------//

}

ServletForWords.java

对应截图：

Python 爬取热词并进行分类数据分析-[解释修复+热词引用]

日期:2020.02.02 博客期:141 星期日 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...

Python 爬取热词并进行分类数据分析-[云图制作+数据导入]

日期:2020.01.28 博客期:136 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入](本期博客) ...

Python 爬取热词并进行分类数据分析-[简单准备] (2020年寒假小目标05)

日期:2020.01.27 博客期:135 星期一 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备](本期博客) b.[云图制作+数据导入] ...

Python 爬取热词并进行分类数据分析-[热词分类+目录生成]

日期:2020.02.04 博客期:143 星期二 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[ ...

Python 爬取热词并进行分类数据分析-[拓扑数据]

日期:2020.01.29 博客期:137 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...

Python 爬取热词并进行分类数据分析-[App制作]

日期:2020.02.14 博客期:154 星期五 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...

Python 爬取热词并进行分类数据分析-[JSP演示+页面跳转]

日期:2020.02.03 博客期:142 星期一 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...

Python 爬取热词并进行分类数据分析-[热词关系图+报告生成]

日期:2020.02.05 博客期:144 星期三 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...

Python爬取股票信息，并实现可视化数据

前言截止2019年年底我国股票投资者数量为15975.24万户, 如此多的股民热衷于炒股,首先抛开炒股技术不说, 那么多股票数据是不是非常难找, 找到之后是不是看着密密麻麻的数据是不是头都大了? 今 ...

随机推荐

MySQL各逻辑模块工作配合

在了解了MySQL的各个模块之后(点击查看MySQL各个逻辑模块),我们再看看MySQL各个模块间是如何相互协同工作的.接下来,我们通过启动MySQL,客户端连接,请求query,得到返回结果,到最后 ...

今天考试的JAVA编程题

今天早上考了java, 题目感觉还不错, 共四道题,有一道定义类的没啥意思就没列出来. 这三道题目还是不错的,特别是第一道,大一上学期学linux的时候,那时还没学C语言呢,准确的来说,还不知道什么是 ...

c#4.0新特性之协变与逆变

1.C#3.0以前的协变与逆变如果你是第一次听说这个两个词,别担心,他们其实很常见.C#4.0中的协变与逆变[1](Covariance and contravariance)有了进一步的完善,主要 ...

INDEX相关

1.索引应该建立在WHERE子句经常用到的表列上,如果在大表上频率使用某列或者某几列作为条件执行检索操作,并且检索的行数低于总行数的15%,那么应该考虑在该几行上添加索引. 2.为了提高多表连接的性能 ...

java_eclipse_maven_svn_主题彩色插件_全屏插件

作为一名不算新手的猿猿,还来纠结IDE环境搭建实属不该,不过着实纠结了不少时间. target: eclipse + maven +svn + 设置默认编码+全屏绕的路就不说了,直奔主题,由于mav ...

CF #349 div1 B. World Tour

题目链接:http://codeforces.com/problemset/problem/666/B 大意是给一张有向图,选取四个点,使得走这四个点,任意两个点之间走最短路,总距离最长. 3000个 ...

Charles手机抓包实用教程

一.Charles官网下载链接:https://www.charlesproxy.com/download/ 二.抓包步骤: 1.安装Charles,并打开 2.电脑设置代理端口:打开charles- ...

【Python】keras使用Lenet5识别mnist

原始论文中的网络结构如下图: keras生成的网络结构如下图: 代码如下: import numpy as np from keras.preprocessing import image from ...

ASP.NET Core Web API处理HttpResponseMessage类型返回值的问题

在将我们的 web api 从 .NET Framework 迁移至 .net core(asp.net core 1.1)之后,遇到一个问题. 之前返回值类型为 HttpResponseMessag ...

shell for 循环数组

name=(aa bb) ;i

pythonallowpos_Python 爬取热词并进行分类数据分析-[数据修复] weixin_39801165 pythonallowpos
日期：2020.02.01博客期：140星期六【本博客的代码如若要使用，请在下方评论区留言，之后再用(就是跟我说一声)】所有相关跳转：a.【简单准备】c.【拓扑数据】d.【数据修复】(本期博客)i.【App制作】j.【安全性改造】今天问了一下老师，好像是之前数据爬取的内容就不对，不应该爬取标签，我仔细想了一下，也确实不是，所以今天我们来爬取IT新闻里的高频词！我大致分了下面几个步骤1、选择想要爬取
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

pythonallowpos_Python 爬取 热词并进行分类数据分析-[数据修复]

你可能感兴趣的:(pythonallowpos)

pythonallowpos_Python 爬取热词并进行分类数据分析-[数据修复]