Wheeehan

python_scrapy爬虫_jieba分词_数据可视化阶段总结报告

第一次写于 20170328 23：36 寝室

序言

关键词：
python scrapy爬虫搜狗微信 jieba分词数据可视化 wordcloud_plotly

学习过程中参考过的文章或网站链接：
- Python 基础教程 -菜鸟教程

有哪些比较好的中文分词方案？ -知乎
jieba分词 -github
10行Python代码的词云 -知乎
Python中除了matplotlib外还有哪些数据可视化的库？ -知乎
https://plot.ly/python/
http://weixin.sogou.com/

我完成的完整工程文件：

python_weixin -https://github.com/RenjiaLu9527/python_weixin/

正文

这段时间学习的内容就是python爬虫、分词、以及数据可视化；以爬取‘搜狗微信’中的微信热门文章为例分析；这个小工程我将其分成三个部分：

获取数据：使用python scrapy框架定制爬虫，爬取网站数据并存入Mysql数据库
处理数据：使用python jieba分词模块，处理Mysql数据库中储存的微信文本并存入Mysql
数据可视化：使用plotly 和 wordcloud 将分词数据可视化
写总结
第一步中：scrapy资料比较多，勉强能做个能用的爬虫，代码模块化目前写的很乱，由于前个星期写的这个python文件，当时遇到的问题没有记录，在此就不多说；
部分代码 weixin_TextSpider类

# -*- coding: utf-8 -*-
# @Time  : 2017/03/21 10:54
# @Author   : RenjiaLu

import time
import scrapy
from scrapy import Request
from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapyspider.items  import weixin_Text

global  crawlNum    #爬取数量
global  outputfile
global  SQL_StmtFile
global  pageKind 
global  pageNum 


str = time.strftime('%Y_%m_%d__%H_%M_%S',time.localtime(time.time()))

crawlNum = 21
outputfile = open("log_%s.txt"%str, "a+")
SQL_StmtFile = open("SQLstmt_%s.txt"%str, "a+")
pageKind = 0
pageNum = 0

SQL_StmtFile.write("USE db_weixin;\n")

class weixin_TextSpider(Spider):

    name = 'weixin.sogou'
    handle_httpstatus_list = [404, 500]
    download_delay = 1
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
    }

    def start_requests(self):
        url = 'http://weixin.sogou.com/'
        #url="http://weixin.sogou.com/pcindex/pc/pc_3/15.html"
        yield Request(url, headers=self.headers)

    def parse(self, response):

        global crawlNum
        global outputfile
        global  SQL_StmtFile
        global pageKind
        global pageNum
        item = weixin_Text()

        try:
            if response.status in self.handle_httpstatus_list:
                outputfile.write(str(response.status))
                raise Exception(Exception,response.status)

            #outputfile.write(str(response.status))

            if pageNum == 0 :
                #第 0 页
                weixinSelector = response.xpath('//ul[@class="news-list"]/li')
            else:
                #第 1+ 页
                weixinSelector = response.xpath('//body//li')

            if weixinSelector:
                #获取到了 一个weeixin_Text的 List
                for weixin in weixinSelector:
                    item['title'] = weixin.xpath(
                        './/div[@class="txt-box"]/h3/a/text()').extract()[0].encode("utf-8").replace(",", "，").replace("\"","“").replace("\'","‘")
                    item['summary'] = weixin.xpath(
                        './/p/text()').extract()[0].encode("utf-8").replace(",", "，").replace("\"","“").replace("\'","‘")
                    item['name_GZH'] = weixin.xpath('.//div[@class =\"s-p\"]/a/text()').extract()[0].encode("utf-8")
                    item['classifyKind'] = pageKind
                    item['publishTime'] = "-"
                    item['scrapyCrawl_Time'] = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time()))

                    SQL_StmtFile.write("INSERT INTO weixin_Text(id,classifyKind,scrapyCrawl_Time,title,name_GZH,publishTime,summary) "+\
                        " VALUE(\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\",\"%s\");\n" 
                        %("NULL",   item['classifyKind'],item['scrapyCrawl_Time'],item['title'],item['name_GZH'],item['publishTime'],item['summary']))
                    yield item
            else:
                outputfile.write("###[LOG] 当前页面没有匹配到内容 pageKind=%d,pageNum=%d \n"%(pageKind,pageNum))
                pageNum = crawlNum
        except Exception as e:
            print e
            outputfile.write("###[LOG] 异常 e=%s\n\n"%e)
            pageNum = crawlNum
        else:
            outputfile.write("正常")
        finally:

            if pageKind < crawlNum  :
                if pageNum < crawlNum:
                    pageNum +=1
                    url_next= 'http://weixin.sogou.com/pcindex/pc/pc_%d/%d.html' %(pageKind,(pageNum))
                else:
                    #一个分类栏的 第 0 页
                    pageKind +=1
                    pageNum = 0
                    url_next ='http://weixin.sogou.com/pcindex/pc/pc_%d/pc_%d.html'%(pageKind,pageKind)

                outputfile.write("--下一个链接 pageKind=%d url=%s \n"%(pageKind,url_next))

            else:
                outputfile.write("爬取结束 pageKind=%d" %pageKind)
                outputfile.close()
                SQL_StmtFile.close()

            next_url = url_next
            if next_url:
                yield Request(next_url, headers=self.headers)

爬虫运行了十几次，每次爬一遍‘搜狗微信 http://weixin.sogou.com/’,只能得到5k左右的文章，而且每隔两小时文章更新数量只有几百篇；所以我在三天的时间里共运行十几次，获取文章 89990篇文章；去重后剩下15667篇

基于这15k篇原始数据开始分析；
数据库建表如下：

四个视图：

第一个视图弃用；
第二个视图：从 t_splitwords，和 weixin_text 两个表中按weixinText分类板块分组，并按frequency大小排序；可以查看每个分类板块最多重复出现的词
第三个视图：weixin_Text 去重后的视图，去重条件如下：weixin_text.classifyKind, weixin_text.title, weixin_text.name_GZH, weixin_text.summary 根据这四个字段选出不重复独一无二的 weixinText
第四个视图：表 t_splitwords（100w 条数据）去重并统计重复次数以t_splitwords.value, t_splitwords.titleOrSummary, t_splitwords.partOfSpeech三个字段分组

其中 t_splitwords表数据量达到 100w ，一条简单的查询语句要运行几十秒，第一次接触这个量级，不得不开始注意数据库的查询优化

第二步调用jieba分词分析并存入mysql数据库
中文分词知乎的讨论：https://www.zhihu.com/question/19578687
我选用jieba分词
例子

#encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式
print ", ".join(seg_list)

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造") #搜索引擎模式
print ", ".join(seg_list)

输出

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)

【搜索引擎模式】： 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

部分代码：utils_parseString.py 解析从mysql获取的微信文本并再次存入mysql

# -*- coding: utf-8 -*-
# @Time  : 2017/03/22 15:54
# @Author   : RenjiaLu

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import jieba
import jieba.posseg  
from utils_mysql import *

def parseAndSaveString(string,titleOrSummary,stringId,db):
    """parse"""
    try:
        seg_list = jieba.cut(string,cut_all=True)
    except Exception as e:
        myException("###1全模式分词","stringId:%d titleOrSummary:%s string:%s"%(stringId,titleOrSummary,string),e)
        return 
    else:
        """第一次分词成功"""
        for a_seg in seg_list:
            if '' == a_seg:
                continue
            try:
#           posseg_list  = jieba.posseg.cut(a_seg)
            posseg_list = a_seg
            except Exception as e:
                myException("###2词性分词","stringId:%d titleOrSummary:%s string:%s a_seg:%s"%(stringId,titleOrSummary,string,a_seg),e)
                continue
            else:
                """第二次分词成功"""
                for posseg_word in  posseg_list:
                    if '' == posseg_word:
                        continue
#                   print posseg_word.word,posseg_word.flag
                    print posseg_word

                    try:
#                       indexOfString = string.find(posseg_word.word)
#                       partOfSpeech = posseg_word.flag
                        indexOfString = string.find(posseg_word)
                        partOfSpeech = "-"
                        """save"""
#                       SQLsttmnt = "INSERT INTO t_splitwords VALUE (\'%s\',\'%s\',%d,%d,\'%s\',\'%s\') ;" \
#                                   %("NULL",posseg_word.word,stringId,indexOfString,titleOrSummary,partOfSpeech)
                        SQLsttmnt = "INSERT INTO t_splitwords VALUE (\'%s\',\'%s\',%d,%d,\'%s\',\'%s\') ;" \
                                    %("NULL",posseg_word,stringId,indexOfString,titleOrSummary,partOfSpeech)
                        cursor = executeMysqlSttmnt(db,SQLsttmnt)

                    except Exception as e:
                        myException("###构造数据并储存","stringId:%d titleOrSummary:%s string:%s posseg_word" \
                                    ":%s"%(stringId,titleOrSummary,string,posseg_word),e)
                        continue
                    else:
                        pass
                    finally:
                        pass

部分代码：utils_mysql.py 连接数据库工具函数集合

# -*- coding: utf-8 -*-
# @Time  : 2017/03/22 16:54
# @Author   : RenjiaLu

import time
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import MySQLdb

str = time.strftime('%Y_%m_%d__%H_%M_%S',time.localtime(time.time()))
outputfile = open("log/log_%s.txt"%str, "a+")

def cnnctMysql(pHost="localhost",pUser="root",pPasswd="",pDb="db_weixin",pPort=3306,pCharset='utf8'):
    """连接 mysql 数据库"""
    try:
        db = MySQLdb.connect(host=pHost,user= pUser,passwd=pPasswd,db=pDb,port=pPort,charset=pCharset)
        db.autocommit(1)
        return db
    except Exception as e:
        myException("###连接数据库","",e)
    else:
        print '操作成功'
    finally:
        pass


def executeMysqlSttmnt(db,sqlSttmnt):
    """执行 mysql 语句 
        返回 cursor
    """
    try:
        cursor = db.cursor()
        cursor.execute(sqlSttmnt)   
        return cursor
    except Exception as e:
        myException("###执行Mysql语句",sqlSttmnt,e)
        db.rollback() # 回滚事件
    else:
        print '操作成功'
    finally:
        pass


def closeMysql(db):
    """关闭数据库"""
    try:
        db.close()
    except Exception as e:
        myException("###关闭数据库","",e)

    else:
        print '操作成功'
    finally:
        pass

def myException(whichStep,log,e):
    str = "###myException whichstep:%s log:%s e:%s\n"%(whichStep,log,e)
    print str
    try:
        outputfile.write(str)
    except Exception as e:
        print e

使用很简单，我先全模式分词再对其做词性分析，这里有重复分词的问题，这也是数据量这么大的原因，重复次数最多的都是单字，所以后面的可视化操作我略去了单字词条，只分析两个字符及以上的词

第三步： 数据可视化，
plotly数据可视化效果真不错，虽然看了官网也没有找到详细的属性介绍，目前只使用了其中bar类图

# -*- coding: utf-8 -*-
# @Time  : 2017/03/26 08:54
# @Author   : RenjiaLu


import plotly.plotly as py
import plotly.graph_objs as go
import plotly.offline
from plotly.graph_objs import *
# Generate the figure
import plotly.plotly as py
import plotly.graph_objs as go

list_articalClssfy= ['热门', '推荐',  '段子手','养身堂','私房话',\
                    '八卦精','爱生活','财经迷','汽车迷','科技咖',\
                    '潮人帮','辣妈帮','点赞党','旅行家','职场人',\
                    '美食家','古今通','学霸族','星座控','体育迷']
list_articalNum   = [904,854,842,907,639,\
                    1041,676,966,773,1011,\
                    1005,850,720,624,540,\
                    720,729,586,377,903]
# frequency >= 5
list_articalWordsNum=[1584,1645,1182,1810,1006,\
                    1877,1241,1983,1525,1957,\
                    1708,1477,1180,1169,1086,\
                    1358,1347,1261,627,1751]

trace_articalNum = go.Bar(
    x=list_articalClssfy,
    y=list_articalNum,
    name='爬取文章数'
)
trace__articalWordsNum = go.Bar(
    x=list_articalClssfy,
    y=list_articalWordsNum,
    name='文章分词数'
)

data = [trace_articalNum, trace__articalWordsNum]
layout = go.Layout(
    barmode='stack',
    title="data_to_view_1 爬取文章数量与分词数量(frequency>=5)"
)

fig = go.Figure(data=data, layout=layout)

plotly.offline.plot(fig, filename = 'view_html/data_to_view_1.html')

#py.iplot(fig, filename='grouped-bar')

生成：https://plot.ly/~RenjiaLu/2/

然后抽取这二十个分类板块中频度前十的词分析
这里取其中的三个分类，如图



代码已上传 github，见文章开头

词云 wordcloud 模块 genWordCloud.py

# -*- coding: utf-8 -*-
# @Time  : 2017/03/25 19:54
# @Author   : RenjiaLu

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import os
import matplotlib.pyplot as plt
from os import path
from scipy.misc import imread
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
import locale

def genWordCloud(dict_data,rootPath = path.dirname(__file__),imgName="ico1.jpg",saveFileName="wordcloud_init.png"):

    #设置语言
    locale.setlocale(locale.LC_ALL, 'chs')

    #字体文件路径
    fontPath = "H:/Python27/python_workplace/dataToview/font/msyh.ttc"

    #当前工程文件目录
    d = rootPath 

    # 设置背景图片
    alice_coloring = imread(path.join(d, imgName))

    #构建词云框架 并载入数据
    wc = WordCloud(font_path = fontPath,#字体
            background_color="white", #背景颜色
            max_words=10000,# 词云显示的最大词数
            mask=alice_coloring,#设置背景图片
            #stopwords=STOPWORDS.add("said"),
            width=900,
            height=600,
            scale=4.0,
            max_font_size=200, #字体最大值
            random_state=42).fit_words(dict_data)

    #载入 DICT 数据
    #wc.generate_from_frequencies(dict_data)

    #从背景图片生成颜色值
    image_colors = ImageColorGenerator(alice_coloring)

    # 以下代码显示图片
    plt.imshow(wc)
    plt.axis("off")
    plt.show()

    #保存图片
    wc.to_file(path.join(d,saveFileName))
    pass

这里遇到的词云中文乱码的问题，我记录到了另一篇文章中http://blog.csdn.net/renjialu9527/article/details/65937731
贴上生成的词云

效果还可以

最后

熟悉了一遍流程：
爬虫找数据-mysql建表建视图优化存取数据-python分析数据可视化操作
20170329 11:39
end

MATLAB语言基础教程、小项目1：简单的计算器、小项目2：有页面的计算器、使用App Designer创建GUI计算器 azuredragonz 学习教程 matlab 开发语言
MATLABMATLAB语言基础教程1.MATLAB简介2.基本语法变量与赋值向量与矩阵矩阵运算数学函数控制流3.函数4.绘图案例：简单方程求解小项目1：简单的科学计算器功能代码项目说明小项目2：有页面的计算器使用AppDesigner创建GUI计算器主要步骤：完整代码（使用MATLAB编写）说明：如何运行：小项目总结MATLAB语言基础教程1.MATLAB简介MATLAB（矩阵实验室）是一种用于
创新创业项目点子可以用网络创业的小项目日常购物技巧呀
人生前3次创业失败率最高，大多数创业者会在第4次成功。但是普通人倾其所有，一生的创业机会也不超过3次，因为前两次的创业就会亏空所有，甚至很多人为了前3次创业倾家荡产、负债累累，从此身心俱疲，被迫认命！“王侯将相宁有种乎？”无非有钱人家钱更多，有多次试错锻炼的条件，普通人家穷，亏两次就没有了，就不敢再亏了。高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平
适合懒人开的店、手里有3万做点什么小生意好? 好项目高省
当下的时代很多人走上了自主创业的道路，有的人通过自己的努力让家人过上了好的生活，做一些小的投资项目。其实只要投对了项目，那么赚钱就不是问题。可能很多的项目需要投资大量的资金和人力物力，但是市场上也存在一些小项目。那你知道有哪些小项目很受欢迎呢?可以简单来了解一下，看看有没有适合自己的。至于我为何用高省APP领取优惠券呢，当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金
【Go】-基于Gin和GORM的小清单项目 knoci Go语言学习 golang gin 开发语言
目录项目介绍简介技术项目结构项目分析总结项目介绍简介项目地址：knoci/list:基于Gin的待办清单小项目(github.com)一个仿照github/Q1mi/bubble做的一个gin框架练习技术gin框架gorm操作PostgreSQLini配置文件项目结构list├──README.md├──config│└──config.ini├──controller│└──controller
【iOS】MVC入门安和昴 ios mvc
【iOS】MVC模式的学习文章目录【iOS】MVC模式的学习前言MVC模式概念MVC的交流模式MVC的一个简单实践Model层View层Controller层MVC的优点与缺点总结前言笔者在暑假的学习中完成了一些小项目，这些小项目中间有时候出现了一个小bug都要寻找很久，而且会导致所有整个项目无法运行，这时候就更体现了我们一个优秀的项目需要满足的几个要求：高内聚，低耦合。代码均摊，易于扩展，具有易
薅羊毛群里的东西可以买嘛?薅羊毛群主信息哪来的? 氧惠帮朋友一起省
这些薅羊毛小项目能赚的钱虽然不高，也胜在量多，执行力足够为前提，一天日赚100-200也胜过上班工资了。坏处就是做这种项目没什么积累性，赚得多寡全看你的执行力。尤其是对新人来说，因为很多新人都是初闻薅羊毛项目以为很赚钱，其实并不是，任何项目都是逃不过二八定律，有赚钱的自然也有不赚钱的，就像读书一个班级一个道理，有小部分尖子生。剩余的不是中等就是差生居多。道理我就不多说了，你们加入平台里面试过后慢慢
Android开发使用框架手把手搭建一个简单项目 TTTTao2323 Android android 学习架构 java kotlin
前言：年关将近，公司也没有什么业务了，基本上都是些旧项目维护以及客户给出的功能改动等小需求。正好其中有个需求是关于某个维护了近五年的小项目功能改动，由于这个项目当时搭建得并不好再加上后续的功能变化和最初设计时出入比较大，以至于每次收到有关这个项目的新需求时我都会非常头疼，于是就趁着这段业务空闲期把整个项目优化重构一遍，这样一来就算后续有了新的改动需求维护这个项目的同事也不再会因为“在屎山里面加屎”
c语言实现五子棋代码（有简单的人机对战，附解析） .普通人 c语言开发语言算法
主要函数主函数游戏界面函数菜单界面函数暂停键界面函数最简单人机对战函数简单人机对战函数落子函数判断胜利函数初始化棋盘函数打印棋盘函数结算界面函数暂停界面前段时间，我和我的小伙伴一起做了关于五子棋的小的团队项目，我将其中一些非核心的内容简化了一下，保留了核心的内容，今天我就和你们来分享一下我们所做小项目。因为我们定义了比较多的函数，所以我将其每个函数都单独讲解，在这个项目中，我做了两个人机对战，一个
Android面试指南：说说你对组件化/模块化的理解不入流HarmonyOS开发 Android技术面试职场和发展 android
到现在组件化真的不是什么新鲜东西了，大公司都用的滚瓜烂熟，龙飞凤舞了，也就是现在部分中型项目和小项目在组件化的路上努力。所以同志们，组件化没玩过的，不熟悉的赶紧搞起来，说一点，你不会组件化，发布影子工程那么对你来说就是个噩梦。从本质上来讲任何技术进步都是在现实需求的逼迫下抓耳挠腮，耗尽无数头发才想出来的。哈哈，这里说个笑话罢了。所以呢组件化这个东西出来这么久了，页发展了这么久了，用的人越来越多，那
1.2 【python】tkinter一个有趣的小项目手机电脑789 python python
#tk常见的消息框fromtkinter.commondialogimportDialog#图标ERROR="error"INFO="info"QUESTION="question"WARNING="warning"ABORTRETRYIGNORE="abortretryignore"OK="ok"OKCANCEL="okcancel"RETRYCANCEL="retrycancel"YESNO=
Java小项目——超市会员管理系统（简洁明了）超级蛋蛋怪无敌冲！！ java 开发语言
1.解题思路：先运用面向对象的思想抽象出两个类：业务类，会员类运用集合中的ArrayList存储对象中的信息需要有一个循环的菜单来供人选择，菜单中的功能有：1.积分累计2.积分兑换3.查询剩余积分4.修改密码5.开卡6.退出首先要完成开卡功能，不然其他的功能没办法使用退出功能最简单，直接跳出循环就行积分累计功能直接用setScore()方法进行累加；积分兑换使用setScore()方法进行减操作；
日赚500元的小项目，简单易操作，普通人新手小白可以做（建议收藏）优惠券高省
现在网络发达了，手机有网就能谋取一份不错的副业收入。在手机上一天赚500的方法确实不少，网上一抓一大把，我个人而言，不仅喜欢找也喜欢去实践，倒不是想不劳而获，是真心想多点路子增加收入。下面这些手机赚钱方法，是可以一天赚500的，如果你同意我的观点，不妨试一试。第一个、高省app，登录邀请码：887766优惠劵电商导购平台高省一款汇聚全网的优惠劵导购平台，高省合作平台有，淘宝，京东，拼多多，唯品会，
探索Vuex的世界 - Vuex Examples 翟苹星Trustworthy
探索Vuex的世界-VuexExamplesvuex-examples:bear:SimpleExamplesonusingVuextobuildRealWorldApps项目地址:https://gitcode.com/gh_mirrors/vu/vuex-examples在这个开放源码的项目中，你将深入了解到Vue的状态管理库Vuex的各种应用场景和最佳实践。这个项目集合了多个小项目，每个都展
十字路口的困惑阿童木Serena
有时候未知给人带来的不仅仅是多虑，还有困惑和迷茫。得知下周要做一个小项目垫定了整个年审的基调，想了几点好处，没有熬夜，压力也不大，身体健康可以保证。可是，小项目的代价是成长性不大，且在今年这个关键阶段会影响到职位的晋升。如果可以选择，我选择不那么舒适的项目，我宁可吃苦去做一个对我职业发展有利的项目。既然无法改变，那就安心的接受，并改变可以改变的，毕竟条条大路通罗马。图片发自App
利润高的小本生意有哪些？10个赚钱的冷门轻资产创业小项目推荐 U客直谈APP
其实对于那些不想要上班，但是手上又没有太多资产的朋友而言，最安全的莫过于做点小本生意了，专业点讲就是轻资产创业小项目。但是，那些热门的项目竞争力太大，有时候只能另辟蹊径，去选择一些相对比较冷门的创业小项目。接下来，小编就整理了10个赚钱的冷门轻资产创业小项目推荐，都是一些利润不错的小本生意，快来看看有哪些适合你的吧。1:无货源电商这个轻资产创业小项目简单来说就是收集货源网站上的商品放到自己的网店中
前端练习小项目——视觉冲击卡片秋刀鱼不做梦 CSS 前端学习 html css css3 vscode
前言：前言：在学习完HTML和CSS之后，我们就可以开始做一些小项目了，本篇文章所讲的小项目为——视觉冲击卡片✨✨✨这里是秋刀鱼不做梦的BLOG✨✨✨想要了解更多内容可以访问我的主页秋刀鱼不做梦-CSDN博客先让我们看一下效果：那么我们如何去实现这样的小案例呢？在下文中我们对每一段重要的代码都进行了解释，读者可以根据注释对代码进行理解。1.HTML代码zjy这段HTML代码是一个基本的网页模板，展
Python之selenium，使用webdriver模拟登录网站（含验证码）自动化测试老司机软件测试自动化测试 python selenium 功能测试压力测试测试工具程序人生
一、前言前段时间做了一个小项目，其中有一段需要自动获取网站后台的数据，但是这个网站没有任何提供给开发者的API，所以只能靠自己去探索。起初想着用发送请求的方式去模拟登陆，获取cookies，从而再获取网站后台数据，但是因为自己太菜了一些原因，放弃了这个方法。后来想到使用webdriver调用浏览器来模拟登陆，发现操作起来简单很多，而且可以达到同样的效果，于是便有了这篇文章。二、准备工作需要下载和安
一个拍照就能日赚200+的赚钱小项目声优配音圈
几年前，不安于现状，总是在网上搜一些关于赚钱项目的信息，希望自己能碰到一个可以发家致富的好项目。那段时间积累了大量有用的网站论坛及人脉，随着时间变化，那些论坛也逐渐关闭或直接改内了。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。
带娃宝妈创业项目推荐：代理平台和线上开店如何选择一起高省
在当今经济形势下，越来越多的年轻宝妈在家工作，不仅为了照顾家庭，还希望拥有一份稳定的工作收入。因此，适合带娃宝妈的小项目受到了广泛关注。本文将为您介绍适合带娃宝妈创业的小项目，并分享高省App官方邀请码，带您一起开启省钱创业之路。大家好！我是高省APP最大团队&联合创始人浮沉导师！【高省】APP网购优惠券免费领，分享还能赚钱。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台。佣金更高，模式更好，
代码随想录算法训练营Final Day|| 感想总结篇+个人介绍和规划傲世尊算法
也算是一期不落完完整整地追完了训练营的内容。虽然图论章节有点懈怠了，感觉每天都是理解后抄代码。。。前面所有章节都是每天做到能独立从头写到尾才算打卡（虽然最前面几道难题很可能又忘了）。这确确实实是很辛苦的两个月。因为目前还在毕业实习，每天朝九晚五的上班，还要准备实习报告，修改简历，准备秋招，期间还有几个学校的小项目要做。在加入训练营之前，我还是个每天下班就开始摸鱼躺平的“懒人”，直到内心的焦虑战胜了
上线两天迅速霸榜，杨泽重现少年感，吹爆这部姐弟恋小甜剧！奇遇影评
上线短短2天，都市言情题材类小短剧迅速霸榜，这部《别跟姐姐撒野》是真掌握了市场流量密码。小短剧最近的热潮不减，杨泽、胡丹丹饰演的《念念无明》就成功实现了小短剧口碑和热度的双丰收，直接引起一波小短剧的内卷。市场开始审视，小短剧本身作为制作公司割韭菜的小项目也瞬间成为炙手可热的流量新势头，有质感又拍摄快节奏有剧情的内容成为吸引观众的重要标准。原本粗制滥造拍摄的小短剧也开始新的创新，古装剧、言情剧、玄幻
MaterialSheetFab chenhao911x
MaterialSheetFab的使用最近做一个小项目用到了github上一个非常有趣的控件，个人觉得写得挺好，现在总结下用法。不多说，先上效果图：效果图效果图在项目gradle里面添加compile'com.gordonwong:material-sheet-fab:1.2.1'
用Javascript写一个计算器小项目周三有雨 JavaScript javascript css html
哈喽，朋友们国庆节快乐~今天用200多行js代码来搞一个计算器玩玩静态页面：Clear/*789-456+123000.=js代码：letbuttons=document.querySelector(".buttons");letbtn=buttons.querySelectorAll("span");letvalue=document.getElementById("value");lettog
Spring Boot 一个极简且完整的后台框架搬砖养女人数据库架构 java spring sql tomcat
一个完整的极简后台框架，方便做小项目的时候可以快速开发。这里面多贴图片和代码，做个参考吧，代码可以下载下来自己看看，里面这套后台模板不错，喜欢的拿去。先放几张图imageimageimage项目介绍SpringBoot，实现了一个极简单的后台框架image小编提供免费的Java架构学习资料（里面有高可用、高并发、高性能及分布式、Jvm性能调优、Spring源码，MyBatis，Netty,Redi
Linux小项目迷你服务端实现在线商城 linux快速学 Linux 数据库 http sqlite
项目名称在线商城系统项目简介该项目是一个在线商城系统，支持用户注册、登录、注销、商品搜索和展示等功能。系统通过HTTP协议与客户端进行通信，基于SQLite数据库管理用户信息，并使用Epoll机制管理多路复用I/O操作。主要功能包括创建和管理服务器套接字，处理客户端的HTTP请求，解析和响应客户端的请求。功能模块创建套接字：函数名:creat_socket功能:创建服务器套接字，并绑定到指定的IP
广场赚钱小项目适合宝妈们的副业日常购物技巧呀
很多的宝妈在家除了带孩子和做家务以外，如果有多余的空闲时间和精力，很多宝妈都是希望做一些兼职的，一来可以挣点生活费零花钱，二来也可以保持和社会的联系，方便以后重新选择职业，但是找兼职肯定是要找时间灵活，操作简单又可信赖的副业兼职，下面就推荐几个适合宝妈在家也可以做的副业兼职，每月挣点生活费零花钱的还是没有问题的。高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚
2023年最受欢迎的赚钱软件及小项目推荐高省_飞智666600
随着互联网技术的不断发展，越来越多的人开始关注如何利用互联网来赚钱。在这篇文章中，我将介绍一些赚钱小项目，这些项目在未来仍然有用。高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。飞智导师高省邀请码666600（本邀请码为超级邀请人邀请码），注册送2皇冠会员，送万元推广大礼包，教你如何1年做到百万团队。第一个项目是
一人可做的小本生意,适合两三万创业的,适合一个人小成本创业蛋蛋_71c1
适合一个人小成本创业有什么适合一个人做的低成本创业项目？适合个人的低成本创业小项目有很多很多。适合自己的才是最好的。如果是想自己个人创业，哪所操作的项目一定要一个人可以管理过来。看到很多网友的回答的什么游乐设备。动漫等都不是一个人可以做的，并不是单人操作的项目。所谓的单人就是自己一个人不靠外力就可以搞定的项目。而手机壳私人定制就完全可以，设备仅5分斤，外加一台小型个人电脑，手机就OK了，路边摆摊创
农村稀缺小生意，推荐几款不起眼的暴力小生意！日常购物技巧呀
大家好，我们又见面了，我是高省app运营遇见晴空，百度搜索高省遇见晴空获取等多相关资讯，今天聊一聊可以在农村做的小项目，有投资小的，有零投资的，大家根据自身需求来做自己适合的工作！大家好，我是高省APP最大团队导师遇见晴空，高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入。遇见晴空导师高省邀请码171717，注册送
大学生赚钱副业靠谱推荐：实用赚钱小项目大公开金钱保卫科长
在日益激烈的就业环境中，大学生利用课余时间开展副业，既可以锻炼个人能力，又能提前实现经济独立。以下是一些适合大学生的靠谱副业推荐，旨在引导大家利用自身优势与特长，轻松开启赚钱之路。最后一个极为推荐！【独家福利】主流网购平台无门槛红包+大额优惠券入口https://www.chaojiyouhui1.在线教育辅导如果你在某一学科领域成绩突出，可以尝试成为一名线上家教或辅导老师。许多平台如VIPKID
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s

python_scrapy爬虫_jieba分词_数据可视化 阶段总结报告

序言

正文

最后

你可能感兴趣的:(小项目)

python_scrapy爬虫_jieba分词_数据可视化阶段总结报告