+中文词频统计及词云制作9-25

1.我希望老师能讲一点python在数据挖掘,数据分析领域的应用,最好能举些实例,或者说带我们实际操作一波。

2.中文分词

  1. 下载一中文长篇小说,并转换成UTF-8编码
    +中文词频统计及词云制作9-25_第1张图片
     

     

  2. 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
  3. >>>import jieba
    
    >>>lr = open('斗破苍穹第一章.txt','w')
    >>>lr.write('''大陆名为斗气大陆,大陆上并没有小说中常见的各系魔法,而斗气,才是大陆的唯一主调!
    
    在这片大陆上,斗气的修炼,几乎已经在无数代人的努力之下,发展到了巅峰地步,而且由于斗气的不断繁衍,最后甚至扩散到了民间之中,这也导致,斗气,与人类的日常生活,变得息息相关,如此,斗气在大陆中的重要性,更是变得无可替代!
    
    因为斗气的极端繁衍,同时也导致从这条主线中分化出了无数条斗气修炼之法,所谓手有长短,分化出来的斗气修炼之法,自然也是有强有弱。
    
    经过归纳统计,斗气大陆将斗气功法的等级,由高到低分为四阶十二级:天.地.玄.黄!
    
    而每一阶,又分初,中,高三级!
    
    修炼的斗气功法等级的高低,也是决定日后成就高低的关键,比如修炼玄阶中级功法的人,自然要比修炼黄阶高级功法的同等级的人要强上几分。
    
    斗气大陆,分辩强弱,取决于三种条件。
    
    首先,最重要的,当然是自身的实力,如果本身实力只有一星斗者级别,那就算你修炼的是天阶高级的稀世功法,那也难以战胜一名修炼黄阶功法的斗师。
    
    其次,便是功法!同等级的强者,如果你的功法等级较之对方要高级许多,那么在比试之时,种种优势,一触既知。
    
    最后一种,名叫斗技!
    
    顾名思义,这是一种发挥斗气的特殊技能,斗技在大陆之上,也有着等级之分,总的说来,同样也是分为天地玄黄四级。
    
    斗气大陆斗技数不胜数,不过一般流传出来的大众斗技,大多都只是黄级左右,想要获得更高深的斗技,便必须加入宗派,或者大陆上的斗气学院。
    
    当然,一些依靠奇遇所得到前人遗留而下的功法,或者有着自己相配套的斗技,这种由功法衍变而出的斗技,互相配合起来,威力要更强上一些。
    
    依靠这三种条件,方才能判出究竟孰强孰弱,总的说来,如果能够拥有等级偏高的斗气功法,日后的好处,不言而喻…
    
    不过高级斗气修炼功法常人很难得到,流传在普通阶层的功法,顶多只是黄阶功法,一些比较强大的家族或者中小宗派,应该有玄阶的修炼之法,比如萧炎所在的家族,最为顶层的功法,便是只有族长才有资格修炼的:狂狮怒罡,这是一种风属性,并且是玄阶中级的斗气功法。
    
    玄阶之上,便是地阶了,不过这种高深功法,或许便只有那些超然势力与大帝国,方才可能拥有…
    
    至于天阶…已经几百年未曾出现了。
    
    从理论上来说,常人想要获得高级功法,基本上是难如登天,然而事无绝对,斗气大陆地域辽阔,万族林立,大陆之北,有号称力大无穷,可与兽魂合体的蛮族,大陆之南,也有各种智商奇高的高级魔兽家族,更有那以诡异阴狠而著名的黑暗种族等等…
    
    由于地域的辽阔,也有很多不为人知的无名隐士,在生命走到尽头之后,性子孤僻的他们,或许会将平生所创功法隐于某处,等待有缘人取之,在斗气大陆上,流传一句话:如果某日,你摔落悬崖,掉落山洞,不要惊慌,往前走两步,或许,你,将成为强者!
    
    此话,并不属假,大陆近千年历史中,并不泛这种依靠奇遇而成为强者的故事.
    
    这个故事所造成的后果,便是造就了大批每天等在悬崖边,准备跳崖得绝世功法的怀梦之人,当然了,这些人大多都是以断胳膊断腿归来…
    
    总之,这是一片充满奇迹,以及创造奇迹的大陆!
    ''')
    >>>lr.close()
    
    >>>txt = open('斗破苍穹第一章.txt','r',encoding='GBK').read()
    >>>words = jieba.cut(txt)
    
    >>>dic = {}
    >>>for word in words:
        if len(word) == 1:
            continue
        else:
            reword = word
            dic[word] = dic.get(word,0) +1
    
    >>>keys = set(word) 
    
    
    >>>t = sorted(dic.items())
    
    >>>dd = list(dic.items())
    >>>dd.sort(key = lambda x:x[1],reverse = True)
    
    >>>for i in range(20):
        print(dd[i])
    +中文词频统计及词云制作9-25_第2张图片
  4. **排除一些无意义词、合并同一词。
  5. **使用wordcloud库绘制一个词云。
    from wordcloud import WordCloud
    import matplotlib.pyplot as plt
    
    txt = open('三体01.txt','r').read()
    
    words = WordCloud().generate(txt)
    
    plt.imshow(words)
    plt.axis('off')
    plt.show()

     

转载于:https://www.cnblogs.com/yingja-hong/p/7592285.html

你可能感兴趣的:(python)