成语大全数据提取

成语大全数据提取—— Python数据处理

  1. 数据获取
  2. 提取成语

1.成语数据

       从网站上搜集和爬取成语数据,成语大全的数据主要以**二进制存放在txt文件中**,目前搜集的成语一共有**31341**条,其中绝大部分是四字成语,也不少五、六字的成语。总体来说非常全面。每一条成语后面还有正确的拼音,释义,出处。部分还有示例。成语大全比较适合自己构建一个语料库,所以处理也是一个很有必要的工作! 以下是部分成语的数据展示
 樽酒论文  拼音:zūn jiǔ lùn wén释义:一边喝酒,一边议论文章。出处:唐•杜甫《春日忆李白》诗何时一樽酒,重与细论文。”示例:连年客里度初度,~第一遭。★陈世宜《上巳社集是日值余初度》诗
 
 遵养时晦  拼音:zūn yǎng shí huì释义:遵遵循,按照;时时势;晦隐藏。原为颂扬周武王顺应时势,退守待时◇多指暂时隐居,等待时机。出处:《诗经•周颂•酌》于铄王师,遵养时晦。”示例:段祺瑞经了此险,越发杜门谢客,~,连几个围棋好友,也不甚往来了。★蔡东藩、许厪父《民国通俗演义》第五十一回

 樽前月下  拼音:zūn qián yuè xià释义:酒樽之前,月亮之下。指对酒赏月的悠闲情境。出处:清•龚自珍《与吴虹生书八》弟此节俗冗,焦头烂额,对月对酒皆不乐。樽前月下,尚有剥啄之声,如御十万敌,必须在家首先搪拒,竟无福前来望见颜色矣。”示例:无

 樽俎折冲  拼音:zūn zǔ zhé chōng释义:指不以武力而在宴席交谈中制胜敌人◇泛指外交谈判活动。折冲,使敌人战车后撤,指击退敌军。出处:语出汉•刘向《新序•杂事一》示例:今吾国以存亡关系而不签字,各国当能见谅,必可留作悬案,为他日~之馀地。★《五四”爱国运动资料•学界风潮记下编》

 左道旁门  拼音:zuǒ dào páng mén释义:原指不正派的宗教派别。借指不正派的宗教派别。现泛指不正派的东西。出处:明•许仲琳《封神演义》第三十四回左道旁门乱似麻,只因昏主起波查。”示例:这又不过是~,借书符念咒惑众骗钱罢了。★《晚清文学丛钞•扫迷帚》第十三回

 左辅右弼  拼音:zuǒ fǔ yòu bì释义:圃、弼本指辅助帝王或太子的官,后引伸为左右辅佐的人。比喻在左右辅助。出处:《晋书•潘尼传》左辅右弼,前疑后承。一日万机,业业兢兢。”示例:以后还望中堂忍辱负重,化险为夷,两公~,折冲御侮。★清•曾朴《孽海花》第二十七回

 左顾右眄  拼音:zuǒ gù yòu miǎn释义:左看右看。细看。出处:宋•洪迈《夷坚丁志•奢侈报》信自僦一斋,好絜其衣服,左顾右眄,小不整即呼匠治之。”示例:无

 左顾右盼  拼音:zuǒ gù yòu pàn释义:顾、盼看。向左右两边看。形容人骄傲得意的神情。出处:晋•左思《咏史》诗左眄澄江湘,右盼定羌胡。”示例:都尉朝天跃马归,香风吹人花乱飞。银鞍紫鞚照云日,~生光辉。★唐•李白《走笔独孤附马》诗

 左家娇女  拼音:zuǒ jiā jiāo nǚ释义:指美丽可爱的少女。出处:晋•左思《娇女诗(吾家有娇女)》吾家有娇女,皎皎颇白皙。”唐•李商隐《王十二兄与畏之员外相访见招小饮时予以悼亡日近不去因寄》诗嵇氏幼男犹可悯,左家娇女岂能忘。”示例:无

 左建外易  拼音:zuǒ jiàn wài yì释义:用不正当的手段建立威权,变革法度。出处:《史记•商君列传》今君又左建外易,非所以教也。”司马贞索隐左建,谓以左道建立威权也;外易,谓在外革易君命也。”王伯祥注左谓失正,外谓失中,故事乖常理叫‘左道’,也叫‘外道’。示例:无

 左邻右里  拼音:zuǒ lín yòu lǐ释义:泛指邻居。出处:欧阳山《苦斗》五十八左邻右里的贫苦农民带着红糖、生姜、糯米……来探望她。”示例:无

 左邻右舍  拼音:zuǒ lín yòu shè释义:左右的邻居。也比喻关系比较接近的其它单位。出处:明•吴承恩《西游记》云来雾去,走石飞砂,唬得我一家并左邻右舍,俱不得安生。”示例:照顾‘~’,不能搞先进迁就落后,不能搞平均主义。★《人民日报》1984.8.3

 左铅右椠  拼音:zuǒ qiān yòu qiàn释义:书写工具不离左右。意指不停地写作。出处:清•李宝嘉《文明小史》第六十回做书人左铅右椠,舌敝唇焦。”示例:无

2.提取成语部分

就目前只需要提取出成语就ok,故截取“拼音”前的字符串长度即可。

 with open(readfile, 'rb') as f:      
        lines = f.readlines()
        for i in range(len(lines)):
            decode_line.append(lines[i].decode("utf-8") + '\n')
        for line in decode_line:
            index = line.find(u'拼音')
            temp = line[0:index].replace(",", "\n").split("\n")
            name_list.extend(temp)

效果如下

成语大全数据提取_第1张图片

3.汉字拉丁化

       汉字拉丁化就是将[汉字转换成汉语拼音](https://github.com/hanwenjack/get_pinyin)

4.提取拼音首字母

       把成语的首字母提取出来。[大写首字母提取](https://github.com/hanwenjack/get_pinyin/blob/master/get_firstpinyin.py)

5.效果

       首字母提取结果:

成语大全数据提取_第2张图片

       转成汉语拼音提取结果:

成语大全数据提取_第3张图片

本次是以成语大全为例,利用python初步的对于大规模文字数据进行处理!如有不足,请多多指正

你可能感兴趣的:(数据处理)