智能导诊--菜鸡的程序人生

  • 多分类的事情,为了能效仿B站的情绪二分类的讲解视频,我60多个门诊当中,选取了两个案例最多的门诊,分别是内科急诊和妇科门诊,二者区分度也比较大,应该有助于网络的训练。
    智能导诊--菜鸡的程序人生_第1张图片
    通过pandas可以直接按照列标签分类,并直接导入到txt文件:
'''本程序目标为从原始数据提取出各个门诊标签的数据'''
from pandas import DataFrame
import pandas as pd
def classfify(filePath):
    da = pd.read_csv(filePath,names=['patientWords','Label'],error_bad_lines=False)
    totalNei = da.loc[da['Label']=='内科急诊',['patientWords']]
    totalFu = da.loc[da['Label']=='妇科门诊',['patientWords']]
    return [totalFu,totalNei]

def writeTxt(data):
    totalNei = data[1].to_csv('./data/totalNei.txt',header=None)
    totalFu = data[0].to_csv('./data/totalFu.txt',header=None)
if __name__ == '__main__':
    filepath = "./trainingData.txt"
    writeTxt(classfify(filepath))
  • jieba分词,去停词
    通过write逐行写入的时候,要注意file = open(’./data/neike.txt’, mode=‘a’),此处mode=‘a’而不是‘w’,不然就会覆盖,只存在最新的数据在txt文档中。
import pandas as pd
import jieba
import jieba.analyse

contentFu = pd.read_csv('./data/totalFu.txt')
contentNei = pd.read_csv('./data/totalNei.txt')
jieba.analyse.set_stop_words("./data/stopWords.txt")


for item in contentFu.index:
    string = contentFu.loc[item].values[1]
    con = jieba.cut(string)
    content = list(con)
    c = ' '.join(content)
    file = open('./data/fuke.txt',mode='a')
    print(c)
    file.write(c+'\n')
    file.close()
for item in contentNei.index:
    string = contentNei.loc[item].values[1]
    con = jieba.cut(string)
    content = list(con)
    c = ' '.join(content)
    file = open('./data/neike.txt', mode='a')
    file.write(c + '\n')
    file.close()
  • textcnn
  • 未完待续…

你可能感兴趣的:(数据分析)