python文本处理的第三方库是什么,python - 实现文本分类[简单使用第三方库完成]...

第三方库

pandas

sklearn

数据集

来自于达观杯

训练:train.txt

测试:test.txt

概述

TF-IDF 模型提取特征值

建立逻辑回归模型

代码

# _*_ coding:utf- _*_

# 简单文本分类实现

import time

import pandas as pd

from sklearn.linear_model import LogisticRegression

from sklearn.feature_extraction.text import CountVectorizer

print("start......")

time_start=time.time()

# ()加载数据 - 利用pandas读取cvs中数据

df_train = pd.read_csv("D:/train.txt")

df_test=pd.read_csv("D:/test.txt")

# [1.1]数据处理 - 根据个人对算据的分析

# 本次实验 - 删除'article','id'列

df_train.drop(columns=['article','id'],inplace=True)

df_test.drop(columns=['article'],inplace=True)

# ()特征提取

"""

特征是什么:选取一些“重要元素”标识一个文本

特征选取:抽取关键特征值(TF-IDF,LDA..),原因:特征太多,构成的特征向量计算机非常难处理(内存空间,时间)

一个类别如何标识:文本(多个)+特征(多个)=>[二维向量] --- 标识一个类别

"""

# TF-IDF 模型

# sklearn 提取文本特征

# []TfidfVectorizer

# []CountVectorizer 文本特征提取方法 - 文本中的词语转换为词频矩阵

# 词频矩阵 - 矩阵元素a[i][j] 表示j词在第i个文本下的词频

# sklearn - CountVectorizer

vectorizer=CountVectorizer(ngram_range=(, ), min_df=,max_df=0.9, max_features=)

vectorizer.fit(df_train['word_seg'])

#训练和测试的词频向量格式保持一致

x_train=vectorizer.transform(df_train['word_seg'])

x_test=vectorizer.transform(df_test['word_seg'])

y_train = df_train['class']-

# sklearn - TfidfVectorizer

# ()分类模型 - 逻辑回归模型

# modal :LogisticRegression

lg = LogisticRegression(C=, dual=True,solver='liblinear',multi_class='ovr')

lg.fit(x_train, y_train)

# ()预测

y_test = lg.predict(x_test)

# ()结果展示

df_test['class'] = y_test.tolist()

df_test['class'] = df_test['class'] +

df_result = df_test.loc[:, ['id', 'class']]

df_result.to_csv('D:/result.csv', index=False)

time_end=time.time()

print("running time={}".format(time_end-time_start))

print("end......")

python 3.x 爬虫基础---常用第三方库(requests,BeautifulSoup4,selenium,lxml )

python 3.x 爬虫基础 python 3.x 爬虫基础---http headers详解 python 3.x 爬虫基础---Urllib详解 python 3.x 爬虫基础---常用第三方库 ...

Python连接数据库流行用到的第三方库

Python连接数据库流行用到的第三方库: mysqldb:只支持Python2.x mysqlclient : mysqldb的衍生版本,完全兼容mysqldb,同时支持Python3.x,安装较复 ...

python学习(十九)常见的第三方库

原文链接:http://www.limerence2017.com/2017/12/28/python19/#more 介绍几个python中常见的第三方库. Pillow Pillow简称PIL,是 ...

NO.3_1:自学python之路------番外:第三方库安装、numpy

引言 Python因为pip的存在,使得第三方库的发布和获取都比较方便.并且Python对跨平台的支持,使得其相较于C++,Java更加方便使用.在本文中,将会介绍在Windows中安装第三方库的方法 ...

python 技巧 之 pyCharm快速添加第三方库和插件

学习python有几个月,安装第三方库都是通过 pip install 或者 easy_install.每次都要打开命令行感觉太麻烦.还好Pycharm提供了安装第三方库和安装插件的功能. 首先打开P ...

Python学习(六)模块 —— 第三方库

Python 第三方库 安装第三方库 在Python中,安装第三方库包,是通过setuptools这个工具完成的.Python有两个封装了setuptools的包管理工具:easy_install和p ...

Python pip包管理器安装第三方库超时解决方案

一.国内镜像安装 使用方法:pip install --index 镜像网站 第三方库名 二.镜像网站 http://pypi.douban.com/simple/ 豆瓣 http://mirrors ...

记录解决python在spark运行加载第三方库的问题

一般写python的我们经常会import一些常用的库,然后有时集群环境上的python没有这些库,怎么办呢? 通过一段时间的摸索发现有二种方式可以解决这个问题: 第一种方法: 下载对应python的 ...

Python 标准库、第三方库

Python 标准库.第三方库 Python数据工具箱涵盖从数据源到数据可视化的完整流程中涉及到的常用库.函数和外部工具.其中既有Python内置函数和标准库,又有第三方库和工具.这些库可用于文件读写 ...

随机推荐

Effective Objective-C 2.0 — 第8条:理解“对象等同性”这一概念

第8条:理解“对象等同性”这一概念 若想检测对象的等同性,请提供“isEqual”与 hash 方法 相同的对象必须具有相同哈希码,但是两个哈希码相同的对象却未必相同. 不要盲目地逐个检测每条属性,而 ...

MongoDB - Introduction to MongoDB, Capped Collections

Overview Capped collections are fixed-size collections that support high-throughput operations that ...

ububru下 redmine安装教程

1.安装之前确认你已经安装好了mysql 2.连接mysql创建数据库 mysql -u root –p CREATE DATABASE redmine CHARACTER SET utf8; CRE ...

Mac HomeBrew 常用命令

mac 系统常用的软件安装工具就是 homebrew, 其最常用的命令如下: 安装(需要 Ruby):ruby -e "$(curl -fsSL https://raw.github.com ...

关于搭建MyBatis框架(二)

由于在[关于使用Mybatis的使用说明(一)http://www.cnblogs.com/zdb292034/p/8675766.html]中存在不太完善地方,通过此片文档进行修订: 阅读指南:(1 ...

pytest-allure-poco之allure全量详细用法

allure简介 Allure Framework是一个灵活的轻量级多语言测试报告工具.貌似是目前最漂亮的一个报告工具 python版本及必要库或工具 python 3.7 pytest 4.3.1 ...

基于CentOS7系统部署cobbler批量安装系统(week3_day5_part1)-技术流ken

前言 cobbler是一个可以实现批量安装系统的Linux应用程序.它有别于pxe+kickstart,cobbler可以实现同个服务器批量安装不同操作系统版本. 系统环境准备及其下载cobbler ...

Perl的die和warn函数

die和warn die可以在出现错误的时候停止程序,并给出消息.默认会输出出错的程序名称和出错行号 warn函数和die函数类似,但和die的区别是不会终止程序 die和warn的参数末尾如果给了\ ...

int? 竟然真的可以是 null!.NET/C# 确定可空值类型 Nullable 实例的真实类型

使用 Nullable 我们可以为原本不可能为 null 的值类型像引用类型那样提供一个 null 值.不过注意:Nullable 本身也是个 struct,是个值 ...

你可能感兴趣的:(python文本处理的第三方库是什么,python - 实现文本分类[简单使用第三方库完成]...)