机器学习算法与Python学习-公众号

必备 | AI & DS七大 Python 库

新智元报道

本文作者Favio Vázquez从2018年开始发布《数据科学和人工智能每周文摘：Python & R》系列文章，为数据科学家介绍最好的库、repos、packages以及工具。一年结束，作者列出了2018年的7大最好的Python库，这些库确实地改进了研究人员的工作方式。

7. AdaNet ———快速灵活的AutoML框架

https://github.com/tensorflow/adanet

AdaNet是一个轻量级的、可扩展的TensorFlow AutoML框架，用于使用AdaNet算法训练和部署自适应神经网络[Cortes et al. ICML 2017]。AdaNet结合了多个学习子网络，以减轻设计有效的神经网络所固有的复杂性。

这个软件包将帮助你选择最优的神经网络架构，实现一种自适应算法，用于学习作为子网络集合的神经架构。

你需要了解TensorFlow才能使用这个包，因为它实现了TensorFlow Estimator，但这将通过封装训练、评估、预测和导出服务来帮助你简化机器学习编程。

你可以构建一个神经网络的集合，这个库将帮助你优化一个目标，以平衡集合在训练集上的性能和将其泛化到未见过数据的能力之间的权衡。

安装

安装adanet之前需将TensorFlow升级到1.7或以上：

$ pip install "tensorflow>=1.7.0"

从源代码安装

要从源代码进行安装，首先需要安装bazel。

下一步，复制adanet和cd到它的根目录:

$ git clone https://github.com/tensorflow/adanet && cd adanet

从adanet根目录运行测试：

$ cd adanet
$ bazel test -c opt //...

确认一切正常后，将adanet安装为pip包。

现在，可以对adanet进行试验了。

import adanet

用法

有关AdaNet的详细用法，请阅读官方教程：

https://github.com/tensorflow/adanet/tree/master/adanet/examples/tutorials

https://ai.googleblog.com/2018/10/introducing-adanet-fast-and-flexible.html?m=1

6. TPOT——一个自动化的Python机器学习工具

https://github.com/EpistasisLab/tpot

之前我介绍过Auto-Keras，这是一个很棒的AutoML库。现在我们有另一个非常有趣的工具——TPOT。

TPOT全称是基于树的pipeline优化工具(Tree-based Pipeline Optimization Tool)，这是一个非常棒Python自动机器学习工具，使用遗传编程优化机器学习pipeline。

TPOT可以自动化许多东西，包括生命特性选择、模型选择、特性构建等等。如果你是Python机器学习者，很幸运，TPOT是构建在Scikit-learn之上的，所以它生成的所有代码看起来应该很熟悉。

它的作用是通过智能地探索数千种可能的pipeline来自动化机器学习中最繁琐的部分，找到最适合你的数据的pipeline，然后为你提供最佳的 Python 代码。

它的工作原理如下：

安装

安装TPOT之前，请先阅读教程：

http://epistasislab.github.io/tpot/installing/

然后，运行以下代码：

pip install tpot

例子：

首先让我们从基本的Iris数据集开始：

1from tpot import TPOTClassifier
2from sklearn.datasets import load_iris
3from sklearn.model_selection import train_test_split
4
5# Load iris dataset
6iris = load_iris()
7
8# Split the data
9
10X_trainX_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target,
11 train_size=0.75, test_size=0.25)
12
13# Fit the TPOT classifier
14
15tpot = TPOTClassifier(verbosity=2, max_time_mins=2)
16tpot.fit(X_train, y_train)
17
18# Export the pipeline
19tpot.export('tpot_iris_pipeline.py')

我们在这里构建了一个非常基本的TPOT pipeline，它将尝试寻找最佳ML pipeline来预测iris.target。然后保存这个pipeline。之后，我们要做的就非常简单了——加载生成的.py文件，你将看到：

1import numpy as np
2from sklearn.kernel_approximation import RBFSampler
3from sklearn.model_selection import train_test_split
4from sklearn.pipeline import make_pipeline
5from sklearn.tree import DecisionTreeClassifier
6# NOTE: Make sure that the class is labeled 'class' in the data file
7tpot_data = np.recfromcsv('PATH/TO/DATA/FILE', delimiter='COLUMN_SEPARATOR', dtype=np.float64)
8features = np.delete(tpot_data.view(np.float64).reshape(tpot_data.size, -1), tpot_data.dtype.names.index('class'), axis=1)
9training_features, testing_features, training_classes, testing_classes =
10    train_test_split(features, tpot_data['class'], random_state=42)
11exported_pipeline = make_pipeline(
12    RBFSampler(gamma=0.8500000000000001),
13    DecisionTreeClassifier(criterion="entropy", max_depth=3, min_samples_leaf=4, min_samples_split=9)
14)
15exported_pipeline.fit(training_features, training_classes)
16results = exported_pipeline.predict(testing_features)

就是这样。你已经以一种简单但强大的方式为Iris数据集构建一个分类器。

现在我们来看看MNIST的数据集：

1from tpot import TPOTClassifier
2from sklearn.datasets import load_digits
3from sklearn.model_selection import train_test_split
4
5# load and split dataset
6digitsdigits == load_digitsload_di ()
7X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target,
8 train_size=0.75, test_size=0.25)
9
10# Fit the TPOT classifier
11tpot = TPOTClassifier(verbosity=2, max_time_mins=5, population_size=40)
12tpot.fit(X_train, y_train)
13
14# Export pipeline
15tpot.export('tpot_mnist_pipeline.py')

接下来我们再次加载生成的 .py文件，你将看到：

1import numpy as np
2from sklearn.model_selection import train_test_split
3from sklearn.neighbors import KNeighborsClassifier
4# NOTE: Make sure that the class is labeled 'class' in the data file
5tpot_data = np.recfromcsv('PATH/TO/DATA/FILE', delimiter='COLUMN_SEPARATOR', dtype=np.float64)
6features = np.delete(tpot_data.view(np.float64).reshape(tpot_data.size, -1), tpot_data.dtype.names.index('class'), axis=1)
7training_features, testing_features, training_classes, testing_classes =
8 train_test_split(features, tpot_data['class'], random_state=42)
9exported_pipeline = KNeighborsClassifier(n_neighbors=4, p=2, weights="distance")
10exported_pipeline.fit(training_features, training_classes)
11results = exported_pipeline.predict(testing_features)

5. SHAP ——一个解释任何机器模型输出的统一方法

https://github.com/slundberg/shap

解释机器学习模型并不容易。然而，它对许多商业应用程序来说非常重要。幸运的是，有一些很棒的库可以帮助我们完成这项任务。在许多应用程序中，我们需要知道、理解或证明输入变量在模型中的运作方式，以及它们如何影响最终的模型预测。

SHAP (SHapley Additive exPlanations)是一种解释任何机器学习模型输出的统一方法。SHAP将博弈论与局部解释联系起来，并结合了之前的几种方法。

安装

SHAP可以从PyPI安装

pip install shap

或conda -forge

conda install -c conda-forge shap

用法

有很多不同的模型和方法可以使用这个包。在这里，我将以DeepExplainer中的一个例子为例。

Deep SHAP是深度学习模型中SHAP值的一种高速近似算法，它基于与DeepLIFT的连接，如SHAP的NIPS论文所述(https://arxiv.org/abs/1802.03888）。

下面这个例子可以看到SHAP如何被用来解释MNIST数据集的Keras模型结果：

# this is the code from https://github.com/keras-team/keras/blob/master/examples/mnist_cnn.py
from __future__ import print_function
import keras
from keras.datasets import mnist
from keras.models import Sequential
from keras.layers import Dense, Dropout, Flatten
from keras.layers import Conv2D, MaxPooling2D
from keras import backend as K

batch_size = 128
num_classes = 10
epochs = 12

# input image dimensions
img_rows, img_cols = 28, 28

# the data, split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

if K.image_data_format() == 'channels_first':
    x_train = x_train.reshape(x_train.shape[0], 1, img_rows, img_cols)
    x_test = x_test.reshape(x_test.shape[0], 1, img_rows, img_cols)
    input_shape = (1, img_rows, img_cols)
else:
    x_train = x_train.reshape(x_train.shape[0], img_rows, img_cols, 1)
    x_test = x_test.reshape(x_test.shape[0], img_rows, img_cols, 1)
    input_shape = (img_rows, img_cols, 1)

x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255
print('x_train shape:', x_train.shape)
print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')

# convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Conv2D(32, kernel_size=(3, 3),
                 activation='relu',
                 input_shape=input_shape))
model.add(Conv2D(64, (3, 3), activation='relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(num_classes, activation='softmax'))

model.compile(loss=keras.losses.categorical_crossentropy,
              optimizer=keras.optimizers.Adadelta(),
              metrics=['accuracy'])

model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=epochs,
          verbose=1,
          validation_data=(x_test, y_test))
score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

更多示例：

https://github.com/slundberg/shap#sample-notebooks

4. Optimus——使用 Python 和 Spark 轻松实现敏捷数据科学工作流

https://github.com/ironmussa/Optimus

Optimus V2旨在让数据清理更容易。这个API的设计对新手来说超级简单，对使用pandas的人来说也非常熟悉。Optimus扩展了Spark DataFrame功能，添加了.rows和.cols属性。

使用Optimus，你可以以分布式的方式清理数据、准备数据、分析数据、创建分析器和图表，并执行机器学习和深度学习，因为它的后端有Spark、TensorFlow和Keras。

Optimus是数据科学敏捷方法的完美工具，因为它几乎可以帮助你完成整个过程的所有步骤，并且可以轻松地连接到其他库和工具。

Installation (pip):

pip install optimuspyspark

用法

在这个示例中，你可以从 URL 加载数据，对其进行转换，并应用一些预定义的清理功能：

from optimus import Optimus
op = Optimus()
# This is a custom function
def func(value, arg):
    return "this was a number"

df =op.load.url("https://raw.githubusercontent.com/ironmussa/Optimus/master/examples/foo.csv")
df
    .rows.sort("product","desc")
    .cols.lower(["firstName","lastName"])
    .cols.date_transform("birth", "new_date", "yyyy/MM/dd", "dd-MM-YYYY")
    .cols.years_between("birth", "years_between", "yyyy/MM/dd")
    .cols.remove_accents("lastName")
    .cols.remove_special_chars("lastName")
    .cols.replace("product","taaaccoo","taco")
    .cols.replace("product",["piza","pizzza"],"pizza")
    .rows.drop(df["id"]<7)
    .cols.drop("dummyCol")
    .cols.rename(str.lower)
    .cols.apply_by_dtypes("product",func,"string", data_type="integer")
    .cols.trim("*")
    .show()

你可以将这个表格

转换为这样：

是不是很酷？这个库还可以做更多事情，具体请阅读：

https://www.hioptimus.com/

3. spacy——使用Python和Cython的工业级自然语言处理

https://spacy.io/

spaCy旨在帮助你完成实际的工作——构建真实的产品，或收集真实的见解。这个库尊重你的时间，尽量避免浪费。它易于安装，而且它的API简单而高效。spaCy被视为自然语言处理的Ruby on Rails。

spaCy是为深度学习准备文本的最佳方法。它与TensorFlow、PyTorch、Scikit-learn、Gensim以及Python强大的AI生态系统的其他部分无缝交互。使用spaCy，你可以很容易地为各种NLP问题构建语言复杂的统计模型。

安装

pip3 install spacy
$ python3 -m spacy download en

这里，我们还下载了英语语言模型。你可以在这里找到德语，西班牙语，意大利语，葡萄牙语，法国语等版本的模型：

https://spacy.io/models/

下面是主页面的一个示例：

# python -m spacy download en_core_web_sm
import spacy
# Load English tokenizer, tagger, parser, NER and word vectors
nlp = spacy.load('en_core_web_sm')
# Process whole documents
text = (u"When Sebastian Thrun started working on self-driving cars at "
        u"Google in 2007, few people outside of the company took him "
        u"seriously. “I can tell you very senior CEOs of major American "
        u"car companies would shake my hand and turn away because I wasn’t "
        u"worth talking to,” said Thrun, now the co-founder and CEO of "
        u"online higher education startup Udacity, in an interview with "
        u"Recode earlier this week.")
doc = nlp(text)
# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)
# Determine semantic similarities
doc1 = nlp(u"my fries were super gross")
doc2 = nlp(u"such disgusting fries")
similarity = doc1.similarity(doc2)
print(doc1.text, doc2.text, similarity)

在这个示例中，我们首先下载English tokenizer, tagger, parser, NER和word vectors。然后创建一些文本，打印找到的实体、短语和概念，最后确定两个短语的语义相似性。运行这段代码，你会得到：

Sebastian Thrun PERSON
Google ORG
2007 DATE
American NORP
Thrun PERSON
Recode ORG
earlier this week DATE
my fries were super gross such disgusting fries 0.7139701635071919

2. jupytext

对我来说，jupytext是年度最佳。几乎所有人都在像Jupyter这样的笔记本上工作，但是我们也在项目的更核心部分使用像PyCharm这样的IDE。

好消息是，你可以在自己喜欢的IDE中起草和测试普通脚本，在使用Jupytext时可以将IDE作为notebook在Jupyter中打开。在Jupyter中运行notebook以生成输出，关联.ipynb表示，并作为普通脚本或传统Jupyter notebook 进行保存和分享。

下图展示了这个包的作用：

可点击下方链接查看原文中的GIF展示：

https://heartbeat.fritz.ai/top-7-libraries-and-packages-of-the-year-for-data-science-and-ai-python-r-6b7cca2bf000

安装

pip install jupytext --upgrade

然后，配置Jupyter使用Jupytext：

使用jupyter notebook --generate-config生成Jupyter配置

编辑.jupyter/jupyter_notebook_config.py，并附加以下代码：

c.NotebookApp.contents_manager_class = "jupytext.TextFileContentsManager"

重启Jupyter，即运行：

jupyter notebook

你可以在这里试试：

https://mybinder.org/v2/gh/mwouts/jupytext/master?filepath=demo

1.Chartify ——让数据科学家很容易创建图表的Python库

https://xkcd.com/1945/

Chartify是Python的年度最佳库。

在Python世界中创建一个像样的图很费时间。幸运的是，我们有像Seaborn之类的库，但问题是他们的plots不是动态的。

然后就出现了Bokeh——这是一个超棒的库，但用它来创造互动情节仍很痛苦。

Chartify建立在Bokeh之上，但它简单得多。

Chartify的特性：

一致的输入数据格式：转换数据所需的时间更少。所有绘图函数都使用一致、整洁的输入数据格式。
智能默认样式：创建漂亮的图表，几乎不需要自定义。
简单API：API尽可能直观和容易学习。
灵活性：Chartify是建立在Bokeh之上的，所以如果你需要更多的控制，你可以使用Bokeh的API。

安装

Chartify可以通过pip安装:

pip3 install chartify

用法

假设我们想要创建这个图表：

import pandas as pd
import chartify
# Generate example data
data = chartify.examples.example_data()

现在，我们已经加载了一些示例数据，让我们来做一些转换：

total_quantity_by_month_and_fruit = (data.groupby(
        [data['date'] + pd.offsets.MonthBegin(-1), 'fruit'])['quantity'].sum()
        .reset_index().rename(columns={'date': 'month'})
        .sort_values('month'))
print(total_quantity_by_month_and_fruit.head())
month          fruit     quantity
0 2017-01-01   Apple         7
1 2017-01-01  Banana         6
2 2017-01-01   Grape         1
3 2017-01-01  Orange         2
4 2017-02-01   Apple         8

现在我们可以把它画出来：

# Plot the data
ch = chartify.Chart(blank_labels=True, x_axis_type='datetime')
ch.set_title("Stacked area")
ch.set_subtitle("Represent changes in distribution.")
ch.plot.area(
        data_frame=total_quantity_by_month_and_fruit,
        x_column='month',
        y_column='quantity',
        color_column='fruit',
        stacked=True)
ch.show('png')

超级容易创建一个互动的plot。

更多示例：

https://github.com/spotify/chartify

推荐阅读

知识点 | 全面理解支持向量机

Python 爬虫：8 个常用的爬虫技巧总结！

推荐八个优质的技术公众号，提升你的竞争力

下载 | 866页《计算机视觉：原理，算法，应用，学习》第五版

教程 | 106页《Python进阶》中文版

下载 | 479页《数据科学基础》教程

教程 | Vim 教程【命令-操作-快捷键】

你可能感兴趣的:(必备 | AI & DS七大 Python 库)

《Python Web 框架深度剖析：Django、Flask 与 FastAPI 的选择之道》清水白石008 课程教程学习笔记开发语言 python 前端 django
《PythonWeb框架深度剖析：Django、Flask与FastAPI的选择之道》开篇引入：从“胶水语言”到Web架构核心Python，自1991年由GuidovanRossum发布以来，凭借其简洁优雅的语法和强大的生态系统，逐渐成为全球最受欢迎的编程语言之一。它不仅在数据科学、人工智能、自动化脚本等领域大放异彩，更在Web开发领域构建起一套成熟的技术体系。作为一位长期从事Python开发与教
物理海洋专业英语名词3 简朴_ocean
Physicaloceanography物理海洋学Dynamicaloceanography动力海洋学Thermodynamics热力学Heatandsaltcontent热盐含量Density密度Oceanbasin海洋盆地Topography地形Seawater海水Sourceandsinkofheat热源和热汇Geophysicalfluiddynamics地球物理流体力学Wave海浪Tid
人脸数目统计系统实现：基于OpenCV和C++的人脸识别
本文还有配套的精品资源，点击获取简介：本项目介绍如何利用OpenCV库和C++语言开发一个人脸识别系统，用于统计图像中的人脸数量。内容涵盖人脸识别的基本原理、关键步骤及技术细节，包括使用Haar级联分类器进行人脸检测，并通过C++编程实现从图像处理到人脸统计的全过程。1.人脸识别基本原理与步骤人脸识别技术已经在安全验证、智能家居、社交媒体等多个领域得到了广泛应用。其基本原理是通过分析人脸图像中的特
Github库镜像到本地私有Gitlab服务器 Thinbug 版本控制 github gitlab
上一节我们看了如何架设自己的Gitlab服务器，今天我们看怎么把Github库转移到自己的Gitlab上。首先登录github，进入自己的库复制地址。克隆镜像库在本地新建一个文件夹在文件夹执行CMD指令[email protected]:thinbug/A.git–mirror参数就是拉取镜像库。拉取结束，进入目录：cdA.git我们可以看到这个库是这样的。添加远程库通过
模型上下文协议(MCP)详解 Edward.W 计算机基础工具 python python 网络协议 js go
MCP(ModelContextProtocol)是一种专门为AI模型交互设计的标准化协议，它定义了模型与客户端之间上下文管理的通用规范。以下是MCP的全面介绍：一、MCP协议概述MCP(ModelContextProtocol)是一种轻量级、语言无关的通信协议，旨在解决AI模型交互中的上下文管理问题。它提供了一套标准化的方法来创建、维护和销毁交互上下文，特别适合需要状态保持的AI应用场景。核心设
Realsense D435i 使用说明
D435i驱动安装及ROS使用Ubuntu16.04适配https://blog.csdn.net/lemonxiaoxiao/article/details/107834936过程中遇到fatalerror;需要添加标签。使用下面网址的博客解决了。https://blog.csdn.net/xuzhengzhe/article/details/135407342最终如下：target_compi
Docker应用推荐个人服务器实用有趣的项目推荐牧子与羊 docker 服务器容器
Wallabag：是一个开源的、自托管的文章阅读和保存工具。它允许你保存网页文章并进行离线阅读，去除广告和不必要的内容，以提供更好的阅读体验。Wallabag支持多种导入和导出格式，并提供了一些实用的功能，如标签、阅读列表和文本高亮。phpMyAdmin：是一个基于Web的MySQL数据库管理工具。它提供了一个易于使用的界面，用于管理数据库、执行SQL查询、导入导出数据、创建表格、用户管理等各种数
binwalk 白天的我最菜错题本开发语言
windows使用这个命令时候发现要shift一直按住,右击打开cmd管理员运行才行pythonsetup.pyinstall否则没有作用自己安装python目录的Scripts文件夹里,参考如下https://www.cnblogs.com/0yst3r-2046/p/12218770.html
Python-Zstandard 使用教程
Python-Zstandard使用教程项目介绍Python-Zstandard是一个为Zstandard（zstd）压缩库提供Python绑定的开源项目。Zstandard是一种由Facebook开发的高性能数据压缩算法，旨在提供高压缩比和快速压缩解压速度。Python-Zstandard项目的目标是通过一个Pythonic的接口，提供对底层CAPI的丰富访问，同时不牺牲性能。项目地址：GitH
SFT：大型语言模型专业化定制的核心技术体系——原理、创新与应用全景大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理深度学习机器学习微调 SFT
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！以下基于权威期刊、会议论文及技术报告，对监督微调（SupervisedFine-Tuning,SFT）的技术框架、创新方法与实际应用进行系统梳理：一、核心定义与技术原理基本概念SFT是在预训练语言模型（如GPT、BERT）基础上，利用标注数据集对模型进
nodeJs笔记（一） a_xiaotaotao nodeJs 笔记前端
nodeJs笔记（一）基础知识什么是nodejs？nodejs的生态系统结构nodejs的工作原理V8JavaScript引擎：libuv：异步I/O与事件循环引擎：事件循环(EventLoop)的详细阶段：非阻塞I/O的工作流程(以fs.readFile为例)：单线程与高并发：核心依赖库：工作原理全景图关键点：node.js的优缺点核心优势(优点)高性能与高并发(I/O密集型场景)：核心原理：结
152 Maximum Product Subarray 烟雨醉尘缘
Givenanintegerarraynums,findthecontiguoussubarraywithinanarray(containingatleastonenumber)whichhasthelargestproduct.Example：Input:[2,3,-2,4]Output:6Explanation:[2,3]hasthelargestproduct6.解释下题目：求出一个整数数
async await详解_async await会阻塞吗
本文目录一、简介二、async三、await四、案例附：直接量/字面量一、简介async/await是ES20717引入的，主要是简化Promise调用操作，实现了以异步操作像同步的方式去执行，async外部是异步执行的，同步是await的作用。二、asyncasync，英文意思是异步，当函数（包括函数语句、函数表达式、Lambda表达式）前有async关键字的时候，并且该函数有返回值，函数执行成
Android Studio 翻译插件 ECTranslation的安装使用颖字传说
今天在wanAndroid群里见到这个插件（有种发现新大陆的感觉^_^），于是默默的记下插件名称，然后一番搜索，在此记录下安装步骤1、在AndroidStudio窗口中ctrl+alt+s打开setting面板这步就不截图了4、点击步骤三查中目标插件的“Install”(安装)按钮，安装即可，安装完成后点击settings面板上面的apply然后点击OK，这时候会提示重启Androidstudio
【DeepSeek实战】10、模型上下文协议（MCP）全解析：从核心架构到实战应用，揭秘AI协作的“凤雏”之力无心水人工智能架构 DeepSeek实战模型上下文协议MCP CSDN技术干货 DeepSeek AI大模型
在人工智能技术飞速发展的今天，大型语言模型（LLM）的能力不断突破，但跨模型协作、上下文一致性维护等问题却成为制约AI系统向更智能、更协同方向发展的瓶颈。模型上下文协议（ModelContextProtocol，MCP）作为专为大模型设计的标准化通信框架，如同“凤雏”之于“卧龙”，为解决这些核心问题提供了关键方案。本文将全面解析MCP的核心概念、架构设计、实操代码、应用案例及未来趋势，通过5000
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
Py-spy：优秀的 Python 程序性能监控、分析器
py-spy是用于Python程序的性能监控、分析器。它使你可以直观地看到Python程序花费的时间，而无需重新启动程序或以任何方式修改代码。py-spy的开销非常低：为了最大化提高速度，它是用Rust编写的，并且与配置的Python程序不在同一进程中运行。这意味着py-spy可以安全地用于生产环境的Python程序。py-spy可在Linux，OSX，Windows和FreeBSD上运行，并支持
CentOS 7如何平滑升级 MariaDB 5.5 到 10.x 新版本 Herotwins CentOS centos mariadb mysql
前言自从CentOS7开始，自带的数据库就变成MariaDB了，yum安装之后的默认版本是5.5，但是该版本不能满足Zabbix的需求，需要升级。无论是安装全新的还是升级MariaDB第一步始终是不要忘记备份。备份数据库重要的事情说三遍，备份，备份，备份！#备份数据库，如果升级顺利是不要实施备份还原的mysqldump-uroot-p--all-databases>alldb.sql#如果想保留自
Windows符号链接解决vscode和pycharm占用C盘空间太大的问题爱听许嵩歌编程debug问题 vscode pycharm ide
Windows符号链接解决vscode和pycharm占用C盘空间太大的问题参考文章：Windows符号链接1、找到vscode和pycharm在C盘的缓存文件夹。C:\Users\用户名\AppData\Roaming\CodeC:\Users\用户名\.vscode\extensionsC:\Users\用户名\AppData\Local\JetBrainsC:\Users\用户名\AppDa
sbatch: error: Batch script contains DOS line breaks (\r\n) 爱听许嵩歌编程debug问题 batch matlab slurm
问题：在使用超算时，提交脚本出现batch:error:BatchscriptcontainsDOSlinebreaks(\r\n)sbatch:error:insteadofexpectedUNIXlinebreaks(\n)原因：dos下的换行和Unix是不一样的：windows中\r\n表示换行，linux等使用\n换行。差异：Windows系统下文本文件的换行符是：回车+换行CR/LF即\
实体类序列化报错：Caused by: java.lang.NoSuchMethodException: com.xx.PoJo$Item.＜init＞() DN金猿 java 开发语言
原实体类代码@EqualsAndHashCode(callSuper=true)@DatapublicclassPojoextendsBaseBean{privatestaticfinallongserialVersionUID=-4291335073882689552L;@ApiModelProperty("")privateIntegerid;......privateListlist;@Al
基于 Mockito 框架的 Mock 单元测试
1.什么是Mock测试Mock通常是指，在测试一个对象A时，我们构造一些假的对象（一般是不容易构造或者不容易获取的对象，比如测试类所依赖的实现类、第三方接口、数据库操作对象）来模拟与A之间的交互，这些对象被称为Mock对象，而Mock对象的行为是我们事先设定且符合预期。通过这些Mock对象来测试A在正常逻辑，异常逻辑或压力情况下工作是否正常。下面是一个例子：当我们需要测试OrderService时
GaussDB 分布式部署下创建表方法
1、问题现象分布式集群采用水平分表的方式，将业务数据表的元组/行打散存储到各个节点内。2、技术背景通过全并行数据处理技术和快速定位到数据存储位置等手段可极大提升数据库性能，GaussDB分布式部署下可以创建俩种类型表，在做实际业务系统开发时根据业务场景创建不同表。复制表一般使用在小数量、更新操作少的场景下。分布表：数据会根据函数映射(hash,range,list),将数据打散在不同的DN上存储。
python软件代码运行解析器出错是怎么问题_Py-Spy - Python程序的抽样分析器 weixin_39714307
Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。Py-Spy是Python程序的抽样分析器。它允许您可视化Python程序正花费时间在哪部分，而无需重新启动程序或以任何方式修改代码。Py-Spy的开销极低：它使用Rust语言编写，速度快，不会在与配置的Python程序相同的进程中运行，也不会以任何方式中断正在运行的程序。这意味着Py-Spy可以安全地用于
abaqus质量缩放系数取值_ABAQUS-延性损伤模型模拟金属材料断裂微尘-黄含驰 abaqus质量缩放系数取值
延性损伤模型可以模拟金属材料的拉伸破坏过程。该模型通常结合塑性模型进行分析，常见的延性破环过程如下图所示：如果不设置延性损伤，材料在塑性阶段强度逐渐增加，刚度保持不变；考虑延性损伤模型后，假设材料的强度受到损伤作用的影响，逐渐下降，同时刚度也随着损伤参数D的增加而减小。在使用ABAQUS模拟材料的延性损伤模型时，通常需要输入材料强度下降段的范围，即displacementatfailure。该参数
AI摄像头动捕：零束缚的运动教练，如何精准量化你的动作？广州虚拟动力-动捕&虚拟主播无标记点面捕 AI摄像头动捕运动捕捉
在竞技体育和日常训练中，动作的精准度直接决定了运动表现与损伤风险。传统运动分析依赖教练肉眼观察或二维录像，难以捕捉三维空间中的关节角度、发力轨迹等关键细节。动作捕捉技术通过数字化人体运动，将每个转身、跨步、挥臂转化为精确数据，让训练从“经验指导”迈向“科学量化”，为优化技术动作提供客观依据。而AI无穿戴动捕技术，正以三大优势革新运动分析：1.零干扰采集：无需穿戴传感器或粘贴标记点，运动员在自然状态
ReactiveCocoa 学习笔记七（RACCommand）那夜的星空分外清澈 ReactiveCocoa ReactiveCocoa
RACCommandRACCommand关键的两个方法如下，理解了他们便能理解RACCommand的作用。-(instancetype)initWithEnabled:(nullableRACSignal*)enabledSignalsignalBlock:(RACSignal*(^)(InputType_Nullableinput))signalBlock;-(RACSignal*)execut
Python 包管理工具pip
pip是Python的包管理工具，用于安装和管理Python包（库或模块）。它是Python生态系统中最重要的工具之一，几乎所有第三方库都可以通过pip安装。以下是关于pip的详细讲解：1.pip是什么？pip是PythonPackageInstaller的缩写。它是一个命令行工具，用于从PythonPackageIndex(PyPI)下载和安装Python包。pip可以管理Python包的安装、
前后端分离式项目架构流程（爆肝三万字）信计2102罗铠威 javaEE系列专栏前后端分离式架构 servlet 后端前端框架项目开发流程
文章目录个人主页：信计2102罗铠威JavaEE系列专栏前言：【前端】先创建Vue-cli项目，请选择此项目【创建路由】打开命令行工具，进入你的项目目录，输入下面命令。1.创建router目录~创建index.js文件,在其中配置路由2.在APP.vue中添加路由视图3.在main.js中配置路由【配置ElementUI】【如何使背景图片最大自适应】【登录组件模板】【注册组件模板】【创建后端项目+
【Oracle】Oracle 11g 中扩展表空间瑞琪姐大数据模块 oracle 数据库
在Oracle11g中扩展表空间是常见的数据库管理任务，通常有以下几种核心方法，操作步骤如下：一、扩展表空间常用方法方法1：调整现有数据文件大小(RESIZE)适用于磁盘空间充足，且当前数据文件未达上限的情况。--查询当前数据文件路径和大小SELECTfile_name,bytes/1024/1024AScurrent_size_mbFROMdba_data_filesWHEREtablespac
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL