CNchangan

Python自然语言处理实战学习笔记（第二章NLP前置技术解析）

第二章NLP前置技术解析

搜索微信公众号:‘AI-ming3526’或者’计算机视觉这件小事’ 获取更多干货
github：https://github.com/aimi-cn/AILearners

在本章中，你将学到 NLP相关的一些前置技术很多的数据科学库、框架、模块
以及工具箱可以有效地实现 NLP 大部分常见的算法与技术，掌握与运用正则表达式，
Numpy 是开始 NLP 工作的好方式。

本章要点包括：

选择 Python 作为自然语言开发语言的理由
安装与使用Anaconda
正则表达式
Numpy

2.1搭建Python开发环境

对于自然语言处理的学习，很多人会争论用什么样的编程语言实现最好？有些人认为是Java 或者时下流行的 Scala ，我认为 Python才是最佳的选择！

对于学习和从事自然自然语言处理工作来说， Python具有几大优势：

提供丰富的自然语言处理库。
编程语相对简单（尤其易于理解）。
具有很多数据科学相关的库。

一般来说 Python 可以从 python.org ( https //www python.org 网站下载，但是对于没有任何 python 经验的读者来说，特别推荐安装 Anaconda （此链接内包含多个anaconda版本其中anaconda2内置Python2.x版本，anaconda3内置Python3.x版本）对于初学者来说， Anaconda 使用起来特别方便，而且其涵盖了大部分我们需要的库。

2.1.1Python 的科学计算发行版一Anaconda

有关anaconda的相关介绍

2.1.2Anaconda的下载与安装

此笔记使用的是 Anaconda 的版本是 4.4 ，所包含的 Python 版本是 3.6 ，大家可在上方链接中寻找对应版本下载安装。

Anaconda和Pycharm的安装和配置

Anaconda完全入门指南

请读者根据以上两个链接自行安装和配置anaconda。

2.2正则表达式在 NLP 的基本应用

正则表达式是一种定义了搜索模式的特征序列，主要是用于字符串的模式匹配，或是字符的匹配随着计算机的普及以及互联网的发展，大量的信息以电子文档方式呈现在人们的面前 NLP 通常所需要处理的语料一部分来自于 we 网页的信息抽取，一部分来自于文本格式的文档 Web 网页具有很强的开发价值，具有时效性强，信息量大，结
构稳定，价值高等特点，文本格式的文档多来源于人为编写或系统生成，其中包含了非结构化文本、半结构化文本以及结构化文本正则表达式的作用之一是将这些文档内容从非结构化转为结构化以便后的文本挖掘。

正则表达式的另一个作用就是去除“噪声” 。在处理大量文本片段的时候，有非常多的文字信息与最终输出的文本无关，这些无关的片段称之为“噪声”（比如 URL 或链接、语气助词、标点符号等）。

正则表达式是处理 NLP 的最基本的手段之一，学习与掌握正则表达式在 Python中的应用，可以帮助我们在格式复杂的文本中抽取所需的文本信息比如说抽取以下文本中的年份，每一行的格式不同，因此没有办法通过 Python 提供的字符串方法来抽取，这时候我们往往考虑使用正则表达。

2.2.1 匹配字符串

在Python 中，我们会使用re模块来实现正表达式为了让大家更好地理解正则表达式在 Python 中的应用，我们会通过一系列的例子来阐述。

案例中，我们会提到re的一个方法一re.sarch

通过使用 re .search( regex , string）这个方法，我们可以检查这个string字符串是否匹配正表达式 regex 如果匹配到，这个表达式会返回一个match对象，如果没有匹配到则返回 None

我们先看下准备的有关爬虫介绍的文字信息句子和句子之间是以句号分隔具体的文本如下所示：

文本最重要的来源无疑是网络我们要把网络中的文本获取形成一个文本数据库
利用一个爬虫抓取到网络中的信息爬取的策略有广度爬取和深度爬取根据用户的需
求，爬虫可以有主题爬虫和通用爬虫之分

例1：获取包含“爬虫”这个关键字的句子

查找哪些语句包含“爬虫”这个关键字 Python 的代码实现如下：

import re

text_string = "文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个" \
              "文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和" \
              "深度爬取。根据用户的需求，爬虫可以有主题爬虫和通用爬虫之分。"
regex = '爬虫'
p_string = text_string.split('。')#句号为分隔符通过split切分
for line in p_string:
    #search方法是用来查找匹配当前行是否匹配这个regex.返回的是一个match对象
    if re.search(regex,line) is not None:
        print(line) #如果匹配到打印这行信息

运行结果：

例2 匹配任意一个字符

正则表达式中，有一些保留的特殊符号可以帮助我们处理一些常用逻辑。如表2-1所示：

我们现在来演示下如何查找包含“爬”＋任意一个字的句子代码如下：

import re

text_string = "文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个" \
              "文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和" \
              "深度爬取。根据用户的需求，爬虫可以有主题爬虫和通用爬虫之分。"
regex = '爬.'
p_string = text_string.split('。')#句号为分隔符通过split切分
for line in p_string:
    #search方法是用来查找匹配当前行是否匹配这个regex.返回的是一个match对象
    if re.search(regex,line) is not None:
        print(line) #如果匹配到打印这行信息

运行结果：

例3：匹配起始和结尾字符串

现在介绍另个特殊符号具体功能如表 2-2 所示。

我们现在来演示下如何查找以“文本”这两个字起始的句子代码如下：

import re

text_string = "文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个" \
              "文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和" \
              "深度爬取。根据用户的需求，爬虫可以有主题爬虫和通用爬虫之分。"
regex = '^文本'
p_string = text_string.split('。')#句号为分隔符通过split切分
for line in p_string:
    #search方法是用来查找匹配当前行是否匹配这个regex.返回的是一个match对象
    if re.search(regex,line) is not None:
        print(line) #如果匹配到打印这行信息

运行结果：

例4：使用中括号匹配多个字符

我们先看下文字信息句子和句子之以句号分隔。

[重要的]今年第七号台风23日登陆广东东部沿海地区。
上海发布车库销售监管通知：违规者暂停网签资格。
[紧要的中国对连发强硬信息,度急切需要结束对峙。

我们希望提取［重要的]或者 [紧要的] 为起始新闻标题码如下：

import re

text_string = ['[重要的]今年第七号台风23日登陆广东东部沿海地区',
               '上海发布车库销售监管通知：违规者暂停网签资格',
               '[紧要的]中国对连发强硬信息,度急切需要结束对峙']
regex = '^\[[重紧]..\]'
#p_string = text_string.split('。')#句号为分隔符通过split切分
for line in text_string:
    #search方法是用来查找匹配当前行是否匹配这个regex.返回的是一个match对象
    if re.search(regex,line) is not None:
        print(line) #如果匹配到打印这行信息
    else:
        print('not match')

2.2.2 使用转义符

上述代码中，我们看到使用了""为转义符，因为“[]”在正表达式是特殊符号

与大多数编程语言相同，正则表达式里使用“ \”作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符“＼”，那么使用编程语言表示的正则表达式里将需4个反斜杠 “\\\\” ：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则达式里转义成一个反斜杠 Python 里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r"\“表示。同样，匹配一个数字的“\\d”也可以写成r”\d"。有了原生字符串你在也不用担心是不是漏写了反斜杠，写出来的表达式也更直观。

2.2.3 抽取文本中的数字

通过正则表达式匹配年份

“[0-9]”代表的是0到9的所有数字，那相对的”[a-z]”代表的是从a到z的所有小写字母。我们通过一个小例子来讲解下如何使用。首先我们定义一个list 分配于一个变量strings ，匹配年份是在1000-2999 年之间代码如下：

import re 
strings =[’War of 1812 ',’There are 5280 feet to a mile ’,'Happy New Year 
2016!'] 
for string in strings: 
	if re.search('[ 1-2][ 0-9]{3}'， string)：＃字符串有英文有数字，匹配其中的数字部分，
并且是在 1000-2999 之间， {3} 代表的是重复之前的 0-9 三次 [0-9] [0-9] [0-9]的简化写法
	
print(year_strings)

抽取所有的年份

我们使用 Python 中的 re 模块另一个方法 findall()来返回匹配带正则表达式的那部分字符串 re.findall ("[a-z]",“abc1234”)得到的结果是[“a”,“b”,“c”]。

我们定义一个字符串years_string，其中的内容是‘2015 was a good year, but 2016 will be better ！’ 现在我们抽取下所有的年份代码如下：
```
import re

years_string ='2016 was a good year, but 2017 will be better !'
years = re.findall('[2][0-9]{3}',years_string)
print(years)
```
运行结果：

2.3 Numpy 使用详解

Numpy (Numerical Python 的简称）是高性能科学计算和数据分析的基础包，提供了矩阵运算的功能 Numpy 提供了以下几个主要功能：

ndarray一一一个具有量算术运算和复杂广播能力的多维数组对象
用于对数组数据进行快速运算的标准数学函数
用于读写磁盘数据工具以及用于操作内存映射文件的工具
非常有用的性代数，傅里叶变换和随机数操作
用于集成c\c++和Fortran 代码的工具

除明显的科学用途之外，numpy 也可以用作通用数据的高效多维容器，可以定义任意的数据类型这些使得 Numpy 能无缝快速地与各种数据库集成。

在处理自然语言过程中，需要将文字（中文或其他语言）转换为向量，即把对文本内容的处理简化为向量空间中的向运算基于向量运算，我们就可以实现文本语义相似度、特征提取、情感分析、文本分类等功能。

本节numpy要点包括：

创建 Numpy 数组
获取 Numpy 中数组的维度
Numpy 数组索引与切片
Numpy 数组比较
替代值
Numpy 数据类型转换
Numpy 的统计计算方法

2.3.1 创建数组

在Numpy 中，最核心的数据结构是 ndarray, ndarray 代表的是多维数组，数组指的是数据的集合，为了方便理解，我们来举一个小例子：

（1）一个班级里学生的学号可以通过一维数组来表示：数组名叫a，在a中存储的是数值类型的数据，分别是1,2,3,4。

示例代码：

import numpy as np
#向量
vector = np.array([1,2,3,4])
#矩阵
matrix= np.array([[1,'Tim'] , [2,'Joey'], [3 ,'Johnny'] , [ 4,'Frank']])

2.3.2 获取 Numpy 中数组的维度

首先我们通过 Numpy 中的一个方法 arange(n) ,生成0到 n-1 的数组。比如我们输np.arange(15），可以看到返回的结果是 array ( [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 , 12, 13, 14J)

之后再通过 Numpy 中的 reshape ( row,column ）方法，自动构架一个多行多列的array对象

代码：

import numpy as np

a = np.arange(15).reshape(3,5)

print(a)
#shape属性打印数组维度（输出一个元组，3代表3行，5代表5列）
print(a.shape)

运行结果：

2.3.3 获取本地数据

我们可以通过 Numpy中的genomtxt()方法来读取本地地的数据集，需要使用的数据集， house-prices.csv 是由逗号（，）分隔的，在 Github的data目录下能下载到。我们可以使用以语句来读取这个数据集：

注：由于在官方GIthub上未找到数据此处先放课本截图后续做出修改。

2.3.4 正确读取数据

回到之前的话题，上文发现显示出来的数据里面有数据类型 na (not available ）和nan (not a number ），前者表示读取的数值是空的、不存在的，后者是因为数据类型转换出错对于 nan 的出错，我们可以用 genfromtxt()来转化数据类型

dtype 关键字要设定为‘ U75 ’．表示每个值都是 75byte的unicode
skip_header 关键字可以设置为整数，这个参数可以跳过文件开头的对应的行数，然后再执行任何其他操作

import numpy as np
nfl ＝np.genfromtxt("D:/numpy/data/price.csv"， dtype ＝'U75'， skip_headerl = 1,del miter＝',') 
print(nfl)

2.3.5 Numpy 数组索引

Numpy 支持 list一样的定位操作。举例来说：

import numpy as np
matrix = np.array([[1,2,3],[20,30,40]])
print(matrix[0,1])

输出：2

上述代码中的 matrix[0,1］，其中0代表的是行，在 numpy中0表起始第一个，所取的是第一行，之后的1代表的是列，所以取的是第二列，那么最后第一行第二列就2这个值了。

2.3.6 切片

Numpy 支持list一样的切片操作：

import numpy as np
matrix = np.array([[5,10,15],[20,25,30],[35,40,45]])
print(matrix[:,1])
print(matrix[:,0:2])
print(matrix[1:3,:])
print(matrix[1:3,0:2])

运行结果：

上述的 print ( matrix[: , 1 ]）语法代表选择所有的行，但是列的索引是1的数据那么就返回 10, 25, 40

print matrix[: 0:2J) 代表的是选取所有的行，列的索引0和1，返回[[ 5 10]，[20 25]， [35 40]]

print matrix[1:3 ? 代表的是选取行的索引值1和2 以及所有的列，返回[[20 25 30]， [35 40 45]]

print ( matrix[1:3, 0:2] 代表的是选取行的索引1和2及列的索0和1的所有数据，返回[[20 25]， [35 40]]

2.3.7 数组比较

Numpy 强大的地方是数组或矩阵的比较，数据比较之后会产生 boolean值：

import numpy as np
matrix = np.array([[5,10,15],[20,25,30],[35,40,45]])
m = (matrix == 25)
print(m)

运行结果：

另一个复杂例子：

import numpy as np
matrix = np.array([[5,10,15],[20,25,30],[35,40,45]])
second_column_25 = (matrix[:,1] == 25)
print(second_column_25)

print(matrix[second_column_25,:])

运行结果：

上述代码中 print ( cond column 25 ）输出的是［False True False],首先 matrix[ :,1]代表的是所有的行，以及索引为的列－＞ [10,25,40 ］，最后和 25 进行比较，得到的就是false, true,false。print ( matrix[second column 25, :）代表的是返回 true 值的那一行数据－＞ [20,25,30 ］

2.3.8 替代值

NumPy 可以运用布尔值来替换值

在数组中：

vector = numpy.array( [5, 10, 15, 20]) 
equal_to_ten_or_five = (vector == 10)|(vector == 5)
vector[equal_to_ten_or_five] = 50
print(vector)

输出：[50, 50, 15, 20]

在矩阵中：

matrix = numpy.array([[5, 10, 15], [20, 25 , 30], [35, 40 , 45] ])
second column 25 = matr X[ :, l] == 25 
matrix[second column_25, l] = 10 
print(matrix)

输出：[[ 5 10 15]，[20 10 30]，[35 40 45]]

我们先创立数组 matrix。将matrix 的第二列和 25 比较，得到一个布尔值数组，second_column_25将matrix 第二列值为 25 的替换为 10

替换有一个很棒的应用之处，就是替换那些空值。之前提到过numPy中只能有一个数据类型我们现在读取一个字符矩阵，其中有一个值为空值其中的空值我很有必要把它替换成其他值，比如数据的平均值或者直接把他们删除。这在大数据处理中很有必要。这里，我们演示把空值替换为“0”的操作

import numpy as np
matrix = np.array([[5, 10, 15], [20, 25 , 30], [35, 40 ,''] ])
second_column_25 = matrix[ :,2] == ''
matrix[second_column_25,2] = '0'
print(matrix)

输出：[[‘5’ ‘10’ ‘15’]
[‘20’ ‘25’ ‘30’]
[‘35’ ‘40’ ‘0’]]

2.3.9 数据类型转换

Numpy nd arra 数据类型可以通过参数dtype设定，而且可以使用 astype转换类型，在处理文件时这个会很实用，注意astype调用会返回一个新的数组，也就是原始数据的一份复制

比如，把string转换成float 如下：

import numpy as np
vector= np.array (["1","2","3"])
vector = vector.astype(float)
print(vector)

输出：[ 1. 2. 3.]

2.3.10 Numpy 的统计计算方法

sum()：计算数组元素和；对于矩阵算结果为一个一维数组，需要指定行或者列
mean()：计算数组元素的平均值；对于矩阵计算结果为一个一维数组，需要指定行或者列
max()：计算数组元素的最大值；对于矩阵计算结果为一个一维数组，需要指定行或者列

需要注意的是，用于这些统计方法计算数值类型必须是 int 或者 float

数组例子：

import numpy
vector = numpy.array ( [5, 10, 15, 20]) 
vector.sum()

输出：50

矩阵例子：

matrix= array([[ 5, 10, 15], [20, 10, 30], [35, 40, 4 5]]) 
matrix.sum(axis=l) 

matrix.sum(axis=0)

输出：array( [ 30, 60, 120])

array([60, 60, 90])

注：如上述例子所示， axis =1 算的是行的和，结果以列的形式展示 axis=0 算的列的和，结果以行的形式展

numpy教程

2.4 本章小结

工欲善其事，必先利其器本章主要讲述了 NLP 工作者高效工作的些“利器”：使用 Anaconda 快速构建开发环境，正则表达式快速进行字符串处理以及 Numpy 辅助进行科学计算需要提醒读者是，应重点关注正表达式，因为在一些具体任务上，通常开端都是基于规则的方法最简单高效，而正则表达式正是实现这种规则最方便的方式，
尤其是在以匹配为主的规则应用过程中此外，章节篇幅有限，无法对一些诸如 pandas、SciPy 等常用Python 库进行一一介绍，望读者自行查找相关资，在入门NLP 之前掌握一定的Python基础

AIMI-CN AI学习交流群【1015286623】获取更多AI资料
扫码加群：

分享技术，乐享生活：我们的公众号每周推送“AI”系列资讯类文章，欢迎您的关注！

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
ARM中断处理过程落汤老狗嵌入式linux
一、前言本文主要以ARM体系结构下的中断处理为例，讲述整个中断处理过程中的硬件行为和软件动作。具体整个处理过程分成三个步骤来描述：1、第二章描述了中断处理的准备过程2、第三章描述了当发生中的时候，ARM硬件的行为3、第四章描述了ARM的中断进入过程4、第五章描述了ARM的中断退出过程本文涉及的代码来自3.14内核。另外，本文注意描述ARM指令集的内容，有些sourcecode为了简短一些，删除了T
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
《我的青葱岁月之缘来是你》第二章迎新晚会思源思缘思怨
“怎么你也来了这里？”我愉快的问到，想着这是上天给的缘分吗？我还没去找他竟然就相遇了。那个让我开心的老乡。“你好，我也是舞蹈社的新人啊！”他说，笑起来回答我，眼睛弯弯的。“这么巧，我叫吴倩，你叫啥？”“我叫韩欢，你也是B市人吧，c中毕业的？”“我不是，我是f中的，不然肯定会认识你的”“是吗？以后多多关照了”他还冲我眨了眨眼睛。内心一阵悸动，这是……回到寝室，我兴奋的告诉我的室友这个事情，我再次觉得
ExpRe[25] bash外的其它shell：zsh和fish tritone ExpRe bash linux ubuntu shell
文章目录zsh基础配置实用特性插件`autojump`语法高亮自动补全fish优点缺点时效性本篇撰写时间为2021.12.15，由于计算机技术日新月异，博客中所有内容都有时效和版本限制，具体做法不一定总行得通，链接可能改动失效，各种软件的用法可能有修改。但是其中透露的思想往往是值得学习的。本篇前置：ExpRe[10]Ubuntu[2]准备神秘软件、备份恢复软件https://www.cnblogs
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
springboot+vue项目实战一-创建SpringBoot简单项目苹果酱0567 面试题汇总与解析 spring boot 后端 java 中间件开发语言
这段时间抽空给女朋友搭建一个个人博客，想着记录一下建站的过程，就当做笔记吧。虽然复制zjblog只要一个小时就可以搞定一个网站，或者用cms系统，三四个小时就可以做出一个前后台都有的网站，而且想做成啥样也都行。但是就是要从新做，自己做的意义不一样，更何况，俺就是专门干这个的，嘿嘿嘿要做一个网站，而且从零开始，首先呢就是技术选型了，经过一番思量决定选择-SpringBoot做后端，前端使用Vue做一
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
HarmonyOS开发实战（ Beta5.0）搜索框热搜词自动切换让开，我要吃人了 OpenHarmony HarmonyOS 鸿蒙开发 harmonyos 华为鸿蒙移动开发鸿蒙系统前端开发语言
鸿蒙HarmonyOS开发往期必看：HarmonyOSNEXT应用开发性能实践总结最新版！“非常详细的”鸿蒙HarmonyOSNext应用开发学习路线！（从零基础入门到精通）介绍本示例介绍使用TextInput组件与Swiper组件实现搜索框内热搜词自动切换。效果图预览使用说明页面顶部搜索框内热搜词条自动切换，编辑搜索框时自动隐藏。实现思路使用TextInput实现搜索框TextInput({te
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
【从问题中去学习k8s】k8s中的常见面试题（夯实理论基础）（二十八）向往风的男子 k8s 学习 kubernetes 容器
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
阿里巴巴商品搜索API返回值实战解析 weixin_43841111 api java 前端 javascript
在解析阿里巴巴中国站商品搜索API返回值并进行实战时，可以从以下几个方面入手：一、了解API返回值的结构基本信息返回值通常包含商品的标题、价格、库存、图片链接等基本信息。这些信息对于了解商品的概况非常重要。例如，商品标题可以让你快速了解商品的名称和特点，价格信息可以帮助你进行价格比较和成本核算。详细描述可能包括商品的详细描述、规格参数、使用方法等。这些信息对于深入了解商品的特性和功能非常有帮助。比
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
李笑来 6 你到底有没有资本+7什么是落后盛大米
6你到底有没有资本摘要不能够心平气和地被判上无期徒刑的资本，就别假装资本混迹江湖了。投资知识，经验，智慧，几乎只能从实战中获得————书上写的，牛人讲的，都跟你没关系，因为只有那些东西在你骨子里生根之后再发芽且不夭折而后还要等上很久才会茁壮甚至茂盛。。。。直接将年收入的10%-20%判死刑是最简单，最直接，最粗暴最有效的操作方式。投资，尤其是“好的投资”，一定是“舍我其谁”的活动。关于资本的思考，
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台网顺技术团队成品程序项目 java vue.js 汽车课程设计 spring boot
基于JavaWeb开发的Java+SpringMvc+vue+element实现上海汽车博物馆平台作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

Python自然语言处理实战学习笔记（第二章NLP前置技术解析）

第二章NLP前置技术解析

2.1搭建Python开发环境

2.1.1Python 的科学计算发行版一Anaconda

2.1.2Anaconda的下载与安装

2.2正则表达式在 NLP 的基本应用

2.2.1 匹配字符串

2.2.2 使用转义符

2.2.3 抽取文本中的数字

2.3 Numpy 使用详解

2.3.1 创建数组

2.3.2 获取 Numpy 中数组的维度

2.3.3 获取本地数据

2.3.4 正确读取数据

2.3.5 Numpy 数组索引

2.3.6 切片

2.3.7 数组比较

2.3.8 替代值

2.3.9 数据类型转换

2.3.10 Numpy 的统计计算方法

2.4 本章小结

你可能感兴趣的:(Python自然语言处理实战学习笔记（第二章NLP前置技术解析）)