邵奈一

大数据HCIE成神之路之数学（2）——线性代数

线性代数

- 1.1 线性代数内容介绍
- - 1.1.1 线性代数介绍
  - 1.1.2 代码实现介绍
- 1.2 线性代数实现
- - 1.2.1 reshape运算
  - 1.2.2 转置实现
  - 1.2.3 矩阵乘法实现
  - 1.2.4 矩阵对应运算
  - 1.2.5 逆矩阵实现
  - 1.2.6 特征值与特征向量
  - 1.2.7 求行列式
  - 1.2.8 奇异值分解实现
  - 1.2.9 线性方程组求解

1.1 线性代数内容介绍

1.1.1 线性代数介绍

线性代数是一门被广泛运用于各工程技术领域的学科。用线性代数的相关概念和结论，可以极大地简化数据挖掘中相关公式的推导和表述。线性代数将复杂的问题简单化，让我们能够对问题进行高效地数学运算。

线性代数是一个数学工具，它不仅提供了有助于操作数组的技术，还提供了像向量和矩阵这样的数据结构用来保存数字和规则，以便进行加，减，乘，除的运算。

1.1.2 代码实现介绍

numpy是一款基于Python的数值处理模块，在处理矩阵数据方面有很强大的功能与优势。因为线性代数的主要内容就是对矩阵的处理，所以本章节主要的内容都是基于numpy进行展开。另外也会涉及到方程组求解，所以也会用到数学科学库scipy。

1.2 线性代数实现

导入相应库：

import numpy as np 
import scipy as sp

1.2.1 reshape运算

在数学中并没有 reshape 运算，但是在numpy运算库中是一个非常常用的运算，用来改变一个张量的维度数和每个维度的大小，例如一个10x10的图片在保存时直接保存为一个包含100个元素的序列，在读取后就可以使用reshape将其从 1x100 变换为 10x10 。

示例如下：

生成一个包含整数0~11的向量

x = np.arange(12)
print(x)

结果输出：

[ 0  1  2  3  4  5  6  7  8  9 10 11]

注意：如果是直接np.arange(12)，输出结果为：

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

扩展学习：
如果是想要以逗号进行隔开方式打印x，则可以指定一下：

new_x = np.array2string(x, separator = ",")
print(new_x)

输出结果为：

[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,10,11]

但是需要注意的是，此处打印的是str类型。

查看数组大小：

x.shape

结果输出：

(12,)

将x转换成二维矩阵，其中矩阵的第一个维度为1：

x = x.reshape(1,12)
print(x)

结果输出：

 [[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11]]

查看数组大小

x.shape

结果输出：

(1, 12)

将x转换3x4的矩阵

x = x.reshape(3,4)
print(x)

结果输出：

[[ 0,  1,  2,  3],
 [ 4,  5,  6,  7],
 [ 8,  9, 10, 11]]

1.2.2 转置实现

向量和矩阵的转置是交换行列顺序，而三维及以上张量的转置就需要指定转换的维度。

生成3*4的矩阵：

A = np.arange(12).reshape(3,4)
print(A)

结果输出：

[[ 0,  1,  2,  3],
 [ 4,  5,  6,  7],
 [ 8,  9, 10, 11]]

转置：

A.T

结果输出：

array([[ 0,  4,  8],
        [ 1,  5,  9],
        [ 2,  6, 10],
        [ 3,  7, 11]])

1.2.3 矩阵乘法实现

矩阵乘法：记两个矩阵分别为A和B，两个矩阵能够相乘的条件为第一个矩阵的 列数 等于第二个矩阵的 行数 。

代码输入：

A = np.arange(6).reshape(3,2)
print(A)

结果输出：

[[0 1]
 [2 3]
 [4 5]]

B = np.arange(6).reshape(2,3)
print(B)

结果输出：

[[0, 1, 2],
 [3, 4, 5]]

矩阵相乘：

np.matmul(A,B)

注意：不要写成 A.matmul(B)，也不能写成 A*B 。
结果输出：

array([[ 3,  4,  5],
       [ 9, 14, 19],
       [15, 24, 33]])

1.2.4 矩阵对应运算

元素对应运算：针对形状相同矩阵的运算统称，包括元素对应相乘、相加等，即对两个矩阵相同位置的元素进行加减乘除等运算。

创建矩阵：

A = np.arange(6).reshape(3,2)

矩阵相乘：

print(A*A)

结果输出：

array([[ 0,  1],
       [ 4,  9],
       [16, 25]])

矩阵相加：

rint(A + A)

结果输出：

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

1.2.5 逆矩阵实现

只有方阵才有 逆矩阵 ，逆矩阵实现。

代码输入：

A = np.arange(4).reshape(2,2)
print(A)

结果输出：

array([[0, 1],
       [2, 3]])

求逆矩阵：

np.linalg.inv(A)

结果输出：

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

注意：此处是 np.linalg ！不是scipy.linalg。可以自行了解如何求逆，此处不做过多解释。
提示：设A是数域上的一个n阶方阵，若在相同数域上存在另一个n阶矩B，使得： AB=BA=E 。则我们称B是A的逆矩阵，而A则被称为可逆矩阵。其中，E为单位矩阵。

说明：
np.linalg 和 scipy.linalg 在提供线性代数函数方面有些重叠，但也存在一些区别。如果您只需要基本的线性代数功能，np.linalg足以满足您的需求。如果需要更高级的线性代数功能或特定的分解方法，您可能需要查看scipy.linalg中的函数。SciPy是建立在NumPy之上的科学计算库，提供了更广泛的数学、科学和工程计算功能。

如果是使用scipy的linalg

代码如下：

from scipy import linalg
linalg.inv(A)

输出结果为：

array([[-1.5,  0.5],
       [ 1. ,  0. ]])

1.2.6 特征值与特征向量

当谈论矩阵的 特征值 和 特征向量 时，我们首先需要了解 线性变换 和 向量空间 的概念。

线性变换是指将一个向量空间中的向量映射到另一个向量空间中的向量的操作。在二维平面上的旋转和缩放、三维空间中的投影等都是线性变换的例子。
向量空间是指由多个向量组成的集合，其中的向量可以进行加法和数乘运算。向量空间可以是二维平面、三维空间或更高维度的空间。

现在，我们来解释矩阵的特征值和特征向量：

特征值（Eigenvalues）是一个数值，表示线性变换作用后的向量在同一方向上的缩放倍数。当一个向量在经过线性变换后，只发生缩放而不改变方向时，这个缩放倍数就是特征值。
特征向量（Eigenvectors）是与特征值相关联的向量。它是表示在线性变换下保持在同一方向上的向量。特征向量不会改变方向，而是在线性变换后仅仅以特征值的倍数进行缩放。

具体来说，对于一个n维向量空间中的线性变换，我们可以表示为一个n×n的矩阵A。如果存在一个非零向量v和一个标量λ，使得下式成立：

A * v = λ * v

其中，v是 特征向量 ，λ是 特征值 。这意味着当矩阵A作用在特征向量v上时，结果只是将v进行了缩放，缩放的比例由特征值λ确定。

特征值和特征向量对于矩阵的理解和分析非常重要。它们提供了关于矩阵在线性变换过程中的行为和性质的信息。通过计算矩阵的特征值和特征向量，我们可以了解线性变换的缩放效果和主要方向，并在许多应用中提供有用的洞察力，如主成分分析、图像处理和振动分析等。

接下来进行求矩阵的 特征值 与 特征向量 并实现可视化。

导入相应库：

from scipy.linalg import eig
import numpy as np
import matplotlib.pyplot as plt

求特征值与特征向量：

A = [[1, 2],#生成一个2*2的矩阵
     [2, 1]] 
evals, evecs = eig(A) #求A的特征值（evals）和特征向量(evecs)
evecs = evecs[:, 0], evecs[:, 1]

plt.subplots() 返回一个Figure实例fig 和一个 AxesSubplot实例ax。fig代表整个图像，ax代表坐标轴和画的图。作图：

fig, ax = plt.subplots()

输出图片如下：

让坐标轴经过原点：

for spine in ['left', 'bottom']:#让在左下角的坐标轴经过原点
    ax.spines[spine].set_position('zero')

画出网格：

ax.grid(alpha=0.4)

设置坐标轴的范围：

xmin, xmax = -3, 3
ymin, ymax = -3, 3
ax.set(xlim=(xmin, xmax), ylim=(ymin, ymax))

输出结果为：

[(-3.0, 3.0), (-3.0, 3.0)]

画出 特征向量 。用一个箭头指向要注释的地方，再写上一段话的行为，叫做annotate。text是输入内容；xy:箭头指向；xytext文字所处的位置；arrowprops通过arrowstyle表明箭头的风格或种类：

for v in evecs:
    ax.annotate(text="", xy=v, xytext=(0, 0),
                arrowprops=dict(facecolor='blue',
                shrink=0,
                alpha=0.6,
                width=0.5))

注意：
问题原因：annotate()的’s’参数自Matplotlib 3.3以后已重命名为’text’，不能使用s，不然会报错。

画出 特征空间 ：

x = np.linspace(xmin, xmax, 3)#在指定的间隔内返回均匀间隔的数字
for v in evecs:
    a = v[1] / v[0] #沿特征向量方向的单位向量
    ax.plot(x, a * x, 'r-', lw=0.4)# 参数 lw 表示图线的粗细
plt.show()

可视化图像：

蓝箭头向量为特征向量，两条红色直线组成的空间为特征空间。

1.2.7 求行列式

求一个矩阵的行列式。

代码输入：

E = [[1, 2, 3],
      [4, 5, 6],
      [7, 8, 9]]
print(np.linalg.det(E))

np.linalg.det() 是NumPy库中的一个函数，用于计算矩阵的 行列式 。在这里，我们将矩阵E作为参数传递给np.linalg.det()函数

结果输出：

-9.51619735392994e-16

扩展阅读：
图说行列式：几张图让你明白行列式的性质
行列式的几何意义
总结：其实一个行列式的几何意义是有向线段(一阶行列式)或有向面积(二阶行列式)或有向体积(高阶行列式)。

1.2.8 奇异值分解实现

接下来利用奇异值分解（Singular Value Decomposition，SVD），通过文章标题出现的关键词，对文章进行聚类。

导入相应模块：

import numpy as np
import matplotlib.pyplot as plt

输入关键字：

words = ["books","dad","stock","value","singular","estate","decomposition"]

设已知8个标题，7个关键字。记录每个标题中每个关键字出现的次数，得矩阵X。 X中每一行表示一个标题，每一列表示一个关键字，矩阵中的每个元素表示一个关键字中一个标题中出现的次数。

X=np.array([[0,2,1,0,0,0,0],[2,0,0,1,0,1,0],[1,0,0,0,0,0,1],[0,0,1,0,0,0,0],[0,1,0,0,0,0,0],[0,0,0,1,1,0,1],[0,1,0,0,1,0,0],[0,0,0,0,1,1,1]])

进行奇异值分解：

U,s,Vh=np.linalg.svd(X)

输出左奇异矩阵U：

print("U=",U)

输出结果：

U= [[-1.87135757e-01 -7.93624528e-01  2.45011855e-01 -2.05404352e-01
  -3.88578059e-16  5.75779114e-16 -2.57394431e-01 -4.08248290e-01]
 [-6.92896814e-01  2.88368077e-01  5.67788037e-01  2.22142537e-01
   2.54000254e-01 -6.37019839e-16 -2.21623012e-02  2.05865892e-17]
 [-3.53233681e-01  1.22606651e-01  3.49203461e-02 -4.51735990e-01
  -7.62000762e-01  1.27403968e-15  2.72513448e-01  3.80488702e-17]
 [-2.61369658e-02 -1.33189110e-01  7.51079037e-02 -6.44727454e-01
   5.08000508e-01  1.77635684e-15  3.68146235e-01  4.08248290e-01]
 [-8.04993957e-02 -3.30217709e-01  8.49519758e-02  2.19661551e-01
  -2.54000254e-01 -4.81127681e-16 -3.12770333e-01  8.16496581e-01]
 [-3.95029694e-01  1.56123876e-02 -5.28290830e-01 -6.82340484e-02
   1.27000127e-01 -7.07106781e-01 -2.09360158e-01  1.55512464e-17]
 [-2.02089013e-01 -3.80395849e-01 -2.12899198e-01  4.80790894e-01
   8.04483689e-16 -1.60632798e-15  7.33466480e-01  1.76241226e-16]
 [-3.95029694e-01  1.56123876e-02 -5.28290830e-01 -6.82340484e-02
   1.27000127e-01  7.07106781e-01 -2.09360158e-01 -1.23226632e-16]]

输出奇异值矩阵：

print("s=",s)

按每个奇异值一一对应一个左奇异向量和一个右奇异向量奇异值从大到小排列输出结果：

s= [2.85653844 2.63792139 2.06449303 1.14829917 1.         1.
 0.54848559]

输出右奇异矩阵Vh：

print("Vh",Vh)

输出结果：

Vh [[-6.08788345e-01 -2.29949618e-01 -7.46612474e-02 -3.80854846e-01
  -3.47325416e-01 -3.80854846e-01 -4.00237243e-01]
 [ 2.65111314e-01 -8.71088358e-01 -3.51342402e-01  1.15234846e-01
  -1.32365989e-01  1.15234846e-01  5.83153945e-02]
 [ 5.66965547e-01  1.75382762e-01  1.55059743e-01  1.91316736e-02
  -6.14911671e-01  1.91316736e-02 -4.94872736e-01]
 [-6.48865369e-03  2.52237176e-01 -7.40339999e-01  1.34031699e-01
   2.99854608e-01  1.34031699e-01 -5.12239408e-01]
 [-2.54000254e-01 -2.54000254e-01  5.08000508e-01  3.81000381e-01
   2.54000254e-01  3.81000381e-01 -5.08000508e-01]
 [ 0.00000000e+00 -7.68640544e-16  2.33583082e-15 -7.07106781e-01
  -1.21802199e-15  7.07106781e-01  1.91457709e-15]
 [ 4.16034348e-01 -1.71550021e-01  2.01922906e-01 -4.22112199e-01
   5.73845817e-01 -4.22112199e-01 -2.66564648e-01]]

规定坐标轴的范围：

plt.axis([-0.8,0.2,-0.8,0.8])

输出图像为：

原每个关键字由 1*8 的向量表示，现降维成 1*2 的向量以便进行可视化

for i in range(len(words)):
    plt.text(U[i,0],U[i,1],words[i])
plt.show()

可视化结果：

这张图是奇异值分解（SVD）的结果。奇异值分解是一种在线性代数中常用的矩阵分解方法，它将一个矩阵分解为三个矩阵的乘积，这三个矩阵分别代表了旋转、缩放和另一次旋转。在这张图中，每个点代表一个单词，它们的位置是通过奇异值分解得到的。这种分解方法可以帮助我们理解数据的结构和关系。

将到2维可视化后，我们可以将关键词聚类，如singular和decomposition距离比较近可以被划分为一组。

扩展阅读：
2分钟看懂奇异值分解
什么是奇异值分解SVD–SVD如何分解时空矩阵
补充：奇异值是特征值的开根。

1.2.9 线性方程组求解

求解线性方程组比较简单，只需要用到一个函数 scipy.linalg.solve() 就可以了。

比如我们对胶片中矩阵章节中的部门月度跑步案例进行线性方程组求解，线性方程组如下：

10x_1 + 8x_2 + 12x_3 = 20
4x_1 + 4x_2 + 2x_3 = 8
2x_1 - 4x_2- 2x_3 = -5

代码输入：

from scipy.linalg import solve
a = np.array([[10, 8, 12], [4, 4, 2], [2, -4, -2]])
b = np.array([20,8,-5])
x = solve(a, b)
print(x)

结果输出：

[0.5    1.3125 0.375 ]

你可能感兴趣的:(HCIE之路,数据挖掘,大数据,线性代数,奇异值分解)

docker-compose方式搭建lnmp环境——筑梦之路筑梦之路 linux系统运维国产化 docker android adb
docker-compose.yml文件#生成docker-compose.ymlcat>docker-compose.ymlnginx/conf.d/default.conf">www/index.phpecho"开始启动服务..."docker-composeup-d#获取本机ipip_addr=$(hostname-I|awk'{print$1}')echo"部署完成！"echo"访问测试页
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
【证明】对极几何：本质矩阵内在性质 Powerful_QI slam 线性代数矩阵
--这是目录--1.本质矩阵内在性质表述2.预备知识2.1线性代数基础2.1.1奇异值与特征值的关系2.1.2矩阵加减单位阵后特征值的变化2.2引理：一个常用的矩阵变换3.证明1.本质矩阵内在性质表述本质矩阵(EssentialMatrix)EEE是一个3阶方阵，满足E=t∧RE=t^{\land}RE=t∧R其中RRR为旋转矩阵，ttt为平移量，t∧t^{\land}t∧运算定义如下（参考了
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
线性代数同济教材每一部分的现实意义 ZhuBin365 其它算法
一、行列式(Determinants)的现实意义：不仅仅是数字，而是“尺度”和“特性”行列式虽然计算结果是一个数值，但它绝不是一个孤立的数字，它在现实世界中代表着“尺度”和“特性”的重要信息：现实意义核心：“衡量变化的能力”和“判定系统特性”“尺度”：衡量体积/面积的缩放比例：在现实世界中，很多变换都会改变物体的形状和大小。行列式就像一个“尺度”，衡量了线性变换对面积(二维)或体积(三维及以上)的
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
Go 语言 map 高级应用：优化技巧与复杂结构处理
Go语言map高级玩法全解析引言在Go语言的编程世界中，map是一种极为重要且强大的数据结构。它能够高效地存储和检索键值对，在众多场景中发挥着关键作用。对于初涉Go语言的开发者而言，掌握map的基本使用方法，如声明、初始化、插入、删除和查找元素等，是迈向编程之路的重要一步。然而，仅仅停留在基础层面，远远无法挖掘出map的全部潜力。在实际的工程项目里，面对复杂多变的业务需求和日益增长的数据量，深入理
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
Oracle EMCC 13.5 集群安装部署指南 Lucifer三思而后行 DBA 实战系列 oracle 数据库
大家好，这里是DBA学习之路，专注于提升数据库运维效率。目录前言第一阶段：OMR集群部署1.1OracleRAC环境准备1.2数据库版本验证1.3EMCC专用数据库优化第二阶段：ACFS集群文件系统构建2.1存储层配置配置multipath多路径配置UDEV设备绑定2.2ACFS文件系统创建使用ASMCA创建磁盘组创建ACFSVolume挂载点准备和文件系统创建第三阶段：OMS集群部署3.1环境准
谈谈这两年来，HCIE数通认证通过率不升反降？博睿谷IT99_ 华为职业规划职场发展
粉丝灵魂发问："不是说技术越成熟通过率越高吗？为啥2025年考HCIE数通比前两年还难？"数据来说真话：2023年全球平均通过率约50%→2025年骤降至20%-30%一、通过率不升反降的三大硬核原因1.考试内容迭代速度碾压考生学习速度（1）技术栈暴增1）新增SDN控制器（iMasterNCE）配置2）强制考察Python网络自动化脚本（NetConf/YANG模型实战）3）强化SRv6、IPv6
揭秘华为欧拉：不只是操作系统，更是云时代的技能认证体系
揭秘华为欧拉：不只是操作系统，更是云时代的技能认证体系作为一名深耕IT培训领域的博主，今天带大家客观认识“华为欧拉”——这个在云计算领域频频出现的名词。一、华为欧拉究竟是什么？严格来说，“华为欧拉”核心包含两部分1.openEuler操作系统：一个由华为支持的企业级开源Linux操作系统发行版，专为云计算、云原生平台等场景设计优化。2.华为openEuler认证体系(HCIA/HCIP/HCIE-
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
【开源工具】基于PyQt5的局域网文件共享工具开发全解（附源码+emoji交互设计）创客白泽 Python开源项目实战开源 qt 局域网文件共享 python
【开源工具】基于PyQt5的局域网文件共享工具开发全解（附源码+emoji交互设计）个人主页：创客白泽-CSDN博客系列专栏：《Python开源项目实战》热爱不止于代码，热情源自每一个灵感闪现的夜晚。愿以开源之火，点亮前行之路。希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎点赞评论收藏⭐️加关注+分享给更多人哦文章目录项目概述✨功能特性️效果展示使用教程核心代码解析系统架构图⬇️源码
搜广推校招面经九十一
美团机器学习/数据挖掘算法工程师_二面一、介绍一下ESMM模型，是否有进行过函数推导传统的转化率建模方式：只用发生点击（click=1）的样本来训练CVR模型。CVR定义如下：CVR=P(y=1∣x,z=1)CVR=P(y=1|x,z=1)CVR=P(y=1∣x,z=1)y=1表示用户发生了转化（如购买）z=1表示用户点击了广告这样做的问题：样本选择偏差（SampleSelectionBias,S
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息