hys_guff

1+x_大数据应用开发（python）职业技能（中级）

大数据应用开发（python）职业技能等级证书（中级），1+x证书考题。

理论部分

单选题

在Linux系统下安装ntp服务的命令正确的是( A )。
A.yum install ntp
B.yum remove ntp
C.yum update ntp
D.yum list
在实际生广环境中获取的数据可能存在缺失值，为了更好地进行数据分析，通常需要对缺失数据进行识别和处理，下列关于DataFrame.dropna()方法说法正确的是( C )。
A.DataFrame.dropna(axis=1,inplace=True):删除带有空值的行
B.DataFrame.dropna(axis-0,inplaces=Tnue):删除带有空值的列
C.DataFrame.dropna(axis=0,‘how=any’,inplace=True):删除带有空值的行
D.DataFrame.dropna(axis=1,‘how=all’,inplace=True):删除全部为空值的行
下列关于Selenium库的方法和作用不对应的是( C )。
A.element_to_be_clickable()方法：元素可点击
B.element_to_be_selecte()方法：元素可选择，传入元素对象
C.element_located_to_be_selected()方法：元素可选择，传入定位列表
D.invisibility_of_element_located()方法：元素不可见
正确搭建Hadoop集群的步骤是( A )。
①克隆虚拟机
②配置SSH免密码登录
③格式化
④修改配置文件
⑤配置时间同步服务
A.④①②⑤③
B.③②①⑤④
C.⑤①③②④
D.②⑤④①③
若需要构建KNN模型，则在sklearn.neighbors模块中可使用的类是( B )，
A.DecisionTreeClassifier
B.KNeighborsClassifier
C.MLPClassifier
D.KNN
在pandas库中，下列关于DataFrame.groupby()方法说法错误的是(C)。
A.DataFrame.groupby()方法用于数据框分组聚合过程中的分组操作
B.使用DataFrame.groupby()方法分组后的结果并不能直接查看，而是被存在内存中
C.group_keys参数指是否在运行的情况下对返回数据进行降维
D.as_index参数指聚合后的聚合标签是否以DataFrames索引形式输出
下列关于sklearn库的预处理类说法正确的是( B )
A.MinMaxScaler:对特征进行标准差标准化
B.StandardScaler:对特征进行标准差标准化
C.FunctionTransformer:对定量特征进行二值化处理
D.OneHotEncoder:对特征进行自定义函数变换
在HTTP请求过程中，客户端与服务器间的请求与响应的具体步骤为( C )。
①发送HTTP请求
②释放连接TCP连接
③连接Web服务器
④服务器接受请求并返回HTTP响应
⑤客户端解析HTML内容
A.③②①④⑤
B.①③④②⑤
C.③①④②⑤
D.①②③④⑤
在HTTP请求中，客户端向服务器发送一个请求报文，报文中的内容不包括( D )，
A请求的方法
B.URL
C.请求头部
D.响应头部
在Matplotlib库中，设置图形的x轴名称的函数是( C )。
A.matplotlib.pyplot.ylim()函数
B.matplotlib.pyplot.xlim()函数
C.matplotlib.pyplot.xlabel()函数
D.matplotlib.pyplot.ylabel()函数
下列代码的输出结果是( D )
result=list(map(lambda x:x*x,[1,2,3,4,5,6,7,8,9]))
print(result)
A.2,6,12,20,30,42,56,72]
B.[362880]
C.[1,2,3,4.5,6,7,8,9]
D.[1,4,9,16,25,36,49,64,81]

在HTML中，下列状态码表示请求成的是( A )，
A.200
B.400
C.403
D.500
在NumPy库中，下列不属于数组的属性的是( D )。
A.ndim
B.shape
C.size
D.add
通过代码from skleam import metrics"导入评价指标模块后，若需要构建真实标签true_labe和模型预测标签predicted_label的混淆矩阵，则下列可使用的代码是( B )。
A.confusion_matrix(predicted_label,true_label)
B.metrics.confusion_matrix(true_label,predicted_label)
C.metrics.confusion_matrix(predicted_label,true_label)
D.confusion_matrix(true_label,predicted_label)
在Windows系统下，将数据框(DataFrame)对象text存储为D盘下的Excel文件，下列代码正确的是( B ).
A.text.to_excel(‘D:\text.xisx’)
B.text.to_excel(‘D:\text.xlsx’)
C.text.to_csv(‘D:\text.xisx’)
D.text.to_csv(‘D:\text.xlsx’)
16.下列不属于HTTP/1.1协议请求方法的是( D ).

A.GET
B.POST
C.DELETE
D.PUSH

关闭集群的具体步骤为( B )。
①stop-dfs.sh
②stop-yaim.sh
③mr-jobhistory-daemon.sh stop historyserver
A.①②③
B.②①③
C.③②①
D.①③②
在通过代码"from sklearn import tree"导入决策树模块，并通过代码"clf=tree.DecislonTreeClassifler()"构造分类器对像后，分类器对象clf在训练时需要调用的方法是( D )，
A.clf.train()
B.clf.learn()
C.clf.predict()
D.clf.fit()
在哑变量处理函数pandas.get_dummies()函数中，若要考虑缺失值的存在价值，则需调整的参数是( C )。
A.prefix
B.prefix_sep
C.dummy_na
D.sparse
Matplotlib库是Python的常用绘图库，下列关于Matplotlib库说法错误的是( D )
A.matplotilib.pyplot.xlim():用于限制x轴的显示范围
B.matplotlib.pyplot.figure(figsize=(2,2)):用于创建画布，并设置画布的大小为(2,2)
C.matplotlib.pyplot.subplot(231):用于将图表的整个绘图区域分为2行3列的区域，绘制的图表位于区域中的第1行第1列
D.matplotlib.pyplot.plot(x,y,color=‘b’,linewidth=1.0,linestyle=‘_’:用于绘制折线图，其中参数"color=b"是将线的颜色设置为黑色
关于下列代码说法错误的是( D )。
import numpy as np
arr=np.array([0,1,2,3,4])
import pandas as pd
ser=pd.Series([0,1,2,3,4])
A.arr和ser虽然是不同的数据类型，但是同样可以进行加法运算
B.arr和ser表达同样的数据内容
C.arr和ser都是一维数据
D.arr参与运算的执行速度明显比ser快
下列代码的运行结果为( B )。
import re
var = re.findall(‘.∗.∗’,’(abc)def)[0]
print(var)
A.（）
B.(abc)
C.def
D.(def)
下列关于BeautifulSoup中对象类型描述错误的是( B )
A.name属性可以获取及修改Tag对像名称
B.attrs属性可获取Tag对象的HTML属性，返回值为列表形式
C.string方法可获取Tag对象中的文本字符串内容
D.NavigableString对象无法被编辑
若需要构建逻辑回归模型，则在sklearn.linear_model模块中可使用的类是( A )
A.LogisticRegression
B.SVC
C.LinearRegression
D.DecisionTreeClassifier
下列关于Jupyter Notebook说法错误的是( B )
A.Jupyter Notebook可以直接生成一份交互式文档
B.Jupyter Notebook不可以安装Python库
C.Jupyter Notebook可以导出HTML文件
D.Jupyter Notebook可以分享文件
在pandas库中，下列关于缺失值检测说法正确的是( B )。
A.DataFrame.isnull()方法可以对缺失值进行处理
B.DataFrame.dropna()方法既可以删除观测记录，也可以删除特征
C.DataFrame.fillna()方法中用于替换缺失值只能是数据框
D.DataFrame.replace()方法能直接对缺失值进行处理
在Matplotlib库中，下列关于柱状图bar函数的参数说法错误的是( B )。
A.linewidth:表示柱状图中每根柱了边框完度
B.align:表示柱状图中每根柱子的高度
C.width:表示柱状图中每根柱子的宽度
D.color:表示柱状图中每根柱子的颜色
在pandas库中，下列不属于DataFrame.drop()方法的参数是( C )。
A.labels
B.level
C.dtype
D.inplace
下列关于pandas.concat()函数、DataFrame.append()方法、pandas.merge()函数和DataFrame.join()方法的说法正确的是( D )
A.pandas.concat()函数是常用的主键合并的函数，能够实现数据框之间的内连接和外连接
B.DataFrame.append()方法只能用于进行纵向堆叠，适用于所有数据框之间的纵向堆叠情况
C.pandas.merge()函数是常用的主键合并的函数，但不能够实现数据框之间的左连接和右连接
D.DataFrame.join()方法是常用的主键合并方法，但不能够实现数据框之间的左连接和右连接
.下列可以实现导入页面等待相关库的代码是( B )。
A.from selenium import webdriver
B.from selenium.webdriver.support.ui import WebDriverWait
C.from selenium.webdriver.common.by import By
D.from selenium.webdriver.support import expected_conditions
若要创建一个3×3的数组，则下列代码错误的是( C )。
A.numpy.arange(0,9).reshape(3,3)
B.numpy.eye(3)
C.numpy.random.random([3,3,3])
D.numpy.array([[1,2,3],[4,5,6],[7,8,9]])
下列表示整型转化为布尔型的代码是( D )。
A.print(‘转化结果为：’，np.f1oat64(42))
B.print(‘转化结果为：’，np.int8(42.0))
C.print(‘转化结果为：’，np.int(True))
D.print(‘转化结果为：’，np.bool(42))

多选题

列关于Matplotiib库说法错误的是( CD )
A.matplotlib.pyplot.figure(figsize=(2,2)):用于创建画布，并设置画布的大小为(2,2)
B.matplotlib.pyplot.plot(x,y,color-=‘r’,linewidth=5.O,linestyle=‘-’):用于绘制折线图，其中linewidth参数用于设置线的宽度
C.natplotlib.pyplot.plot(x,y.color=‘b’,linewidth=1.0,linestyle=‘-’):用于绘制折线图，其中参数”colar=b”是将线颜色设置为黑色
D.matplotlib.pyplot..subplot(2,2,1):用于将图表的整个绘图区域分为2行1列的区域，绘制的图表位于区域中的第2行第1列
下列属于数据清洗的操作是( ABCD )。
A删除噪声数据
B.删除与挖掘主题无关的数据
C.处理缺失值
D.处理异常值
下列属于HDFS保正可靠性的措施的是( ABCD )。
A.冗余备份：每个文件存储成一系列数据块(Block),,为了提高容错率，文件的所有数据块都会有副本
B.副本存放：采用机架感知(Rak-aware)的策略来改进数据的可靠性、高可用和网络带宽的利用率
C.心跳检测：NameNode周期性地从集群中的每一个DataNode接受心跳包和块报告，若收到心跳包则说明该DataNode工作正常
D.数据完整性检测：HDFS客户端软件实现了对HDFS文件内容的校验和检查
下列属于Linux集群系统状态监控指标的是(ABCD )。
A.load
B.CPU利用率
C.磁盘剩余空间
D.内存使用情况
下列关于sklear.model_selection模块中的train_test_split类的参数说法正确舶的是( ABD )
A.test_size:测试集的大小
B.train_size:训练集的大小
C.andom_state:随机种子编号，默认为1
D.shuffle:是否在拆分前对数据进行洗牌
下列属于克隆CentOS6虚拟机之后需要修改的文件的是( ABC )
A./etc/udev/rules.d/70-persistent-net.rules
B./etc/sysconfig/network-scriptd/ifcfg-eth0
C./etc/sysconfig/network
D./etc/sysconfig/network-scriptd/ifcfg
urllib库是Python内置的HTTP请求库,下列关于urllib库说法正确的是( AB )
A.urllib.request:请求模块
B.urllib.error:异常处理模块
C.urllib.parse:robots.txt解析模块
D.urllib.robotparser:URL解析模块
现有一个DataFrame格式的数据集data,“col_name”为data中的一个列名，下列关于填充缺失值代码的说去正确的是（ AD ）
A.data.fillna(0):用0对缺失值进行填充
B.data[‘ool_name’]fillna(data[‘col_name’].dropna().median(),inplace=True):用均值对缺失值进行填充
C.data[‘col_name’]fillna(method=’pad’):用缺失值的后一个数据对缺失值进行填充
D.data[‘col_name’].fillna(data[‘col_name’].dropna().mode()[0],inplace=True):用众数缺失值进行填充
下列属于HDFS针对数据流失可题提供的保护措施的是( ABC )。
A冗余备份
B.副本存放
C.宕机处理
D.固定副本个数
下列属于使用Pyecharts库可绘制的图表的是( ABCD )。
A.日历图
B.漏斗图
C.仪表盘
D.关系图
聚焦网络爬虫又被称作主题网络爬虫，下列属于聚焦网络爬虫包括的爬行策略的是( ABCDABC )
A.基于内容评价的爬行策略
B.基于链接结构评价的爬行策略
C.基于增强学习的爬行策略
D.基于语境图的爬行策略
在pandas库中的DataFrame.duplicated()方法是针对DataFrame对像进行一个检查重复值操作，下列关于DataFrame.duplicated()方法中的参数说法正确的是( ABC )
A.subset:列标签或标签序列，可选择仅考虑某些列来标识重复项，默认情况下使用所有列
B.keep=‘frst’:将重复项标记为"True",第一次出现的重复项除外
C.keep=‘last’:将重复项标记为"True"”,最后一次出现的重复项除外
D.kep=False:将所有重复项标记方"False"
urllib库是Python内置的HTTP请求库，下列关于urllib库说法正确的是(AB )
A.urllib.request:请求模块
B.urllib.error:异常处理模块
C.urllib.parse: robots.txt解析模块
D.urllib.robotparser:URL解析模块
在Numpy库中，下列关于切割2×2的二维数组arr的代码及其对应作用的说法正确的是( ABC )
A.numpy.hsplit(arr,2):实现数组arr的横向分割
B.numpy.vsplit(arr,2):实现数组arr的纵向分割
C.numpy.split(arr,2,axis=1):实现数组arr的横向分割
D.numpy.split(arr,2,axis=2):实现数组arr的纵向分割
下列属于数据的质量相关因素的是( ABCE )
A数据的准确性
B.数据的完整性
C.数据的一致性
D.数据的可解释性
下列属于可以聚合数据的方法的是( ABD )。
A.DataFrame.agg()
B.DataFrame.apply()
C.DataFrame.pivot()
D.DataFrame.transform()

判断题

使用Python网络爬虫技术可以获取网页、图片和视频数据。（✔ ）
在使用pandas.pivot_table()函数时，若不指定aggfunc参数使用的聚合函数，则会默认使用numpy.mean()函数进行聚合运算。( ✔ )
在Python环境中，Seaborn库、Matplotlib库和BeautifulSoup库均主要用于数据可视化分析。( ✔ )
在NumPy库中，使用数组进行简单统计分折的排序方法有直接排序和间接排序。（ ✔ ）
NumPy数组的水平分割采用vsplit函数，其等价于numpy.split(axis=1).( ✘ )
水球图是一种拟物化的图表，能够直观地表现出某个帽标指标的进度或是实际情况.在pyecharts库中，水球图可以设置波浪颜色，但波浪状态不可以设置为动态，只能是静态的.( ✘ )
在pandas库中，使用pivot_table函数创建透视表时，分组键index有且只能有一个。（✘ ）
在数据可视化报告中只需要包含图形，不需要对图形进行分析。（ ✘ ）
在Linux系统中，为使其它用户可直接使用“cd”命令进入某目录，该目录需预先设置其它用户的读权限。（ ✘ ）
离散属性的值只能是有限个。（ ✘）
K均值聚类是一种基于密度的聚类算法，聚类个数可由算法自动地确定。（ ✘ ）
在MySQL中，拥有最高权限的超级用户的用户名为Administrator。（✘ ）
51.数据挖据的主要任务是从数据中发现潜在的规则，从而能更好地完成描述数据和预测数据等任务。（ ✔ ）

在使用Requests库时，若想修改和添加Request库中的headers对像，则可以使用add_header()方法（ ✔ ）
53.在Python环境中，被三引号包围的一定是字符串（ ✔ ）

54.在train_test_split函数中，test_size参数表示测试集的大小（ ✔ ）

55.Hadoop框架是用Java实现的（ ✔ ）

56.在服务端HTTP的响应状态码中，403表示服务器无法找到请求页面。（ ✘ ）

57.K-Means算法一般采用欧式距离作为样本间相似性的度量，即认为两个样本的距离城近，其相以性就越大（ ✔ ）

58.Linux操作系统的管理员权限和普通用户权限相同（ ✘ ）

re.findall()函数的作用是在字符串中找到同正则表达式所匹配的所有子字符串，并返回一个列表，如果没有找到匹配的，则返回空列表。（ ✔ ）
数据可视化旨在借助图形化手段，清晰有效地传达出繁杂数据中的信息。（ ✔）
如果缺失数据太多，可以建立模型，使用插补方式来填充数据。( ✔ )
在Pandas库中，预处理缺失值时可以使用DataFrame.isnull()方法来判断数据框中的元素是否为缺失值.( ✔ )
在Pandas库中DataFrame对象使用duplicated()方法可以删除数据中的重复项。（ ✘ ）
Seaborn库比Matplotlib库功能更多，可以独立于Matplotlib库进行使用（ ✘ ）
网络爬虫是一个自动下载网页的计算机程序或者一个自动化脚本。（ ✔ ）
在使用Seaborn库绘图时，可以输入代码”sns.set_style(‘white’)”将画布背景设置为白色.（ ✔ ）
67.在正则表达式语法中，“.”可以匹配任意字符。（✘ ）

68.在MySQL中，拥有最高权限的超级用户的用户名为Administrator。（ ✘ ）

实操部分

A卷：

因为NumPy数组在数值运算方面的效率优于Python提供的list,所以灵活掌握NumPy中数组的创建和基础的运算是有必要的.请使用NumPy库，编写Python代码完成下列操作！
启动Jupyter Notebook创建一个Notebook。

#(1）启动Jupyter Notebook创建一个Notebook。（2分)
# #(2）创建一个数值从o至1，间隔为e.01的数组arr1。（2分)
import numpy as np
arr1 = np.arange(0,1.01,0.01)
#(3）创建一个包含101个服从正态分布的随机数的数组arr2。(注意:数组arr2为一维数组)（2分)
arr2 = np.random.randn(101)
#(4）对数组arr1和数组arr2进行四则运算。(四则运算包括加、减、乘、除运算)(2分)
print('两数组之和为:\n ', arr1 + arr2)
print( '两数组之差为:\n ' , arr1 - arr2)
print( '两数组之积为: \n ', arr1 *arr2)
print( '两o数组之商为:\n ', arr1 / arr2)
#(5）对数组arr2进行简单的统计分析。(统计分析包括对数组进行升序排序、求和、求均值、求标准差和求最小值操作)。
print('排序后数组为: ', np.sort( arr2))
print('数组的和为: ', np.sum( arr2))
print('数组的均值为: ', np.mean( arr2))
print( '数组的标准差为: ', np.std(arr2))
print('数组的最小值为: ', np.min( arr2))
#(6）将数组arr1和数组arr2存储为当前工作路径下的一个二进制格式的文件arr.npz。(2分)
np.savez( ' arr.npz' , arr1, arr2)

2.请编写Python代码，对鸢尾花数据完成下列操作:

# (1）读取数据文件iris.csv，储存为数据框iris，并将数据框的列名称从左至右依次改修为"“sepal_length""sepal_width""petal_length""petal_width""class”。(3分)
import pandas as pd
iris = pd .read_csv( 'iris.csv ' , header=None)
iris.columns = [ 'sepal_length', 'sepal_width', 'petal_length' , 'petal_width ', 'class']
#(2）将数据框iris中“petal_length”列的第o行至第9行设置为缺失值。(注意:在Python中，索引为e开始。) (3分)
iris.loc[0: 9, 'petal_length' ] = None
#(3）将数据框iris中"petal_length”列的缺失值全部替换为1.0。(3分)
iris[ 'petal_length ' ].fillna(1.0,inplace=True)
#(4）册删除数据框iris中"class”列。（2分)
del iris[ 'class']
#(5）将数据框iris的前3行设置为缺失值。（2分)
iris.iloc[0: 3,: ] = None
#(6）册除数据框iris中存在缺失值的行。（2分)
iris.dropna(how= 'any ' , inplace=True)
#(7）重新设置数据框iris的行索引。（3分)
iris.reset_index(drop=True,inplace=True)
#（8）将数据框iris保存到当前工作路径下并命名为iris_new.csv。（2分)
iris.to_csv( 'iris_new.csv ')

3.葡萄酒是以葡萄为原料酿造的一种果酒。葡萄酒的品种很多，因葡萄的栽培、葡萄酒生产工艺条件的不同，产品风格各不相同。Wine数据集包含3种不同的葡萄酒的记录共178条。其中，每个特征对应葡萄酒的每种化学成分，并且都属于连续型数据，诵过对wine数据集的数据进行聚类，实现葡萄酒的类别划分.
请依据wine数据集，编写Python代码完成下列操作:

#(1）读取数据文件wine.csv，并储存为数据框wine。（1分)
import pandas as pd
wine = pd.read_csv( 'wine.csv ' , encoding='gb18030 ')
# (2）查询据框wine中是否存在缺失值。若存在缺失值，则需对其进行处理，反之，则无需处理。(2分)
print(wine.isnull().sum())# 由此可知无空值，无需处理
# (3）在wine数据集中，“Class”列为葡萄酒的类别，分别为1、2、3。绘制各类别的数量占比饼图。(4分)
wine_class = wine[ 'Class '].value_counts()#各类别数量
import matplotlib.pyplot as plt
plt.rcParams[ 'font.sans-serif' ] = 'SimHei' # 正常显示中文
plt.rcParams[ 'axes.unicode_minus '] = False# 正常显示符号
plt.pie(wine_class,labels=wine_class.index,autopct='%.2f%%')#小数点个数
plt.title( '各红酒类别占比图')
plt.show()
#(4）将数据框wine的数据和标签进行拆分，分别储存至数据框wine_data和数据框wine_label。(3分)
wine_data = wine.iloc[ : , 1: 14]#数据
wine_label = wine.iloc[ : , 0]#标签
#(5）将数据划分为训练集和测试集，训练集和测试集样本数比例为8:2，并将训练集数据、测试集数据、训练集标签和测试集标签分别储存至数据框wine_train、数据框wine_test、数据框wine_train_label和数据框wine_test_label。(3分)
from sklearn.model_selection import train_test_split
wine_train,wine_test,wine_train_label,wine_test_label = train_test_split\
    (wine_data,wine_label,test_size=6.2,random_state=42)
#(6）构建聚类数目为3的K-Means模型，并命名为kmeans。(4分)
from sklearn.cluster import KMeans# 导入分类器库
kmeans = KMeans(n_clusters = 3,random_state=123).fit(wine_train)#构建并训练模型#(7）对比真实标签和聚类标签，求取FMI （FMI为聚类模型的评价指标)，并输出其结果。(4分)
from sklearn.metrics import fowlkes_mallows_score
score = fowlkes_mallows_score(wine_train_label.tolist(),kmeans.labels_)
print( 'wine数据集的类中心为3时，其FMI的评价分值为:%f '%score)
#(8）当聚类数目为2~10类时，确定最优聚类数目。(4分)
for i in range(2,11):
    kmeans = KMeans(n_clusters=i,random_state = 123).fit(wine_train)
    score = fowlkes_mallows_score(wine_train_label,kmeans.labels_)
    print('wine数据聚%d类FMI评价分值为:%f' % (i, score))
# 由此可知，最优聚类数目为2

B卷：

4.国际象棋棋盘是个正方形，由横纵向各8格、颜色一深一浅交错制排列的64个小方格组成，深色格为黑格，浅色格为白格，棋子就在这些格子中移动。接下来创建一个与国际象棋棋盘相似的8×8矩阵。

# （1）启动Jupyter Notebook创建一个Notebook。
# （2）创健一个8×8的全0数组，并储存至数组arr。
import numpy as np
arr =np.zeros((8,8))
# (3).将数组arr的奇数行奇数列和偶数行偶数列的元素设置为1。
for i in range(8):
    for j in range(8):
        if(i+j)%2 ==0:
            arr[i][j] =1
# (4).将数组arr转换为矩阵matr1。
matr1 =np.matrix(arr)
# (5).将矩阵matr1转置为矩阵matr2,并判断矩阵mate1与矩阵matr2是否完全相同。
matr2=matr1.T
print((matr1 ==matr2).all())
# （6）将柜阵matr2存储为当前工作路径下的一个二进制格式的文件matr2.npy。
np.save('matr2.npy',matr2)

5.招聘数据探索与分析。

# （1）读取数据文件job_info.csv,并储存为数据框job_info.
import pandas as pd
import re
job_info =pd.read_csv('job_info.csv',encoding='GBK',header=None)
job_info.head()
# （2）将数据框job_info的列名称从左至右依次修改为”公司”“岗位”"工作地点”“工资”“发布日期”。
job_info.columns=['公司','岗位','工作地点','工资','发布日期']
job_info.head()
# （3）统计数据中需求最多的岗位招聘，并输出其结果。
print(job_info['岗位'].value_counts().index[0])
# (4).获取数据中9月3日发布的招聘信息，并输出其结果。
print(job_info[job_info['发布日期']=='09-03'])
# (5).获取工作地点在深圳的数据分析师招聘信息，并输出其结果。
job_info.loc[(job_info['工作地点'].apply(lambda x:'深圳' in x ))&(job_info['岗位']=='数据分析师'),:]
# （6）获取在“工资”列中，以“千/月”或“千/年”或“万/月”或“万/年”结尾的数据所在的行的数据，并储存至数据框ob_info_new。
job_info['工资'].str[-1].value_counts()
job_info['工资'].str[-3].value_counts()
index1=job_info['工资'].str[-1].apply(lambda x:x in ['月','年'])
index2=job_info['工资'].str[-3].apply(lambda x:x in ['千','万'])
job_info_new =job_info[index1 & index2]
job_info_new.shape
# （7）根据“工资”列，在数据框job_info_new中，新增最低工资和最高工资两列，列名分别设置为“最低工资（元/月）”和“最高工资（元/月）”。(
# 注意：这两列数据的单位是“元/月”，例如：若2-2.5万/月，则最低工资为20000，最高工资为25000.)
def get_max_min_value(x):
        try:
                if x[-3] == '万':
                        a = [float(i)* 10000 for i in re.findall('\c+\.?\c*',x)]
                elif x[-3]== '千':
                        a = [float(i)* 1000 for i in re.findall('\c+\.?\c*',x)]
                if x[-1] == '年':
                        a = [i/12 for i in a ]
        except:
                pass
        return a
    salary = job_info_new['工资'].apply(get_max_min_value)
job_info_new['最低工资'] = salary.str[0]
job_info_new['最高工资'] = salary.str[1]

6.sklean库不仅囊括了很多机器学习的算法，而但也自带了许多经典的数据集，鸢尾花数据集就是其中之一。鸢尾花数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个特征，分别为SepalLength(花萼长度)、SepaIWidth(花萼宽度)、PetalLength(花瓣长度)、PetalWidth(花瓣宽度)，通过这4个特征可划分鸢尾花的美的类别。
请根据鸢尾花数据，编写Python代码完成下列操作：

# （1）使用sklearn库加载鸢尾花数据和数据标签，将鸢尾花数据储存至数据框data,数据标签储存至数据框label。
from sklearn.datasets import load_iris
iris =load_iris()
data =iris['data']
label=iris['target']
# （2）统计数据中鸢尾花的类别数，并输出其结果。
print(len(set(label)))
# （3）以花萼长度为x轴，花萼宽度为y轴，绘制并展示散点图。
import matplotlib.pyplot as plt
plt.scatter(data[:,0],data[:,1])
plt.show()
# (4).将加载好的鸢尾花数据集划分成训练集和测试集两部分，训练集和测试集样本数比例为8：2，井将训练集数据、测试集数据
# .训练集标签和测试集标签分别储存至数据框x_train,数据框x_test,数据框y_train和数据框y_tes.
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test =train_test_split(data,label,test_size=0.2)
# (5)对数据框x_train和数据框x_test进行离差标准化，将标准化后的训练集和测试集数据分别储存至数据框scaler_x_train和数据
# 框scler_x_test(注意：测试集数据需使用和训练集数据相同的规职则进行标准化。)
from sklearn.preprocessing import MinMaxScaler
scaler =MinMaxScaler().fit(x_train)
scaler_x_train =scaler.transform(x_train)
scaler_x_test = scaler.transform(x_test)
# (6).构建决策树分类模型，命名为model,并进行模型训练.
from sklearn.tree import DecisionTreeClassifier
model=DecisionTreeClassifier()
model.fit(scaler_x_train,y_train)
# （7）对构建的模型进行性能评估，并输出其结果。（性能评估包括计算精确率、召回率和F1值等分类评估指标、)
from sklearn.metrics import classification_report
pre=model.predict(scaler_x_test)
res=classification_report(y_test,pre)
print(res)

C卷：

7.NumPy是用于数据科学计算的库。请使用NumPy库，编写Python代码求解各坐标点之间的距离。

# （1）启动Jupyter Notebook创建一个Notebook。
# (2).随机生成100个二维坐标点，并储存至数组arr1。
import numpy as np
x =np.linspace(0,10,100)
y =np.linspace(10,20,100)
arr1 =np.array((x,y)).T
# (3)计算各样本点之间的欧氏距离，并储存至数组arr2。
arr2 =[]
for i in range(len(arr1)):
        for j in range(len(arr1)):
                a = np.sqrt((arr1[i,0] - arr1[j,0]) ** 2 +(arr1[i,1])** 2)
                arr2.append(a)
arr2 =np.array(arr2)
# （4）将数组arr2的形状转换为（100,100)。
arr2=arr2.reshape(100,100)
# （5）将数组arr2存储为当前工作路径下的一个二进制格式的文件arr2.npy。
np.save('arr2.npy',arr2)

8.用户用电量数据探索与分析。
data数据集为用户用电量数据，其中包含3个字段，具体特征说明如下:

特征名称

特征说明

CONS_NO表示用户编号1-200的200位电力用户

DATA_DATE表示时间，如2015/1/1表示2015年1月1日

KWE表示用户电量请根据用户用电量数据，编写Python代码完城下列操作:

# （1）读取数据文件data.csv,并储存为数据框data。
import pandas as pd
data = pd.read_csv('data.csv',parse_dates=['DATA_DATE'],encoding='gbk')
# 将数据框data转换为行索引为用户编号、列索引为时间、值为用户用电量的数据透视表data_new。
data_new = pd.pivot_table(data=data,values='KWH',index='CONS_NO',columns='DATA_DATE')
# （3）采用四分位法对透视表data_new中的异常数据进行识别并处理。
def clear_(x=None):
        QL=x.quantile(0.25)
        QU=x.quantile(0.75)
        IQR = QU -QL
        x[((x > QU +1.5 * IQR)| (x < QU -1.5 * IQR))] = None
        return x
data_new.apply(clear_,axis=0)
# （4）构造持证1：统计每个用户用电数据的基本统计量（基本统计量包括最大值、最小值、均值、中位数），并将结果储存至数据框feature1。
feature1 = data_new.agg(['max','min','mean','median'],axis=1)
# （5）构造特证2：将每个用户用电数据按日差分后，求取基本统计量（基本统计量包括最大值、最小值、均值.中位数），将结果储存至数据框feature2。
feature2 =data_new.diff(axis=1).agg(['max','min','mean','median'],axis=1)
# 构造特征3：求每个用户的5%分位数，并将结果储存至数据框feature3.
feature3 =data_new.quantile(0.05 ,axis=1)
# (7)构造特征4：统计每个用户的日用电量在其最大值0.9倍以上的次数，并将结果储存至数据框feature3.
feature4 =data_new.apply(lambda x: sum(x> x.max() *0.9),axis=1)
# 合井特征1、特征2、特征3和特征4，并储存孕数据框feature4。
feature=pd.concat([feature1,feature2,feature3,feature4],axis=0)
# 将数据框feature保存到当前工作路径下并命名为feature.csv。
feature.to_csv('feature.csv')

9.泰坦尼克号是英国白星航运公司下辖的一搜奥林匹克级HYPERLINK游轮，1909年在哈兰德与沃尔夫造船厂动工建造.1911年下水，1912年完工试航
泰坦尼克号是当时世界上体积最庞大、内部设施最豪华的客运轮船，有“永l不沉没”的美誉。然而不幸的是，在它的处女航中，泰坦尼克号便遭厄运。1912年4月14日，泰坦尼克号与一座冰山相撞，造成右舷船艏至船中部破裂，五间水密舱进水.4月15日，泰坦尼克船体断裂成两截后沉入大西洋底3700米处。2224名船员及乘客中，1517人丧生。经过探究发现，似乎有些人比其他人更有生存的可能。接下来通过其生存与遇难的人的数据，预测乘客生还人数。
数据文件为titanic.csv,具体特征说明如下：

特征名称

特征说明

PassengerId乘客编号Survived是否生还。1为生还，0为未生还Pclass船舱号Sex性别Fare船票价格SibSp兄妹个数Parch父母子女个数请根据数据，编写Python代码完成下列要求：

# (1)读取数据文件titanic.csv,并储存为数据框titanic.
import numpy as np
import pandas as pd
titanic =pd.read_csv('titanic.csv')
# 计算乘客生还人数，并输出其结果.
titanic['Survived'].sum()
# 绘制男女乘客比例饼图，并添加标题”男女乘客比例饼图”。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']='SimHei'
plt.rcParams['axes.unicode_minus']=False
sex_=titanic['Sex'].value_counts()
plt.pie(sex_.values,labels=['Male','Female'],autopct='%1.1f%%',startangle=90)
plt.title('男女乘客比例饼图')
plt.show()
# 绘制船票价格直方图，并添加x轴标题”船票价格”和y轴标题”频次”。（注意：需先对”船票价格”进行升序排序）
df =titanic['fare'].sort_values(ascending=False)
plt.figure()
plt.hist(df,bins=(np.arange(0,550,10)))
plt.xlabel('船票价格')
plt.ylabel('频次')
plt.title('船票价格直方图')
plt.show()
# （5）在数据框titanic中，新增一列为家庭人数，并将列名设置为familysize"。
titanic['familysize']=titanic.loc[:,'SibSp']+titanic.loc[:,'Parch']+1
# （6)修改数据框titanic的”Sex”列，使用数值”1”和”0”分别代替”Sex”列中的”male”和”female”。
titanic['Sex']=titanic['Sex'].map({'female':0,'male':1}).astype(int)
# （7）根据“Pclass”、“Sex”和“familysize”这三个特征预测乘客是否生还。将数据集划分成训练集和测则试集两部分，训练集和测试集样本数比例为8:2
from sklearn.model_selection import train_test_split
x= titanic.loc[:,['Pclass','Sex','familysize']]
y= titanic.loc[:,['Survived']]
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=42)
# 构建KNN模型，命名为clf,并进行模型训练。
from sklearn  import neighbors
clf = neighbors.KNeighborsClassifier(n_neighbors=20)
clf.fit(x_train,y_train)
# 使用测试集数据进行模型预测，并将结果储存至数组pre。
pre =clf.predict(x_test)
# 对构建的模型进行性能评估，并输出其结果。(性能评估包括计算精确率、召回率和F1值等分类评估指标。）
from sklearn.metrics import classification_report
res = classification_report(y_test,pre)

csv文件下载地址：

https://pan.baidu.com/s/1O4pln7Dq8JaDXDv-n-Y0ZQ?pwd=hhh3

你可能感兴趣的:(大数据开发学习,大数据,python,开发语言,pandas,sklearn)

零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用 harmonyos-next
基于HarmonyNext的ArkTS高级实战：构建高性能跨平台应用引言随着HarmonyOSNext的发布，ArkTS作为其核心开发语言，为开发者提供了更强大的工具和更高效的开发体验。ArkTS基于TypeScript，结合了HarmonyOS的分布式能力，使得开发者能够轻松构建高性能、跨平台的应用。本文将深入探讨如何使用ArkTS在HarmonyNext平台上进行高级开发，通过实战案例讲解如何
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$