倩mys

精通特征工程 —— 2.简单得数字奇特技巧

文章目录

- - 1.二值化
  - 2.区间量化（分箱）
  - 3.对数变换
  - 4.特征缩放归一化
  - 5.交互特征
  - 6.特征选择

精通特征工程pdf：链接：https://pan.baidu.com/s/11AFe7LgjYnf56XcpI_wNKw 提取码：fvzo
参考黄博代码实现：https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

1.二值化

# Echo Nest 品味画像数据集的统计
# 使 Million Song 数据集中听歌计数二进制化
import pandas as pd
f = open(r'data/train_triplets.txt')
listen_count = pd.read_csv(f, header=None, delimiter='\t')
listen_count[2] = 1

listen_count.head()

	0	1	2
0	b80344d063b5ccb3212f76538f3d9e43d87dca9e	SOAKIMP12A8C130995	1
1	b80344d063b5ccb3212f76538f3d9e43d87dca9e	SOAPDEY12A81C210A9	1
2	b80344d063b5ccb3212f76538f3d9e43d87dca9e	SOBBMDR12A8C13253B	1
3	b80344d063b5ccb3212f76538f3d9e43d87dca9e	SOBFNSP12AF72A0E22	1
4	b80344d063b5ccb3212f76538f3d9e43d87dca9e	SOBFOVM12A58A7D494	1

2.区间量化（分箱）

# Yelp 数据集中的商家点评数量可视化 
import pandas as pd
import json
# 加载商家数据
biz_file = open('data/yelp_academic_dataset_business.json')
biz_df = pd.DataFrame([json.loads(x) for x in biz_file.readlines()])
biz_file.close()

biz_df.head()

	business_id	categories	city	full_address	latitude	longitude	name	neighborhoods	open	review_count	stars	state	type
0	rncjoVoEFUJGCUoC1JgnUA	[Accountants, Professional Services, Tax Servi...	Peoria	8466 W Peoria Ave\nSte 6\nPeoria, AZ 85345	33.581867	-112.241596	Peoria Income Tax Service	[]	True	3	5.0	AZ	business
1	0FNFSzCFP_rGUoJx8W7tJg	[Sporting Goods, Bikes, Shopping]	Phoenix	2149 W Wood Dr\nPhoenix, AZ 85029	33.604054	-112.105933	Bike Doctor	[]	True	5	5.0	AZ	business
2	3f_lyB6vFK48ukH6ScvLHg	[]	Phoenix	1134 N Central Ave\nPhoenix, AZ 85004	33.460526	-112.073933	Valley Permaculture Alliance	[]	True	4	5.0	AZ	business
3	usAsSV36QmUej8--yvN-dg	[Food, Grocery]	Phoenix	845 W Southern Ave\nPhoenix, AZ 85041	33.392210	-112.085377	Food City	[]	True	5	3.5	AZ	business
4	PzOqRohWw7F7YEPBz6AubA	[Food, Bagels, Delis, Restaurants]	Glendale Az	6520 W Happy Valley Rd\nSte 101\nGlendale Az, ...	33.712797	-112.200264	Hot Bagels & Deli	[]	True	14	3.5	AZ	business

# 绘制点评数量直方图
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

sns.set_style('whitegrid')
fig, ax = plt.subplots()
biz_df['review_count'].hist(ax=ax, bins=100)
ax.set_yscale('log')
ax.tick_params(labelsize=14)
ax.set_xlabel('Review Count', fontsize=14)
ax.set_ylabel('Occurrence', fontsize=14)

Text(0, 0.5, 'Occurrence')

# 通过固定宽度分箱对计数值进行区间量化 
import numpy as np

# 生成20个随机整数，均匀分布在0-99之间
small_counts = np.random.randint(0, 100, 20)
small_counts

array([13, 48, 98, 20, 58, 21, 92, 19, 48, 31, 46, 86, 23, 45, 65, 60, 66,
       42, 20,  9])

# 通过出发映射到间隔均匀的分箱中，每个分箱取值范围0-9
np.floor_divide(small_counts, 10)

array([1, 4, 9, 2, 5, 2, 9, 1, 4, 3, 4, 8, 2, 4, 6, 6, 6, 4, 2, 0], dtype=int32)

# 横跨若干数量级的计数值数组
large_counts =  [296, 8286, 64011, 80, 3, 725, 867, 2215, 7689, 11495, 91897, 
                 44, 28, 7971, 926, 122, 22222] 
# 通过对数函数映射到指数宽度分箱
np.floor(np.log10(large_counts))

array([ 2.,  3.,  4.,  1.,  0.,  2.,  2.,  3.,  3.,  4.,  4.,  1.,  1.,
        3.,  2.,  2.,  4.])

# 计算 Yelp 商家点评数量的十分位数
deciles = biz_df['review_count'].quantile([.1, .2, .3, .4, .5, .6, .7, .8, .9])
deciles

0.1     3.0
0.2     3.0
0.3     4.0
0.4     5.0
0.5     6.0
0.6     8.0
0.7    12.0
0.8    23.0
0.9    50.0
Name: review_count, dtype: float64

# 在直方图上画出十分位数
sns.set_style('whitegrid')
fig, ax = plt.subplots()
biz_df['review_count'].hist(ax=ax, bins=100)
for pos in deciles:
    handle = plt.axvline(pos, color='r')
ax.legend([handle], ['deciles'], fontsize=14)
ax.set_yscale('log')
ax.set_xscale('log')
ax.tick_params(labelsize=14)
ax.set_xlabel('Review Count', fontsize=14)
ax.set_ylabel('Occurence', fontsize=14)

Text(0, 0.5, 'Occurence')

# 通过分位数对计数值进行分箱 
# 使用large_counts
pd.qcut(large_counts, 4, labels=False)  # 将数据映射为所需的分位数值

array([1, 2, 3, 0, 0, 1, 1, 2, 2, 3, 3, 0, 0, 2, 1, 0, 3], dtype=int64)

# 计算实际的分位数值
large_counts_series = pd.Series(large_counts)
large_counts_series.quantile([0.25, 0.5, 0.75])

0.25     122.0
0.50     926.0
0.75    8286.0
dtype: float64

3.对数变换

# 对数函数可以将大数值的范围压缩，对小数值的范围进行扩展
# 对数变换前后的点评数量分布可视化
fig, (ax1, ax2) = plt.subplots(2,1)
fig.tight_layout(pad=0, w_pad=4.0, h_pad=4.0)
biz_df['review_count'].hist(ax=ax1, bins=100)
ax1.tick_params(labelsize=14)
ax1.set_xlabel('review_count', fontsize=14)
ax1.set_ylabel('Occurrence', fontsize=14)
biz_df['log_review_count'] = np.log(biz_df['review_count'] + 1)
biz_df['log_review_count'].hist(ax=ax2, bins=100)
ax2.tick_params(labelsize=14)
ax2.set_xlabel('log10(review_count))', fontsize=14)
ax2.set_ylabel('Occurrence', fontsize=14)

Text(23.625, 0.5, 'Occurrence')

在线新闻流行度数据集的统计信息
目标是使用这些特征来预测文章的流行度，流行度用社交媒体上的分享数表示,研究一个特征——文章中的单词个数

df = pd.read_csv('data/OnlineNewsPopularity.csv', delimiter=', ')
df.head()

C:\Users\S2\Anaconda3\lib\site-packages\ipykernel\__main__.py:1: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  if __name__ == '__main__':

	url	timedelta	n_tokens_title	n_tokens_content	n_unique_tokens	n_non_stop_words	n_non_stop_unique_tokens	num_hrefs	num_self_hrefs	num_imgs	...	min_positive_polarity	max_positive_polarity	avg_negative_polarity	min_negative_polarity	max_negative_polarity	title_subjectivity	title_sentiment_polarity	abs_title_subjectivity	abs_title_sentiment_polarity	shares
0	http://mashable.com/2013/01/07/amazon-instant-...	731.0	12.0	219.0	0.663594	1.0	0.815385	4.0	2.0	1.0	...	0.100000	0.7	-0.350000	-0.600	-0.200000	0.500000	-0.187500	0.000000	0.187500	593
1	http://mashable.com/2013/01/07/ap-samsung-spon...	731.0	9.0	255.0	0.604743	1.0	0.791946	3.0	1.0	1.0	...	0.033333	0.7	-0.118750	-0.125	-0.100000	0.000000	0.000000	0.500000	0.000000	711
2	http://mashable.com/2013/01/07/apple-40-billio...	731.0	9.0	211.0	0.575130	1.0	0.663866	3.0	1.0	1.0	...	0.100000	1.0	-0.466667	-0.800	-0.133333	0.000000	0.000000	0.500000	0.000000	1500
3	http://mashable.com/2013/01/07/astronaut-notre...	731.0	9.0	531.0	0.503788	1.0	0.665635	9.0	0.0	1.0	...	0.136364	0.8	-0.369697	-0.600	-0.166667	0.000000	0.000000	0.500000	0.000000	1200
4	http://mashable.com/2013/01/07/att-u-verse-apps/	731.0	13.0	1072.0	0.415646	1.0	0.540890	19.0	19.0	20.0	...	0.033333	1.0	-0.220192	-0.500	-0.050000	0.454545	0.136364	0.045455	0.136364	505

5 rows × 61 columns

df['log_n_tokens_content'] = np.log10(df['n_tokens_content'] + 1)

# 新闻文章流行度分布的可视化，使用对数变换和不使用对数变换 
fig, (ax1, ax2) = plt.subplots(2, 1)
df['n_tokens_content'].hist(ax=ax1, bins=100)
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Number of Words in Article', fontsize=14)
ax1.set_ylabel('Number of Article', fontsize=14)

df['log_n_tokens_content'].hist(ax=ax2, bins=100)
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Number of Words in Article', fontsize=14)
ax1.set_ylabel('Number of Article', fontsize=14)

Text(0, 0.5, 'Number of Article')

# 使用对数变换后的 Yelp 点评数量预测商家的平均评分 
from sklearn import linear_model
from sklearn.model_selection import cross_val_score

# 使用前面加载的yelp点评数据，计算yelp点评数量的对数变换值
# 注意：为原始点评数量加1，以免当点评数量为0时，对数运算结果得到负无穷大
biz_df['log_review_count'] = np.log10(biz_df['review_count'] + 1)

# 使用经过对数变换和未经过对数变换的review_count特征，训练线性回归模型预测
# 一个商家的平均星级评分，比较两种模型的10折交叉验证得分
m_orig = linear_model.LinearRegression()
scores_orig = cross_val_score(m_orig, biz_df[['review_count']], 
                             biz_df['stars'], cv=10)

m_log = linear_model.LinearRegression()
scores_log = cross_val_score(m_log, biz_df[['log_review_count']], 
                             biz_df['stars'], cv=10)

print("R-squared score without log transform: %0.5f (+/- %0.5f)" %
      (scores_orig.mean(), scores_orig.std() * 2))
print("R-squared score with log transform: %0.5f (+/- %0.5f)" %
      (scores_log.mean(), scores_log.std() * 2))

R-squared score without log transform: 0.00215 (+/- 0.00329)
R-squared score with log transform: 0.00136 (+/- 0.00328)

# 使用在线新闻流行度数据集中经对数变换后的单词个数预测文章流行度 
# 加载数据集
df = pd.read_csv('data/OnlineNewsPopularity.csv', delimiter=', ')
# 对n_tokens_content特征进行对数变换，特征表示新闻文章中的单词
df['log_n_tokens_content'] = np.log10(df['n_tokens_content'] + 1)

# 训练两个线性回归模型来预测文章分享数（初始特征，对数变换后特征）
m_orig = linear_model.LinearRegression()
scores_orig = cross_val_score(
    m_orig, df[['n_tokens_content']], df['shares'], cv=10)
m_log = linear_model.LinearRegression()
scores_log = cross_val_score(
    m_log, df[['log_n_tokens_content']], df['shares'], cv=10)

print("R-squared score without log transform: %0.5f (+/- %0.5f)" %
      (scores_orig.mean(), scores_orig.std() * 2))
print("R-squared score with log transform: %0.5f (+/- %0.5f)" %
      (scores_log.mean(), scores_log.std() * 2))

C:\Users\S2\Anaconda3\lib\site-packages\ipykernel\__main__.py:3: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
  app.launch_new_instance()


R-squared score without log transform: -0.00242 (+/- 0.00509)
R-squared score with log transform: -0.00114 (+/- 0.00418)

# 可视化新闻流程度预测问题中输入输出相关性
fig2, (ax1, ax2) = plt.subplots(2, 1,figsize=(10, 4))
fig.tight_layout(pad=0.4, w_pad=4.0, h_pad=6.0)
ax1.scatter(df['n_tokens_content'], df['shares'])
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Number of Words in Article', fontsize=14)
ax1.set_ylabel('Number of Shares', fontsize=14)

ax2.scatter(df['log_n_tokens_content'], df['shares'])
ax2.tick_params(labelsize=14)
ax2.set_xlabel('Log of the Number of Words in Article', fontsize=14)
ax2.set_ylabel('Number of Shares', fontsize=14)

Text(0, 0.5, 'Number of Shares')

# 对 Yelp 商家点评数量的 Box-Cox 变换 
from scipy import stats
# 假设bie_df包含yelp商家点评数据，Box_Cox变换假定输入数据都是正的，
# 检查数据的最小值已确定满足假定
biz_df['review_count'].min()

# 设置输入参数lmbda为0，使用对数变换
rc_log = stats.boxcox(biz_df['review_count'], lmbda=0)
# scipy在实现box-cox转换时，会找出使得输出最接近与正态分布的lmbda参数
rc_bc, bc_params = stats.boxcox(biz_df['review_count'])
bc_params

-0.5631160899391674

4.特征缩放归一化

如果模型对输入特征的尺度很敏感，就需要进行特征缩放

min-max缩放
$\tilde{x}=\frac{x-\min (x)}{\max (x)-\min (x)}$

标准化（方差缩放）
$\tilde{x}=\frac{x-\operatorname{mean}(x)}{\operatorname{sqrt}(\operatorname{var}(x))}$

L2归一化
$\widetilde{x}=\frac{x}{\|x\|_{2}}$

# 特征缩放实例
import sklearn.preprocessing as preproc

# 加载在线新闻流行度数据
df['n_tokens_content'].as_matrix()

array([ 219.,  255.,  211., ...,  442.,  682.,  157.])

# min-max缩放
df['minmax'] = preproc.minmax_scale(df[['n_tokens_content']])
df['minmax'].as_matrix()

array([ 0.02584376,  0.03009205,  0.02489969, ...,  0.05215955,
        0.08048147,  0.01852726])

# 标准化
df['standardized'] = preproc.StandardScaler().fit_transform(df[['n_tokens_content']])
df['standardized'].as_matrix()

array([-0.69521045, -0.61879381, -0.71219192, ..., -0.2218518 ,
        0.28759248, -0.82681689])

# L2 归一化
df['l2_normalized'] = preproc.normalize(df[['n_tokens_content']], axis=0)
df['l2_normalized'].as_matrix()

array([ 0.00152439,  0.00177498,  0.00146871, ...,  0.00307663,
        0.0047472 ,  0.00109283])

# 绘制原始数据和缩放后数据的直方图
fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1)
fig.tight_layout()

df['n_tokens_content'].hist(ax=ax1, bins=100)
ax1.tick_params(labelsize=14)
ax1.set_xlabel('Article word count', fontsize=14)
ax1.set_ylabel('Number of articles', fontsize=14)

df['minmax'].hist(ax=ax2, bins=100)
ax2.tick_params(labelsize=14)
ax2.set_xlabel('min-max word count', fontsize=14)
ax2.set_ylabel('Number of articles', fontsize=14)

df['standardized'].hist(ax=ax3, bins=100)
ax3.tick_params(labelsize=14)
ax3.set_xlabel('standardized word count', fontsize=14)
ax3.set_ylabel('Number of articles', fontsize=14)

df['l2_normalized'].hist(ax=ax4, bins=100)
ax4.tick_params(labelsize=14)
ax4.set_xlabel('l2_normalized word count', fontsize=14)
ax4.set_ylabel('Number of articles', fontsize=14)

Text(29.125, 0.5, 'Number of articles')

只有x轴尺度发生了变化，特征缩放后的分布形状不变

5.交互特征

# 预测中的交互特征实例
from sklearn import linear_model
from sklearn.model_selection import train_test_split
import sklearn.preprocessing as preproc

# df 包含UCI在线新闻流行度数据集
df.columns

Index(['url', 'timedelta', 'n_tokens_title', 'n_tokens_content',
       'n_unique_tokens', 'n_non_stop_words', 'n_non_stop_unique_tokens',
       'num_hrefs', 'num_self_hrefs', 'num_imgs', 'num_videos',
       'average_token_length', 'num_keywords', 'data_channel_is_lifestyle',
       'data_channel_is_entertainment', 'data_channel_is_bus',
       'data_channel_is_socmed', 'data_channel_is_tech',
       'data_channel_is_world', 'kw_min_min', 'kw_max_min', 'kw_avg_min',
       'kw_min_max', 'kw_max_max', 'kw_avg_max', 'kw_min_avg', 'kw_max_avg',
       'kw_avg_avg', 'self_reference_min_shares', 'self_reference_max_shares',
       'self_reference_avg_sharess', 'weekday_is_monday', 'weekday_is_tuesday',
       'weekday_is_wednesday', 'weekday_is_thursday', 'weekday_is_friday',
       'weekday_is_saturday', 'weekday_is_sunday', 'is_weekend', 'LDA_00',
       'LDA_01', 'LDA_02', 'LDA_03', 'LDA_04', 'global_subjectivity',
       'global_sentiment_polarity', 'global_rate_positive_words',
       'global_rate_negative_words', 'rate_positive_words',
       'rate_negative_words', 'avg_positive_polarity', 'min_positive_polarity',
       'max_positive_polarity', 'avg_negative_polarity',
       'min_negative_polarity', 'max_negative_polarity', 'title_subjectivity',
       'title_sentiment_polarity', 'abs_title_subjectivity',
       'abs_title_sentiment_polarity', 'shares', 'log_n_tokens_content',
       'minmax', 'standardized', 'l2_normalized'],
      dtype='object')

# 选择与内容有关的特征作为模型单一特征，忽略衍生特征
features = ['n_tokens_title', 'n_tokens_content',
            'n_unique_tokens', 'n_non_stop_words', 'n_non_stop_unique_tokens',
            'num_hrefs', 'num_self_hrefs', 'num_imgs', 'num_videos',
            'average_token_length', 'num_keywords', 'data_channel_is_lifestyle',
            'data_channel_is_entertainment', 'data_channel_is_bus',
            'data_channel_is_socmed', 'data_channel_is_tech',
            'data_channel_is_world']
X = df[features]
y = df['shares']

# 创建交互特征对，跳过固定偏移项
X2 = preproc.PolynomialFeatures(include_bias=False).fit_transform(X)
X2.shape

(39644, 170)

# 为两个特征集创建训练集和测试集
X1_train, X1_test, X2_train, X2_test, y_train, y_test = train_test_split(X, X2, y, test_size=0.3, random_state=123)

def evaluate_feature(X_train, X_test, y_train, y_test):
    model = linear_model.LinearRegression().fit(X_train, y_train)
    r_score = model.score(X_test, y_test)
    return (model, r_score)

# 在两个特征集上训练模型并比较R方分数
(m1, r1) = evaluate_feature(X1_train, X1_test, y_train, y_test)
(m2, r2) = evaluate_feature(X2_train, X2_test, y_train, y_test)
print("R-squared score with singleton features: %0.5f" % r1)
print("R-squared score with pairwise features: %0.10f" % r2)

R-squared score with singleton features: 0.00924
R-squared score with pairwise features: 0.0113280904

6.特征选择

过滤：对特征进行预处理
打包方法:对某特征提供的方法
嵌入式方法：模型训练

小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
数据挖掘实战-基于机器学习的垃圾邮件检测模型艾派森数据挖掘实战合集数据挖掘机器学习人工智能 python
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略一个处女座的程序猿资深文章(前沿/经验/创新)DataScience ML 数据科学数据科学的生命周期机器学习
DS/ML：数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略导读：本文章是博主在数据科学和机器学习领域，先后实战过几百个应用案例之后的精心总结，应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时，因为涉及到博主出书中出版社要求在
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
知识管理系统：构建企业智慧大脑 AI天才研究院 ChatGPT AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
第一部分：知识管理概述与重要性第1章：知识管理的定义与基本概念1.1.1知识管理的起源与发展知识管理（KnowledgeManagement，KM）起源于20世纪80年代，当时企业在市场竞争中逐渐意识到知识作为一种战略资源的重要性。早期的知识管理实践主要集中在知识的收集、存储和传播上。随着信息技术的发展，知识管理逐渐融入了更先进的技术手段，如数据挖掘、人工智能和大数据分析，使其成为一个跨学科、多领
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
Python 生成数据(使用Pygal模拟掷骰子) 钢铁男儿 Python 从入门到精通 python 开发语言
数据可视化指的是通过可视化表示来探索数据，它与数据挖掘紧密相关，而数据挖掘指的是使用代码来探索数据集的规律和关联。数据集可以是用一行代码就能表示的小型数字列表，也可以是数以吉字节的数据。使用Pygal模拟掷骰子在本节中，我们将使用Python可视化包Pygal来生成可缩放的矢量图形文件。对于需要在尺寸不同的屏幕上显示的图表，这很有用，因为它们将自动缩放，以适合观看者的屏幕。如果你打算以在线方式使用
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
用户行为路径分析（Google Analytics数据挖掘）闲人编程 Python数据分析实战精要数据挖掘人工智能用户行为路径分析 Analytics 数据分析用户习惯
目录用户行为路径分析（GoogleAnalytics数据挖掘）1.引言2.项目背景与意义2.1用户行为路径的重要性2.2GoogleAnalytics数据概述2.3数据规模与挑战3.数据集生成与介绍4.数据预处理与GPU加速5.用户行为路径分析方法5.1用户行为路径构建5.2行为路径挖掘与模式分析5.3常用指标计算6.数据可视化与指标展示7.PyQtGUI设计与实现8.GPU加速与性能优化9.系统
数据挖掘：第二章、认识数据 initial- - - 数据挖掘数据挖掘人工智能
第二章认识数据2.1数据类型与统计汇总数据集与数据对象一个数据集由多个数据对象组成，每个数据对象代表一个实体。例如，在销售数据库中，数据对象可以是客户、商品、销售额等；在医疗数据库中，数据对象可以是患者、治疗信息等；在大学数据库中，数据对象可以是学生、教授、课程信息等。数据对象也被称为样品、示例、实例、数据点、对象、元组。数据对象所描述的属性即数据集中的列，而数据对象则是数据库中的行。属性属性是数
数据挖掘导论——第七章：聚类 Wis4e 数据挖掘聚类人工智能
什么是聚类？数据间的相似性和距离的测量方式有哪些？数据标准化如何进行距离计算？层次聚类的思想和流程？K-均值聚类的思想和流程？距离的计算方式如何影响聚类结果？聚类的要素，包括数据，差异性/相似性测量方式，聚类算法（标准化执行程序或流程）理解相似性和差异性的度量（p40）。Jaccard和余弦相似性度量。以下内容由AI生成：余弦相似度（CosineSimilarity）是一种衡量两个向量在方向上相似
数据挖掘中的数据预处理：填充与主成分分析阿什么名字不会重复呢数据挖掘人工智能
数据挖掘中的数据预处理：填充与主成分分析在数据挖掘中，数据预处理是非常重要的一步。现实世界中的数据通常是不完整的，包含噪声、缺失值或异常值，因此在进行模型训练或分析前，我们需要对数据进行清理和转换。本文将介绍数据预处理中的两种常见填充方法（01填充和均值填充），以及一种用于降维的技术——主成分分析（PCA）。一、数据填充数据填充是处理缺失值的常见方法。在实际场景中，数据集可能会因为各种原因出现缺失
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
《数据挖掘导论》第二章数据爱吃草莓的西瓜酱数据挖掘导论数据挖掘
第二章数据数据类型数据质量数据预处理相似度测量数据Collectionofdataobjectsandtheirattributes特征值数值型的或者描述性的（男/女-->0/1）特征和特征值之间的区别：相同的属性可能被赋予不同的特征值，如身高的单位可能是米或者英尺不同的属性可以映射到相同的值集，如ID是无界的，age有最大值和最小值1.特征的类型Nominal（标称）Examples:IDnum
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
Python爬虫学习笔记_DAY_26_Python爬虫之requests库的安装与基本使用【Python爬虫】_requests库ip 苹果Android开发组程序员 python 爬虫学习
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
DeepSeek在供热行业中的应用杨航 AI 人工智能深度学习 python 机器学习算法
目录引言1.1DeepSeek技术概述1.2供暖行业业务挑战1.3DeepSeek在供暖行业的应用前景DeepSeek技术基础2.1深度学习与机器学习2.2自然语言处理（NLP）2.3图像识别与处理2.4数据挖掘与分析供暖行业应用场景3.1设备监控与维护3.1.1设备状态监控3.1.2故障预测与诊断3.1.3维护计划优化3.2能源管理与优化3.2.1能耗数据分析3.2.2热负荷预测3.2.3节能优
kaggle竞赛（初识）薛定谔的码* 人工智能
PART0:Kaggle介绍Kaggle是什么？答案很简单Kaggle是数据挖掘比赛火起来的，以至于中国兴起了很多很多类似的比赛；Kaggle是一个数据科学竞赛的平台，很多公司会发布一些接近真实业务的问题，吸引爱好数据科学的人来一起解决。Kaggle提供了一个介于“完美”与真实之间的过渡，问题的定义基本良好，却夹着或多或少的难点，一般没有完全成熟的解决方案。在参赛过程中与论坛上的其他参赛者互动，能
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
数据挖掘|关联分析与Apriori算法详解皖山文武数据挖掘商务智能数据挖掘关联分析 Apriori算法机器学习
数据挖掘|关联分析与Apriori算法1.关联分析2.关联规则相关概念2.1项目2.2事务2.3项目集2.4频繁项目集2.5支持度2.6置信度2.7提升度2.8强关联规则2.9关联规则的分类3.Apriori算法3.1Apriori算法的Python实现3.2基于mlxtend库的Apriori算法的Python实现1.关联分析关联规则分析（Association-rulesAnalysis）是数
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
OLAP与OLTP：数据处理系统的两种核心架构思静鱼 #Mysql-数据库架构
文章目录OLAP和OLTP的主要区别OLAP常见数据库和OLTP常见数据库OLAP是英文OnlineAnalyticalProcessing的缩写，中文称为联机分析处理。它是一种基于多维数据模型的分析处理技术，用于从不同的角度进行数据挖掘和分析，以帮助用户快速发现数据之间的相关性和趋势。OLAP技术通常涉及到预计算、缓存和查询优化等方面的技术，可用于构建在线分析系统（OLAP系统）。该系统将大量的
数据分析在宇宙观测中的重要性 AI天才研究院计算 ChatGPT DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
数据分析在宇宙观测中的重要性关键词：数据分析、宇宙观测、数据预处理、数据挖掘、数据可视化摘要：本文将探讨数据分析在宇宙观测中的重要性，从数据分析在宇宙观测中的应用背景、重要性、面临的挑战与机遇以及未来发展趋势等方面进行深入分析，旨在为读者提供一个全面而详细的了解。引言第1章:分析数据与宇宙观测的关联1.1.1数据分析在宇宙观测中的应用背景宇宙观测是研究宇宙的结构、演化、性质以及各种物理现象的科学。
k-Shape：高效准确的聚类方法优化算法侠Swarm-Opti 信号处理故障诊断聚类机器学习人工智能 matlab 数据挖掘
引言时间数据在许多学科中的扩散和无处不在，已经对时间序列的分析和挖掘产生了极大的兴趣。聚类是最流行的数据挖掘方法之一，不仅因为它的探索性，而且作为其他技术的预处理步骤或子程序。常用的有-means聚类算法。本文介绍了一种新的时间序列聚类算法k-Shape。k-Shape依赖于一个可扩展的迭代优化过程，它创建同质和良好分离的集群。作为距离度量，k-Shape使用标准化的交叉相关。基于距离度量的性质，
信号处理应用：电力系统中的信号处理_（9）.基于电力系统信号的数据挖掘技术 kkchenkx 信号处理技术仿真模拟信号处理数据挖掘人工智能
基于电力系统信号的数据挖掘技术1.引言电力系统中的信号处理是一个重要的研究领域，涉及电力系统的监测、故障诊断、状态评估等多个方面。随着大数据和人工智能技术的发展，数据挖掘技术在电力系统中的应用越来越广泛。本节将介绍如何利用数据挖掘技术对电力系统中的信号进行处理和分析，以提高系统的可靠性和效率。2.电力系统中的信号类型在电力系统中，信号可以分为多种类型，包括：电压信号：反映电力系统的电压水平，用于检
语义检索-BAAI Embedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性汀、人工智能 LLM工业级落地实践 embedding langchain 人工智能智能问答 RAG 检索增强生成大模型
语义检索-BAAIEmbedding语义向量模型深度解析[1-详细版]：预训练至精通、微调至卓越、评估至精准、融合提升模型鲁棒性语义向量模型（EmbeddingModel）已经被广泛应用于搜索、推荐、数据挖掘等重要领域。在大模型时代，它更是用于解决幻觉问题、知识时效问题、超长文本问题等各种大模型本身制约或不足的必要技术。然而，当前中文世界的高质量语义向量模型仍比较稀缺，且很少开源。为加快解决大模型
知识图谱与金融——基于知识图谱的风险监控与决策支持 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介知识图谱(KG)是一种用来表示大量互相关联数据的多维网络结构，它通过三元组（subject-predicate-object）的方式来表述实体之间的关系。它经常被用在文本分析、数据挖掘、推荐系统等领域。而随着金融行业对海量信息数据的需求越来越高，知识图谱技术也越来越受到重视。实际上，知识图谱已经成为构建和处理金融知识的重要工具之一。本文将探讨知识图谱在金融中的应
数据挖掘实战-基于Catboost算法的艾滋病数据可视化与建模分析艾派森数据挖掘实战合集 python 人工智能数据挖掘信息可视化数据分析
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
【数据仓库与数据挖掘基础】第一章概论/基础知识精神病不行计算机不上班数据仓库与数据挖掘基础数据挖掘数据仓库
知识点复习：事务（关于事务的一些知识点可以点这里）一、数据仓库的一些基本的知识1.从数据库到数据仓库1.1数据库用于事务处理1.1.1定义：事务处理是指对数据库中数据的操作，这些操作通常包括插入、更新、删除和查询等。事务处理的核心是确保数据的一致性和完整性。事务的定义：事务是数据库操作的基本单位，包含一组逻辑上相关的操作。事务要么全部成功，要么全部失败。ACID特性：原子性（Atomicity）：
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方