愤斗的橘子

数据探查系列：如何进行有意义的探索性数据分析（EDA）

如何进行有意义的探索性数据分析（EDA）

1. 设置
- 1.1 导入库
- 1.2 导入数据
- 1.3 数据集特征
- 1.4 数据集属性
2. 探索训练集和测试集
- 2.1 训练集 - 快速概览
- 2.2 训练集 - 基本统计
- 2.3 测试集 - 快速概览
- 2.4 测试集 - 基本统计
3. 特征分布
4. 数据不平衡检查 - 为什么重要
- 4.1 不平衡数据需要不同的处理方法
5. 我们应该删除异常值吗？
- 5.1 检查训练集中的异常值
- 5.2 四分位距（IQR）
- 5.3 检测和删除异常值
- 5.4 我们做了什么？
6. 处理重复值
7. 相关性
8. 更多可视化

1 | 设置

1.1 导入库

# 导入所需的库
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px
import tkinter
from matplotlib import pyplot as plt
from sklearn.model_selection import cross_val_score
from collections import Counter
# 设置seaborn的样式为ticks，并将上下文设置为talk
sns.set(style="ticks", context="talk")



## 1.2 导入数据


```python
# 读取训练数据和测试数据
try:
    # 尝试从指定路径读取训练数据和测试数据
    raw_train = pd.read_csv('/kaggle/input/playground-series-s3e4/train.csv', index_col='id')
    raw_test = pd.read_csv('/kaggle/input/playground-series-s3e4/test.csv', index_col='id')
except:
    # 如果指定路径读取失败，则从当前路径读取训练数据和测试数据
    raw_train = pd.read_csv('train.csv', index_col='id')
    raw_test = pd.read_csv('test.csv', index_col='id')

1.3 数据集特征

比赛的数据集（包括训练集和测试集）是从一个在信用卡欺诈检测（https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud）上训练的深度学习模型生成的。特征分布与原始数据集接近，但并非完全相同。请随意将原始数据集用作比赛的一部分，既可以探索差异，也可以查看是否将原始数据集纳入训练可以提高模型性能。

请注意，与之前的Tabular Tuesdays数据集相比，这个比赛的基础数据集要大得多，因此可能包含更多的伪像。

https://www.kaggle.com/competitions/playground-series-s3e4/overview

1.4 数据集属性

数据集说明

该数据集仅包含经过PCA转换的数值型输入变量。不幸的是，由于保密问题，我们无法提供原始特征和更多关于数据的背景信息。特征V1、V2、…、V28是通过PCA获得的主成分，唯一没有经过PCA转换的特征是’Time’和’Amount’。特征’Time’表示每个交易与数据集中第一笔交易之间经过的秒数。特征’Amount’表示交易金额，该特征可以用于基于示例的成本敏感学习。特征’Class’是响应变量，如果是欺诈交易则取值为1，否则为0。

Id - 每行的唯一标识符。
Time - 该交易与数据集中第一笔交易之间经过的秒数
V1-V28 - 经过降维处理以保护用户身份和敏感特征的特征
Amount - 交易金额
Class - 目标类别（1表示欺诈交易，0表示真实交易）

返回目录

2 | 探索训练集和测试集

训练数据集中的观察结果：

共有32列：30列连续型变量，0列分类变量，1列id和1列目标变量
共有219129行
类别是目标变量
没有缺失值

测试数据集中的观察结果：

共有31列：30列连续型数据，0列分类数据和1列id
共有146087行
没有缺失值

2.1 训练数据集 - 快速概览

# 查看训练数据的前几行
raw_train.head()

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V21	V22	V23	V24	V25	V26	V27	V28	Amount	Class
id
0	0.0	2.074329	-0.129425	-1.137418	0.412846	-0.192638	-1.210144	0.110697	-0.263477	0.742144	...	-0.334701	-0.887840	0.336701	-0.110835	-0.291459	0.207733	-0.076576	-0.059577	1.98	0
1	0.0	1.998827	-1.250891	-0.520969	-0.894539	-1.122528	-0.270866	-1.029289	0.050198	-0.109948	...	0.054848	-0.038367	0.133518	-0.461928	-0.465491	-0.464655	-0.009413	-0.038238	84.00	0
2	0.0	0.091535	1.004517	-0.223445	-0.435249	0.667548	-0.988351	0.948146	-0.084789	-0.042027	...	-0.326725	-0.803736	0.154495	0.951233	-0.506919	0.085046	0.224458	0.087356	2.69	0
3	0.0	1.979649	-0.184949	-1.064206	0.120125	-0.215238	-0.648829	-0.087826	-0.035367	0.885838	...	-0.095514	-0.079792	0.167701	-0.042939	0.000799	-0.096148	-0.057780	-0.073839	1.00	0
4	0.0	1.025898	-0.171827	1.203717	1.243900	-0.636572	1.099074	-0.938651	0.569239	0.692665	...	0.099157	0.608908	0.027901	-0.262813	0.257834	-0.252829	0.108338	0.021051	1.00	0

5 rows × 31 columns

2.2 训练数据集 - 基本统计信息

# 使用describe()函数对raw_train进行描述性统计分析
raw_train.describe()

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V21	V22	V23	V24	V25	V26	V27	V28	Amount	Class
count	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	...	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000	219129.000000
mean	62377.415376	0.096008	0.048345	0.592102	0.069273	-0.161555	0.133688	-0.128224	0.149534	-0.048337	...	-0.031064	-0.050852	-0.050531	-0.002992	0.124005	0.009881	0.014034	0.017313	66.359803	0.002140
std	25620.348569	1.395425	1.159805	1.132884	1.253125	1.069530	1.202411	0.817207	0.716212	1.054143	...	0.422777	0.597812	0.318175	0.593100	0.406741	0.473867	0.233355	0.164859	150.795017	0.046214
min	0.000000	-29.807725	-44.247914	-19.722872	-5.263650	-37.591259	-25.659750	-31.179799	-28.903442	-8.756951	...	-14.689621	-8.748979	-11.958588	-2.836285	-3.958591	-1.858672	-9.234767	-4.551680	0.000000	0.000000
25%	47933.000000	-0.846135	-0.573728	-0.027154	-0.769256	-0.847346	-0.631835	-0.646730	-0.095948	-0.711444	...	-0.190418	-0.473099	-0.174478	-0.332540	-0.126080	-0.318330	-0.050983	-0.009512	5.990000	0.000000
50%	63189.000000	0.385913	0.046937	0.735895	0.064856	-0.229929	-0.087778	-0.098970	0.111219	-0.131323	...	-0.042858	-0.032856	-0.063307	0.038708	0.145934	-0.086388	0.015905	0.022163	21.900000	0.000000
75%	77519.000000	1.190661	0.814145	1.306110	0.919353	0.356856	0.482388	0.385567	0.390976	0.583715	...	0.109187	0.354910	0.060221	0.394566	0.402926	0.253869	0.076814	0.066987	68.930000	0.000000
max	120580.000000	2.430494	16.068473	6.145578	12.547997	34.581260	16.233967	39.824099	18.270586	13.423914	...	22.062945	6.163541	12.734391	4.572739	3.111624	3.402344	13.123618	23.263746	7475.000000	1.000000

8 rows × 31 columns

2.3 测试数据集 - 快速概览

raw_test.head()

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V20	V21	V22	V23	V24	V25	V26	V27	V28	Amount
id
219129	120580.0	2.115519	-0.691809	-1.305514	-0.685655	-0.641265	-0.764784	-0.924262	-0.023030	-0.230126	...	0.067367	0.241708	0.682524	0.037769	-0.546859	-0.123055	-0.084889	0.004720	-0.021944	29.95
219130	120580.0	1.743525	-1.681429	-0.547387	-1.061113	-0.695825	2.458824	-1.632859	1.073529	1.068183	...	0.441788	0.543278	1.294571	0.309541	3.703925	-0.242579	0.068708	0.002629	0.064690	163.50
219131	120580.0	2.205568	-1.571445	-0.238965	-1.662517	-1.652324	-0.054701	-1.682064	0.105613	-1.177858	...	-0.366906	-0.131527	0.086623	0.291375	0.739087	-0.543006	-0.297813	0.043699	-0.037855	16.00
219132	120580.0	1.989728	-0.972909	-1.938259	-1.440129	-0.166855	-0.794048	0.252889	-0.399789	2.079398	...	-0.049136	-0.080115	-0.010732	-0.038550	0.656830	0.343470	-0.627529	-0.024338	-0.036143	120.98
219133	120580.0	-1.943548	-1.668761	0.363601	-0.977610	2.684779	-2.037681	0.039709	-0.048895	-0.281749	...	0.391627	0.083389	-0.306918	0.247822	-0.391799	-0.790716	-0.025706	0.330758	0.335537	1.98

5 rows × 30 columns

2.4 测试数据集 - 基本统计信息

# 使用describe()函数对raw_test数据进行描述性统计分析
raw_test.describe()

	Time	V1	V2	V3	V4	V5	V6	V7	V8	V9	...	V20	V21	V22	V23	V24	V25	V26	V27	V28	Amount
count	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	...	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000	146087.000000
mean	144637.928166	0.512929	-0.013098	-0.697478	-0.273258	0.321856	-0.050204	0.073419	0.043803	-0.071620	...	-0.056678	0.044729	0.175461	0.018471	0.016029	-0.118352	-0.015199	0.006236	0.002035	66.182463
std	14258.025396	1.628455	1.247749	1.292522	1.365752	1.146215	1.332880	0.946681	0.749513	0.924996	...	0.458364	0.449017	0.710704	0.359597	0.633929	0.479720	0.446154	0.255935	0.174613	153.151535
min	120580.000000	-34.755944	-37.803827	-18.934952	-5.497560	-25.639591	-14.133040	-18.715915	-26.926164	-4.823352	...	-26.412867	-13.087263	-5.392649	-12.814296	-2.789084	-3.361564	-1.743223	-9.412538	-8.262339	0.000000
25%	132698.000000	-0.679988	-0.715885	-1.619268	-1.021205	-0.418547	-0.891441	-0.570042	-0.231824	-0.634695	...	-0.237529	-0.166715	-0.393667	-0.135059	-0.368957	-0.409938	-0.284914	-0.066037	-0.057447	5.990000
50%	144493.000000	0.285798	0.009058	-0.719060	-0.482945	0.306851	-0.372813	0.118545	0.014979	-0.075909	...	-0.096729	0.058393	0.250169	0.017835	0.029727	-0.142325	-0.069342	-0.003539	-0.026955	21.790000
75%	156140.000000	1.974015	0.827420	0.073874	0.369725	0.955997	0.302724	0.734503	0.296969	0.513770	...	0.065753	0.244817	0.749555	0.167514	0.562138	0.182937	0.216632	0.069334	0.066954	66.000000
max	172790.000000	2.452901	12.390128	4.492640	11.232928	24.352818	16.596635	27.023955	12.098322	7.888980	...	15.829261	15.333546	5.771245	17.481609	4.541724	4.555960	3.374748	12.673968	13.093229	4630.600000

8 rows × 30 columns

返回目录

3 | 特征分布

# 获取数值型特征列
numeric_columns = (list(raw_train.loc[:, 'Time':'Amount']))

# 创建一个图形对象
fig = plt.figure(figsize=(20, 50))

# 设置子图的行数和列数
rows, cols = 10, 3

# 遍历数值型特征列
for idx, num in enumerate(numeric_columns[:30]):
    # 在图形对象中添加子图
    ax = fig.add_subplot(rows, cols, idx+1)
    
    # 设置网格线的透明度和轴
    ax.grid(alpha = 0.7, axis ="both")
    
    # 绘制训练集的核密度估计曲线
    sns.kdeplot(x = num, fill = True, color ="#3386FF", linewidth=0.6, data = raw_train, label = "Train")
    
    # 绘制测试集的核密度估计曲线
    sns.kdeplot(x = num, fill = True, color ="#EFB000", linewidth=0.6, data = raw_test, label = "Test")      
    
    # 设置x轴标签
    ax.set_xlabel(num)
    
    # 添加图例
    ax.legend()

# 调整子图的布局
fig.tight_layout()

# 显示图形对象
fig.show()

对于训练集和测试集来说，“时间”（Time）的分布非常不同。这可能会导致严重的问题，因为算法将更容易地区分这些集合。

我们可以通过将时间分解为一天中的小时特征或删除它来转换时间。

# 从原始训练数据中删除'Time'列，得到训练数据集
train_df = raw_train.drop('Time', axis=1)

# 从原始测试数据中删除'Time'列，得到测试数据集
test_df = raw_test.drop('Time', axis=1)

返回目录

4 | 数据不平衡检查 - 为什么它很重要

# 创建一个包含两种颜色的调色板
palette = ["#ADD8E6","#EFB000"]

# 给饼图添加注释
# 获取训练数据集中每个类别的数量，并转换为列表
l1 = list(train_df['Class'].value_counts())
# 计算每个类别在总数中的比例，并乘以100，得到饼图的数值
pie_values = [l1[0] / sum(l1) * 100, l1[1] / sum(l1) * 100]

# 创建一个包含两个子图的图形，设置图形大小为(20, 7)
fig = plt.subplots(nrows=1, ncols=2, figsize=(20, 7))

# 在第一个子图中绘制饼图
plt.subplot(1, 2, 1)
plt.pie(pie_values, labels=['Genuine', 'Fraud'], 
        autopct='%1.2f%%',  # 设置饼图上显示的百分比格式
        startangle=90,  # 设置饼图的起始角度为90度
        explode=(0.1, 0.1),  # 设置饼图中每个扇区的偏移量，使其突出显示
        colors=palette,  # 设置饼图的颜色
        wedgeprops={'edgecolor': 'black', 'linewidth': 1, 'antialiased': True})  # 设置饼图的边缘颜色、线宽和抗锯齿效果
plt.title('Fraud vs Genuine transactions in train data set %');  # 设置子图标题

# 在第二个子图中绘制柱状图
plt.subplot(1, 2, 2)
ax = sns.countplot(data=train_df, 
                   x='Class', 
                   palette=palette,  # 设置柱状图的颜色
                   edgecolor='black')  # 设置柱状图的边缘颜色
for i in ax.containers:
    ax.bar_label(i,)  # 在每个柱状图上添加标签，显示每个类别的数量
ax.set_xticklabels(['Genuine', 'Fraud'])  # 设置x轴刻度标签为类别名称

plt.title('Fraud vs Genuine transactions in train data set')  # 设置子图标题
plt.show()  # 显示图形

4.1 不平衡数据需要不同的方法

我们有**99.8%的真实交易（218,660笔），只有0.214%**的欺诈交易（469笔）！

这意味着盲猜（押注真实交易）将给我们**99.8%**的准确率。

不要使用准确率作为不平衡数据集的度量标准 - 它通常会非常高且具有误导性（您可以使用AUC-ROC、召回率、F1分数等）。
考虑利用欠采样或过采样技术。
在训练测试拆分期间使用分层拆分。
在处理异常值时要特别小心（您可以删除有意义的信息）。

5 | 我们应该删除异常值吗？

5.1 检查训练数据集中的异常值

# 定义一个函数，用于绘制数据集中数值型变量的箱线图
# 参数包括数据集、数值型变量列表、行数、列数和总标题
def boxplots_custom(dataset, columns_list, rows, cols, suptitle):
    # 创建一个绘图对象和子图对象
    fig, axs = plt.subplots(rows, cols, sharey=True, figsize=(16,25))
    # 设置总标题
    fig.suptitle(suptitle,y=1, size=25)
    # 将子图对象展平为一维数组
    axs = axs.flatten()
    # 遍历数值型变量列表，绘制每个变量的箱线图
    for i, data in enumerate(columns_list):
        # 使用seaborn库的boxplot函数绘制箱线图
        sns.boxplot(data=dataset[data], orient='h', ax=axs[i])
        # 设置每个子图的标题，包括变量名和偏度值
        axs[i].set_title(data + ', skewness is: '+str(round(dataset[data].skew(axis = 0, skipna = True),2)))
        
# 调用函数，绘制训练集中数值型变量的箱线图
boxplots_custom(dataset=train_df, columns_list=numeric_columns, rows=10, cols=3, suptitle='Boxplots for each variable')
# 调整子图的布局
plt.tight_layout()

看起来我们在异常值方面有很大的问题：

巨大的异常值；
高度偏斜的数据；
很多异常值。

5.2 四分位距 (IQR)

Tukey’s (1977) 方法用于检测偏斜或非钟形分布的数据中的异常值，因为它不做分布假设。然而，对于小样本大小，Tukey’s 方法可能不适用。一般规则是，不在 (Q1 - 1.5 IQR) 和 (Q3 + 1.5 IQR) 范围内的任何值都是异常值，并可以被移除。

四分位距离（IQR）是最常用的异常值检测和移除方法之一。

过程：

找到第一四分位数，Q1。
找到第三四分位数，Q3。
计算 IQR。IQR = Q3-Q1。
将正常数据范围定义为下限为 Q1-1.5 IQR，上限为 Q3+1.5 IQR。

def IQR_method(df, n, features):
    """
    使用Tukey IQR方法，接受一个数据框并返回一个索引列表，该列表对应于包含n个以上异常值的观测值。
    """
    outlier_list = [] # 初始化一个空列表，用于存储异常值的索引
    
    for column in features: # 遍历每个特征列
        # 第一四分位数（25%）
        Q1 = np.percentile(df[column], 25)
        # 第三四分位数（75%）
        Q3 = np.percentile(df[column],75)
        # 四分位距（IQR）
        IQR = Q3 - Q1
        # 异常值步长
        outlier_step = 1.5 * IQR
        # 确定异常值索引列表
        outlier_list_column = df[(df[column] < Q1 - outlier_step) | (df[column] > Q3 + outlier_step )].index
        # 将异常值索引列表添加到总的异常值列表中
        outlier_list.extend(outlier_list_column)
        
    # 选择包含多于n个异常值的观测值
    outlier_list = Counter(outlier_list)        
    multiple_outliers = list(k for k, v in outlier_list.items() if v > n)
    
    # 计算低于和高于边界值的记录数
    out1 = df[df[column] < Q1 - outlier_step]
    out2 = df[df[column] > Q3 + outlier_step]
    
    # 打印删除的异常值总数
    print('删除的异常值总数为：', out1.shape[0]+out2.shape[0])
    
    return multiple_outliers

5.3 检测和删除异常值


# 使用IQR方法检测并处理离群值
Outliers_IQR = IQR_method(train_df, 1, numeric_columns)

# 在原始数据集中删除离群值，并重新设置索引
df_out = train_df.drop(Outliers_IQR, axis=0).reset_index(drop=True)

Total number of deleted outliers is: 20617

5.4我们做了什么？

# 打印输出在删除异常值之前数据集中的欺诈交易数量
print ('The amount of frauds in df before dropping outliers: ', len(train_df[train_df['Class'] == 1]))

# 打印输出在删除异常值之后数据集中的欺诈交易数量
print ('The amount of frauds in df after dropping outliers: ', len(df_out[df_out['Class'] == 1]))

The amount of frauds in df before dropping outliers:  469
The amount of frauds in df after dropping outliers:  188

通过删除异常值，我们丢失了约**40%的非常重要的数据！我们不应该这样做！**

我们有几个选择，但对于这项研究，我们将回到删除异常值之前的阶段。这里一个非常有趣的选择是创建一个仅包含异常值的新数据框。您可以在此处查看此方法的结果：

https://www.kaggle.com/code/marcinrutecki/credit-card-fraud-detection-tensorflow

返回目录

6 | 处理重复值

# 打印数据集中重复值的数量
print('Number of duplicated values in dataset: ', train_df.duplicated().sum())

Number of duplicated values in dataset:  94

# 复制train_df数据框并赋值给df
df = train_df.copy()

# 删除df数据框中的重复行
df.drop_duplicates(inplace=True)

# 打印提示信息，表示重复值已成功删除
print("Duplicated values dropped succesfully")

# 打印100个"*"，用于分隔输出信息
print("*" * 100)

Duplicated values dropped succesfully
****************************************************************************************************

让我们检查一下是否有任何欺诈交易被删除了。这很重要，因为如果是这样的话，我们应该再次考虑它们是否是真正的重复交易。

# 打印在去除重复值之前df中的欺诈数量
print ('The amount of frauds in df before dropping duplicates: ', len(train_df[train_df['Class'] == 1]))

# 打印在去除重复值之后df中的欺诈数量
print ('The amount of frauds in df after dropping duplicates: ', len(df[df['Class'] == 1]))

The amount of frauds in df before dropping duplicates:  469
The amount of frauds in df after dropping duplicates:  469

如我们所见，我们没有丢失任何重要的数据。

返回目录

7 | 相关性

# 创建一个11x11的图像
plt.figure(figsize=(11, 11))

# 计算数据集的相关系数矩阵
corr = df.corr()

# 创建一个与相关系数矩阵相同形状的布尔矩阵，上三角为True，下三角为False
mask = np.triu(np.ones_like(corr, dtype=bool))

# 使用热力图可视化相关系数矩阵，只显示上三角部分，颜色映射为viridis
sns.heatmap(corr, mask=mask, robust=True, center=0, square=True, cmap="viridis", linewidths=.6)

# 设置图像标题
plt.title('Correlation Table')

# 显示图像
plt.show()


# 创建一个大小为7x4的图形
plt.figure(figsize=(7,4))

# 计算数据框df中'Class'列与其他列的相关系数，并取绝对值，按照相关系数的大小进行排序，并绘制柱状图
d = df.corr()['Class'][:-1].abs().sort_values().plot(kind='bar', title='Highly correlated features with Class')

返回目录

8 | 更多可视化



# 设置绘图大小
plt.figure(figsize=(10,10))

# 绘制联合分布图，x轴为V3，y轴为V1，颜色按照Class分类，数据来源为df，调色板为dark，点的大小为9
sns.jointplot(x='V3', y='V1',hue='Class', data=df, palette='dark', s=9)


# 设置图形大小
plt.figure(figsize=(10,10))

# 创建联合图
# x轴为特征V14，y轴为特征V8
# 根据Class变量的不同值对数据点进行着色
# 使用'dark'调色板进行着色
# 设置数据点的大小为6
sns.jointplot(x='V14', y='V8', hue='Class', data=df, palette='dark', s=6)

返回目录

你可能感兴趣的:(数据挖掘,数据分析,数据挖掘)

大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）小Tomkk 大数据大数据数据挖掘首席数据官数据合规师数据安全数据科学家
大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）文章目录大数据相关职位介绍之三（数据挖掘，数据安全，数据合规师，首席数据官，数据科学家）1.数据挖掘工程师（DataMiningEngineer）2.数据安全工程师（DataSecurityEngineer）3.数据合规师（DataComplianceOfficer）4.首席数据官（CDO-ChiefDataOffic
Vue和Vue-Element-Admin（十）：HTML和CSS快速学习笔记 A叶子叶 #Vue与Web开发 vue.js html css
目录html标签分类网页布局盒子模型浮动定位css标签选择flex布局transform转换Vue开发tipsless和scssVScode常用插件后端语言框架很多，Java适合企业级应用（规范且稳定），Go适合高并发场景（比如云上产品），Python框架（bottle，tornado，django）简单且快速，也天然适合数据分析场景，PHP适合快速建站，前端变化小，所见即所得，因此抽空记录下学习
大数据（一）MaxCompute 胖当当技术架构云计算 odps 学习大数据
一、引言作者后面会使用MaxCompute，所以在进行学习研究，总会有一些疑问产生，这里讲讲作者的疑问和思路二、介绍MaxCompute（原名ODPS-OpenDataProcessingService）是阿里云提供的大数据处理平台，专门用于批量数据存储和大规模并行计算。它广泛应用于数据分析和处理任务，为企业级数据处理提供高效的解决方案。下面是MaxCompute的一些主要功能和应用场景：大规模数
[利用Python加载和处理网址内容：从Unstructured到Selenium和Playwright] bhawfgrcbtwny python selenium 开发语言
引言在现代网页数据分析中，加载和处理来自多种网址的内容是一个常见需求。无论是数据挖掘还是网页内容分析，我们常常需要从多个网页中提取HTML文档。本篇文章将介绍如何利用Python中的Unstructured、Selenium和Playwright库来加载这些网页内容，并将其转换为适合后续处理的文档格式。主要内容UnstructuredURLLoaderUnstructuredURLLoader可以
Highcharts 条形图：数据可视化的利器 lly202406 开发语言
Highcharts条形图：数据可视化的利器引言在数据分析和可视化领域，Highcharts是一个广受欢迎的JavaScript图表库。它以其易用性、灵活性和丰富的图表类型而著称。其中，条形图作为一种基础但功能强大的图表类型，被广泛应用于各种场景，以直观地展示数据分布和比较。本文将深入探讨Highcharts中的条形图，包括其基本用法、高级配置以及在实际应用中的最佳实践。什么是Highcharts
Python 安装 Geopandas (亲测有效) 顾润治
Python安装Geopandas(亲测有效)Python安装Geopandas亲测有效项目地址:https://gitcode.com/Resource-Bundle-Collection/8a355简介本资源文件提供了在Python环境中安装Geopandas库的详细步骤和相关依赖库的下载链接。Geopandas是一个用于处理地理空间数据的Python库，广泛应用于GIS数据分析和处理。安装步
Oracle 分区在什么情况下使用？思维导图代码示例（java 架构) 用心去追梦 oracle java 架构
Oracle分区的适用场景Oracle分区（Partitioning）是一种强大的数据管理工具，适用于特定类型的数据库工作负载和数据结构。以下是一些适合使用分区的情况：1.大型表优化超大数据量：当表包含数百万甚至数十亿行时，分区可以帮助提高查询性能。频繁更新：对于经常被插入、更新或删除的数据，分区可以减少锁定范围，提高并发性。2.数据仓库历史数据分析：在数据仓库中，通常会存储多年的历史数据。通过按
Highcharts 柱形图：深入解析与最佳实践 lsx202406 开发语言
Highcharts柱形图：深入解析与最佳实践引言Highcharts是一个功能强大的图表库，它允许用户轻松地在网页上创建各种类型的图表。其中，柱形图因其直观的展示方式，在数据分析、业务报告等领域得到了广泛应用。本文将深入解析Highcharts柱形图，包括其基本用法、高级特性以及最佳实践。高charts柱形图的基本用法1.初始化图表首先，需要在HTML文件中引入Highcharts库。以下是一个
【爬虫】JS逆向解决蝉妈妈加密参数data 秋无之地爬虫JS逆向 python 爬虫 js逆向
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关目录一、先打开目标网站，打开F12调试模式二、通过刷新页面定位接口，并找到接口上的加密参数data三、打开启动器（Initiator）
Go+ 下个里程碑：超越 cgo，无缝对接 C 语言 xushiweizh 编译器编程语言 python 人工智能 java
去年（2021年）Go+的slogan从“面向数据科学”的语言升级到了“面向工程、STEM教育与数据科学”三位一体的语言。也就是说，我们希望Go+可以同时被软件工程师、中小学生、数据分析师这三个截然不同的人群所广泛使用。对Go+来说，“面向数据科学”这个目标注定有非常长远的路要走。所以去年Go+的版本迭代主要精力都花在了“低门槛”上。我们努力让Go+的使用门槛低到和Python相当的水平。这是从G
kylin套_Apache Kylin（一）Kylin介绍 weixin_39898011 kylin套
1.传统大数据分析的问题在基于Hadoop生态的传统大数据分析中，主要使用的技术是MPP(MassivelyParallelProcessing)大规模并行处理和列式存储。MPP使用线性增加计算资源换取计算时间的线性下降，列式存储可以提高读取数据的速率。两者结合可以使得基于Hadoop的SQL查询速度从小时级降为分钟级。不过分钟级别的查询响应仍未达到交互式分析级别，主要问题在于：MPP以及列式存储
可视化大屏梦屿千寻！！信息可视化
可视化大屏是一种利用计算机图形学技术，将复杂的数据和信息转换为直观的可视化图形，以呈现数据信息的工具。它不仅在电影中常见，而且已经实实在在地被应用在商业、金融、制造等各个行业的业务场景中，成为大数据分析和展示的重要工具。一、可视化大屏的特点直观性：通过图形、图表、地图等可视化元素，将复杂的数据直观展示出来，便于用户快速理解。实时性：支持实时更新数据，使用户能够随时掌握最新情况。高效性：一次性处理大
从零开始构建一个简单的Python Web爬虫实战指南与技巧一键难忘 python 前端爬虫 Python Web
从零开始构建一个简单的PythonWeb爬虫实战指南与技巧随着数据科学和大数据分析的快速发展，网络爬虫（WebScraping）成为了获取互联网数据的重要工具。通过爬虫，我们可以自动化地从网页上获取各种信息，如新闻、产品价格、社交媒体内容等。本文将带您从零开始，使用Python构建一个简单的Web爬虫，抓取网页内容并保存数据。Web爬虫的基本概念什么是Web爬虫？Web爬虫（也称为网络蜘蛛或抓取器
Python数据的筛选、排序与聚合大数据张老师 Python程序设计 python 开发语言 Python数据处理
Python数据的筛选、排序与聚合在数据分析过程中，我们常常需要对数据进行筛选、排序和聚合操作，以便从数据集中提取有价值的信息。这些操作是数据预处理和分析的基础，尤其在处理大型数据集时，能够帮助我们快速定位关键数据，进行进一步的分析。Pandas提供了强大的工具来支持这些操作，主要通过对Series和DataFrame的相关方法进行操作来实现。本节将详细讲解如何使用Pandas的Series和Da
量化交易系统中+如何实现实时数据分析和决策支持？ openwin_top 量化交易系统开发数据分析数据挖掘数据库架构量化交易机器学习人工智能
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在量化交易系统中，实现实时数据分析和决策支持是至关重要的。以下是详细的步骤和示例，说明如何实现这一目标。1.数据收集首先，需要收集实时市场数据。这些数据通常来自交易所、市场数据供应商或其他金融数据服
Arcpy点点滴滴学习教程梅里雪山GIS Python Arcgis python arcgis
Arcpy点点滴滴学习教程第1章ArcPy简介1.1什么是ArcPy？ArcPy是一个以成功的arcgisscripting模块为基础并继承了arcgisscripting功能进而构建而成的站点包。目的是为以实用高效的方式通过Python执行地理数据分析、数据转换、数据管理和地图自动化创建基础。该包提供了丰富纯正的Python体验，具有代码自动完成功能（输入关键字和点即可获得该关键字所支持的属性和
智能风控/数据分析聚合分组连接やっはろ数据分析数据分析 pandas 数据挖掘
目录data。head（）查看前几行配环境添加环境变量聚合groupby方法基本用法分组示例聚合操作示例转换操作示例过滤操作示例实例方法示例总结apply方法结合使用groupby和applymerge聚合基本语法参数说明【连接键】DataFrame示例内连接（INNERJOIN）左连接（LEFTJOIN）右连接（RIGHTJOIN）真实全外连接（FULLOUTERJOIN）示例内连接（INNER
《解锁AI黑科技：数据分类聚类与可视化》程序猿阿伟人工智能科技分类
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
数据挖掘常用算法优缺点分析天波烟客00 数据挖掘数据挖掘机器学习
领取机器学习视频教程：http://www.admin444.com/P-c8129a48常用的机器学习、数据挖掘方法有分类，回归，聚类，推荐，图像识别等。在实际应用中，一般都是采用启发式学习方式来实验。偏差&方差偏差：描述的是预测值（估计值）的期望与真实值之间的差距，偏差越大，越偏离真实数据。偏差bias其实是模型太简单而带来的估计不准确的部分---欠拟合方差：描述的是预测值的变化范围、离散程度
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
Scikit-learn提供了哪些机器学习算法以及如何使用Scikit-learn进行模型训练和评估 Java资深爱好者机器学习 scikit-learn 算法
Scikit-learn库的使用一、Scikit-learn提供的机器学习算法Scikit-learn（通常简称为sklearn）是一个广泛使用的Python机器学习库，它提供了多种用于数据挖掘和数据分析的算法。Scikit-learn支持的机器学习算法可以大致分为以下几类：分类算法：支持向量机（SVM）随机森林（RandomForest）逻辑回归（LogisticRegression）朴素贝叶斯
数据挖掘常用算法 kaiyuanheshang AI 数据挖掘算法人工智能
文章目录基于机器学习~~线性/逻辑回归~~树模型~~贝叶斯~~~~聚类~~集成算法神经网络~~支持向量机~~~~降维算法~~基于机器学习线性/逻辑回归类似单层神经网络y=k*x+b树模型优点可以做可视化分析速度快结果稳定依赖前期对业务和数据的理解贝叶斯贝叶斯依赖先验概率，先验知识越准，结果越好聚类集成算法xgboostlightbgm神经网络在文本、视觉领域效果非常好。但是过程黑盒，缺乏解释性支持
22章2节：如何在 R Markdown 和 R Notebook 中创建使用 DAT｜R科学用R探索医药数据科学 r语言开发语言
RMarkdown是一种广泛使用的工具，可以帮助数据科学家、统计学家和研究人员创建动态和交互式的报告。它结合了R语言的强大数据处理和分析能力，以及Markdown的简洁易用的文本格式，使得创建专业和美观的报告变得更加简单和高效。同时，RNotebook是一种交互式文档格式，它将叙述性文本、数据可视化以及其他多媒体组件与用R语言编写的代码结合在一起。RNotebook使用户能够创建和分享包含数据分析
Java与Kafka：消息队列使用指南墨瑾轩一起学学Java【一】java kafka linq
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣大家好呀！今天我们要来聊聊如何使用Java语言与ApacheKafka搭建消息队列系统。Kafka是一款分布式流处理平台，它能够高效地处理大量实时数据。无论是构建实时数据分析系统还是简单的消息队列应用，Kafka都能胜任。那么，我们就开始吧！什么是Kafka？
AI真的能理解我们这个现实物理世界吗？深度剖析原理、实证及未来走向 AI_DL_CODE 人工智能深度学习 AI AI理解世界
摘要：当下，AI与深度学习广泛渗透生活各领域，大模型与海量数据加持下，其是否理解现实物理世界引发热议。文章开篇抛出疑问，随后深入介绍AI深度学习基础，包含神经网络架构、反向传播算法。继而列举AI在物理场景识别、实验数据分析中显露的“理解”迹象，也点明常识性错误、极端场景失效这类反例。从信息论、物理启发式算法剖析理论支撑，探讨融合物理知识路径，并延展至跨学科应用、评估维度、伦理社会问题，最终展望AI
【实用技能】如何借助Excel处理控件Aspose.Cells，使用 C# 锁定 Excel 中的单元格 CodeCraft Studio 文档管理控件 excel c#开发语言
锁定Excel中的单元格对于数据完整性至关重要。它可以防止用户更改重要信息。此功能广泛用于财务、项目管理和数据分析。通过锁定单元格，您可以确保关键数据保持不变。这可以增强协作并减少错误。在这篇博文中，我们将探讨如何使用C#锁定Excel中的单元格。C#Excel库用于锁定或解锁单元格Aspose.Cellsfor.NET是一个功能强大的Excel文件处理库。它简化了Excel中锁定单元格等任务。使
大语言模型丨ChatGPT-4o深度科研应用、论文与项目撰写、数据分析、机器学习、深度学习及AI绘图（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）赵钰老师 ChatGPT python 人工智能语言模型深度学习数据分析 chatgpt 机器学习随机森林
目录第一章、2024大语言模型最新进展与ChatGPT各模型第二章、ChatGPT-4o提示词使用方法与高级技巧（最新加入思维链及逆向工程及GPTs）第三章、ChatGPT4-4o助力日常生活、学习与工作第四章、基于ChatGPT-4o课题申报、论文选题及实验方案设计第五章、基于ChatGPT-4o信息检索、总结分析、论文写作与投稿、专利idea构思与交底书的撰写第六章、ChatGPT-4o编程入
【python】在【机器学习】与【数据挖掘】中的应用：从基础到【AI大模型】小李很执着杂乱无章机器学习数据挖掘 python 人工智能语言模型
目录一、Python在数据挖掘中的应用1.1数据预处理数据清洗数据变换数据归一化高级预处理技术1.2特征工程特征选择特征提取特征构造二、Python在机器学习中的应用2.1监督学习分类回归2.2非监督学习聚类降维三、Python在深度学习中的应用3.1深度学习框架TensorFlowPyTorch四、Python在AI大模型中的应用4.1大模型简介4.2GPT-4o实例五、实例验证5.1数据集介绍
《解锁AI黑科技：数据分类聚类与可视化》人工智能深度学习数据挖掘
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
园区智能化系统实现管理与服务的智能化转型与创新进阶快鲸智慧楼宇管理系统其他
内容概要园区智能化系统的出现，标志着管理与服务向智能化转型的重要一步。这一系统不仅仅是一个技术解决方案，更是一个全面提升园区运营效率与安全性的独特工具。通过集成大数据分析、物联网和人工智能，园区智能化系统能够为各类园区如工业园、产业园、物流园、写字楼与公寓等提供切实可行的解决方案。“智能化管理不仅是未来的发展趋势，更是提升竞争力的必要手段。”在资产管理方面，智能化系统能够实时监控并优化资源的配置，
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite