Sarapines Programmer

Python | 机器学习之数据清洗

个人主页：Sarapines Programmer
系列专栏：《人工智能奇遇记》
少年有梦不应止于心动，更要付诸行动。

目录结构

1. 机器学习之数据清洗概念

1.1 机器学习

1.2 数据清洗

2. 数据清洗

2.1 实验目的

2.2 实验准备

2.3 实验原理

2.4 实验内容

2.4.1 获取数据，整体去重;

2.4.2 整体查看数据类型以及缺失情况;

2.4.3 删除缺失率过高的变量;

2.4.4 删除不需要入模的变量;

2.4.5 删除文本型变量，有缺失值行;

2.4.6 修复变量类型;

2.4.7 变量数据处理方式划分;

2.4.8 变量数据处理方式划分;

2.4.9 拼接数据处理流水线.

2.5 实验心得

1. 机器学习之数据清洗概念

1.1 机器学习

传统编程要求开发者明晰规定计算机执行任务的逻辑和条条框框的规则。然而，在机器学习的魔法领域，我们向计算机系统灌输了海量数据，让它在数据的奔流中领悟模式与法则，自主演绎未来，不再需要手把手的指点迷津。

机器学习，犹如三千世界的奇幻之旅，分为监督学习、无监督学习和强化学习等多种类型，各具神奇魅力。监督学习如大师传道授业，算法接收标签的训练数据，探索输入与输出的神秘奥秘，以精准预测未知之境。无监督学习则是数据丛林的探险者，勇闯没有标签的领域，寻找隐藏在数据深处的秘密花园。强化学习则是一场与环境的心灵对话，智能体通过交互掌握决策之术，追求最大化的累积奖赏。

机器学习，如涓涓细流，渗透各行各业。在图像和语音识别、自然语言处理、医疗诊断、金融预测等领域，它在智慧的浪潮中焕发生机，将未来的可能性绘制得更加丰富多彩。

1.2 数据清洗

数据清洗，曲调优美的数据魔法，是数据分析与机器学习的不可或缺篇章。其目标在于在数据舞台登场前，发掘、矫正或祛除问题、不准确、不完整或无效的角色，以确保数据的绝对贵族品质，从而让分析和建模的舞台更加光彩夺目。

主要任务包括：

缺失值魔法：发现并施展缺失值的魔法，通过填充、删除或其他巧妙手法，为数据赋予完美的元素。

异常值舞台：挑战并征服异常值，这些幽灵可能源于数据输入的误差、设备的叛变等。

重复值消失术：感知并消除数据舞台上的重复记录，确保数据的独特华丽，让每个角色都是独一无二的明星。

数据格式魔咒：将数据转换为统一的魔法符号，使其更适合于分析和建模的神奇仪式。

一致性合唱：在数据的音乐殿堂中，确保不同部分之间的和谐奏鸣，让数据流畅一致。

数据变形技艺：对数据进行变形，使其适用于特定的分析或建模任务。

噪音降妖：发现并减弱数据中的噪音，提升数据的纯净度。

数据清洗，是数据分析的星光耀眼的序幕，因为原始数据集可能蕴含各种幽灵，而这些隐患将影响最终分析和建模的辉煌表演。通过巧妙的数据清洗，数据的可靠性得以提升，为分析和模型的绚丽演绎打下坚实基石。

机器学习程序源文件https://download.csdn.net/download/m0_57532432/88521177?spm=1001.2014.3001.5503

2. 数据清洗

2.1 实验目的

（1）了解数据清洗的重要性；

（2）掌握数据清洗基本方法。

2.2 实验准备

（1）安装机器学习必要库，如NumPy、Pandas、Scikit-learn等；

（2）配置环境用来运行 Python、Jupyter Notebook和相关库等内容。

2.3 实验原理

在数据清洗中，针对不同情况需采取相应措施。发现重复记录或同义但不同名称情况时，进行去重或标准化，确保记录唯一一致。处理数据类型不匹配，如字符串误标为数值型，进行类型转换或纠正，确保每个特征正确类型。

同时，对连续型变量的缺失值进行处理。可选择删除含缺失值记录、用均值或中位数填充，或利用插值方法估算缺失值。保证数据集在缺失值方面完整，以确保后续分析和建模的有效进行。

2.4 实验内容

导入必要的库函数:

图1-1

代码：

# -*- coding: utf-8 -*-

import os

import pandas as pd

import numpy as np



np.set_printoptions(suppress=True,   precision=20,  threshold=10,  linewidth=40)

# np禁止科学计数法显示

pd.set_option('display.float_format',lambda x : '%.2f' % x)

# pd禁止科学计数法显示

2.4.1 获取数据，整体去重;

图1-2

代码：

data1 = pd.read_csv('./data/test_health.csv') #读取数据

data1

图1-3

代码：

data1.drop_duplicates(inplace=True) # 使用drop_duplicates去重，删除重复出现的行

data1

图1-4

代码：

data1.reset_index(drop=True, inplace=True) # 重置索引

data1

2.4.2 整体查看数据类型以及缺失情况;

图1-5

代码：

data1.info() #整体查看数据类型,根据数量查看是否缺失

2.4.3 删除缺失率过高的变量;

图1-6

运行结果

图1-7

代码：

# 定义查找缺失变量函数，返回缺失值率>指定缺失率(narate)的列表

def selectByNan(data, narate=0.2):

    '''

    :param data: 查找数据集

    :param narate: 设定变量的缺失值率，默认20%

    :return: 返回缺失率>narate的变量名称列表

    '''

    dataNumber = data.shape[0]  # 获取数据集的样本量

    NanList = []  # 存储缺失率大于指定缺失率的变量名称列表



    # 遍历数据集的每一列

    for col in data.columns:

        # 计算每一列的缺失值率，并与指定缺失率进行比较

        if (data[col].isna().sum() / dataNumber) >= narate:

            NanList.append(col)  # 如果缺失值率大于指定缺失率，则将变量名称添加到NanList中



    # 打印缺失值率大于指定缺失率的变量名称列表

    print(f'缺失量在{narate * 100}%以上的变量有:{NanList}')



    return NanList  # 返回缺失值率大于指定缺失率的变量名称列表





# 调用selectByNan函数，查找缺失值率大于指定缺失率的变量，并将其存储在listNeedDrop中

listNeedDrop = selectByNan(data1, narate=0.2)



# 在data1上调用drop方法删除listNeedDrop中的变量列，并创建data2作为副本

data2 = data1.drop(listNeedDrop, axis=1).copy()



data2

# 返回删除指定列后的data1副本data2

2.4.4 删除不需要入模的变量;

图1-8

运行结果

图1-9

代码：

# 删除比如日期类型 loan_rct_end_date，客户编号 cus_no等

listNeedDrop = ['cus_no','loan_rct_end_date']  # 创建一个包含不需要入模的变量的列表



data2.drop(listNeedDrop, axis=1, inplace=True) 

# 使用DataFrame的drop方法删除指定的列

# 参数listNeedDrop是要删除的列名的列表

# axis=1表示按列删除，axis=0表示按行删除

# inplace=True表示在原始DataFrame上进行修改

data2

# 返回删除指定列后的DataFrame对象

2.4.5 删除文本型变量，有缺失值行;

图1-10

结果如下：

图1-11

图1-12

代码：

# 查找文本型函数变量名列表

def get_object_list(data, print_value=False):

    '''

    :param data: 要查找的数据集

    :param print_value: 是否打印文本型列的具体数据，默认为False

    :return: 返回文本型变量名列表

    '''

    object_list = []  # 存储文本型变量名的列表



    # 遍历数据集的每一列

    for col in data.columns:

        # 检查每一列的数据类型是否为object（文本型）

        if str(data[col].dtype) == 'object':

            object_list.append(col)  # 如果是文本型变量，则将其名称添加到object_list中

            if print_value == True:  # 如果设置了print_value为True，则打印文本型列的具体数据

                print(data[col].value_counts())

                print(f'-' * 50)



    return object_list  # 返回文本型变量名列表



# 调用get_object_list函数，查找data2中的文本型变量，并将print_value设置为True

object_list = get_object_list(data2, True)



# 输出文本型变量名列表

object_list



# 情况3，删除文本型变量中有空值的行

data2.dropna(subset=object_list, axis=0, inplace=True)

# 使用dropna方法删除包含文本型变量中任何空值的行

# 参数subset指定要考虑的列（文本型变量列）

# axis=0表示按行删除

# inplace=True表示在原始DataFrame上进行修改



data2.reset_index(drop=True, inplace=True)

# 使用reset_index方法重置行索引，并丢弃旧的索引

# 参数drop=True表示丢弃旧的索引

# inplace=True表示在原始DataFrame上进行修改



data2

# 返回删除了包含文本型变量中任何空值的行并重置索引后的data2

2.4.6 修复变量类型;

图1-13

代码如下：

data2.info() #整体查看数据类型,根据数量查看是否缺失

图1-14

代码如下：

# 查找float类型

def isfloatnum(string):

    '''

    检查字符串是否为浮点数

    :param string: 要检查的字符串

    :return: 如果是浮点数返回True，否则返回False

    '''

    list_str = string.split('.')  # 将字符串按照小数点进行分割

    if len(list_str) > 2:  # 如果分割后的列表长度大于2，说明小数点不止一个，不是浮点数

        return False

    else:

        for num in list_str:

            if not num.isdigit():  # 如果分割后的列表中有元素不是数字，不是浮点数

                return False

        return True  # 否则是浮点数



# 查找连续型变量是否有字符串情况存在

def find_str_innum(data):

    '''

    通过检查传入数据集中object类型的变量，统计字符串str_sum数量 以及 浮点数/整数 int_num数量

    :param data: 传入需要检查的数据集

    :return: 包含object类型变量、数值型和字符串统计的DataFrame。列包括object_facname（变量名）、sample_num（样本量）、str_sum（文本数据量）、float/int_sum（浮点数/整数数据量）、str_detail（字符串详细内容）

    '''

    df_find_str_innum = pd.DataFrame(columns=['object_facname', 'sample_num', 'str_sum', 'float/int_sum', 'str_detail'])

    num_index = 0

    # 遍历数据集的每一列

    for col in data.columns:

        if str(data[col].dtype) == 'object':  # 检查列的数据类型是否为object（文本型）

            n_samples = data[col].shape[0]  # 样本量

            sum_str = 0  # 文本数据量

            sum_float = 0  # 浮点数/整数数据量

            list_detail = []  # 存储字符串详细内容的列表



            for value in data[col]:

                if isfloatnum(value) or value.isdigit():  # 如果值是浮点数或整数

                    sum_float += 1

                else:  # 否则是字符串

                    sum_str += 1

                    list_detail.append(value)



            if n_samples != sum_str:  # 如果样本量不等于文本数据量，说明该列还包含其他类型的数据（浮点数/整数）

                list_detail = np.unique(list_detail)  # 去重字符串详细内容

                str_detail = ','.join(list_detail)  # 将字符串详细内容以逗号连接

            else:

                str_detail = ''



            df_find_str_innum.loc[num_index] = [col, n_samples, sum_str, sum_float] + [str_detail]  # 添加到结果DataFrame

            num_index += 1



    return df_find_str_innum



# 调用find_str_innum函数，传入数据集data2，获得包含统计信息的DataFrame

df_find_str_innum = find_str_innum(data2)



df_find_str_innum

# 返回

图1-15

代码如下：

data2.drop(data2[(data2['test1'] == 'Na') |(data2['test1'] == 'unknown')].index, inplace=True)

data2.reset_index(drop=True, inplace=True) # 恢复索引

data2

图1-16

代码如下：

# 将test1转换为float类型

data2['test1'] = data2['test1'].astype(float)

data2.info()

2.4.7 变量数据处理方式划分;

图1-17

代码如下：

# 需要对数据进行划分

# ① 取数值、连续类型的数据

list_train_num = ['baseline value','fetal_movement','uterine_contractions','light_decelerations',

                  'severe_decelerations','prolongued_decelerations','abnormal_short_term_variability',

                  'mean_value_of_short_term_variability','percentage_of_time_with_abnormal_long_term_variability',

                  'mean_value_of_long_term_variability','histogram_width',

                  'histogram_min','histogram_max','histogram_number_of_peaks','histogram_number_of_zeroes',

                  'histogram_mode','histogram_mean','histogram_median','histogram_variance',

                  'histogram_tendency',

                  'test1','test2']



# ②取文本/离散、无需独热编码 类型的数据（类似 住宅类型、就业类型 等字段）

list_train_str = ['sex','employ']



# ③取文本/离散、需 独热编码 类型的数据（类似 教育水平分类 等变量）

list_train_str_needtrf = ['reside_type','agetype']



# 查看训练集空值情况（此时只剩数值型空值，其他类型的数据都被处理了）

data2[data2.isnull().any(axis=1)].head()

源码解释如下：

list_train_num: 创建一个包含数值、连续类型数据的列表。该列表包含了一系列数值型变量的名称，例如'baseline value'、'fetal_movement'等。

list_train_str: 创建一个包含文本/离散、无需独热编码的数据类型的列表。该列表包含了一系列文本型变量的名称，例如'sex'、'employ'等。

list_train_str_needtrf: 创建一个包含文本/离散、需要独热编码的数据类型的列表。该列表包含了一系列需要进行独热编码的变量的名称，例如'reside_type'、'agetype'等。

data2[data2.isnull().any(axis=1)].head(): 使用isnull().any(axis=1)方法检查data2中是否存在空值，并返回含有空值的行。.head()用于查看返回结果的前几行。这里的目的是查看训练集中数值型变量的空值情况。

图1-18

图1-19

代码如下：

# 数据清洗函数定义

from sklearn.impute import SimpleImputer

from sklearn.base import BaseEstimator, TransformerMixin

from sklearn.preprocessing import LabelEncoder

from sklearn.preprocessing import LabelBinarizer

from sklearn.utils import check_array

from scipy import sparse



class CategoricalEncoder(BaseEstimator, TransformerMixin):

    """将分类特征编码为数字数组。

    此函数输入 分类的整数矩阵 或 字符串矩阵,

    将把分类（离散）特征所具有的值转化为数组

    """



    def __init__(self, encoding='onehot', categories='auto', dtype=np.float64,

                 handle_unknown='error'):

        self.encoding = encoding

        self.categories = categories

        self.dtype = dtype

        self.handle_unknown = handle_unknown



    def fit(self, X, y=None):

        """Fit the CategoricalEncoder to X.

        Parameters

        ----------

        X : array-like, shape [n_samples, n_feature]

            The data to determine the categories of each feature.

        Returns

        -------

        self

        """

       

        # 报错预警

        if self.encoding not in ['onehot', 'onehot-dense', 'ordinal']:

            template = ("encoding should be either 'onehot', 'onehot-dense' "

                        "or 'ordinal', got %s")

            raise ValueError(template % self.handle_unknown)



        if self.handle_unknown not in ['error', 'ignore']:

            template = ("handle_unknown should be either 'error' or "

                        "'ignore', got %s")

            raise ValueError(template % self.handle_unknown)



        if self.encoding == 'ordinal' and self.handle_unknown == 'ignore':

            raise ValueError("handle_unknown='ignore' is not supported for"

                             " encoding='ordinal'")



        X = check_array(X, dtype=np.object, accept_sparse='csc', copy=True)

        n_samples, n_features = X.shape # n_samples 样本数，n_features 特征数



        self._label_encoders_ = [LabelEncoder() for n_f in range(n_features)]



        for i in range(n_features):

            le = self._label_encoders_[i]

            Xi = X[:, i]

            if self.categories == 'auto':

                le.fit(Xi)

            else:

                valid_mask = np.in1d(Xi, self.categories[i])

                if not np.all(valid_mask):

                    if self.handle_unknown == 'error':

                        diff = np.unique(Xi[~valid_mask])

                        msg = ("Found unknown categories {0} in column {1}"

                               " during fit".format(diff, i))

                        raise ValueError(msg)

                le.classes_ = np.array(np.sort(self.categories[i]))



        self.categories_ = [le.classes_ for le in self._label_encoders_]



        return self



    def transform(self, X):

        """Transform X using one-hot encoding.

        Parameters

        ----------

        X : array-like, shape [n_samples, n_features]

            The data to encode.

        Returns

        -------

        X_out : sparse matrix or a 2-d array

            Transformed input.

        """

        X = check_array(X, accept_sparse='csc', dtype=np.object, copy=True)

        n_samples, n_features = X.shape



       

        X_int = np.zeros_like(X, dtype=np.int) # 构建一个和 X 维度相同的

        X_mask = np.ones_like(X, dtype=np.bool) # 构建一个和 X 维度相同的



        for i in range(n_features): # 对每个变量开始循环

            valid_mask = np.in1d(X[:, i], self.categories_[i])

           

            if not np.all(valid_mask):

                if self.handle_unknown == 'error':

                    diff = np.unique(X[~valid_mask, i])

                    msg = ("Found unknown categories {0} in column {1}"

                           " during transform".format(diff, i))

                    raise ValueError(msg)

                else:

                    # Set the problematic rows to an acceptable value and

                    # continue `The rows are marked `X_mask` and will be

                    # removed later.

                    X_mask[:, i] = valid_mask # unique矩阵赋予X_mask

                    X[:, i][~valid_mask] = self.categories_[i][0]

            X_int[:, i] = self._label_encoders_[i].transform(X[:, i])



        if self.encoding == 'ordinal':

            return X_int.astype(self.dtype, copy=False)



        mask = X_mask.ravel() # .ravel()将矩阵向量化



        n_values = [cats.shape[0] for cats in self.categories_]



        n_values = np.array([0] + n_values)

        indices = np.cumsum(n_values)



        column_indices = (X_int + indices[:-1]).ravel()[mask]

        # 找到该变量某个离散值中的所有的列索引

        row_indices = np.repeat(np.arange(n_samples, dtype=np.int32),

                                n_features)[mask]

        data = np.ones(n_samples * n_features)[mask]



       

        out = sparse.csc_matrix((data, (row_indices, column_indices)),

                                shape=(n_samples, indices[-1]),

                                dtype=self.dtype).tocsr()

        # out = out[:,1:]

        # 这里为one_hot,如果要转换成哑变量需要将状态进行k-1删除，防止虚拟陷阱！

       

        if self.encoding == 'onehot-dense':

            return out.toarray()

        else:

            return out

       

       

class DataFrameSelector(BaseEstimator, TransformerMixin):

    def __init__(self, attribute_names):

        self.attribute_names = attribute_names

    def fit(self, X, y=None):

        return self

    def transform(self, X):

        return X[self.attribute_names].values

   

   

class ExeLabelEncoder(BaseEstimator, TransformerMixin):

    def __init__(self):

        self._stretltype = 1



    def fit(self, X, y=None):

        return self



    def transform(self, X):



        encoder = LabelEncoder()

        n_samples, n_features = X.shape

        arr = np.zeros_like(X, dtype=np.int)



        for whlist in range(X.shape[1]):

            arr[:, whlist] = encoder.fit_transform(X[:, whlist])

        return arr

2.4.8 变量数据处理方式划分;

图1-20

代码如下：

from sklearn.model_selection import train_test_split



# 如果为监督学习则需要复制标签，如果无监督学习则不需要下方复制标签的代码

data2_labels = data2["end_pay_off_flag"].copy() # 复制标签

data2.drop(["end_pay_off_flag"], axis=1,inplace=True) # 删除逾期标签



# 30%数据做测试集

Xtrain, Xtest, Ytrain, Ytest = train_test_split(data2, data2_labels, test_size=0.3, random_state=42)

Xtrain

源码分析：

1.导入train_test_split函数，该函数用于划分数据集为训练集和测试集。

2.根据注释中的说明，如果是监督学习任务，则需要复制标签列，如果是无监督学习任务，则不需要复制标签列。在这里，假设是监督学习任务，因此需要复制标签列。

3.通过data2["end_pay_off_flag"].copy()将标签列（"end_pay_off_flag"）复制到data2_labels变量中。

4.使用data2.drop(["end_pay_off_flag"], axis=1, inplace=True)从data2数据集中删除标签列，即在原始数据集上进行修改。

调用train_test_split函数，并传入以下参数：

data2：要划分的特征数据集。

data2_labels：复制的标签数据集。

test_size=0.3：测试集的比例为30%。

random_state=42：设置随机种子，以确保每次划分的结果都相同。

函数返回四个数据集：

Xtrain：训练集的特征数据。

Xtest：测试集的特征数据。

Ytrain：训练集的标签数据。

Ytest：测试集的标签数据。

2.4.9 拼接数据处理流水线.

图1-21

图1-22

代码如下：

from sklearn.pipeline import Pipeline

from sklearn.preprocessing import StandardScaler

from sklearn.pipeline import FeatureUnion



# 定义连续型数据处理的Pipeline

num_pipeline = Pipeline([

    ('selector', DataFrameSelector(list_train_num)),  # 选择连续型特征

    ('simple_imputer', SimpleImputer(strategy="mean")),  # 填充缺失值

    ('std_scaler', StandardScaler()),  # 标准化数据

])



# 定义离散型数据处理的Pipeline

cat_pipeline = Pipeline([

    ('selector', DataFrameSelector(list_train_str)),  # 选择离散型特征

    ('label_encoder', ExeLabelEncoder()),  # 使用ExeLabelEncoder将数据转换为数字

])



# 定义需要进行One-Hot编码的离散型数据处理的Pipeline

cat_onehot_pipeline = Pipeline([

    ('selector', DataFrameSelector(list_train_str_needtrf)),  # 选择需要进行One-Hot编码的离散型特征

    ('cat_encoder', CategoricalEncoder(encoding="onehot-dense")),  # 使用CategoricalEncoder进行One-Hot编码

])



# 定义FeatureUnion，将连续型、离散型和One-Hot编码的数据处理Pipeline合并

full_pipeline = FeatureUnion(transformer_list=[

    ("num_pipeline", num_pipeline),

    ("cat_pipeline", cat_pipeline),

    ("cat_onehot_pipeline", cat_onehot_pipeline)

])

# 使用full_pipeline对训练集Xtrain进行数据清洗和处理，并返回处理后的数据集

df_select_prepared = full_pipeline.fit_transform(Xtrain)



df_select_prepared.shape  # 查看清洗后的数据维度（行列数）

源码分析：

定义了多个Pipeline，用于对不同类型的特征进行数据清洗和处理。

1.num_pipeline是用于连续型数据的Pipeline，包括以下处理步骤：

selector：选择连续型特征，使用DataFrameSelector进行选择。

simple_imputer：填充缺失值，使用SimpleImputer，采用平均值策略。

std_scaler：标准化数据，使用StandardScaler进行标准化。

2.cat_pipeline是用于离散型数据的Pipeline，包括以下处理步骤：

selector：选择离散型特征，使用DataFrameSelector进行选择。

label_encoder：将离散型数据转换为数字，使用ExeLabelEncoder进行转换。

3.cat_onehot_pipeline是用于需要进行One-Hot编码的离散型数据的Pipeline

最后，使用FeatureUnion将上述三个Pipeline合并成一个整体的数据处理Pipeline，并命名为full_pipeline。打印df_select_prepared.shape，输出清洗后的数据维度（行列数）。

2.5 实验心得

通过这次实验，深度领略了使用机器学习库进行数据清洗的奥妙。成功搭建了机器学习的基石，包括NumPy、Pandas、Scikit-learn等，同时搭建了Python、Jupyter Notebook等运行环境。

在实验中，探索了数据清洗的精髓和关键步骤，明白了数据清洗的不可或缺。这一过程帮助我们从原始数据中剔除不准确、不完整或不适合模型的记录，确保数据准确、可靠、适合训练模型，并发现纠正数据中的错误、缺失和不一致，提升数据的质量和准确性。

在清洗过程中，遇到了不同情况下的数据问题，如唯一性、同义异名、数据类型不匹配以及连续型变量的缺失值等。针对这些问题，采取了相应的清洗步骤。

首先，剔除了缺失率过高的变量，提高后续分析和模型训练的效率。然后，清理了不需要入模的变量，以提高模型效率和准确性。接着，删除了文本型变量中存在缺失值的行，修复了变量的类型，确保每个变量都具有正确的数据类型。

在数据处理方式阶段，根据变量类型和处理方式将数据分为不同类别，为每个类别选择了相应的数据处理方法，例如标准化、归一化等。这样可根据不同变量特点更准确、合理地处理数据。

最后，将数据分为训练集和测试集，以进行模型训练和性能评估。为简化整个数据清洗流程，创建了一个数据处理流水线，整合了不同处理步骤，方便未来的数据分析任务中重复使用。通过实验，深刻领会了数据清洗的原理和步骤，认识到了在实际数据分析工作中的不可或缺性。

致读者

风自火出，家人；君子以言有物而行有恒

你可能感兴趣的:(人工智能,python,机器学习,开发语言,人工智能,数据分析)

边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
AI 编程对决：Gemini CLI vs Claude Code，谁是最佳 AI 编码工具？ charieli-fh 人工智能大模型
1.引言：AI编码工具的崛起在软件开发的快节奏世界中，人工智能（AI）工具正迅速从辅助角色转变为不可或缺的伙伴。它们不再仅仅是提供代码补全，而是能够理解复杂上下文、执行多步骤任务，甚至自动化整个工作流的智能代理。这种转变正在重塑开发者的日常工作，提高生产力，并加速创新。在众多涌现的AI编码工具中，Google的GeminiCLI和Anthropic的ClaudeCode脱颖而出，各自代表了AI辅助
全平台QQ聊天数据库解密项目常见问题解决方案管旭韶
全平台QQ聊天数据库解密项目常见问题解决方案qq-win-db-keyQQNT/WindowsQQ聊天数据库解密项目地址:https://gitcode.com/gh_mirrors/qq/qq-win-db-key项目基础介绍本项目是一个开源项目，旨在为用户提供全平台QQ聊天数据库的解密方法。项目主要使用Python、JavaScript和C++等编程语言实现。新手常见问题及解决步骤问题一：如何
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Java AI 开发智能体：从入门到实践培风图南以星河揽胜 java java 人工智能开发语言
在人工智能（AI）技术蓬勃发展的今天，智能体作为AI领域的核心概念之一，正逐渐渗透到各个行业与应用场景。而Java凭借其跨平台性、丰富的类库和强大的生态系统，成为开发智能体的热门选择。本文将深入探讨如何使用Java进行AI开发智能体，从基础概念到实践应用，解答常见问题，为你揭开JavaAI开发智能体的神秘面纱。一、Java在AI开发中的优势1.跨平台性Java的“一次编写，到处运行”特性，使得基于
ollama v0.9.4 详解：联网功能、模型目录自定义及macOS性能优化全面升级
近年来，随着人工智能技术的快速发展，模型管理与调用变得尤为重要。作为一款备受关注的本地AI模型管理工具，Ollama在最新发布的v0.9.4版本中带来了多项重磅改进和全新功能，提升了用户体验和应用场景的灵活性。本文将深入解析Ollamav0.9.4版本的功能亮点、技术改进以及实用操作指南，帮助广大开发者和AI爱好者全面掌握这款工具的最新动态。一、版本概述Ollamav0.9.4版本于2025年7月
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
Python-什么是集合難釋懷 python 开发语言数据库
一、前言在Python中，除了我们常用的列表（list）、元组（tuple）和字典（dict），还有一种非常实用的数据结构——集合（set）。集合是一种无序且不重复的元素集合，常用于去重、交并差运算等场景。本文将带你全面了解Python中集合的基本用法、操作方法及其适用场景，并通过大量代码示例帮助你掌握这一重要数据类型。二、什么是集合（set）？✅定义：集合是Python中的一种可变数据类型，它存
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
〖Python零基础入门篇⑮〗- Python中的字典哈哥撩编程 #① -零基础入门篇 Python全栈白宝书 python 开发语言后端 python中的字典
>【易编橙·终身成长社群，相遇已是上上签！】-点击跳转～<作者：哈哥撩编程（视频号同名）图书作者：程序员职场效能宝典博客专家：全国博客之星第四名超级个体：COC上海社区主理人特约讲师：谷歌亚马逊分享嘉宾科技博主：极星会首批签约作者文章目录⭐️什么是字典？⭐️字典的结构与创建方法⭐️字典支持的数据类型⭐️在列表与元组中如何定义字典
python换行输出字典_Python基础入门：字符串和字典 weixin_39959236 python换行输出字典
10、字符串常用转义字符转义字符描述\\反斜杠符号\'单引号\"双引号\n换行\t横向制表符(TAB)\r回车三引号允许一个字符串跨多行，字符串中可以包含换行符、制表符以及其他特殊字符para_str="""这是一个多行字符串的实例多行字符串可以使用制表符TAB(\t)。也可以使用换行符[\n]。"""print(para_str)#这是一个多行字符串的实例#多行字符串可以使用制表符#TAB()。
Python----Python中的集合及其常用方法 redrose2100 Python python 开发语言后端
【原文链接】1集合的定义和特点（1）集合是用花括号括起来的，集合的特点是元素没有顺序，元素具有唯一性，不能重复>>>a={1,2,3,4}>>>type(a)>>>a={1,2,3,1,2,3}>>>a{1,2,3}2集合的常用运算（1）集合元素没有顺序，所以不能像列表和元组那样用下标取值>>>a={1,2,3}>>>a[0]Traceback(mostrecentcalllast):File""
langchain+langserver+langfuse整合streamlit构建基础智能体中心 Messi^ 人工智能-大模型应用 langchain 人工智能
ServerApi******#!/usr/bin/python--coding:UTF-8--importuvicornfromfastapiimportFastAPIfrombaseimportFaissEnginefromlangserve.serverimportadd_routesfromlangchain_core.promptsimportPromptTemplatefromlang
pycharm两种运行py之路径问题 hellopbc software #pycharm python pycahrm path
文章目录pycharm两种运行py之路径问题pycharm两种运行py之路径问题运行python代码在pycharm中有两种方式：一种是直接鼠标点击runxxx运行，还有一种是使用#In[]:点击该行左边的绿色三角形按钮运行有可能在pythonconsole窗口运行有可能在你当前运行文件的窗口（就是run之后产生的那个窗口）**问题：**你会发现，涉及到路径问题时（使用相对路径），可能在这两种运行
Python元组的遍历難釋懷 python 前端 linux
一、前言在Python中，元组（tuple）是一种非常基础且常用的数据结构，它与列表类似，都是有序的序列，但不同的是，元组是不可变的（immutable），一旦创建就不能修改。虽然元组不能被修改，但它支持高效的遍历操作，非常适合用于存储不会变化的数据集合。本文将系统性地介绍Python中元组的多种遍历方式，包括基本遍历、索引访问、元素解包、结合函数等，并结合大量代码示例帮助你掌握这一重要技能。二、
Python集合生成式
一、前言在Python中，我们已经熟悉了列表生成式（ListComprehension），它为我们提供了一种简洁高效的方式来创建列表。而除了列表之外，Python还支持一种类似的语法结构来创建集合——集合生成式（SetComprehension）。集合生成式不仅可以帮助我们快速构造一个无序且不重复的集合，还能有效提升代码的可读性和执行效率。本文将带你全面了解：✅什么是集合生成式✅集合生成式的语法结
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
python入门之字典二十四桥_ python入门 python
文章目录一、字典定义二、字典插入三、字典删除四、字典修改五、字典查找六、字典遍历七、字典拆包一、字典定义#{}键值对各个键值对之间用逗号隔开#1.有数据的字典dict1={'name':'zmz','age':20,'gender':'boy'}print(dict1)#2.创建空字典dict2={}print(dict2)dict3=dict()print(dict3)二、字典插入dict1={
大模型智能运维详解：技术架构、落地挑战与行业实践 FreeTools FreeAiGuard 运维架构人工智能运维开发科技
大模型智能运维详解：技术架构、落地挑战与行业实践作者：开源大模型智能运维FreeAiOps在数字化转型加速的背景下，企业IT系统复杂度呈指数级增长，传统运维模式面临效率低下、故障定位困难、成本高昂等瓶颈。大模型技术的出现为智能运维提供了突破性解决方案，其通过自然语言处理、多模态数据分析与自动化决策能力，正在重塑运维工作的底层逻辑。本文将从技术原理、落地挑战、行业实践三个维度，系统解析大模型智能运维
python类的定义与使用菜鸟驿站2020 python
class01.py代码如下classTicket():#类的名称首字母大写#在类里定义的变量称为属性,第一个属性必须是selfdef__init__(self,checi,fstation,tstation,fdate,ftime,ttime,notes):self.checi=checiself.fstation=fstationself.tstation=tstationself.fdate
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
10个可以快速用Python进行数据分析的小技巧_python 通径分析 2401_86043917 python 数据分析开发语言
df.iplot()![](https://img-blog.csdnimg.cn/img_convert/f3c1ad79e3c29ed0231d72af2988f6f9.jpeg)![](https://img-blog.csdnimg.cn/img_convert/dd456c392a2ddd14c649270707520e48.jpeg)df.iplot()vsdf.plot()右侧的可视
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
【pycharm专业版】【如何远程配置Python解释器】【SSH】资源存储库 python pycharm
Wejustlookedatconfiguringalocalinterpreter.Butwedon’talwayshavea“local”environment.Sometimes–andincreasinglyoften–ourenvironmentisoverthere.我们刚刚看了配置本地解释器。但我们并不总是有一个“本地”的环境。有时候–而且越来越多的时候–我们的环境就在那里。Let’
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f