礼拜天吃芋圆

Wide and Deep Learning（2）tf代码实现

https://zhuanlan.zhihu.com/p/43328492

1、数据
人口普查数据：

查看data：

特征进行处理：
连续的特征，包含这些：

CONTINUOUS_COLUMNS = ["age", "education_num", "capital_gain", "capital_loss",
                      "hours_per_week"]

离散的特征，包含这些：

CATEGORICAL_COLUMNS = ["workclass", "education", "marital_status", "occupation",
                       "relationship", "race", "gender", "native_country"]

linear模型中
1.离散：
（1）按照自定义的字典将类别特征映射到数值，适合特征种类较少时候使用
gender = tf.contrib.layers.sparse_column_with_keys(column_name=“gender”, keys=[“female”,“male”])
（2）自动将类别特征映射到数值，适合特征种类较多时候使用
education = tf.contrib.layers.sparse_column_with_hash_bucket(“education”, hash_bucket_size = 1000)
2.连续：
（3）连续数值特征
age = tf.contrib.layers.real_valued_column(“age”)
（4）把连续特征按照区间映射为类别特征
age_buckets = tf.contrib.layers.bucketized_column(age, boundaries= [18,25, 30, 35, 40, 45, 50, 55, 60, 65])
3.交叉特征：
（5）#特征相乘生成的交叉特征
tf.contrib.layers.crossed_column([education, occupation], hash_bucket_size=int(1e4))

神经网络中
1.连续的特征可以直接传入神经网络
2.离散的特征需要做处理之后再传入：有两种方式进行处理，可以使用one-hot 编码处理神经网络输入的离散特征，也可以使用 embedding 处理；建议该特征的数值种类较少时候使用one-hot 编码，在该特征的数值种类较多的情况下使用 embedding 编码，这里之所以要这么处理，我理解的原因是独热编码如果数值种类很多，会导致编码后的特征维度太高，从而学习到的信息过于分散，因此，在种类很多的时候，需要先将超高维的种类离散特征进行压缩embedding,再送入神经网络；
这是把离散特征embedding 操作的核心，它把原始的类别数值映射到这个权值矩阵，其实相当于神经网络的权值，后续如果是trainable的话，我们就会把这个当做网络的权值矩阵进行训练，但是在用的时候，就把这个当成一个embedding表，按id去取每个特征的embedding 后的数值。（这其实就类似于词向量了，把每个单词映射到一个词向量。）

embedding编码：（这其实就类似于词向量了，把每个单词映射到一个词向量。）
tf.contrib.layers.embedding_column(workclass, dimension=8)

离散值的存储：
什么是 sparseTensor？什么时候使用这种数据类型？
它是用（位置，值，形状）三个元素简略的表示一个矩阵的方法，例如：
SparseTensor(indices=[[0, 0], [1, 2]], values=[1, 2], dense_shape=[3, 4])
表示：
也就是说它表明，在（0，0）的位置有1，（1，2）的位置存在2；

它只针对类别特征，适合于表示矩阵中大量元素为0的情况，会大大减少矩阵占用的存储量；在案例中，我发现它经常用来作为一个类别特征的中间变量矩阵，用来减小内存占用：
在input_fn（）中：

categorical_cols = {k: tf.SparseTensor(indices=[[i,0] for i in range( df[k].size)], values = df[k].values, dense_shape=[df[k].size,1]) for k in CATEGORICAL_COLUMNS}

对离散特征的存储。

二、model：
根据选择的model_type不同，使用不同的方法。

    if FLAGS.model_type =="wide":
        m = tf.contrib.learn.LinearClassifier(model_dir=model_dir,feature_columns=wide_columns)
    elif FLAGS.model_type == "deep":
        m = tf.contrib.learn.DNNClassifier(model_dir=model_dir, feature_columns=deep_columns, hidden_units=[100,50])
    else:
        m = tf.contrib.learn.DNNLinearCombinedClassifier(model_dir=model_dir, linear_feature_columns=wide_columns, dnn_feature_columns = deep_columns, dnn_hidden_units=[100,50])

三、整体代码：
1.定义不同的FLAGS选择和离散项，连续项，Label
#tf定义了tf.app.flags，用于支持接受命令行传递参数，相当于接受argv。

import tempfile
import tensorflow as tf

from six.moves import urllib

import pandas as pd

flags = tf.app.flags  #tf定义了tf.app.flags，用于支持接受命令行传递参数，相当于接受argv。
FLAGS = flags.FLAGS

#参数的几种选择：
flags.DEFINE_string("model_dir","","Base directory for output models.")
flags.DEFINE_string("model_type","wide_n_deep","valid model types:{'wide','deep', 'wide_n_deep'")
flags.DEFINE_integer("train_steps",200,"Number of training steps.")
flags.DEFINE_string("train_data","", "Path to the training data.")
flags.DEFINE_string("test_data", "", "path to the test data")


COLUMNS = ["age", "workclass", "fnlwgt", "education", "education_num",
           "marital_status", "occupation", "relationship", "race", "gender",
           "capital_gain", "capital_loss", "hours_per_week", "native_country",
           "income_bracket"]

LABEL_COLUMN = "label"

CATEGORICAL_COLUMNS = ["workclass", "education", "marital_status", "occupation",
                       "relationship", "race", "gender", "native_country"]

CONTINUOUS_COLUMNS = ["age", "education_num", "capital_gain", "capital_loss",
                      "hours_per_week"]

2.下载数据：maybe_download()

def maybe_download():
    if FLAGS.train_data:
        train_data_file = FLAGS.train_data
    else:
        train_file = tempfile.NamedTemporaryFile(delete=False)
        urllib.request.urlretrieve("http://mlr.cs.umass.edu/ml/machine-learning-databases/adult/adult.data", train_file.name)
        train_file_name = train_file.name
        train_file.close()
        print("Training data is downloaded to %s" % train_file_name)

    if FLAGS.test_data:
        test_file_name = FLAGS.test_data
    else:
        test_file = tempfile.NamedTemporaryFile(delete=False)
        urllib.request.urlretrieve("http://mlr.cs.umass.edu/ml/machine-learning-databases/adult/adult.test",
                                   test_file.name)  # pylint: disable=line-too-long
        test_file_name = test_file.name
        test_file.close()
        print("Test data is downloaded to %s" % test_file_name)

    return train_file_name, test_file_name

3.定义训练模型：build_estimator（）
但这里线性模型和神经网络的特征采集：

wide 模型的特征都是离散特征、离散特征之间的交互作用特征；

deep 模型的特征则是离散特征embedding 加上连续特征；

wide 端模型和 deep 端模型只需要分别专注于擅长的方面，wide 端模型通过离散特征的交叉组合进行 memorization，deep 端模型通过特征的 embedding 进行 generalization，这样单个模型的大小和复杂度也能得到控制，而整体模型的性能仍能得到提高。

# build the estimator
def build_estimator(model_dir):
    # 离散分类别的
    gender = tf.contrib.layers.sparse_column_with_keys(column_name="gender", keys=["female","male"])#按照自定义的字典将类别特征映射到数值，适合特征种类较少时候使用
    education = tf.contrib.layers.sparse_column_with_hash_bucket("education", hash_bucket_size = 1000)#自动将类别特征映射到数值，适合特征种类较多时候使用
    relationship = tf.contrib.layers.sparse_column_with_hash_bucket("relationship", hash_bucket_size = 100)
    workclass = tf.contrib.layers.sparse_column_with_hash_bucket("workclass", hash_bucket_size=100)
    occupation = tf.contrib.layers.sparse_column_with_hash_bucket("occupation", hash_bucket_size=1000)
    native_country = tf.contrib.layers.sparse_column_with_hash_bucket( "native_country", hash_bucket_size=1000)

    # Continuous base columns.
    age = tf.contrib.layers.real_valued_column("age")#连续数值特征
    education_num = tf.contrib.layers.real_valued_column("education_num")
    capital_gain = tf.contrib.layers.real_valued_column("capital_gain")
    capital_loss = tf.contrib.layers.real_valued_column("capital_loss")
    hours_per_week = tf.contrib.layers.real_valued_column("hours_per_week")
    #类别转换
    age_buckets = tf.contrib.layers.bucketized_column(age, boundaries= [18,25, 30, 35, 40, 45, 50, 55, 60, 65]) #把连续特征按照区间映射为类别特征


    wide_columns = [gender, native_country,education, occupation, workclass, relationship, age_buckets,
                    tf.contrib.layers.crossed_column([education, occupation], hash_bucket_size=int(1e4)), #特征相乘生成的交叉特征
                    tf.contrib.layers.crossed_column([age_buckets, education, occupation], hash_bucket_size=int(1e6)),
                    tf.contrib.layers.crossed_column([native_country, occupation],hash_bucket_size=int(1e4))]

    #embedding_column用来表示类别型的变量
    #这是把离散特征embedding 操作的核心，它把原始的类别数值映射到这个权值矩阵，其实相当于神经网络的权值，后续如果是trainable的话，我们就会把这个当做网络的权值矩阵进行训练，但是在用的时候，就把这个当成一个embedding表，按id去取每个特征的embedding 后的数值。
    # （这其实就类似于词向量了，把每个单词映射到一个词向量。）
    deep_columns = [tf.contrib.layers.embedding_column(workclass, dimension=8),
                    tf.contrib.layers.embedding_column(education, dimension=8),
                    tf.contrib.layers.embedding_column(gender, dimension=8),
                    tf.contrib.layers.embedding_column(relationship, dimension=8),
                    tf.contrib.layers.embedding_column(native_country,dimension=8),
                    tf.contrib.layers.embedding_column(occupation, dimension=8),
                    age,education_num,capital_gain,capital_loss,hours_per_week,]

    if FLAGS.model_type =="wide":
        m = tf.contrib.learn.LinearClassifier(model_dir=model_dir,feature_columns=wide_columns)
    elif FLAGS.model_type == "deep":
        m = tf.contrib.learn.DNNClassifier(model_dir=model_dir, feature_columns=deep_columns, hidden_units=[100,50])
    else:
        m = tf.contrib.learn.DNNLinearCombinedClassifier(model_dir=model_dir, linear_feature_columns=wide_columns, dnn_feature_columns = deep_columns, dnn_hidden_units=[100,50])

    return m

两个模型使用不同的优化器是什么？怎么在loss层面配合？
以 tf.estimator.DNNLinearCombinedClassifier() 为例，进入该函数发现：linear_optimizer=‘Ftrl’, 线性模型使用’Ftrl’优化器，dnn_optimizer=‘Adagrad’, 神经网络使用’Adagrad’优化器；
如果分类数量是2，loss使用
_binary_logistic_head_with_sigmoid_cross_entropy_loss
如果分类数量大于2，loss使用
_multi_class_head_with_softmax_cross_entropy_loss
最后怎么得到两个模型结合的预测结果的？
直接把两个模型的结果相加：

logits = dnn_logits + linear_logits
很出乎意料的方式啊，居然是直接相加的，然后是上面一点提到的操作，用这个logits 和label 得到 Loss，再将 Loss 分别反传回两个独立的优化器分别优化两个模型的权重。

4.划分数据中的Label 和 feature

#划分数据中的Label 和 feature
def input_fn(df):
    continuous_cols = {k: tf.constant(df[k].values) for k in CONTINUOUS_COLUMNS}
    categorical_cols = {k: tf.SparseTensor(indices=[[i,0] for i in range( df[k].size)], values = df[k].values, dense_shape=[df[k].size,1]) for k in CATEGORICAL_COLUMNS}#原文例子为dense_shape
    feature_cols = dict(continuous_cols)
    feature_cols.update(categorical_cols)
    label = tf.constant(df[LABEL_COLUMN].values)

    return feature_cols, label

5.下载文件，读取文件，去掉值为NAN的项，定义Label，划分Label，创建临时目录model_dir
，训练模型，估计测试集，输出最后的指标。

def train_and_eval():
    train_file_name, test_file_name = maybe_download()
    df_train = pd.read_csv(
        tf.gfile.Open(train_file_name),
        names=COLUMNS,
        skipinitialspace=True,
        engine="python"
    )
    df_test = pd.read_csv(
        tf.gfile.Open(test_file_name),
        names=COLUMNS,
        skipinitialspace=True,
        skiprows=1,
        engine="python"
    )

    # drop Not a number elements
    df_train = df_train.dropna(how='any',axis=0)
    df_test = df_test.dropna(how='any', axis=0)

    #convert >50 to 1
    df_train[LABEL_COLUMN] = (
        df_train["income_bracket"].apply(lambda x: ">50" in x).astype(int)
    )
    df_test[LABEL_COLUMN] = (
        df_test["income_bracket"].apply(lambda x: ">50K" in x)).astype(int)

    model_dir = tempfile.mkdtemp() if not FLAGS.model_dir else FLAGS.model_dir
    print("model dir = %s" % model_dir)

    m = build_estimator(model_dir)
    print (FLAGS.train_steps)
    m.fit(input_fn=lambda: input_fn(df_train),
          steps=FLAGS.train_steps)
    results = m.evaluate(input_fn=lambda: input_fn(df_test), steps=1)

    for key in sorted(results):
        print("%s: %s"%(key, results[key]))


def main(_):
  train_and_eval()
  
if __name__ == "__main__":
  tf.app.run()

最后代码为：

import tempfile
import tensorflow as tf

from six.moves import urllib

import pandas as pd

flags = tf.app.flags  #tf定义了tf.app.flags，用于支持接受命令行传递参数，相当于接受argv。
FLAGS = flags.FLAGS

#参数的几种选择：
flags.DEFINE_string("model_dir","","Base directory for output models.")
flags.DEFINE_string("model_type","wide_n_deep","valid model types:{'wide','deep', 'wide_n_deep'")
flags.DEFINE_integer("train_steps",200,"Number of training steps.")
flags.DEFINE_string("train_data","", "Path to the training data.")
flags.DEFINE_string("test_data", "", "path to the test data")


COLUMNS = ["age", "workclass", "fnlwgt", "education", "education_num",
           "marital_status", "occupation", "relationship", "race", "gender",
           "capital_gain", "capital_loss", "hours_per_week", "native_country",
           "income_bracket"]

LABEL_COLUMN = "label"

CATEGORICAL_COLUMNS = ["workclass", "education", "marital_status", "occupation",
                       "relationship", "race", "gender", "native_country"]

CONTINUOUS_COLUMNS = ["age", "education_num", "capital_gain", "capital_loss",
                      "hours_per_week"]

# download test and train data
def maybe_download():
    if FLAGS.train_data:
        train_data_file = FLAGS.train_data
    else:
        train_file = tempfile.NamedTemporaryFile(delete=False)
        urllib.request.urlretrieve("http://mlr.cs.umass.edu/ml/machine-learning-databases/adult/adult.data", train_file.name)
        train_file_name = train_file.name
        train_file.close()
        print("Training data is downloaded to %s" % train_file_name)

    if FLAGS.test_data:
        test_file_name = FLAGS.test_data
    else:
        test_file = tempfile.NamedTemporaryFile(delete=False)
        urllib.request.urlretrieve("http://mlr.cs.umass.edu/ml/machine-learning-databases/adult/adult.test",
                                   test_file.name)  # pylint: disable=line-too-long
        test_file_name = test_file.name
        test_file.close()
        print("Test data is downloaded to %s" % test_file_name)

    return train_file_name, test_file_name

# build the estimator
def build_estimator(model_dir):
    # 离散分类别的
    gender = tf.contrib.layers.sparse_column_with_keys(column_name="gender", keys=["female","male"])#按照自定义的字典将类别特征映射到数值，适合特征种类较少时候使用
    education = tf.contrib.layers.sparse_column_with_hash_bucket("education", hash_bucket_size = 1000)#自动将类别特征映射到数值，适合特征种类较多时候使用
    relationship = tf.contrib.layers.sparse_column_with_hash_bucket("relationship", hash_bucket_size = 100)
    workclass = tf.contrib.layers.sparse_column_with_hash_bucket("workclass", hash_bucket_size=100)
    occupation = tf.contrib.layers.sparse_column_with_hash_bucket("occupation", hash_bucket_size=1000)
    native_country = tf.contrib.layers.sparse_column_with_hash_bucket( "native_country", hash_bucket_size=1000)

    # Continuous base columns.
    age = tf.contrib.layers.real_valued_column("age")#连续数值特征
    education_num = tf.contrib.layers.real_valued_column("education_num")
    capital_gain = tf.contrib.layers.real_valued_column("capital_gain")
    capital_loss = tf.contrib.layers.real_valued_column("capital_loss")
    hours_per_week = tf.contrib.layers.real_valued_column("hours_per_week")
    #类别转换
    age_buckets = tf.contrib.layers.bucketized_column(age, boundaries= [18,25, 30, 35, 40, 45, 50, 55, 60, 65]) #把连续特征按照区间映射为类别特征


    wide_columns = [gender, native_country,education, occupation, workclass, relationship, age_buckets,
                    tf.contrib.layers.crossed_column([education, occupation], hash_bucket_size=int(1e4)), #特征相乘生成的交叉特征
                    tf.contrib.layers.crossed_column([age_buckets, education, occupation], hash_bucket_size=int(1e6)),
                    tf.contrib.layers.crossed_column([native_country, occupation],hash_bucket_size=int(1e4))]

    #embedding_column用来表示类别型的变量
    #这是把离散特征embedding 操作的核心，它把原始的类别数值映射到这个权值矩阵，其实相当于神经网络的权值，后续如果是trainable的话，我们就会把这个当做网络的权值矩阵进行训练，但是在用的时候，就把这个当成一个embedding表，按id去取每个特征的embedding 后的数值。
    # （这其实就类似于词向量了，把每个单词映射到一个词向量。）
    deep_columns = [tf.contrib.layers.embedding_column(workclass, dimension=8),
                    tf.contrib.layers.embedding_column(education, dimension=8),
                    tf.contrib.layers.embedding_column(gender, dimension=8),
                    tf.contrib.layers.embedding_column(relationship, dimension=8),
                    tf.contrib.layers.embedding_column(native_country,dimension=8),
                    tf.contrib.layers.embedding_column(occupation, dimension=8),
                    age,education_num,capital_gain,capital_loss,hours_per_week,]

    if FLAGS.model_type =="wide":
        m = tf.contrib.learn.LinearClassifier(model_dir=model_dir,feature_columns=wide_columns)
    elif FLAGS.model_type == "deep":
        m = tf.contrib.learn.DNNClassifier(model_dir=model_dir, feature_columns=deep_columns, hidden_units=[100,50])
    else:
        m = tf.contrib.learn.DNNLinearCombinedClassifier(model_dir=model_dir, linear_feature_columns=wide_columns, dnn_feature_columns = deep_columns, dnn_hidden_units=[100,50])

    return m

#划分数据中的Label 和 feature
def input_fn(df):
    continuous_cols = {k: tf.constant(df[k].values) for k in CONTINUOUS_COLUMNS}
    categorical_cols = {k: tf.SparseTensor(indices=[[i,0] for i in range( df[k].size)], values = df[k].values, dense_shape=[df[k].size,1]) for k in CATEGORICAL_COLUMNS}#原文例子为dense_shape
    feature_cols = dict(continuous_cols)
    feature_cols.update(categorical_cols)
    label = tf.constant(df[LABEL_COLUMN].values)

    return feature_cols, label


#训练的主函数
def train_and_eval():
    train_file_name, test_file_name = maybe_download()
    df_train = pd.read_csv(
        tf.gfile.Open(train_file_name),
        names=COLUMNS,
        skipinitialspace=True,
        engine="python"
    )
    df_test = pd.read_csv(
        tf.gfile.Open(test_file_name),
        names=COLUMNS,
        skipinitialspace=True,
        skiprows=1,
        engine="python"
    )

    # drop Not a number elements
    df_train = df_train.dropna(how='any',axis=0)
    df_test = df_test.dropna(how='any', axis=0)

    #convert >50 to 1
    df_train[LABEL_COLUMN] = (
        df_train["income_bracket"].apply(lambda x: ">50" in x).astype(int)
    )
    df_test[LABEL_COLUMN] = (
        df_test["income_bracket"].apply(lambda x: ">50K" in x)).astype(int)

    model_dir = tempfile.mkdtemp() if not FLAGS.model_dir else FLAGS.model_dir  #创建临时目录，目录需要手动删除。
    print("model dir = %s" % model_dir)

    m = build_estimator(model_dir)
    print (FLAGS.train_steps)
    m.fit(input_fn=lambda: input_fn(df_train),
          steps=FLAGS.train_steps)
    results = m.evaluate(input_fn=lambda: input_fn(df_test), steps=1)

    for key in sorted(results):
        print("%s: %s"%(key, results[key]))


def main(_):
  train_and_eval()


if __name__ == "__main__":
  tf.app.run()

LORA的魔法棒：在Stable Diffusion中挥洒注意力机制的优化咒语 ?? DTcode7 AI生产力 AI AIGC stable diffusion AI生产力前沿
LORA的魔法棒：在StableDiffusion中挥洒注意力机制的优化咒语??欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：DTcode7的博客首页。一个做过前端开发的产品经理，经历过睿智产品的折磨导致脱发之后，励志要翻身农奴把歌唱，一边打入敌人内部一边持续提升自己，为我们广大开发同胞
力扣SQL题记录（持续） Dxecozy leetcode sql
此贴用于个人写SQL题记录，主要是用于记录新的知识和一些个人觉得的难题思路，便于复习目录Leetcode高频SQL50题基本题基本条件筛选多表连接新知识CHAR_LENGTH()函数的使用，用于计算字符长度Leetcode高频SQL50题基本题基本条件筛选1757.可回收且低脂的产品584.寻找用户推荐人595.大的国家1148.文章浏览I多表连接1378.使用唯一标识码替换员工ID新知识CHAR
参加AIGC四级考试的，建议先看下我的备考经验 Tester_孙大壮 AI培训师 AIGC
写在前面这是我2024年末看到AI快速发展，自己也想入局AI而准备的一个考试，但是真正考试下来发现这个考试真的特别简单，除了政府补贴，其他可能对自己没有任何的用处，我觉得这个在面试的时候也很难成为一个加分项，但是备考过程中可能会对一些AI的知识有框架式的了解，以下是我的备考经验，希望对你有帮助。我参加的是广州本地宝推荐的人社部AIGC考试。整体而言，考试难度不算特别大。以我的工作年限，符合报考四级
Docker入门篇-安装Docker CE 极客编程玩家
安装DockerCE有两种方法可以在Centos上安装DockerCE：YUM存储库：设置Docker存储库并从中安装DockerCE。这是推荐的方法，因为使用YUM管理安装和升级更容易。(后面我们使用这种方式)RPM包：下载RPM包，手动安装，手动管理升级。在无法访问互联网的系统上安装DockerCE时，这非常有用。先决条件要安装DockerCE，您需要CentOS7的维护版本。不支持或测试存档
2025实战指南：基于VMware 17与Linux的Dify私有化部署——从零构建企业级AI开发平台 Tec_Bit 人工智能 centos linux 人工智能 chatgpt
一、环境准备与系统配置1.1VMware17虚拟机创建‌新建虚拟机‌：选择“典型”安装模式，指定CentOS7镜像文件（建议使用阿里云镜像源获取最新稳定版）‌1‌硬件资源配置‌：内存：≥4GB（推荐8GB）处理器：2核以上磁盘空间：≥40GB（选择“将虚拟磁盘存储为单个文件”）安装完系统使用远程工具连接centos，我这里使用的是华为的远程工具codearts,纯属个人习惯！！！其他工具也可以使用
清晰易懂的Python安装与配置教程 Tee xm python 开发语言
初学者也能看懂的Python安装与配置教程本教程将手把手教你安装Python，并配置国内镜像源和自定义依赖包缓存位置，即使你是零基础小白，也能轻松完成！一、准备工作操作系统：Windows10/11、macOS或Linux。下载工具：浏览器（推荐Chrome或Edge）。存储空间：至少预留500MB可用空间。二、安装Python1.下载Python访问Python官网下载页面：https://ww
施磊老师高级c++(二) Zhuai-行淮施磊老师cpp c++开发语言
智能指针文章目录智能指针基础--实现简单的智能指针2.不带引用计数的智能指针问题解决不带引用计数的智能指针汇总auto_ptr--#include--不推荐scoped_ptr---不推荐unique_ptr--推荐--右值引用--move3.带引用计数的智能指针4.shared_ptr交叉(循环)引用问题代码示例整体过程解决办法--强弱混用弱智能指针-不能使用资源5.多线程访问共享对象的线程安全
Lianwei 安全周报|2024.12.9 联蔚盘云安全
新的一周又开始了，以下是本周「Lianwei周报」，我们总结推荐了本周的政策/标准/指南最新动态、热点资讯和安全事件，保证大家不错过本周的每一个重点！政策/标准/指南最新动态01美国消费者金融保护局提案：限制“数据经纪人”出售个人信息当地时间12月3日，美国消费者金融保护局（CFPB）宣布，计划针对“数据经纪人”出售美国人个人信息的行为，出台更加严格的监管措施。根据新提案，“数据经纪人”将受到更加
Lianwei 安全周报|2025.1.2 联蔚盘云安全
以下是本周「Lianwei周报」，我们总结推荐了本周的政策/标准/指南最新动态、热点资讯和安全事件，保证大家不错过本周的每一个重点！政策/标准/指南最新动态01国家数据局等五部门印发《关于促进企业数据资源开发利用的意见》为充分释放企业数据资源价值，构建以数据为关键要素的数字经济，近日，国家数据局联合中央网信办、工业和信息化部、公安部、国务院国资委印发了《关于促进企业数据资源开发利用的意见》。详情：
Python 爬虫实战：如何爬取小红书数据并进行分析 Python爬虫项目 python 爬虫开发语言 selenium 测试工具
一、引言随着社交电商的崛起，小红书（Xiaohongshu）作为一款结合了社交和电商的应用，吸引了大量年轻用户。用户在平台上分享购物心得、生活经验以及个性化的消费推荐内容，形成了庞大的用户数据与内容生态。因此，如何从小红书获取数据进行分析，成为了数据科学、市场营销和社交媒体研究中的一个重要课题。本文将介绍如何使用Python编写爬虫爬取小红书的数据，分析如何通过小红书的开放API获取用户信息、帖子
关于使用python进行处理雷达数据笔记六毛驴 python 数据分析
好久不见，甚是想念本人深知这段时间鸽了一篇博（上一篇博），后续会补上的，今天想写一下关于使用python进行TI雷达接收回波数据处理的一些常见问题和解决方法。这也是前几天领导给我布置的任务，所以我将这段时间自己遇到的并且已经解决的问题进行了简单的汇总，也会推荐几本这几天阅读了python书籍。python书籍推荐：python学习手册MarkLutz著（对应python版本3.X，2.X都可）Py
java for循环内执行多线程 m0_74823434 面试学习路线阿里巴巴资料职业发展 java python 开发语言后端
目录一、java用多线程来加快循环效率（推荐第3种！！！！）?第一种：线程池搭配闭锁?第二种：分页概念执行线程?第三种：分页概念执行线程进阶版！！！！一、java用多线程来加快循环效率（推荐第3种！！！！）第一种：线程池搭配闭锁涉及知识：Executors（线程池）、CountDownLatch（闭锁）优点：代码简洁，方便阅读，性能稳定；缺点：Executors创建的线程池是公用的，如果多个地方使
AIGC时代品牌突围战：10招玩转DeepSeek内容推荐（深度扩展版）白雪讲堂人工智能大数据机器学习
一、认知革命：从SEO到GEO的生死迭代案例对比：传统SEO困境：某家电品牌2023年投入200万SEO优化，关键词排名TOP3但流量下降42%（SEMrush数据）GEO突破案例：某母婴品牌通过结构化数据改造，AI推荐量从日均300次飙升至1.2万次（来源：DeepSeek官方案例库）实战要点：内容形态改造：将产品参数表升级为JSON-LD格式（某手机品牌实现参数类问题100%引用）流量分配逻辑
低成本入门！盘点6款适合中小企业的ERP系统
在竞争激烈的市场环境中，中小企业亟需通过数字化工具提升运营效率。ERP系统（企业资源计划）能够整合财务、库存、销售等核心业务流程，是降低成本、优化管理的关键利器。今天，我将为大家推荐6款便宜又好用的ERP系统，分别从功能、价格、适用场景等方面为大家详细介绍这些产品，希望能帮助你找到最适合自己企业的ERP系统。一、ZohoBooks：轻量级ERP，中小企业的全能助手ZohoBooks是Zoho旗下专
2025年PHP框架推荐及对比行思理 LNMP 运维 php 开发语言
以下是针对2025年PHP框架的推荐及全方位对比分析，结合性能、功能生态、适用场景等核心维度，帮助开发者做出合理选择：一、主流PHP框架推荐1.Laravel核心特性：以优雅的语法和强大的功能著称，支持EloquentORM、Blade模板引擎、队列系统等，适合复杂业务开发。社区生态丰富，提供大量扩展包（如Passport、Horizon）。性能：RPS约200-500，适合中大型项目，但对高并发
推荐开源项目：Tower - 网络服务构建利器劳治亮
推荐开源项目：Tower-网络服务构建利器towerasyncfn(Request)->Result项目地址:https://gitcode.com/gh_mirrors/to/towerTower是一个为构建强大、模块化和可重用的网络客户端和服务端组件库。这个库以其高效且易于使用的特性，为开发者提供了一种便捷的方式去构建可靠的网络应用。项目介绍Tower面向的是那些希望简化网络通信复杂性的开发者
推荐项目：yaml-pro，提升你的YAML编辑体验余靖年Veronica
推荐项目：yaml-pro，提升你的YAML编辑体验项目地址:https://gitcode.com/gh_mirrors/ya/yaml-pro在日常的开发工作中，YAML作为配置文件的宠儿，其简洁明了的语法深受开发者喜爱。然而，当面对复杂或庞大的YAML文件时，高效的编辑工具就显得至关重要。因此，我们强烈推荐一款专为Emacs用户设计的开源神器——yaml-pro，它利用tree-sitter
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐洪显彦Lawyer
探索电商大数据的艺术：TBBKAnalysis深度解读与应用推荐TBBKAnalysis关于淘宝“爆款”数据爬取与分析。具体分析见—项目地址:https://gitcode.com/gh_mirrors/tb/TBBKAnalysis在数字化时代的数据洪流中，每一个细微的数据点都蕴含着洞察未来的机遇。今天，我们要探讨的是一个独特且极具启发性的开源项目——TBBKAnalysis。该项目源自知乎上一
HoRain云--无需修改BIOS！Linux系统迁移根目录到新磁盘终极指南 HoRain 云小助手 linux 运维服务器
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐一、原理简析二、操作步骤（以Ubuntu为例）1.准备工作2.临时挂载新磁盘3.修改GRUB配置4.更新引导配置5.验证配置（重要！）三、故障排查（附解决方案）四、永久生效设置五、注意事项一、原理简析通过GRUB
HoRain云--URI vs URL vs URN：彻底搞懂三者的区别与联系 HoRain 云小助手 java 前端开发语言
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐URIvsURLvsURN：彻底搞懂三者的区别与联系一、核心概念解析1.URI（统一资源标识符）2.URL（统一资源定位符）3.URN（统一资源名称）二、三者关系图解三、关键区别对比表四、日常应用场景五、技术冷知
字符串模板（单文件组件、JSX） By爱分享 vue.js javascript 前端
首先需要了解基本释义：字符串模板就是写在vue中的template中定义的模板，如.vue的单文件组件模板和定义组件时template属性值的模板。此外，字符串模板不会在页面初始化时参与页面的渲染，而是会被vue进行解析编译之后再被浏览器渲染，所以不受限于html结构和标签的命名总的来说，推荐遵循W3C中的自定义组件名(字母全小写且必须包含一个连字符)，这会帮助你避免和当前以及未来的HTML元素相
HoRain云--Node.js文件下载服务实战：Express实现安全高效的文件传输 HoRain云小助手 node.js express 安全
HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网
低代码平台未来发展趋势有哪些？低代码
低代码平台的未来发展趋势呈现出多维度的创新与深化，以下结合JNPF快速开发平台的特性，为您分析其未来的发展方向：1.智能化与AI深度融合低代码平台将与人工智能技术深度融合，实现开发流程的智能化升级。例如，JNPF平台有望通过自然语言处理技术，让开发者仅需用自然语言描述需求，平台即可自动生成初步的应用架构和代码逻辑。此外，AI技术还将用于智能推荐、代码自动生成、流程自动化等功能，进一步提升开发效率。
近期生活随笔飞天kuma 生活杂谈创业人生生活
因为开店的原因，一直觉得没什么能和大家去分享的，但是最近听到了之前同事的情况，比较之下，还是准备写点什么。因为每天跟不同的客户打交道，所以现在会不会购买东西，也大概心里有数了，说话少，问的少的，往往比各种问的购买可能性会更高，因为可能一个产品有很多种，比如数据线，有三合一的，有1米的，有1.5米的，有2米的，本身在没有想好的情况下，让我去推荐，我也不知道需求点在哪，当我推荐了一圈之后，往往得到的答
深入解析BM25：LangChain中的高效检索算法 AI Agent首席体验官 langchain 算法
1.BM25算法BM25是信息检索领域中一个重要的排序算法，它用来计算查询与文档之间的相关性。让我们通过一个图书馆的例子来理解：想象你是一个图书馆管理员，有人来问你：“我想找关于太空探索和火星的书”。传统TF-IDF方法：就像你先数一数每本书中"太空探索"和"火星"这些词出现的次数，然后优先推荐这些词出现最多的书。但这有个问题：如果一本1000页的书和一本100页的书都提到"火星"10次，按理说短
从经典到现代：BM25在LangChain中的应用与优势 AI Agent首席体验官 langchain
1.BM25算法BM25是信息检索领域中一个重要的排序算法，它用来计算查询与文档之间的相关性。让我们通过一个图书馆的例子来理解：想象你是一个图书馆管理员，有人来问你：“我想找关于太空探索和火星的书”。传统TF-IDF方法：就像你先数一数每本书中"太空探索"和"火星"这些词出现的次数，然后优先推荐这些词出现最多的书。但这有个问题：如果一本1000页的书和一本100页的书都提到"火星"10次，按理说短
印度、马来西亚股市实时行情API数据接口推荐后端
随着金融科技的发展，实时行情数据接口成为金融交易、量化投资和市场分析的重要工具。以下为您推荐几款适合获取印度、马来西亚股市实时行情的API数据接口，涵盖不同需求场景和技术特点。一、首选推荐：PRDS金融财务API接口PRDS金融财务API接口是目前市场上针对印度股市实时行情的高性能解决方案，适合对数据时效性和稳定性要求较高的用户。数据覆盖：提供印度全市场股票及指数的实时行情数据，包括NSE（印度国
Linux使用cpulimit对CPU使用率进行限制云服务器linux运维cpu
介绍cpulimit是一款可以对CPU使用率进行限制的软件，既可限制单个特定程序，也可以对整个CPU使用率进行限制，安装使用都很方便，需要的朋友可以试试。源安装（推荐）Centos：yuminstallcpulimitDebian/Ubuntu：apt-getinstall-ycpulimit编译安装cd/tmpwget'https://www.02405.com/wp-content/uploa
华为eNSP（Enterprise Network Simulation Platform）实战指南博睿谷IT99_ 程序人生安全网络协议云计算
ENSP必会命令全集：VLAN/OSPF/ACL配置+排错指令华为eNSP是网络工程师学习和模拟企业网络部署的核心工具，支持路由器、交换机、防火墙等设备的配置与调试。以下从安装配置、实验场景、故障排查三个方面提供全流程指南。一、eNSP安装与配置1.安装准备系统要求：Windows7/10/11（推荐64位）4GB以上内存，20GB硬盘空间安装前关闭杀毒软件和防火墙（避免拦截虚拟组件）必备组件：V
最新xhs旋转滑块验证码分析（含识别与轨迹算法）吴秋霖深耕爬虫领域算法验证码滑块验证 Python
文章目录1.写在前面2.接口分析3.验证轨迹4.算法还原【作者主页】：吴秋霖【作者介绍】：擅长爬虫与JS加密逆向分析！Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作！【作者推荐】：对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》未来作者会持续更新所用到、学到、看到的技术知识！
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

Wide and Deep Learning（2）tf代码实现

你可能感兴趣的:(推荐算法实践)