032004129许智勇

tensorflow2笔记：简单数据预处理（TF专属）

目录（注意本文jupyterlab编写）

- 预先导入数据
- 数据API
- - 数据样式
  - 乱序数据
  - - shuffle乱序（小数据集）
    - 大数据集乱序
    - 训练测试和绘制图像
  - 小结
- TFRecord格式
- - TFRecord的简单创建读取
  - TFRecord压缩和读取
  - 协议缓冲区（TensorFlow协议）:
  - - 序列化写入
    - 加载和解析Example
- 预处理输入特征
- - 标准化
  - 连续数值离散化
  - - int输出模式
    - 独热码输出模式
    - multi_hot输出模式
    - count（计数）输出模式
    - 不指定区域界线
  - 连续数值离散化小总结。
  - 字符编码
  - - int输出模式
    - multi_hot输出模式
    - count输出模式
    - 使用嵌入编码(Embedding)
- 自定义预处理层（one_hot和Embedding）
- - Input_onehot自定义层实现
  - Input_embedding自定义层实现
  - 使用tf.keras自带层实现包含embed的模型（1）
  - 使用tf.keras自带层实现包含embed的模型（2）
  - 使用自定义层实现包含embed的模型
  - 使用自定义层实现包含one_hot的模型

预先导入数据

from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import numpy as np
import pandas as pd
import tensorflow as tf
housing=fetch_california_housing()
scaler=StandardScaler()
x_data=scaler.fit_transform(housing.data)
x_train_full,x_test,y_train_full,y_test=train_test_split(x_data,housing.target)
x_train,x_valid,y_train,y_valid=train_test_split(x_train_full,y_train_full)

数据API

from_tensor_slices将数据按照第一维分隔（一一对应）

在from_tensor_slices后面，可以按照链式进行转换（每次都产生一个新数据集，如果要保存每次都要赋予一个新变量）

batch是将数据集分隔打包,drop_remainder是让去掉最后不完整的数据包（可以让TF函数少生成一个AutoGraph，加快运行速度）

map函数中要注意，前面from_tensor_slices的元组有几个参数，这里lambda就要几个参数（分别对应），此外这个函数要是能够转换为TF函数的函数。

num_parallel_calls是多线程设置，加快速度。

注意：这里batch为了方便显示，设置了5，最好设置大一点的数如32,64,128等，如果GPU好的话可以再大一点。

其他函数：filter，过滤数据集，参数（函数）。take取出前几行。

train_db = tf.data.Dataset.from_tensor_slices((x_train,y_train)).batch(5,drop_remainder=True).map((lambda x,y:(x*2,y)),num_parallel_calls=5)

数据样式

可以看到由于上面传入(x_train,y_train)，这里的item是一个元组。如果原本是特征和标签合并在一起的完整数据，也可以在map中，通过函数处理，分开为特征集合标签。

for item in train_db.take(3):
    print(item)

(, )
(, )
(, )

乱序数据

我们知道训练集中实例相互独立且分布均匀时，梯度下降效果最佳。

shuffle乱序（小数据集）

shuffle乱序，需要设置缓冲区大小（也可设置随机种子），适合可以装入RAM的小型数据集。
原理：先将缓冲区填满，如果要求提供一个数据，从缓冲区随机取出一个数据，并用源数据集的新元素替换它，直到遍历完源数据集，然后把缓冲区抽空为止。
注意：缓冲区必须足够大，不然乱序不太有效。当然也不要超出数据集大小。

dataset=tf.data.Dataset.range(10).repeat(3)
dataset

如果batch设置drop_remainder=True则最后的Tensor去掉。

如果在shuffle后面调用repeat，则默认情况下，每次重复都会生成一个新的次序（这是个好主意）。但是，如果你希望每次迭代都重用相同的顺序（例如调试或者测试），则在shuffle函数设置中reshuffle_each_iteration=True

dataset = dataset.shuffle(buffer_size=5,seed=42).batch(7)
for item in dataset:
    print(item)

tf.Tensor([0 2 3 6 7 9 4], shape=(7,), dtype=int64)
tf.Tensor([5 0 1 1 8 6 5], shape=(7,), dtype=int64)
tf.Tensor([4 8 7 1 2 3 0], shape=(7,), dtype=int64)
tf.Tensor([5 4 2 7 8 9 9], shape=(7,), dtype=int64)
tf.Tensor([3 6], shape=(2,), dtype=int64)

大数据集乱序

对于大数据集，缓冲区乱序可能并不够用。一种想法是将源数据进行乱序。或者为了进一步乱序，我们可以将数据集拆成几个的文件，然后再随机地读取它们。但是对于同一个文件的数据，仍然相互接近，为了避免这种情况，可以随机选择多个文件同时读取，交错它们的记录（元组）。当然，最后还可以再增加个shuffle

def split_tocsv(x,y,name,n_split=3,columns_name=None):
    import pandas as pd
    import numpy as np
    file_name_list=[]
    length_each_csv=x.shape[0]//n_split
    y = y.reshape(x.shape[0],-1)
    db=np.concatenate([x,y],axis=1)
    for i in range(0,x.shape[0],length_each_csv):
        left = i
        right = x.shape[0]  if (i+length_each_csv) > x.shape[0] else i+length_each_csv
        temp_db = pd.DataFrame(db[left:right],columns=columns_name)
        file_name = name + '_db_' + str(i)+'.csv'
        file_name_list.append(file_name)
        temp_db.to_csv(file_name,index=False)
    return file_name_list

train_filepaths=split_tocsv(x_train,y_train,name='train',columns_name=housing.feature_names+housing.target_names)
test_filepaths=split_tocsv(x_test,y_test,'test',columns_name=housing.feature_names+housing.target_names)
valid_filepaths=split_tocsv(x_valid,y_valid,'valid',columns_name=housing.feature_names+housing.target_names)
train_filepaths

['train_db_0.csv', 'train_db_3870.csv', 'train_db_7740.csv']

为了创造多文件的条件，我写了上述的函数。实际上如果是大数据集的话，源数据是多个文件的，就不像这边这样分开，也就不用这个函数。当然也可以手动分成多个文件。接下来的才是正文。
注意：要尽量让文件等长，同时一个文件既包括特征也包括标签。

#建立文件名数据集。乱序
filepath_dataset = tf.data.Dataset.list_files(train_filepaths,seed=42)
for item in filepath_dataset:
    print(item)

tf.Tensor(b'train_db_0.csv', shape=(), dtype=string)
tf.Tensor(b'train_db_7740.csv', shape=(), dtype=string)
tf.Tensor(b'train_db_3870.csv', shape=(), dtype=string)

这里用interleave交错方法对文件名数据集中每个文件名调用lambda函数（即新创建一个数据集，跳过第一行特征名），cycle_length=2表示2个新创建的数据集一起交错，block_length=6表示每个新创建的数据集连续6条记录就交错另一个新创建的数据集。最终返回一个交错记录（元组）的数据集。

dataset = filepath_dataset.interleave(lambda x:tf.data.TextLineDataset(x).skip(1),
                                      cycle_length=2,
                                      block_length=6,
                                      num_parallel_calls=2)
for item in dataset.take(3):
    print(item)

tf.Tensor(b'0.7496827131540564,0.34647802955744084,0.08607255372709229,-0.017023771445335806,-0.23884533660976928,-0.0945567753546111,-0.9512902346352202,0.8483747044943901,5.00001', shape=(), dtype=string)
tf.Tensor(b'-0.7274916753876317,-1.6399739348833928,-0.4242689446759151,0.15982009534455993,-0.6159090247996127,0.10718992328963842,-0.7406062783379425,0.6836615678839947,1.375', shape=(), dtype=string)
tf.Tensor(b'-1.2252872849959682,-0.36864467764125924,-0.993795128142578,0.16967353779210897,-0.1858621485737257,-0.12157173190923926,-0.717196949860465,0.6137832675038262,3.25', shape=(), dtype=string)

返回完交错记录的数据集，还没完，因为每个item都是tf.string的记录，需要一个解析函数

n_features = 8
def parseprocess(line):
    #一行包括8个特征和1个标签。这里设置默认值包括类型，标签没有默认值，如果数据没有则报错。
    defaults = [0.] * n_features + [tf.constant([],dtype=tf.float32)]
    fields = tf.io.decode_csv(line,record_defaults=defaults)
    x = tf.stack(fields[:-1])  #将标量张量列表（list）转换为一维张量数组（有shape属性）
    y = tf.stack(fields[-1:])
    return x,y

测试如下

for item in dataset.take(3):
    print(parseprocess(item))

(, )
(, )
(, )

将上述所有的操作合在一起，如下

def csv_reader_dataset(filepaths,repeat=1,n_interleaves=3,n_read_threads=None,shuffle_buffer_size=10000,n_map_threads=5,batch_size=32,prefetch=1):
    filepath_dataset = tf.data.Dataset.list_files(filepaths)
    dataset = filepath_dataset.interleave(lambda x:tf.data.TextLineDataset(x).skip(1),
                                          cycle_length=n_interleaves,
                                          num_parallel_calls=n_read_threads)
    dataset = dataset.map(parseprocess,num_parallel_calls=n_map_threads)
    dataset = dataset.shuffle(buffer_size=shuffle_buffer_size).repeat(repeat)
    return dataset.batch(batch_size).prefetch(prefetch)

上面的prefetch函数是实现预取，即该数据集尽可能地提前准备一个批次，当模型在训练一个批次时，数据集已经并行工作准备好下一批次。这样CPU和GPU可以并行的工作加快了训练速率。

train_db = csv_reader_dataset(train_filepaths)
test_db = csv_reader_dataset(test_filepaths)
valid_db = csv_reader_dataset(valid_filepaths)

此时，已经制成了三个数据集，每个数据集包括特征和标签。

训练测试和绘制图像

input_=tf.keras.layers.Input(shape=[8])
hidden1=tf.keras.layers.Dense(30,activation='elu',kernel_initializer='he_normal')(input_)
hidden2=tf.keras.layers.Dense(30,activation='elu',kernel_initializer='he_normal')(hidden1)
concat=tf.keras.layers.Concatenate()([input_,hidden2])
output=tf.keras.layers.Dense(1)(concat)
model=tf.keras.Model(inputs=[input_],outputs=[output])
model.compile(loss=tf.keras.losses.mean_squared_error,optimizer=tf.keras.optimizers.SGD(learning_rate=0.05,momentum=0.9,nesterov=True,clipnorm=1,decay=1.0/200))
earlystop=tf.keras.callbacks.EarlyStopping(patience=5,restore_best_weights=True)
history=model.fit(train_db,epochs=100,validation_data=valid_db,callbacks=[earlystop])
model.evaluate(test_db)

Epoch 1/100
363/363 [==============================] - 5s 9ms/step - loss: 0.6353 - val_loss: 0.4421
Epoch 2/100
363/363 [==============================] - 2s 5ms/step - loss: 0.4002 - val_loss: 0.3841
Epoch 3/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3970 - val_loss: 0.3906
Epoch 4/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3729 - val_loss: 0.3671
Epoch 5/100
363/363 [==============================] - 3s 7ms/step - loss: 0.3477 - val_loss: 0.3583
Epoch 6/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3405 - val_loss: 0.3577
Epoch 7/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3314 - val_loss: 0.3746
Epoch 8/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3326 - val_loss: 0.3631
Epoch 9/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3300 - val_loss: 0.3375
Epoch 10/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3227 - val_loss: 0.3402
Epoch 11/100
363/363 [==============================] - 2s 5ms/step - loss: 0.3249 - val_loss: 0.3397
Epoch 12/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3230 - val_loss: 0.3416
Epoch 13/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3164 - val_loss: 0.3335
Epoch 14/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3115 - val_loss: 0.3313
Epoch 15/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3122 - val_loss: 0.3292
Epoch 16/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3091 - val_loss: 0.3303
Epoch 17/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3090 - val_loss: 0.3319
Epoch 18/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3065 - val_loss: 0.3309
Epoch 19/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3059 - val_loss: 0.3312
Epoch 20/100
363/363 [==============================] - 2s 6ms/step - loss: 0.3082 - val_loss: 0.3351
162/162 [==============================] - 0s 2ms/step - loss: 0.3151





0.31514933705329895

pd.DataFrame(history.history).plot(figsize=(18,10))

小结

对于batch和prefetch大多要放在最后，其他的向map,shuffle,filter,repeat大多放在前面操作。

batch设置32,64,128等，可以设置drop_remainder=True,删除不完整的batch

shuffle要设置大一点的buffer_size

repeat，可以在shuffle前或者后，buffer_size如果较小，repeat在后面，如果很大，都可以。

map和interleave都可以设置num_parallel_calls,多线程。

prefetch：对训练速率有较大影响，但是要考虑好预取的数量，不要爆炸。

以上都是建议，如果有错误的，欢迎在评论区留言。

如果觉得还不错，不要忘了收藏（包括函数）

TFRecord格式

TFRecord格式是Tensorflow首选的格式。这是一种非常简单的二进制格式，只包含二进制记录序列（每个记录由一个长度，一个用于检查长度的CRC校验和，实际数据以及最后一个CRC检验和组成）。
这部分比较少，因为比较不懂。

TFRecord的简单创建读取

with tf.io.TFRecordWriter('my_data.tfrecord') as f:
    f.write(b'This is the first record.')
    f.write(b'And this is the second record.')
    
filepaths = ['my_data.tfrecord']
dataset = tf.data.TFRecordDataset(filepaths)
for item in dataset:
    print(item)

tf.Tensor(b'This is the first record.', shape=(), dtype=string)
tf.Tensor(b'And this is the second record.', shape=(), dtype=string)

TFRecord压缩和读取

tfrecord_options = tf.io.TFRecordOptions(compression_type='GZIP')
with tf.io.TFRecordWriter('my_compressed_data.tfrecord',tfrecord_options) as f:
    f.write(b'This is the first compressed record.')
    f.write(b'And this is the second compressed record.')
dataset = tf.data.TFRecordDataset(['my_compressed_data.tfrecord'],compression_type='GZIP')
for item in dataset:
    print(item)

tf.Tensor(b'This is the first compressed record.', shape=(), dtype=string)
tf.Tensor(b'And this is the second compressed record.', shape=(), dtype=string)

协议缓冲区（TensorFlow协议）:

这是一种可移植、可扩展且高效的二进制格式。如果上述的csv已经够用那么就了解一下。
由于笔者太过懒惰且对于这部分也不熟悉，所以这部分就一个例子。

序列化写入

from tensorflow.train import BytesList,FloatList,Int64List #特征的数据类型
from tensorflow.train import Feature,Features,Example #嵌套定义的类型
person_example = Example(  #一个实例
    features=Features(   #一个实例的所有特征
        feature={    #每个特征都用名字 + 值
            'name':Feature(bytes_list=BytesList(value=[b'Alice'])),
            'id':Feature(int64_list=Int64List(value=[123])),
            'emails':Feature(bytes_list=BytesList(value=[b'[email protected]',b'[email protected]']))
        }
    )
)
person_example.SerializeToString()  #将一个实例序列化，变成二进制格式。

b'\n@\n\x1e\n\x06emails\x12\x14\n\x12\n\[email protected]\n\[email protected]\n\x0b\n\x02id\x12\x05\x1a\x03\n\x01{\n\x11\n\x04name\x12\t\n\x07\n\x05Alice'

#将序列化的数据写入文件。
with tf.io.TFRecordWriter('my_person_example.tfrecord') as f:
    f.write(person_example.SerializeToString())

加载和解析Example

# 定义特征描述字典
feature_description = {
    'name':tf.io.FixedLenFeature([],tf.string,default_value=""),  #对于定长特征，用FixedLenFeature
    'id':tf.io.FixedLenFeature([],tf.int64,default_value=0),  # 并且参数有shape,dtype,default_value
    'emails':tf.io.VarLenFeature(tf.string)  #对于不定长的用VarLenFeature，参数只要dtype
}
# 有了特征描述字典，我们可以对读出的序列化数据进行解析。
for serialized_example in tf.data.TFRecordDataset(['my_person_example.tfrecord']):
    parse_example = tf.io.parse_single_example(serialized_example,feature_description)
parse_example

{'emails': ,
 'id': ,
 'name': }

parse_example['emails'].values  #对于可变长度的张量，可以这样访问。

像上面这样的例子，我们在写入的时候，可以写个函数，将数据序列化写入。读出时也可以写个函数，当然可以不用这样一个一个解析，可以读取时加上batch()，解析时用函数tf.io.parse_example()。由于笔者太懒，就没写了。

除了上面比较规则的数据序列化，还有针对文本不规则数据（例如一篇文章许多句子，一个句子用许多词表示）的序列化SeauenceExample，需要对应的类型序列化写，对应的函数解析，想了解的自己搜吧。

预处理输入特征

包括数值标准化，连续数值离散化，字符串编码。

标准化

相当于sklearn库的StandardScaler
每列做各自的标准化。

layer = tf.keras.layers.Normalization()
a = np.random.randint(0,10,(5,5))
a

array([[1, 9, 3, 2, 1],
       [4, 6, 0, 2, 1],
       [5, 6, 8, 0, 0],
       [0, 9, 8, 2, 5],
       [1, 8, 7, 4, 9]])

layer.adapt(a)
layer(a)

在实践中，如果数据集太大，可以随机抽样，在Normalization()加入model之前，先对抽样实例进行adapt()（相当于StandardScaler.fit()），然后再加入model。

连续数值离散化

下面展示了四种模式，不同输入的输出。但是主要的思路还是将连续数值，划分多个区域，给区域编码进行离散。
除了独热码模式，其他模式，输出维数与输入维数一样。

int输出模式

笔者认为，这个模式大多数应该是只输入一列，转换为下标（类别）。输入一列，最好是（None,1）的二维数据，以便和其他数据向concatenate。

# 对给定界线，每个区域标上下标，int输出模式返回对应数值区域的下标（相当于给连续数据分类，下标从0开始，将连续的数据转换成离散的数据）
# 数据预处理，选择这个。或下面的，都是返回二维数组。
layer1=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='int')
a,layer1(a)

(array([[1, 9, 3, 2, 1],
        [4, 6, 0, 2, 1],
        [5, 6, 8, 0, 0],
        [0, 9, 8, 2, 5],
        [1, 8, 7, 4, 9]]),
 )

# 或者选择这个。
layer1=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='int')
a[:,[1]],layer1(a[:,[1]])

(array([[9],
        [6],
        [6],
        [9],
        [8]]),
 )

layer1=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='int')
a[:,1],layer1(a[:,1])

(array([9, 6, 6, 9, 8]),
 )

独热码输出模式

这个模式只能输入一列，为了便于记忆，与上面一样都输入（None,1）的二维数据。

# 对上面划分好的类别（下标），编码为独热码。
# 数据预处理，选择这个或下面都可以，都是返回二维数组。
layer2=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='one_hot')
layer1(a[:,[1]]),layer2(a[:,[1]])

(,
 )

# 或者这个
layer2=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='one_hot')
layer1(a[:,1]),layer2(a[:,1])

(,
 )

multi_hot输出模式

这个模式，笔者认为大多数应该是输入多列（笔者认为应该是同一度量或者说同一类型的数据）（否则输入一类就变成独热码了）。输入数据就输入二维数据。

# 对于划分好的类别（下标），每个样本有什么类别就在对应的列填上1（有点像独热码，但是独热码每行只有一个1，这里可以有多个1）
# 比如这里第一个样本[1,1,1,1,1],只有下标1，就在下标为1的列填上1，说明有类别1
# 预处理，选这个。返回了二维矩阵。
layer3=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='multi_hot')
layer1(a),layer3(a)

(,
 )

layer3=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='multi_hot')
layer1(a[:,1]),layer3(a[:,1])

(,
 )

# 或者选择这个。不过这个只处理一列，相当于独热码。
layer3=tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='multi_hot')
layer1(a[:,[1]]),layer3(a[:,[1]])

(,
 )

count（计数）输出模式

笔者认为应该是输入多列（笔者认为应该是同一度量或者说同一类型的数据）（否则输入一类就变成独热码了）。输入数据就输入二维数据。

# 对于划分好的类别，计算类别的个数，在对应的下标，填上个数。
# 如果将转换后的矩阵数值大于0的，都置为1，则变成multi_hot输出的矩阵。multi_hot说明存在，count计算个数
# 预处理，选择这个。
layer4 = tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='count')
layer1(a),layer4(a)

(,
 )

layer4 = tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='count')
layer1(a[:,1]),layer4(a[:,1])

(,
 )

# 或者选择这个。不过这个只处理一列也相当于独热码。
layer4 = tf.keras.layers.Discretization(bin_boundaries=[0,5,10],output_mode='count')
layer1(a[:,[1]]),layer4(a[:,[1]])

(,
 )

不指定区域界线

需要指定划分的区域个数，然后经过adapt()（相当于适应数据）之后可以加入模型。

layer = tf.keras.layers.Discretization(num_bins=4,output_mode='int')
layer.adapt(a)  # 这个学习的区域范围会变化，不是固定不变的。每次运行可能不一样
a,layer(a)

(array([[1, 9, 3, 2, 1],
        [4, 6, 0, 2, 1],
        [5, 6, 8, 0, 0],
        [0, 9, 8, 2, 5],
        [1, 8, 7, 4, 9]]),
 )

连续数值离散化小总结。

四个模式int,one_hot,multi_hot,count,前两个应该是输入(None,1)，后面两个应该是输入(None,>1)。都是输入二维数据

四个模式要么设置bin_boundaries,要么设置num_bins，而且都要adapt()

字符编码

在tf.keras.layers.TextVectorization层中只能adapt一维的向量或者最后一维是1size的。

tf.keras.layers.TextVectorization层，输出都是二维。

如果不想adapt，可以设置vocabulary

在输出模式中，由于对tf_idf不熟悉，所以不测试。

b = np.array([['male on'],['female off'],['male off'],['female on']])
b

array([['male on'],
       ['female off'],
       ['male off'],
       ['female on']], dtype='

 
  int输出模式 
   
   这里是对字符串划分编码（下标），如果只是对标签编码，只要传入一列标签值。这里可以看出大多是对文档（包括多个单词的一个字符串）处理。 
   
  # 对类别编码（下标），从2开始（后面无论是one_hot还是embed列数都要是：类别数+2（>=2）(oov=2)），如果在adapt之后有新的值传入，编码为1，注意输出二维。
text_layer = tf.keras.layers.TextVectorization(output_mode='int')
label = ['a','b','c','b','a','b','c']
text_layer.adapt(label)
text_layer(label),text_layer(label+['d']),tf.reshape(text_layer(label),-1)
 
  (,
 ,
 )
 
  # 对字符串编码，通过空格分隔字符串（分隔字符可以不分割：None，空格: whitespace(默认)，每个字符：character），编码下标。
text_layer1=tf.keras.layers.TextVectorization(max_tokens=5000,output_sequence_length=4,output_mode='int')
text_layer1.adapt(b)
text_layer1(b)
 
  
 
  # 这里没有one_hot模式，但是可以在后面接一自定义层将其转换为独热码。注意独热码要输入一维。
tf.one_hot([1,0,2,5],depth=5)
 
  
 
  multi_hot输出模式 
   
   原理与上面的连续值离散化一样,oov=1（从1下标开始）类别数（4）+1 = 5（列） 
   
  text_layer2=tf.keras.layers.TextVectorization(max_tokens=5000,output_mode='multi_hot')
text_layer2.adapt(b)
text_layer2(b)
 
  WARNING:tensorflow:5 out of the last 5 calls to .adapt_step at 0x000001C0D3A06160> triggered tf.function retracing. Tracing is expensive and the excessive number of tracings could be due to (1) creating @tf.function repeatedly in a loop, (2) passing tensors with different shapes, (3) passing Python objects instead of tensors. For (1), please define your @tf.function outside of the loop. For (2), @tf.function has reduce_retracing=True option that can avoid unnecessary retracing. For (3), please refer to https://www.tensorflow.org/guide/function#controlling_retracing and https://www.tensorflow.org/api_docs/python/tf/function for  more details.






 
  count输出模式 
   
   原理与上面一样,oov=1（从1开始）类别数（4） + 1 =5（列） 
   
  text_layer3=tf.keras.layers.TextVectorization(max_tokens=5000,output_mode='count')
text_layer3.adapt(b)
text_layer3(b)
 
  WARNING:tensorflow:6 out of the last 6 calls to .adapt_step at 0x000001C177D1B700> triggered tf.function retracing. Tracing is expensive and the excessive number of tracings could be due to (1) creating @tf.function repeatedly in a loop, (2) passing tensors with different shapes, (3) passing Python objects instead of tensors. For (1), please define your @tf.function outside of the loop. For (2), @tf.function has reduce_retracing=True option that can avoid unnecessary retracing. For (3), please refer to https://www.tensorflow.org/guide/function#controlling_retracing and https://www.tensorflow.org/api_docs/python/tf/function for  more details.






 
  使用嵌入编码(Embedding) 
   
    
    通过一个向量表示一个词，需要现将词转换为下标。 
    注意输出的维度。 
    嵌入编码可训练 
    
   
  embed = tf.keras.layers.Embedding(input_dim=5,output_dim=2)
embed(tf.Variable([4,2,3,2,4,2,3])),embed(text_layer(label))
 
  (,
 )
 
  自定义预处理层（one_hot和Embedding） 
   
    
    笔者这里对字符串（一列数据（特征）），进行字符串编码的自定义层实现。 
    由于是第一次写，自定义预处理层写到笔者都要崩了（到处报错），但是错误的教训是深刻的。 
    一定要记住，要写输入层Input，之前由于没写输入层，导致对字符串的处理一直卡在concatenate层（和原数据是数值的拼接）。 
    实现都很基础，就是要变换shape，为了让字符串处理后可以和其他输入拼接，所以都是输出二维，同时注意要输入data[:,[1]]，而不是data[:,1]. 
    
   
  Input_onehot自定义层实现 
   
   还是要在前面加上Input输入层。 
   
  data = np.array([[13,'male','on',4],[35,'female','off',8],[44,'male','off',9],[15,'female','on',5]])
# 测试代码，不用理睬。
# textvec_layer = tf.keras.layers.TextVectorization(output_mode='int',input_shape=[1,])
# textvec_layer.adapt(data[:,[1]])
# onehot_layer= tf.keras.layers.Lambda(lambda inputs_2D:tf.one_hot(inputs_2D[:,0],2+2))
# model = tf.keras.models.Sequential([textvec_layer,onehot_layer])
# model(data[:,[1]])

# 使用Lambda方法
class Input_onehot(tf.keras.layers.Layer):
    def __init__(self,num_categories,oov=2,vocabulary=None,**kwargs):
        self.num_categories=num_categories
        self.oov = oov
        self.vocabulary=vocabulary
        self.textvec_layer = tf.keras.layers.TextVectorization(output_mode='int',vocabulary=self.vocabulary,input_shape=[1,])
        self.onehot_layer= tf.keras.layers.Lambda(lambda inputs_2D:tf.one_hot(inputs_2D[:,0],self.num_categories+self.oov))
        #self.reshape = tf.keras.layers.Reshape([self.num_categories+self.oov,])
        super().__init__(**kwargs)
    def adapt(self,data_sample_2D):
        self.textvec_layer.adapt(data_sample_2D[:,0])  #(None,1)
    def call(self,inputs_2D):
        z = self.textvec_layer(inputs_2D)
        z = self.onehot_layer(z)
        #z = self.reshape(z)
        return z
    def get_config(self):
        base_config = super().get_config()
        return {**base_config,'num_categories':self.num_categories,'oov':self.oov,'vocabulary':self.vocabulary}
temp_layer = Input_onehot(2)
temp_layer.adapt(data[:,[1]])
temp_layer(data[:,[1]])
 
  
 
  Input_embedding自定义层实现 
   
   还是要在前面加上Input输入层。 
   
  # 测试代码，不用理睬。
# textvec_layer = tf.keras.layers.TextVectorization(output_mode='int',input_shape=[1,])
# textvec_layer.adapt(data[:,[1]])
# zhong = tf.keras.layers.Lambda(lambda inputs_2D:inputs_2D[:,0])
# embed = tf.keras.layers.Embedding(input_dim=4,output_dim=2)
# model = tf.keras.models.Sequential([textvec_layer,zhong,embed])
# model(data[:,[1]])

#使用reshape方法
class Input_embedding(tf.keras.layers.Layer):
    def __init__(self,num_categories,outputdim,oov=2,vocabulary=None,**kwargs):
        self.num_categories=num_categories
        self.outputdim = outputdim
        self.oov = oov
        self.vocabulary=vocabulary
        self.textvec_layer = tf.keras.layers.TextVectorization(output_mode='int',vocabulary=self.vocabulary,input_shape=[1,])
        self.embed = tf.keras.layers.Embedding(input_dim=self.num_categories+self.oov,output_dim=self.outputdim)
        self.trans = tf.keras.layers.Reshape((self.outputdim,))
        super().__init__(**kwargs)
    def compute_output_shape(self,batch_input_shape):
        return tf.TensorShape(batch_input_shape[:-1]+[self.outputdim])
    def adapt(self,data_sample_2D):
        self.textvec_layer.adapt(data_sample_2D[:,0])  #(None,1)
    def call(self,inputs_2D):
        z = self.textvec_layer(inputs_2D)  #(None,1)
        z = self.embed(z)
        z = self.trans(z)
        return z
    def get_config(self):
        base_config = super().get_config()
        return {**base_config,'num_categories':self.num_categories,'oov':self.oov,'outputdim':self.outputdim,'vocabulary':self.vocabulary}

temp_layer = Input_embedding(2,2)
temp_layer.adapt(data[:,[1]])
temp_layer(data[:,[1]])
 
  
 
  使用tf.keras自带层实现包含embed的模型（1） 
  # 使用上面测试的Lambda 方法实现embed
num_input = tf.keras.layers.Input(shape=[2,],name='num_input')  
text_input = tf.keras.layers.Input(shape=[1,],dtype=tf.string,name='text_input')
num_layer = tf.keras.layers.Dense(4,activation='elu',kernel_initializer='he_normal',name='num_layer')(num_input)
textvec_layer = tf.keras.layers.TextVectorization(output_mode='int',vocabulary=tf.unique(data[:,0])[0])(text_input)
zhong = tf.keras.layers.Lambda(lambda inputs_2D:inputs_2D[:,0])(textvec_layer)
embed = tf.keras.layers.Embedding(input_dim=4,output_dim=2)(zhong)
concat = tf.keras.layers.Concatenate(name='concat')([num_layer,embed])
output = tf.keras.layers.Dense(1,name='output')(concat)
model = tf.keras.Model(inputs=[num_input,text_input],outputs=[output])
model.summary()
 
  Model: "model_1"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
==================================================================================================
 text_input (InputLayer)        [(None, 1)]          0           []                               
                                                                                                  
 text_vectorization_6 (TextVect  (None, None)        0           ['text_input[0][0]']             
 orization)                                                                                       
                                                                                                  
 num_input (InputLayer)         [(None, 2)]          0           []                               
                                                                                                  
 lambda_1 (Lambda)              (None,)              0           ['text_vectorization_6[0][0]']   
                                                                                                  
 num_layer (Dense)              (None, 4)            12          ['num_input[0][0]']              
                                                                                                  
 embedding_2 (Embedding)        (None, 2)            8           ['lambda_1[0][0]']               
                                                                                                  
 concat (Concatenate)           (None, 6)            0           ['num_layer[0][0]',              
                                                                  'embedding_2[0][0]']            
                                                                                                  
 output (Dense)                 (None, 1)            7           ['concat[0][0]']                 
                                                                                                  
==================================================================================================
Total params: 27
Trainable params: 27
Non-trainable params: 0
__________________________________________________________________________________________________
 
  使用tf.keras自带层实现包含embed的模型（2） 
  # 使用reshape方法实现embed
num_input = tf.keras.layers.Input(shape=[2,],name='num_input')  # 这层数据输入层可以不要，只要在num_layer设置input_shape=[2,]
text_input = tf.keras.layers.Input(shape=[1,],dtype=tf.string,name='text_input')   # 如果要输入文本，要设置输入类型为tf.string,否则会报错。
num_layer = tf.keras.layers.Dense(4,activation='elu',kernel_initializer='he_normal',name='num_layer')(num_input)
# 估计不能用text_layer直接当做第一层，设置不了输入数据类型（如果可以，欢迎评论区告知）
text_layer = tf.keras.layers.TextVectorization(output_mode='int',vocabulary=tf.unique(data[:,1])[0],name='text_layer')(text_input)  #tf.unique返回列表，取第一个
embed_layer= tf.keras.layers.Embedding(input_dim=4,output_dim=2,name='embed_layer')(text_layer)
# 为了保证字符编码输出二维，这里就变成在embed之后加了reshape层。
reshape_layer = tf.keras.layers.Reshape((2,),name='reshape')(embed_layer)  # 这里是将每个实例展开为一维，但是不能直接写-1，会报错。
# 将两个二维矩阵拼接。
concat = tf.keras.layers.Concatenate(name='concat')([num_layer,reshape_layer])
output = tf.keras.layers.Dense(1,name='output')(concat)
model = tf.keras.Model(inputs=[num_input,text_input],outputs=[output])
a = np.array(data[:,[0,3]],np.float32)  #将数据转换为tf.float32
a = tf.cast(a,tf.float32)
model([a,data[:,[1]]]),model.summary()
 
  Model: "model_2"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
==================================================================================================
 text_input (InputLayer)        [(None, 1)]          0           []                               
                                                                                                  
 text_layer (TextVectorization)  (None, None)        0           ['text_input[0][0]']             
                                                                                                  
 num_input (InputLayer)         [(None, 2)]          0           []                               
                                                                                                  
 embed_layer (Embedding)        (None, None, 2)      8           ['text_layer[0][0]']             
                                                                                                  
 num_layer (Dense)              (None, 4)            12          ['num_input[0][0]']              
                                                                                                  
 reshape (Reshape)              (None, 2)            0           ['embed_layer[0][0]']            
                                                                                                  
 concat (Concatenate)           (None, 6)            0           ['num_layer[0][0]',              
                                                                  'reshape[0][0]']                
                                                                                                  
 output (Dense)                 (None, 1)            7           ['concat[0][0]']                 
                                                                                                  
==================================================================================================
Total params: 27
Trainable params: 27
Non-trainable params: 0
__________________________________________________________________________________________________





(,
 None)
 
  使用自定义层实现包含embed的模型 
  ## 测试，自己写的Input_embedding类终于可以啦！
# 使用reshape
num_input = tf.keras.layers.Input(shape=[2,],name='num_input')  
text_input = tf.keras.layers.Input(shape=[1,],dtype=tf.string,name='text_input')
num_layer = tf.keras.layers.Dense(4,activation='elu',kernel_initializer='he_normal',name='num_layer')(num_input)
text_layer = Input_embedding(2,2,vocabulary=tf.unique(data[:,1])[0],name='text_layer')(text_input)
concat = tf.keras.layers.Concatenate(name='concat')([num_layer,text_layer])
output = tf.keras.layers.Dense(1,name='output')(concat)
model = tf.keras.Model(inputs=[num_input,text_input],outputs=[output])
model.summary()
 
  Model: "model_3"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
==================================================================================================
 num_input (InputLayer)         [(None, 2)]          0           []                               
                                                                                                  
 text_input (InputLayer)        [(None, 1)]          0           []                               
                                                                                                  
 num_layer (Dense)              (None, 4)            12          ['num_input[0][0]']              
                                                                                                  
 text_layer (Input_embedding)   (None, 2)            8           ['text_input[0][0]']             
                                                                                                  
 concat (Concatenate)           (None, 6)            0           ['num_layer[0][0]',              
                                                                  'text_layer[0][0]']             
                                                                                                  
 output (Dense)                 (None, 1)            7           ['concat[0][0]']                 
                                                                                                  
==================================================================================================
Total params: 27
Trainable params: 27
Non-trainable params: 0
__________________________________________________________________________________________________
 
  使用自定义层实现包含one_hot的模型 
  ## 测试，自己写的Input_onehot终于可以啦！
# Lambda
num_input = tf.keras.layers.Input(shape=[2,],name='num_input')  
text_input = tf.keras.layers.Input(shape=[1,],dtype=tf.string,name='text_input')
num_layer = tf.keras.layers.Dense(4,activation='elu',kernel_initializer='he_normal',name='num_layer')(num_input)
text_layer = Input_onehot(2,vocabulary=tf.unique(data[:,1])[0],name='text_layer')(text_input)
concat = tf.keras.layers.Concatenate(name='concat')([num_layer,text_layer])
output = tf.keras.layers.Dense(1,name='output')(concat)
model = tf.keras.Model(inputs=[num_input,text_input],outputs=[output])
model.summary()
 
  Model: "model_4"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
==================================================================================================
 num_input (InputLayer)         [(None, 2)]          0           []                               
                                                                                                  
 text_input (InputLayer)        [(None, 1)]          0           []                               
                                                                                                  
 num_layer (Dense)              (None, 4)            12          ['num_input[0][0]']              
                                                                                                  
 text_layer (Input_onehot)      (None, 4)            0           ['text_input[0][0]']             
                                                                                                  
 concat (Concatenate)           (None, 8)            0           ['num_layer[0][0]',              
                                                                  'text_layer[0][0]']             
                                                                                                  
 output (Dense)                 (None, 1)            9           ['concat[0][0]']                 
                                                                                                  
==================================================================================================
Total params: 21
Trainable params: 21
Non-trainable params: 0
__________________________________________________________________________________________________
 
   
   写了这么多，测试了两天两夜，都是泪~~.~~。大家如果觉得不错，就收藏吧！！

基于python+django+mysql的小区物业管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
该系统是基于python+django开发的小区物业管理系统。适用场景：大学生、课程作业、毕业设计。学习过程中，如遇问题可以在github给作者留言。主要功能有：业主管理、报修管理、停车管理、资产管理、小区管理、用户管理、日志管理、系统信息。源码学习技术。演示地址http://wuye.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https:/
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
国外7个最佳大语言模型 (LLM) API推荐幂简集成 API新理念语言模型人工智能自然语言处理
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
[附源码]Python计算机毕业设计SSM基于B-S的心理健康管理系统（程序+LW) Python、JAVA毕设程序源码 java 开发语言
环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：SSM+mybatis+Maven+Vue等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论上也可以。2.IDE环境：
5-1 使用ECharts将MySQL数据库中的数据可视化上课的牛马实训大数据
方法一：使用PythonFlask框架搭建API对于技术小白来说，使用ECharts将MySQL数据库中的数据可视化需要分步骤完成。以下是详细的实现流程：一、技术架构‌后端服务‌：使用PythonFlask框架搭建API（简单易学，适合新手）数据库连接‌：通过Python的pymysql库连接MySQL前端可视化‌：HTML+JavaScript+ECharts数据流向‌：MySQL数据库→Pyt
绕过 reCAPTCHA V2/V3：Python、Selenium 指南 qq_33253945 python selenium javascript 网络爬虫爬虫算法
前言验证码（CAPTCHA）技术已经存在许多年，尽管它的有效性一直备受争议，但许多网站仍然依赖它来保护资源。尤其是Google推出的reCAPTCHA系列，一直是验证码领域的佼佼者。本文将详细介绍如何绕过reCAPTCHAV2和V3，并提供实用的代码示例。详情请见：解决验证码recaptcha、cloudflare、incapsula1.什么是reCAPTCHA？reCAPTCHA是Google推
CSP-J备考冲刺必刷题（C++） | AcWing 11 背包问题求方案数热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】AcWing：11.背包问题求方案数-AcWi
python数据可视化绘制图表（直方图，饼图圆环图，散点或气泡图，误差棒图） 2224070304 信息可视化 python 数据分析
一，直方图#先导入模块importnumpyasnp importmatplotlib.pyplotasplt#准备50个随机的数据scores=np.random.randint(0,100,50)#绘制直方图plt.hist(scores,bins=8,histtype='stepfilled')plt.show()其中，scores为数组（可为单个或多个的数列)bins=8,表示矩形的条数为
用Python实现SFM 薄辉 python opencv 计算机视觉人工智能图像处理
SFM(结构化光流法)是一种用于解决三维重建问题的方法，它可以根据许多二维图像和它们之间的相对位置，估计出三维场景的深度和摄像机的姿态。在Python中，你可以使用OpenCV库来实现SFM。下面是一个简单的例子，展示了如何使用OpenCV库的cv2.sfm_create函数来实现SFM：importcv2#读入图像，存入列表images中images=[]foriinrange(1,11):im
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
探索Sfm-python: 一款强大的计算机视觉库缪昱锨Hunter
探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python接口提供结构化从运动（StructurefromMotion,SfM）算法。如果你对3D重建、图像匹配或地理定位有兴趣，那么这个项目将是你不可或缺的工具。让我们一起深入了解一下它的技术细节、应用场景
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
python学智能算法（八）|决策树西猫雷婶人工智能 python学习笔记机器学习 python 决策树开发语言
【1】引言前序学习进程中，已经对KNN邻近算法有了探索，相关文章链接为：python学智能算法（七）|KNN邻近算法-CSDN博客但KNN邻近算法有一个特点是：它在分类的时候，不能知晓每个类别内事物的具体面貌，只能获得类别，停留在事物的表面。为了进一步探索事物的内在特征，就需要学习新的算法。本篇文章就是在KNN的基础上学习新算法：决策树。【2】原理分析在学习决策树执之前，需要先了解香农熵。本科学控
freecad嵌入工作台黄河里的小鲤鱼软件开发建模 python
1Introduction导言FreeCADcanbeimportedasaPythonmoduleinotherprogramsorinastandalonePythonconsole,togetherwithallitsmodulesandcomponents.It’sevenpossibletoimporttheFreeCADuserinterfaceasapythonmodulebutwi
家用笔记本换装centos7当服务器全流程吕域服务器 windows 电脑 centos
目录1、安装centos7系统硬件准备软件和镜像准备制作启动盘2、网络连接和ssh远程登陆centos7连接网络ssh远程登陆3、笔记本闭盖不休眠（7*24小时可用）4、定时开关机（省电、保护电脑）5、配置开发环境（此处以python为例，非必要项，示需求安装）1、安装centos7系统硬件准备老旧淘汰笔记本一台（新笔记本不合算，舍不得）一个大于8G的U盘网线一根（后续联网用）软件和镜像准备软件U
机器学习是怎么一步一步由神经网络发展到今天的Transformer架构的？ yuanpan 机器学习神经网络 transformer
机器学习和神经网络的发展经历了一系列重要的架构和技术阶段。以下是更全面的总结，涵盖了从早期神经网络到卷积神经网络之前的架构演变：1.早期神经网络：感知机（Perceptron）时间：1950年代末至1960年代。背景：感知机由FrankRosenblatt提出，是第一个具有学习能力的神经网络模型。它由单层神经元组成，可以用于简单的二分类任务。特点：输入层和输出层之间直接连接，没有隐藏层。使用简单的
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

tensorflow2笔记：简单数据预处理（TF专属）

目录（注意本文jupyterlab编写）

预先导入数据

数据API

数据样式

乱序数据

shuffle乱序（小数据集）

大数据集乱序

训练测试和绘制图像

小结

TFRecord格式

TFRecord的简单创建读取

TFRecord压缩和读取

协议缓冲区（TensorFlow协议）:

序列化写入

加载和解析Example

预处理输入特征

标准化

连续数值离散化

int输出模式

独热码输出模式

multi_hot输出模式

count（计数）输出模式

不指定区域界线

连续数值离散化小总结。

字符编码

int输出模式

multi_hot输出模式

count输出模式

使用嵌入编码(Embedding)

自定义预处理层（one_hot和Embedding）

Input_onehot自定义层实现

Input_embedding自定义层实现

使用tf.keras自带层实现包含embed的模型（1）

使用tf.keras自带层实现包含embed的模型（2）

使用自定义层实现包含embed的模型

使用自定义层实现包含one_hot的模型

你可能感兴趣的:(tensorflow2,tensorflow,机器学习,python)