frank_zhaojianbo

推荐模型LSTM

import os
import pandas as pd
import numpy as np
from tqdm import tqdm
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.metrics import accuracy_score
import time
import datetime

from scipy.sparse import hstack
from sklearn.model_selection import StratifiedKFold
import re
from keras.layers import *
from tensorflow.keras.models import *
from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing import text, sequence
from tensorflow.keras.callbacks import *
from keras.layers.advanced_activations import LeakyReLU, PReLU
import tensorflow.keras.backend as K
from keras.optimizers import *
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.backend import cast
import tensorflow as tf
import random as rn
import gc
import logging
import gensim
np.random.seed(1024)
rn.seed(1024)

import warnings
warnings.filterwarnings('ignore')

/home/frank/miniconda3/envs/reco2/lib/python3.7/site-packages/gensim/similarities/__init__.py:15: UserWarning: The gensim.similarities.levenshtein submodule is disabled, because the optional Levenshtein package  is unavailable. Install Levenhstein (e.g. `pip install python-Levenshtein`) to suppress this warning.
  warnings.warn(msg)

action_data = pd.read_csv('./data/my_data.csv')

action_data.head()

	user_log_acct	item_sku_id	action_time	action_type	brand_code	shop_id	item_third_cate_cd	vender_id	shop_score	age	sex	user_level	province	city	county
0	937922	357022	2020-02-04 08:28:15	1	1791.0	8703.0	10.0	5227.0	-1.000000	5.0	1.0	5	11.0	348.0	1782.0
1	937922	73	2020-02-04 08:27:07	1	1791.0	8703.0	10.0	5227.0	-1.000000	5.0	1.0	5	11.0	348.0	1782.0
2	937922	29583	2020-02-04 08:26:31	1	1791.0	2738.0	10.0	3436.0	9.206167	5.0	1.0	5	11.0	348.0	1782.0
3	937922	108763	2020-02-04 08:26:10	1	1791.0	2738.0	10.0	3436.0	9.206167	5.0	1.0	5	11.0	348.0	1782.0
4	1369473	331139	2020-02-03 21:55:49	1	9985.0	6367.0	73.0	3666.0	0.000000	5.0	1.0	5	1.0	41.0	2058.0

action_data.shape

(37214269, 15)

数据预处理

# 存在异常值，需要修改
action_data['dd_len'] = action_data['action_time'].apply(lambda x: len(str(x)))
action_data['action_time'] = action_data['action_time'].apply(lambda x: x[:19])
del action_data['dd_len']

action_data['action_time'] = pd.to_datetime(action_data['action_time'])
action_data = action_data.sort_values('action_time')

action_data['month'] = action_data['action_time'].dt.month
action_data['day'] = action_data['action_time'].dt.day
action_data['month_day'] = action_data['month'].values * 100 + action_data['day'].values

训练集切分

def _label_trans(x, dic_):
    try:
        return dic_[x]
    except:
        return 0

def get_label(df, label_st = (4,11), label_en = (4,15),candidate_st = (4,6), candidate_en = (4,10), fea_en = (4,10)):
    # label_st ->label_en             -->  标签集  
    # candidate_st + candidate_en     -->  候选集
    # <= fea_en                       -->  特征
    
    lb_st = df.loc[(df['month'] == label_st[0]) & (df['day'] == label_st[1]),   'month_day'].values[0]
    lb_en = df.loc[(df['month'] == label_en[0]) & (df['day'] == label_en[1]),   'month_day'].values[0]   
    
    cand_st = df.loc[(df['month'] == candidate_st[0]) & (df['day'] == candidate_st[1]),   'month_day'].values[0]
    cand_en = df.loc[(df['month'] == candidate_en[0]) & (df['day'] == candidate_en[1]),   'month_day'].values[0] 
    
    fea_position = df.loc[(df['month'] == fea_en[0]) & (df['day'] == fea_en[1]),   'month_day'].values[0]    
    ind_label = (df['month_day']>= lb_st) & (df['month_day']<= lb_en) & (df['action_type'] ==2)
    ind_candidate = (df['month_day']>= cand_st) & (df['month_day']<= cand_en)
    ind_fea = (df['month_day']<= fea_position)     
    data_label = df.loc[ind_label].copy()
    data_fea = df.loc[ind_fea].copy() # 用来构建特征集合
    data_candidates = df.loc[ind_candidate].copy() 
    
    # 构建候选集
    df_candidates  =  data_candidates[['user_log_acct','item_sku_id']].copy()    
    df_candidates  =  df_candidates.drop_duplicates(subset = ['user_log_acct','item_sku_id']) 
    df_candidates  =  df_candidates.loc[(df_candidates.item_sku_id.isnull() == False)]
    
    # 构建标签 
    label = data_label[['user_log_acct','item_sku_id','day']].copy() 
    print('get label')
    
    # 打标签 
    df_candidates['label_cnt'] = 0 
    df_candidates['label_days'] = 0 
    df_candidates['user_item'] = df_candidates['user_log_acct'].astype(str)+'_' + df_candidates['item_sku_id'].astype(str)
    label['user_item'] = label['user_log_acct'].astype(str)+'_' + label['item_sku_id'].astype(str)
    dic_cnt  = label['user_item'].value_counts().to_dict()
    dic_days = label.groupby('user_item')['day'].nunique().to_dict()  
    df_candidates['label_cnt'] = df_candidates['user_item'].apply(lambda x:_label_trans(x,dic_cnt)).values
    df_candidates['label_days'] = df_candidates['user_item'].apply(lambda x:_label_trans(x,dic_days)).values
    
    return df_candidates, data_fea

%%time
df_valid_label,data_valid_fea = get_label(action_data, label_st = (4,11), label_en = (4,15), candidate_st = (4,6), candidate_en = (4,10), fea_en = (4,10))

get label
CPU times: user 5.49 s, sys: 933 ms, total: 6.43 s
Wall time: 6.43 s

%%time
df_train_label1,data_train_fea1 = get_label(action_data, label_st = (4,6), label_en = (4,10), candidate_st = (4,1), candidate_en = (4,5), fea_en = (4,5))

get label
CPU times: user 4.73 s, sys: 784 ms, total: 5.51 s
Wall time: 5.51 s

df_train_label1.head()

	user_log_acct	item_sku_id	user_item
34296301	1144603	153700	1144603_153700
1415203	1129253	327893	1129253_327893
3960663	736788	201003	736788_201003
5158969	109461	256490	109461_256490
7377193	470525	142823	470525_142823

特征构建

原始特征

## 原始特征
my_user = action_data[['user_log_acct','age','sex','user_level','province','city','county']].drop_duplicates(['user_log_acct'], keep='first')
my_item = action_data[['item_sku_id','brand_code','shop_id','item_third_cate_cd','vender_id','shop_score']].drop_duplicates(['item_sku_id'], keep='first')

user特征

def gen_action_freq_feats(df, start_date):
    
    key = ['user_log_acct']
    action = df[key+['action_type', 'action_time']].copy()
    feats = pd.DataFrame(action[key].drop_duplicates())
    
    for w in tqdm([1, 3, 5, 7, 15, 30]): 
        bef_start_date = start_date - datetime.timedelta(days=w) 
        
        action_cl = action[action['action_time']>=bef_start_date].copy()
        df = pd.get_dummies(action_cl['action_type'], prefix='_'.join(key)+'_last{}_days_action'.format(w))
        action_cl = pd.concat([action_cl, df], axis=1)
        action_cl = action_cl.groupby(key, as_index=False).sum()
        action_cl['_'.join(key)+'_last{}_days_action_1_rt'.format(w)] = action_cl['_'.join(key)+'_last{}_days_action_2'.format(w)] / (1 + action_cl['_'.join(key)+'_last{}_days_action_1'.format(w)])
        action_cl['_'.join(key)+'_last{}_days_action_3_rt'.format(w)] = action_cl['_'.join(key)+'_last{}_days_action_2'.format(w)] / (1 + action_cl['_'.join(key)+'_last{}_days_action_3'.format(w)])
        action_cl['_'.join(key)+'_last{}_days_action_4_rt'.format(w)] = action_cl['_'.join(key)+'_last{}_days_action_2'.format(w)] / (1 + action_cl['_'.join(key)+'_last{}_days_action_4'.format(w)])

        del action_cl['action_type']
        feats = feats.merge(action_cl, on=key, how='left')
    return feats

u_fea_train1 = gen_action_freq_feats(data_train_fea1, datetime.datetime(2020, 4, 5))
u_fea_val1   = gen_action_freq_feats(data_valid_fea, datetime.datetime(2020, 4, 10))

100%|██████████| 6/6 [00:05<00:00,  1.16it/s]
100%|██████████| 6/6 [00:05<00:00,  1.08it/s]

合并特征集

u_fea_cols1    = [col for col in u_fea_train1.columns if col not in ['user_log_acct']]  
u_fea_cols2    = [col for col in my_user.columns if col not in ['user_log_acct']]  
i_fea_cols     = [col for col in my_item.columns if col not in ['item_sku_id']] 

train_cols     = ['user_log_acct','item_sku_id'] + u_fea_cols1 + u_fea_cols2 + i_fea_cols

训练集&验证集

# 训练集
df_train =  df_train_label1.merge(u_fea_train1, on ='user_log_acct', how='left') 
df_train =  df_train.merge(my_user, on ='user_log_acct', how='left')
df_train =  df_train.merge(my_item, on ='item_sku_id', how='left') 

df_train['label'] =  df_train['label_cnt'] > 0
df_train['label'] =  df_train['label'].astype(int)

# 验证集
df_val =  df_valid_label.merge(u_fea_val1, on ='user_log_acct', how='left') 
df_val =  df_val.merge(my_user, on ='user_log_acct', how='left')
df_val =  df_val.merge(my_item, on ='item_sku_id', how='left') 

df_val['label'] =  df_val['label_cnt'] > 0
df_val['label'] =  df_val['label'].astype(int)

序列化

def set_tokenizer(docs, split_char=' ', max_len=100):
    '''
    输入
    docs:文本列表
    split_char:按什么字符切割
    max_len:截取的最大长度
    
    输出
    X:序列化后的数据
    word_index:文本和数字对应的索引
    '''
    tokenizer = Tokenizer(lower=False, char_level=False, split=split_char)  # 创建一个分词器
    tokenizer.fit_on_texts(docs)   # 构建商品索引
    X = tokenizer.texts_to_sequences(docs)  # 将商品转换为整数索引组成的列表
    maxlen = max_len
    X = pad_sequences(X, maxlen=maxlen, value=0)
    word_index=tokenizer.word_index  # 找回商品索引
    return X, word_index

valid_item_seq = data_valid_fea.groupby(['user_log_acct'])['item_sku_id'].agg(list).reset_index()
valid_item_seq.columns = ['user_log_acct', 'item_seq']
df_val = df_val.merge(valid_item_seq, on='user_log_acct', how='left')

train_item_seq = data_train_fea1.groupby(['user_log_acct'])['item_sku_id'].agg(list).reset_index()
train_item_seq.columns = ['user_log_acct', 'item_seq']
df_train = df_train.merge(train_item_seq, on='user_log_acct', how='left')

df_data = pd.concat([df_train[['item_seq']], df_val[['item_seq']]], axis=0, ignore_index=True)

df_data['item_seq'] = df_data['item_seq'].apply(lambda x:str(x)[1:-1])
text_1_list = list(df_data['item_seq'])

print('开始序列化')
x1, index_1 = set_tokenizer(text_1_list, split_char=',', max_len=20)
print('序列化完成')
gc.collect()

开始序列化
序列化完成





0

sparse_col = ['item_sku_id','age','sex','user_level','province','city','county','brand_code','shop_id','item_third_cate_cd','vender_id']

rest_col = ['user_log_acct','label_cnt','label_days','user_item','item_seq','label']

dense_cols = []
for i in df_train.columns:
    if df_train[i].dtype in ['float64','int64'] and i not in sparse_col and i not in rest_col:
        dense_cols.append(i)

## dense标准化
from sklearn.preprocessing import StandardScaler
ss=StandardScaler()
df_data = pd.concat([df_train[dense_cols], df_val[dense_cols]], axis=0, ignore_index=True)
df_data = df_data.fillna(0)
ss.fit(df_data)
dense_feature = ss.transform(df_data)
dense_feature_input = dense_feature.shape[1]

# 区分开train和valid
train_input_1 = x1[:df_train.shape[0]]
test_input_1 = x1[df_train.shape[0]:]
train_input_2 = dense_feature[:df_train.shape[0]]
test_input_2 = dense_feature[df_train.shape[0]:]
train_label = df_train['label']
test_label = df_val['label']

LSTM

from keras.initializers import *

def model_1(emb1, dense_feature_input, df_):
    
    K.clear_session()
    
    
    emb_layer_1 = Embedding(
        input_dim=emb1.shape[0],
        output_dim=32,
        input_length=20,
        trainable=True
    )

    seq1 = Input(shape=(20,))
    
    x1 = emb_layer_1(seq1)
    sdrop=SpatialDropout1D(rate=0.2)
    x1 = sdrop(x1)
    
    x = Dropout(0.2)(LSTM(200, return_sequences=True)(x1))
    semantic = TimeDistributed(Dense(100, activation="tanh"))(x)
    merged_1 = Lambda(lambda x: K.max(x, axis=1), output_shape=(100,))(semantic)
    merged_1_avg = Lambda(lambda x: K.mean(x, axis=1), output_shape=(100,))(semantic)
    
    
    hin = Input(shape=(dense_feature_input, ))
    htime = Dense(16, activation='relu')(hin)
    
    
    x = concatenate([merged_1, merged_1_avg, htime])
    
    x = Dropout(0.2)(Activation(activation="relu")(BatchNormalization()(Dense(128)(x))))
    x = Activation(activation="relu")(BatchNormalization()(Dense(64)(x)))
    pred = Dense(1, activation='sigmoid')(x)
    
    model = Model(inputs=[seq1, hin], outputs=pred)
    
    model.compile(optimizer="adam", 
              loss="binary_crossentropy", 
              metrics=["binary_crossentropy", tf.keras.metrics.AUC(name='auc')])
    
    return model

file_path = "nn_lstm.h5" 
earlystopping = EarlyStopping(monitor="val_auc", patience=5,mode='max')
plateau = ReduceLROnPlateau(monitor="val_auc", verbose=1,mode='max', factor=0.5, patience=3)
checkpoint = ModelCheckpoint(
    file_path,monitor='val_auc', save_weights_only=True, verbose=1, save_best_only=True,mode='max')
callbacks_list = [earlystopping, checkpoint, plateau]

model_lstm = model_1(x1, dense_feature_input, df_data)

x1_tr, x1_va = np.array(train_input_1), np.array(test_input_1)  
x2_tr, x2_va = np.array(train_input_2), np.array(test_input_2)
y_tr, y_va = train_label, test_label

hist = model_lstm.fit([x1_tr, x2_tr],
                      y_tr, batch_size=4096, epochs=10, 
                      validation_data=([x1_va, x2_va], y_va),
                      callbacks=callbacks_list, verbose=1, shuffle=True)

test_pred = model_lstm.predict([x1_va, x2_va], batch_size=2048, verbose=1)

Epoch 1/10
401/401 [==============================] - 501s 1s/step - loss: 0.1395 - binary_crossentropy: 0.1395 - auc: 0.5903 - val_loss: 0.0302 - val_binary_crossentropy: 0.0302 - val_auc: 0.8218

Epoch 00001: val_auc improved from -inf to 0.82176, saving model to nn_lstm.h5
Epoch 2/10
401/401 [==============================] - 505s 1s/step - loss: 0.0307 - binary_crossentropy: 0.0307 - auc: 0.8247 - val_loss: 0.0284 - val_binary_crossentropy: 0.0284 - val_auc: 0.8047

Epoch 00002: val_auc did not improve from 0.82176
Epoch 3/10
401/401 [==============================] - 498s 1s/step - loss: 0.0273 - binary_crossentropy: 0.0273 - auc: 0.8839 - val_loss: 0.0294 - val_binary_crossentropy: 0.0294 - val_auc: 0.7620

Epoch 00003: val_auc did not improve from 0.82176
Epoch 4/10
401/401 [==============================] - 503s 1s/step - loss: 0.0233 - binary_crossentropy: 0.0233 - auc: 0.9356 - val_loss: 0.0313 - val_binary_crossentropy: 0.0313 - val_auc: 0.7226

Epoch 00004: val_auc did not improve from 0.82176

Epoch 00004: ReduceLROnPlateau reducing learning rate to 0.0005000000237487257.
Epoch 5/10
401/401 [==============================] - 497s 1s/step - loss: 0.0202 - binary_crossentropy: 0.0202 - auc: 0.9637 - val_loss: 0.0334 - val_binary_crossentropy: 0.0334 - val_auc: 0.7039

Epoch 00005: val_auc did not improve from 0.82176
Epoch 6/10
401/401 [==============================] - 497s 1s/step - loss: 0.0184 - binary_crossentropy: 0.0184 - auc: 0.9711 - val_loss: 0.0347 - val_binary_crossentropy: 0.0347 - val_auc: 0.6929

Epoch 00006: val_auc did not improve from 0.82176
864/864 [==============================] - 66s 76ms/step

np.max(hist.history['val_auc'])

0.821759819984436

np.max(hist.history['val_loss'])

0.034674450755119324

机器学习笔记——Boosting中常用算法（GBDT、XGBoost、LightGBM）迭代路径好评笔记机器学习笔记机器学习 boosting 人工智能深度学习 AI 算法工程师
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文主要阐述Boosting中常用算法（GBDT、XGBoost、LightGBM）的迭代路径。文章目录XGBoost相对GBDT的改进引入正则化项，防止过拟合损失函数L(yi,y^i)L(y_i,\hat{y}_i)L(yi,y^i)正则化项Ω(fm)\Omega(f_m)Ω(fm)使用二阶导数信息，加速收敛一阶导数与二
机器学习02-发展历史补充坐吃山猪机器学习机器学习人工智能
机器学习02-发展历史补充文章目录机器学习02-发展历史补充1-机器学习个人理解1-初始阶段：统计学习和模式识别（20世纪50年代至80年代）2-第二阶段【集成时代】+【核方法】（20世纪90年代至2000年代初期）3-第三阶段【特征工程】+【模型优化】（2000年代中期至2010年代初期）4-大规模数据和分布式计算（2010年代中后期）5-自动化机器学习和特征选择（2010年代末至今）2-神经网
Python数据分析高频面试题及答案闲人编程程序员面试 python 数据分析面试题核心
目录1.基础知识2.数据处理3.数据可视化4.机器学习模型5.进阶问题6.数据清洗与预处理7.数据转换与操作8.时间序列分析9.高级数据分析技术10.数据降维与特征选择11.模型评估与优化12.数据操作与转换13.数据筛选与分析14.数据可视化与报告15.数据统计与分析16.高级数据处理以下是一些Python数据分析的高频核心面试题及其答案，涵盖了基础知识、数据1.基础知识问1：Python中列表
Python机器学习之XGBoost从入门到实战(基本理论说明) 雪域枫蓝 Python Atificial Intelligence 机器学习 python 分布式
Xgboost从基础到实战XGBoost:eXtremeGradientBoosting*应用机器学习领域的一个强有力的工具*GradientBootingMachines(GBM)的优化表现，快速有效—深盟分布式机器学习开源平台(DistributedmachinelearningCommunity，DMLC)的分支—DMLC也开源流行的深度学习库mxnet*GBM：Machine：机器学习模型
【数据分析岗】关于数据分析岗面试python的金典问题+解答，包含数据读取、数据清洗、数据分析、机器学习等内容摇光~ 数据分析面试 python
大家好，我是摇光~，用大白话讲解所有你难懂的知识点最近和几个大佬交流了，说了很多关于现在职场面试等问题，然后也找他们问了问他们基本面试的话都会提什么问题。所以我收集了很多关于python的面试题，希望对大家面试有用。类别1：数据读取与处理问题1：如何用Python从Excel文件中读取数据？答：在Python中，可以使用pandas库从Excel文件中读取数据。pandas提供了read_exce
【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
提升数据科学工作流效率的10个Jupyter Notebook高级特性
JupyterNotebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥JupyterNotebooks的潜力。1、Magic命令：高效的命令行接口Jupyt
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
【Python】已解决：ModuleNotFoundError: No module named ‘sklearn‘ 屿小夏 python sklearn 人工智能
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
推荐3D UNet实现：深度学习3D体素数据语义分割的利器！滑辰煦Marc
推荐3DUNet实现：深度学习3D体素数据语义分割的利器！去发现同类优质开源项目:https://gitcode.com/在这个快速发展的深度学习时代，3DUNet已经成为3D图像处理领域中不可或缺的工具，尤其在医疗影像分析和3D物体识别等任务上展现出强大的潜力。这个开源项目为我们提供了一个高效、灵活的3DUNet实现，支持Tensorflow、PyTorch和Chainer三种主流深度学习框架。
机器学习数据预处理preprocessing之KernelCenterer 一叶_障目机器学习人工智能
sklearn.preprocessing.KernelCenterer对矩阵XXX执行中心化操作，即使得核矩阵的行和列的均值为零给定二维矩阵XXX，可以下式得到其核变换矩阵KKK：K(X,X)=ϕ(X).ϕ(X)TK(X,X)=\phi(X).\phi(X)^TK(X,X)=ϕ(X).ϕ(X)T式中ϕ(X)\phi(X)ϕ(X)是一种将XXX从原始空间映射到希尔伯特空间的函数希尔伯特空间是一种完
PyTorch机器学习与深度学习技术方法 Teacher.chenchong 机器学习 python 开发语言
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。Python基础知识串讲1、Python环境搭建（Python软件下载、安装与版本选择；PyCharm下载、安装；Python之HelloW
机器学习和深度学习的概念你好呀我是裤裤深度学习笔记机器学习深度学习人工智能
MachineLearning机器学习，可以看作是找一个函数。这个函数是人类找不到的，所以交给机器来找。DifferenttypesofFunctions**Regression：**函数的输出是一个数值forexample：**Classification：**给出选项，让机器去选择。forexample：检测一个邮件是不是垃圾文件，就可以通过这个来做。选项是两个：垃圾文件or非垃圾文件。下面，
Python AI教程之二十一：监督学习之支持向量机（SVM）算法潜洋人工智能 Python中级支持向量机算法机器学习 python
支持向量机（SVM）算法支持向量机(SVM)是一种功能强大的机器学习算法，广泛用于线性和非线性分类以及回归和异常值检测任务。SVM具有很强的适应性，适用于各种应用，例如文本分类、图像分类、垃圾邮件检测、笔迹识别、基因表达分析、人脸检测和异常检测。SVM特别有效，因为它们专注于寻找目标特征中不同类别之间的最大分离超平面，从而使其对二分类和多分类都具有鲁棒性。在本大纲中，我们将探讨支持向量机(SVM)
【Rust】——不安全Rust Y小夜 Rust（官方文档重点总结）rust 开发语言后端
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，Python机器学习等主页链接：Y小夜-CSDN博客目录不安全的超能力解引用裸指针调用不安全函数或方法创建不安全代码的安全抽象使用e
超简单|Python实现机器学习算法——KNN birdcome python 机器学习 KNN算法
超简单|Python实现机器学习算法——KNNKNN算法简介算法实现步骤如何用python实现KNN算法Scikit-learn算法库实现KNN分类器Sklearn建模流程KNN算法简介KNN算法（k近邻算法）是一种有监督分类算法，它的原理非常简单，下面以一个简单的例子引入。已知两种酒的标签：赤霞珠和黑皮诺，在这个情景中，我们对酒进行分类的依据是酒精浓度和颜色深度，如下图所示：红色代表赤霞珠，紫色
《机器学习模型快速收敛的秘籍大揭秘》人工智能深度学习
在机器学习的领域中，让模型快速收敛是众多从业者和研究者们共同追求的目标。因为快速收敛不仅能节省大量的时间和计算资源，还能使模型更快地投入实际应用，为我们带来更高的效率和价值。以下是一些实现机器学习模型快速收敛的方法。选择合适的优化器优化器在模型训练中起着至关重要的作用，它决定了模型参数的更新方式和步长。常见的优化器如Adam、RMSProp和Momentum等都有各自的特点和优势。Adam结合了M
深度学习驱动的极端天气预测：时空数据异常检测与应用全解析（基于Python + TensorFlow） AI_DL_CODE 深度学习 python tensorflow 人工智能天气预测
摘要：时空数据异常检测在气象领域识别偏离正常模式的数据点，对极端天气预测至关重要。深度学习，尤其是LSTM网络，因其强大的特征学习能力在该领域显示出巨大潜力。通过整合多源气象数据，深度学习模型能够自动挖掘复杂模式和非线性关系，提高预测准确性。然而，挑战依然存在，包括数据质量问题、模型可解释性不足以及极端天气的内在复杂性和不确定性。未来，通过模型架构创新、训练算法优化以及探索深度学习在气候预测、气象
python 代码实现了一个条件生成对抗网络（Conditional Generative Adversarial Network，CGAN），用于生成与给定的理化值相关的光谱数据 max500600 算法开发语言 python 生成对抗网络开发语言
importtensorflowastfimportnumpyasnpimportpandasaspdimportosimportmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_splitfromtensorflow.keras.layersimportAdd,BatchNormalizationos.enviro
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！ eclipsercp 工具毕业设计 python 机器学习线性代数人工智能
【机器学习】从零开始，用线性代数解锁智能时代的钥匙！文章目录【机器学习】从零开始，用线性代数解锁智能时代的钥匙！引言在这个数据驱动的时代，机器学习已经成为解锁智能科技的关键。但你是否曾被复杂的数学公式和算法搞得晕头转向？别担心，这篇文章将带你从零开始，用最直观的方式掌握线性代数——机器学习的核心武器！线性代数：机器学习的基石向量：数据的基本单元Python代码示例：向量操作矩阵：多维数据的集合Py
【机器学习】聚类【Ⅰ】基础知识与距离度量不牌不改【机器学习】聚类机器学习算法
主要来自周志华《机器学习》一书，数学推导主要来自简书博主“形式运算”的原创博客，包含自己的理解。有任何的书写错误、排版错误、概念错误等，希望大家包含指正。由于字数限制，分成五篇博客。【机器学习】聚类【Ⅰ】基础知识与距离度量【机器学习】聚类【Ⅱ】原型聚类经典算法【机器学习】聚类【Ⅲ】高斯混合模型讲解【机器学习】聚类【Ⅳ】高斯混合模型数学推导【机器学习】聚类【Ⅴ】密度聚类与层次聚类聚类1聚类任务在“无
Web APP 阶段性综述预测模型的开发与应用研究 APP construction web app
WebAPP阶段性综述当前，WebAPP主要应用于电脑端，常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域，WebAPP扮演着重要角色。在生物信息学领域，诸多工具以WebAPP的形式呈现，相较之下，医学领域的此类应用数量相对较少。在医学和生物信息学的学术论文中，WebAPP是展示研究成果的有效工具，并且还能部署到网络上，服务于实际应用场景。ShinyAPP平台特性
Python pandas离散化方法优化与应用实例 python慕遥 Python数据分析 Pandas 数据科学 python pandas 机器学习
大家好，在数据分析中，离散化是将连续数据划分为不同区间的一种重要方法。这种方法可以更好地理解数据分布、简化分析、或在分类建模中对特征进行转换。在Python的Pandas库中，cut和qcut是两个强大的工具，分别用于基于固定区间和基于分位数对数据进行离散化。它们的灵活性和易用性使其在数据处理过程中十分常用。离散化可以将复杂的连续数据转化为更直观的区间，帮助快速发现数据分布规律，并且在机器学习中，
Pandas数据预处理：处理缺失值 - 插值法代码艺术巧匠 pandas Python
Pandas数据预处理：处理缺失值-插值法在数据分析和机器学习任务中，处理缺失值是一个常见的挑战。缺失值可能由于多种原因而产生，例如数据采集过程中的错误、设备故障或者用户不完整的输入。为了有效地处理缺失值，插值法是一种常用的技术。在本文中，我们将使用Python中的Pandas库来演示如何使用插值法处理缺失值。首先，我们需要导入Pandas库并加载包含缺失值的数据集。假设我们有一个名为df的数据框
气象海洋水文领域Python机器学习及深度学习实践应用能力提升 AAIshangyanxiu 农林生态遥感编程算法统计语言大气科学 python 机器学习深度学习
Python是功能强大、免费、开源，实现面向对象的编程语言，能够在不同操作系统和平台使用，简洁的语法和解释性语言使其成为理想的脚本语言。除了标准库，还有丰富的第三方库，Python在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能。上述优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Python将成为气象、海洋和水文
记录一个LLM+API类型的临床预测模型APP（糖尿病Cox预测模型）的过程预测模型的开发与应用研究 APP construction web app
记录一个LLM+API类型的临床预测模型APP（糖尿病Cox预测模型）的构建过程LLM代表的是大语言模型，API代表的是机器学习模型，LLM+API是说将机器学习模型以API的形式引入到LLM，让机器学习模型以对话的方式与用户交流而服务于临床实践的APP形式，是区别与streamlit等具有可视化界面的APP的另外一种APP形式，其优点是结合了LLM丰富的知识储备和对用户需求的理解能力，以及机器学
python训练模型损失值6000多_机器学习中的 7 大损失函数实战总结（附Python演练）... weixin_39700394
介绍想象一下-你已经在给定的数据集上训练了机器学习模型，并准备好将它交付给客户。但是，你如何确定该模型能够提供最佳结果?是否有指标或技术可以帮助你快速评估数据集上的模型?当然是有的，简而言之，机器学习中损失函数可以解决以上问题。损失函数是我们喜欢使用的机器学习算法的核心。但大多数初学者和爱好者不清楚如何以及在何处使用它们。它们并不难理解，反而可以增强你对机器学习算法的理解。那么，什么是损失函数，你
【机器学习实战入门项目】基于机器学习的鸢尾花分类项目精通代码大仙数据挖掘 python 深度学习机器学习分类人工智能大数据数据挖掘算法 python
基于机器学习的鸢尾花分类项目介绍：本项目利用机器学习模型对鸢尾花进行分类。鸢尾花数据集是一个著名的机器学习数据集，包含三种类别的花朵：Setosa、Versicolor和Virginica，每种类别由四个特征描述：萼片长度、萼片宽度、花瓣长度和花瓣宽度。什么是机器学习？机器学习是关于从数据中学习预测或提取知识的过程。它是人工智能的一个子领域。机器学习算法基于样本数据（即训练数据）构建模型，并根据训
MindIE+MindFormers推理方案指导人工智能pytorch
组件介绍CANNCANN是什么异构计算架构CANN（ComputeArchitectureforNeuralNetworks）是昇腾针对AI场景推出的异构计算架构，向上支持多种AI框架，包括MindSpore、PyTorch、TensorFlow等，向下服务AI处理器与编程，发挥承上启下的关键作用，是提升昇腾AI处理器计算效率的关键平台。同时针对多样化应用场景，提供多层次编程接口，支持用户快速构建
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

推荐模型LSTM

数据预处理

训练集切分

特征构建

原始特征

user特征

合并特征集

训练集&验证集

序列化

LSTM

你可能感兴趣的:(机器学习,tensorflow)