处女座_三月

10- 天猫用户复购预测 (机器学习集成算法) (项目十) *

项目难点

merchant: 商人
重命名列名: user_log.rename(columns={'seller_id':'merchant_id'}, inplace=True)
数据类型转换: user_log['item_id'] = user_log['item_id'].astype('int32')
主要使用方法: xgboost, lightbm

竞赛地址: 天猫复购预测之挑战Baseline_学习赛_天池大赛-阿里云天池
排名: 448/9361 score: 0.680989

项目简介:

阿里巴巴天池天猫复购预测的机器学习项目, 使用数据分析, 通过机器学习中的线性分类算法, 进行建模, 从而预测消费者行为, 复购情况 .

数据分析
特征工程
算法使用
算法集成

1 数据处理

1.1 模型导入

import gc    # 垃圾回收
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')

# 导入分析库
# 数据拆分
from sklearn.model_selection import train_test_split
# 同分布数据拆分
from sklearn.model_selection import StratifiedGroupKFold
import lightgbm as lgb
import xgboost as xgb

1.2 加载数据

%%time
# 加载数据
# 用户行为日志
user_log = pd.read_csv('./data_format1/user_log_format1.csv', dtype = {'time_stamp':'str'})
# 用户画像
user_info = pd.read_csv('./data_format1/user_info_format1.csv')
# 训练数据和测试数据
train_data = pd.read_csv('./data_format1/train_format1.csv')
test_data = pd.read_csv('./data_format1/test_format1.csv')

1.3 查看数据

print('---data shape---')     
for data in [user_log, user_info, train_data, test_data]:
    print(data.shape)

print('---data info ---')
for data in [user_log, user_info, train_data, test_data]:
    print(data.info())

display(user_info.head())

display(train_data.head(),test_data.head())

1.4 数据集成

train_data['origin'] = 'train'
test_data['origin'] = 'test'
# 集成
all_data = pd.concat([train_data, test_data], ignore_index=True, sort=False)
# prob测试数据中特有的一列
all_data.drop(['prob'], axis=1, inplace=True) # 删除概率这一列
display(all_data.head(),all_data.shape)

# 连接user_info表，通过user_id关联
all_data = all_data.merge(user_info, on='user_id', how='left')
display(all_data.shape,all_data.head())

# 使用 merchant_id（原列名seller_id）
user_log.rename(columns={'seller_id':'merchant_id'}, inplace=True)

del train_data,test_data,user_info
gc.collect()

1.5 数据类型转换

%%time
display(user_log.info())

%%time
display(user_log.head())

%%time
# 用户行为数据类型转换
user_log['user_id'] = user_log['user_id'].astype('int32')
user_log['merchant_id'] = user_log['merchant_id'].astype('int32')
user_log['item_id'] = user_log['item_id'].astype('int32')
user_log['cat_id'] = user_log['cat_id'].astype('int32')
user_log['brand_id'].fillna(0, inplace=True)
user_log['brand_id'] = user_log['brand_id'].astype('int32')
user_log['time_stamp'] = pd.to_datetime(user_log['time_stamp'], format='%H%M')
user_log['action_type'] = user_log['action_type'].astype('int32')
display(user_log.info(),user_log.head())

display(all_data.isnull().sum())

# 缺失值填充
all_data['age_range'].fillna(0, inplace=True)
all_data['gender'].fillna(2, inplace=True)
all_data.isnull().sum()

all_data.info()

all_data['age_range'] = all_data['age_range'].astype('int8')
all_data['gender'] = all_data['gender'].astype('int8')
all_data['label'] = all_data['label'].astype('str')
all_data['user_id'] = all_data['user_id'].astype('int32')
all_data['merchant_id'] = all_data['merchant_id'].astype('int32')
all_data.info()

1.6 用户特征工程(5min)

%%time
##### 特征处理
##### User特征处理
groups = user_log.groupby(['user_id'])

# 用户交互行为数量 u1
temp = groups.size().reset_index().rename(columns={0:'u1'})
all_data = all_data.merge(temp, on='user_id', how='left')

# 细分
# 使用 agg 基于列的聚合操作，统计唯一值个数 item_id, cat_id, merchant_id, brand_id
# 用户，交互行为：点了多少商品呢？
temp = groups['item_id'].agg([('u2', 'nunique')]).reset_index()
all_data = all_data.merge(temp, on='user_id', how='left')

# 用户，交互行为，具体统计：类目多少
temp = groups['cat_id'].agg([('u3', 'nunique')]).reset_index()
all_data = all_data.merge(temp, on='user_id', how='left')

temp = groups['merchant_id'].agg([('u4', 'nunique')]).reset_index()
all_data = all_data.merge(temp, on='user_id', how='left')

temp = groups['brand_id'].agg([('u5', 'nunique')]).reset_index()
all_data = all_data.merge(temp, on='user_id', how='left')


# 购物时间间隔特征 u6 按照小时
temp = groups['time_stamp'].agg([('F_time', 'min'), ('B_time', 'max')]).reset_index()
temp['u6'] = (temp['B_time'] - temp['F_time']).dt.seconds/3600
all_data = all_data.merge(temp[['user_id', 'u6']], on='user_id', how='left')


# 统计操作类型为0，1，2，3的个数
temp = groups['action_type'].value_counts().unstack().reset_index().rename(
    columns={0:'u7', 1:'u8', 2:'u9', 3:'u10'})
all_data = all_data.merge(temp, on='user_id', how='left')

del temp,groups
gc.collect()

all_data.head()

1.7 店铺特征工程(5min)

%%time
##### 商家特征处理
groups = user_log.groupby(['merchant_id'])

# 商家被交互行为数量 m1
temp = groups.size().reset_index().rename(columns={0:'m1'})
all_data = all_data.merge(temp, on='merchant_id', how='left')

# 统计商家被交互的 user_id, item_id, cat_id, brand_id 唯一值
temp = groups['user_id', 'item_id', 'cat_id', 'brand_id'].nunique().reset_index().rename(
    columns={
    'user_id':'m2',
    'item_id':'m3', 
    'cat_id':'m4', 
    'brand_id':'m5'})
all_data = all_data.merge(temp, on='merchant_id', how='left')

# 统计商家被交互的 action_type 唯一值
temp = groups['action_type'].value_counts().unstack().reset_index().rename(  
    columns={0:'m6', 1:'m7', 2:'m8', 3:'m9'})
all_data = all_data.merge(temp, on='merchant_id', how='left')

del temp
gc.collect()

display(all_data.tail())

1.8 用户和店铺联合特征工程(4min)

%%time
##### 用户+商户特征
groups = user_log.groupby(['user_id', 'merchant_id'])

# 用户在不同商家交互统计
temp = groups.size().reset_index().rename(columns={0:'um1'})
all_data = all_data.merge(temp, on=['user_id', 'merchant_id'], how='left')

# 统计用户在不同商家交互的 item_id, cat_id, brand_id 唯一值
temp = groups['item_id', 'cat_id', 'brand_id'].nunique().reset_index().rename(
    columns={
    'item_id':'um2',
    'cat_id':'um3',
    'brand_id':'um4'})
all_data = all_data.merge(temp, on=['user_id', 'merchant_id'], how='left')

# 统计用户在不同商家交互的 action_type 唯一值
temp = groups['action_type'].value_counts().unstack().reset_index().rename(
    columns={
    0:'um5',
    1:'um6',
    2:'um7',
    3:'um8'})
all_data = all_data.merge(temp, on=['user_id', 'merchant_id'], how='left')

# 统计用户在不同商家购物时间间隔特征 um9 按照小时
temp = groups['time_stamp'].agg([('F_time', 'min'), ('B_time', 'max')]).reset_index()
temp['um9'] = (temp['B_time'] - temp['F_time']).dt.seconds/3600
all_data = all_data.merge(temp[['user_id','merchant_id','um9']], on=['user_id', 'merchant_id'], how='left')

del temp,groups
gc.collect()

display(all_data.head())

1.9 购买点击比

all_data['r1'] = all_data['u9']/all_data['u7']    # 用户购买点击比
all_data['r2'] = all_data['m8']/all_data['m6']    # 商家购买点击比
all_data['r3'] = all_data['um7']/all_data['um5']  # 不同用户不同商家购买点击比
display(all_data.head())

1.10 空数据填充

display(all_data.isnull().sum())

all_data.fillna(0, inplace=True)
all_data.isnull().sum()

1.11 年龄性别类别型转换

all_data['age_range']

%%time
# 修改age_range字段名称为 age_0, age_1, age_2... age_8
# 独立编码
temp = pd.get_dummies(all_data['age_range'], prefix='age')
display(temp.head(10))
all_data = pd.concat([all_data, temp], axis=1)

# 性别转换
temp = pd.get_dummies(all_data['gender'], prefix='g')
all_data = pd.concat([all_data, temp], axis=1) # 列进行合并

# 删除原数据
all_data.drop(['age_range', 'gender'], axis=1, inplace=True)

del temp
gc.collect()

all_data.head()

1.12 数据存储

%%time
# train_data、test-data
train_data = all_data[all_data['origin'] == 'train'].drop(['origin'], axis=1)
test_data = all_data[all_data['origin'] == 'test'].drop(['label', 'origin'], axis=1)

train_data.to_csv('train_data.csv')
test_data.to_csv('test_data.csv')

2 算法建模预测

# 训练数据和目标值
train_X, train_y = train_data.drop(['label'], axis=1), train_data['label']

# 数据拆分保留20%作为测试数据
X_train, X_valid, y_train, y_valid = train_test_split(train_X, train_y, test_size=.2)

2.1 LGB 模型

def lgb_train(X_train, y_train, X_valid, y_valid, verbose=True):
    model_lgb = lgb.LGBMClassifier(
        max_depth=10, # 8 # 树最大的深度
        n_estimators=5000, # 集成算法，树数量
        min_child_weight=100, 
        colsample_bytree=0.7, # 特征筛选
        subsample=0.9,  # 样本采样比例
        learning_rate=0.1) # 学习率

    model_lgb.fit(
        X_train, 
        y_train,
        eval_metric='auc',
        eval_set=[(X_train, y_train), (X_valid, y_valid)],
        verbose=verbose, # 是否打印输出训练过程
        early_stopping_rounds=10) # 早停，等10轮决策，评价指标不在变化，停止

    print(model_lgb.best_score_['valid_1']['auc'])
    return model_lgb

X_train

model_lgb = lgb_train(X_train.values, y_train, X_valid.values, y_valid, verbose=True)

%%time
prob = model_lgb.predict_proba(test_data.values) # 预测
submission = pd.read_csv('./data_format1/test_format1.csv')

# 复购的概率
submission['prob'] = pd.Series(prob[:,1]) # 预测数据赋值给提交数据
display(submission.head())
submission.to_csv('submission_lgb.csv', index=False)

del submission
gc.collect()

2.2 XGB 模型

def xgb_train(X_train, y_train, X_valid, y_valid, verbose=True):
    model_xgb = xgb.XGBClassifier(
        max_depth=10, # raw8
        n_estimators=5000,
        min_child_weight=300, 
        colsample_bytree=0.7, 
        subsample=0.9, 
        learing_rate=0.1)
    
    model_xgb.fit(
        X_train, 
        y_train,
        eval_metric='auc',
        eval_set=[(X_train, y_train), (X_valid, y_valid)],
        verbose=verbose,
        early_stopping_rounds=10)  # 早停法，如果auc在10epoch没有进步就stop
    print(model_xgb.best_score)
    return model_xgb

模型训练

model_xgb = xgb_train(X_train, y_train, X_valid, y_valid, verbose=False)

模型预测

%%time
prob = model_xgb.predict_proba(test_data)
submission = pd.read_csv('./data_format1/test_format1.csv')
submission['prob'] = pd.Series(prob[:,1])
submission.to_csv('submission_xgb.csv', index=False)
display(submission.head())
del submission
gc.collect()

3 交叉验证多轮建模

# 构造训练集和测试集
def get_train_test_datas(train_df,label_df):
    skv = StratifiedKFold(n_splits=10, shuffle=True)
    trainX = []
    trainY = []
    testX = []
    testY = []
    # 索引：训练数据索引train_index,目标值的索引test_index
    for train_index, test_index in skv.split(X=train_df, y=label_df):  # 10轮for循环
        
        train_x, train_y, test_x, test_y = train_df.iloc[train_index, :], label_df.iloc[train_index], \
                                            train_df.iloc[test_index, :], label_df.iloc[test_index]

        trainX.append(train_x)
        trainY.append(train_y)
        testX.append(test_x)
        testY.append(test_y)
    return trainX, testX, trainY, testY

3.1 LGB 模型（1min）

%%time
train_X, train_y = train_data.drop(['label'], axis=1), train_data['label']

# 拆分为10份训练数据和验证数据
X_train, X_valid, y_train, y_valid = get_train_test_datas(train_X, train_y)

print('----训练数据，长度',len(X_train))
print('----验证数据，长度',len(X_valid))

pred_lgbms = [] # 列表，接受目标值，10轮，平均值

for i in range(10):
    print('\n=========LGB training use Data {}/10===========\n'.format(i+1))
    model_lgb = lgb.LGBMClassifier(
        max_depth=10, # 8
        n_estimators=1000,
        min_child_weight=100,
        colsample_bytree=0.7,
        subsample=0.9,
        learning_rate=0.05)

    model_lgb.fit(
        X_train[i].values, 
        y_train[i],
        eval_metric='auc',
        eval_set=[(X_train[i].values, y_train[i]), (X_valid[i].values, y_valid[i])],
        verbose=False,
        early_stopping_rounds=10)

    print(model_lgb.best_score_['valid_1']['auc'])
    pred = model_lgb.predict_proba(test_data.values)
    pred = pd.DataFrame(pred[:,1]) # 将预测概率（复购）去处理，转换成DataFrame
    pred_lgbms.append(pred)

# 求10轮平均值生成预测结果，保存
# 每一轮的结果，作为一列，进行了添加
pred_lgbms = pd.concat(pred_lgbms, axis=1) # 级联，列进行级联

# 加载提交数据
submission = pd.read_csv('./data_format1/test_format1.csv')
submission['prob'] = pred_lgbms.mean(axis=1) # 10轮训练的平均值
submission.to_csv('submission_KFold_lgb.csv', index=False)

3.2 XGB 模型（4min）

# 构造训练集和测试集
def get_train_test_datas(train_df,label_df):
    skv = StratifiedKFold(n_splits=20, shuffle=True)
    trainX = []
    trainY = []
    testX = []
    testY = []
    # 索引：训练数据索引train_index,目标值的索引test_index
    for train_index, test_index in skv.split(X=train_df, y=label_df):# 10轮for循环
        
        train_x, train_y, test_x, test_y = train_df.iloc[train_index, :], label_df.iloc[train_index], \
                                           train_df.iloc[test_index, :], label_df.iloc[test_index]

        trainX.append(train_x)
        trainY.append(train_y)
        testX.append(test_x)
        testY.append(test_y)
    return trainX, testX, trainY, testY

%%time
train_X, train_y = train_data.drop(['label'], axis=1), train_data['label']

# 拆分为20份训练数据和验证数据
X_train, X_valid, y_train, y_valid = get_train_test_datas(train_X, train_y)

print('------数据长度',len(X_train),len(y_train))

pred_xgbs = []
for i in range(20):
    print('\n============XGB training use Data {}/20========\n'.format(i+1))
    model_xgb = xgb.XGBClassifier(
        max_depth=10, # raw8
        n_estimators=5000,
        min_child_weight=200, 
        colsample_bytree=0.7, 
        subsample=0.9,
        learning_rate = 0.1)

    model_xgb.fit(
        X_train[i], 
        y_train[i],
        eval_metric='auc',
        eval_set=[(X_train[i], y_train[i]), (X_valid[i], y_valid[i])],
        verbose=False,
        early_stopping_rounds=10 # 早停法，如果auc在10epoch没有进步就stop
    )    

    print(model_xgb.best_score)

    pred = model_xgb.predict_proba(test_data)
    pred = pd.DataFrame(pred[:,1])
    pred_xgbs.append(pred)

# 求20轮平均值生成预测结果，保存
pred_xgbs = pd.concat(pred_xgbs, axis=1)
submission = pd.read_csv('./data_format1/test_format1.csv')
submission['prob'] = pred_xgbs.mean(axis=1)
submission.to_csv('submission_KFold_xgb.csv', index=False)

左神算法之有序二维矩阵中的目标值查找岳轩子左神算法算法矩阵线性代数
有序二维矩阵中的目标值查找目录有序二维矩阵中的目标值查找1.题目描述2.问题解释3.解决思路方法一：逐行二分查找（适合行数较少的情况）方法二：利用行列有序特性（最优解）4.代码实现5.总结1.题目描述给定一个元素为非负整数的二维数组matrix，其中：每一行按照从左到右递增的顺序排列每一列按照从上到下递增的顺序排列再给定一个非负整数aim，请判断aim是否存在于matrix中。示例：int[][]
技术开发全流程管理：涵盖天线系统的仿真建模（HFSS/CST等）、原型设计、调试优化（网络分析仪/暗室测试）到量产导入（LDS工艺识别），需主导技术文档编写（设计规范/测试报告）。百态老人网络设计规范
以下是针对天线系统技术开发全流程管理的完整解析，涵盖仿真建模、原型设计、调试优化、量产导入及技术文档编写五大环节，结合行业实践与资料核心信息进行系统阐述：一、仿真建模（HFSS/CST）1.软件选择与算法差异HFSS：基于有限元法（FEM），擅长电小尺寸、窄带天线设计（如微带天线、滤波电路），可精确计算辐射方向图、增益、S参数等。其自适应网格技术确保高精度，但计算资源消耗大，不适于电大尺寸模型。C
Python网安-ftp服务暴力破解（仅供学习） Whoisshutiao python 网络安全开发语言
目录源码在这里需要导入的模块连接ftp，并设置密码本和线程核心代码设置线程源码在这里https://github.com/Wist-fully/Attack/tree/cracker需要导入的模块importftplibfromthreadingimportThreadimportqueue连接ftp，并设置密码本和线程host="192.168.6.6"user="student"port=21
Python爬虫网安-request+示例 Whoisshutiao python爬虫网安 python 爬虫开发语言网络安全
目录get&post自定义请求头文件上传添加cookie获取网页使用cookiejarsessionssl证书校验超时身份认证（httpbasicAuth）代理配置get&post#！/usr/bin/envpythonimportrequests#get#r=requests.get('http://httpbin.org/get')#print(r.text)#添加参数的get请求data={
多个 Job 并发运行时共享配置文件导致上下文污染，固化 Jenkins Job 上下文要站在顶端 Jenkins jenkins servlet 运维
基于context.py固化JenkinsJob上下文的完整方案，适用于你当前的工作流（Python+JenkinsPipeline），解决：多个Job并发运行时共享配置文件导致上下文污染；读取环境变量或JSON文件时被其他Job修改的问题；后续阶段（如发送通知）读取错误上下文的问题；✅目标在每个JenkinsJob开始时，将关键变量一次性固化到内存中，并在整个Job生命周期内始终使用这些值。整体
DOP数据开放平台(真实线上项目) JAVA拾贝 java 数据开放平台接口开放平台监控限流接口过滤自动文档
什么是数据开放平台？数据开放平台是一种通过公开应用程序编程接口（API）或结构化数据，允许第三方开发者或机构访问、使用和共享数据的平台‌，旨在促进数据流通、打破信息孤岛并激发创新应用。DOP数据开放平台简单演示DOP数据开放平台(JAVA语言)DOP数据开放平台优势网址：DOP数据开放平台商户可自行注册，管理员开放权限访问接口向下兼容，方便版本迭代响应报文过滤，数据更安全支持监控限流，服务更稳定自
数据标注工具详解 Sally璐璐 ai 大数据
数据标注工具是构建高质量AI训练数据集的核心基础设施，其功能覆盖图像、文本、视频、音频、3D点云等多模态数据的标注与管理。以下从工具类型、核心功能、行业应用及技术趋势等方面进行系统介绍：一、主流数据标注工具分类与特性1.通用型标注平台LabelStudio由Heartex开发的开源工具，支持文本、图像、视频、音频及时间序列数据标注，可通过YAML自定义标注界面19。其内置质量控制机制（如标注审核、
使用 Xinference 命令行工具（xinference launch）部署 Nanonets-OCR-s 没刮胡子 Linux服务器技术人工智能AI 软件开发技术实战专栏 ocr
使用Xinference命令行工具（xinferencelaunch）部署Nanonets-OCR-s一、核心优势与适用场景通过xinferencelaunch命令可直接在命令行完成模型部署，无需编写Python代码，适合快速验证或生产环境批量部署。二、部署步骤：从命令行启动模型1.确认环境与依赖已安装Xinference：pipinstall"xinference[all]"GPU显存≥9GB（
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
AingDesk开源免费的本地 AI 模型管理工具(搭建和调用MCP) 没刮胡子 Linux服务器技术软件开发技术实战专栏人工智能AI 开源人工智能 AI助手 mcp sse 知识库智能体
说明AingDesk是一款开源免费的本地AI模型管理工具，旨在简化AI模型部署流程并提升用户体验。AingDesk支持本地AI模型及API+知识库搭建。支持知识库、模型API、分享、联网搜索、智能体。✨产品亮点跨平台支持客户端支持Windows、macOS，服务端可通过Docker部署高效下载与网络优化自动选择最优下载线路，支持断点续传，提升大模型部署速度兼容OpenAIAPI格式，方便第三方模型
MiniMax - M1：开源大模型的革命性突破
开源大模型MiniMax-M1研究报告一、引言在人工智能技术飞速发展的当下，大模型领域的竞争愈发激烈。开源大模型以其开放性、可定制性和社区协作的优势，逐渐成为推动人工智能技术进步的重要力量。MiniMax-M1作为全球首个开源大规模混合架构的推理模型，一经发布便引起了广泛关注。它在长上下文处理、推理效率和成本控制等方面展现出了卓越的性能，为人工智能的发展带来了新的思路和方向。本文将对MiniMax
Ubuntu基础（上传文件和部署Python） aaiier ubuntu linux 运维
首先打开[email protected]然后写yes，在输入密码然后就是输入ls/查看根目录ls/结果是ubuntu@x0-x-xx-xx:~$ls/binbootdevhomelib.usr-is-mergedlost+foundmntprocrunsbin.usr-is-mergedsrvtmpvarbin.usr-is-mergeddataetclibli
Flutter基础（项目创建） aaiier flutter
一、使用命令行创建项目1.确认Flutter环境正常要保证FlutterSDK已经正确安装，并且环境变量配置无误。可以通过执行以下命令来验证：flutterdoctor要保证所有检查项都显示绿色对勾，要是有问题，可按照提示进行修复。2.创建新项目打开终端，执行下面的命令来创建一个新的Flutter应用：fluttercreatemy_flutter_appcdmy_flutter_app这里的my
print(str(3+5))的结果是什么？为什么？ Lauren_Lu python
✅语句：print(str(3+5))✅执行顺序与含义：括号优先：先计算3+5+是加法运算符3+5是一个表达式，结果为整数8使用str()函数将结果转换为字符串str(8)返回字符串'8'使用print()打印这个字符串print('8')的输出就是：8✅为什么要运算？因为：Python遇到表达式3+5时，必须先计算出结果；str()需要一个值作为参数，而不是一个没计算的表达式；这是Python表
服务网格和 Istio 简介蹇之途容器化微服务 istio kubernetes 服务网格微服务 service mesh
文章目录一、什么是服务网格ServiceMesh1.1主要概念1.1.1、容器组织框架(Containerorchestratiobframework)1.1.2、Service与Service实例(ServiceInstance)1.1.3、Sidecar代理(SidecarProxy)1.1.4、服务发现(Servicediscovery)1.1.5、负载均衡(Loadbalancing)1.
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
Flutter到鸿蒙的跨越：flutter-phone-direct-caller库的鸿蒙适配之旅 harmonyos
flutter_app_icon_badge插件鸿蒙适配：实现跨平台应用图标角标管理本项目作者：坚果您可以使用这个Flutter插件来更改应用程序图标上的角标作者仓库：https://github.com/badver/flutter_app_icon_badge/在数字化浪潮的推动下，跨平台开发框架如Flutter凭借其高效、便捷的特性，成为了开发者们的宠儿。而鸿蒙系统的崛起，更是为跨平台开发注
memory_info：Flutter 插件助力鸿蒙生态，精准获取设备内存信息 harmonyos
memory_info：Flutter插件助力鸿蒙生态，精准获取设备内存信息帮助您获取设备内存信息（ram&rom）本项目作者：王阳科/坚果您可以使用这个Flutter插件来更改应用程序图标上的角标作者仓库：https://github.com/MrOlolo/memory_info/tree/master/memory_info在数字化浪潮的推动下，跨平台开发框架如Flutter凭借其高效、便捷
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
插件鸿蒙化flutter_native_contact_picker_plus联系人选择器的跨平台适配实践【上篇】 harmonyos
Flutter插件鸿蒙化，flutter_native_contact_picker_plus联系人选择器的跨平台适配实践本项目作者：坚果适配仓库地址作者仓库：https://pub.dev/packages/flutter_native_contact_picker_plus在数字化浪潮的推动下，跨平台开发框架如Flutter凭借其高效、便捷的特性，成为了开发者们的宠儿。而鸿蒙系统的崛起，更是为
Flutter开发环境配置指南 harmonyos
环境相关问题flutter开发环境配置参考建议使用的开发工具版本flutter3.22.0-ohos版本python3.8-python3.11java17node18ohpm1.6+HamonyOSSDKapi11Xcode14.3断网环境flutterpubget执行失败解决方案：加上--offline参数，完整命令flutterpubget--offline。mac环境release版本的应
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
fvcom 水深文件dep制作海洋与大气科学数据库
fvcom水深文件dep制作fvcom水深文件dep制作20250630本次案例网格和水深展示vvimageFigure1Modeldomain本次制作其它驱动文件的输入文件为yellowsea.2dm格式2dm;文件内容格式详细介绍参考：https://www.xmswiki.com/wiki/SMS:2D_Mesh_Files_*.2dm制作方法可以参考往期教学：matlab读取shp文件做S
在混乱中做技术决策：AI时代，工程领导者的认知升级指南 java
大家好，这里是架构资源栈！点击上方关注，添加“星标”，一起学习大厂前沿架构！关注、发送C1即可获取JetBrains全家桶激活工具和码！“AI替代不了责任感与判断力。”——GoogleSRE负责人MichelleBrush在InfoQDevSummit的系统思维演讲精要解读在近期的InfoQDevSummitBoston大会上，GoogleSRE工程总监MichelleBrush发表了题为**《H
危急时刻显身手：AORO M6 Pro防爆对讲机的实战智慧 AORO_BEIDOU 人工智能信息与通信 5G 科技
在工业安全与应急通信领域，设备的技术自主性与智能化水平已成为衡量核心竞争力的关键指标。面对复杂多变的作业环境与日益严苛的安全标准，AOROM6Pro防爆对讲机凭借“纯血国产”的技术底座与“AI赋能”的创新突破，为危化、能源、公共安全等领域提供了兼具安全性与高效能的通信解决方案。这款斩获2024年度AI天马“臻品”殊荣的产品，不仅重新定义了防爆对讲机的技术标杆，更以本土化创新回应了行业对极端场景通信
python编译Edge-tts： Edge tts Player 浩读语音朗读 edge-tts python 自然语言处理 edge 前端
Edge-TTS是Python库，通过微软AzureCognitiveServices转化文本为自然语音，Edge-TTS支持40多种语言和300种声音，提供优质的语音输出，这给学习外语的学生和老师很大的福利。下面，尝试着用python来编写一个简单的TTS转MP3。EdgeTTSfromtkinterimport*fromtkinterimportttkfromtkinter.filedialo
【Python】PyRoboPath：Python机器人路径规划的终极指南宅男很神经 python 开发语言
PyRoboPath：Python机器人路径规划的终极指南第1部分：PyRoboPath与路径规划基础第1章：PyRoboPath概览与核心理念1.1什么是PyRoboPath？PyRoboPath是一个先进的、开源的Python库，致力于为学术研究人员、行业工程师以及机器人爱好者提供一套完整、高效、易用且可扩展的机器人路径规划解决方案。它不仅仅是一个算法的集合，更是一个集成了机器人建模、环境表示
AI摄像头动捕：精准量化八段锦动作质量，赋能传统功法习练
在追求动作标准度的竞技体育、舞蹈教学或运动康复领域，如何科学、客观、高效地评估动作质量一直是核心挑战。如今，AI摄像头动捕技术的成熟，正为这些领域带来突破性的解决方案，尤其在需要高度专注与准确性的八段锦、太极拳等传统健身功法领域中展现出巨大潜力。AI摄像头动捕系统，通过部署多组高帧率RGB摄像头，在空间中构建一个精密的三维捕捉场域。这种无穿戴动捕（或称无标记点动捕）的方式，让用户无需任何设备束缚人
基于人工智能的图表生成器警世龙开发记录人工智能自然语言处理
基于人工智能的图表生成器软件需求分析本项目旨在开发一个基于Web的图表生成工具，利用人工智能技术将自然语言描述转换为专业的流程图、时序图等可视化图表。具体需求如下：支持用户输入自然语言描述来生成图表。提供实时预览功能，让用户能够即时看到生成的图表。允许用户对生成的Mermaid代码进行编辑。支持图表的缩放和平移操作。提供代码保存和图片导出功能。具备快捷键支持，提高用户操作效率。技术选型前端HTML
凌晨の3点，线程池竟在服务器里偷偷···· 山海上的风 Java 服务器 java-ee 线程池
凌晨の3点，线程池の竟在服务器里偷偷榨干CPU····⚡️CPU：JAVAKing为窝发声,HELPME⚡️JAVAKING今天将揭露线程池的罪恶行为⚡️《线程池：OH,YES》线程池到底对项目做了什么想象一下：每次点外卖都新雇一个厨师‍，吃完就开除——这就是裸奔线程的日常！在高并发三巨头（电商秒杀、金融交易、大数据处理）中：1️⃣CPU哭诉：90%时间在面试线程，10%干活（线程切换开销）2️⃣
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

10- 天猫用户复购预测 (机器学习集成算法) (项目十) *

项目难点

项目简介:

1 数据处理

1.1 模型导入

1.2 加载数据

1.3 查看数据

1.4 数据集成

1.5 数据类型转换

1.6 用户特征工程(5min)

1.7 店铺特征工程(5min)

1.8 用户和店铺联合特征工程(4min)

1.9 购买点击比

1.10 空数据填充

1.11 年龄性别类别型转换

1.12 数据存储

2 算法建模预测

2.1 LGB 模型

2.2 XGB 模型

3 交叉验证多轮建模

3.1 LGB 模型（1min）

3.2 XGB 模型（4min）

你可能感兴趣的:(项目梳理,机器学习,算法,人工智能,python,ai)