SOFT-WORKER

JData数据处理及高潜用户购买意向预测

竞赛概述：

本次大赛以京东商城真实的用户、商品和行为数据（脱敏后）为基础，参赛队伍需要通过数据挖掘的技术和机器学习的算法，构建用户购买商品的预测模型，输出高潜用户和目标商品的匹配结果，为精准营销提供高质量的目标群体。同时，希望参赛队伍能通过本次比赛，挖掘数据背后潜在的意义，为电商用户提供更简单、快捷、省心的购物体验。

数据介绍：

符号定义：

S：提供的商品全集；

P：候选的商品子集（JData_Product.csv），P是S的子集；

U：用户集合；

A：用户对S的行为数据集合；

C：S的评价数据。

训练数据部分：

提供2016-02-01到2016-04-15日用户集合U中的用户，对商品集合S中部分商品的行为、评价、用户数据；提供部分候选商品的数据P。选手从数据中自行组成特征和数据格式，自由组合训练测试数据比例。

预测数据部分：

2016-04-16到2016-04-20用户是否下单P中的商品，每个用户只会下单一个商品；抽取部分下单用户数据，A榜使用50%的测试数据来计算分数；B榜使用另外50%的数据计算分数(计算准确率时剔除用户提交结果中user_Id与A榜的交集部分)。

1、用户数据

user_id	用户ID	脱敏
age	年龄段	-1表示为知
sex	性别	0表示男 1表示女 2表示保密
user_lv_cd	用户等级	有顺序的级别枚举，越高级别数字越大
user_rg_tm	用户注册日期	粒度到天

2、商品数据

sku_id	商品编号	脱敏
a1	属性1	枚举，-1表示为知
a2	属性2	枚举，-1表示为知
a3	属性3	枚举，-1表示为知
cate	品类ID	脱敏
brand	品牌ID	脱敏

3、评价数据

dt	截止到时间	粒度到天
sku_id	商品编号	脱敏
comment_num	累计评论数分段	0表示无评论，1表示有一条评论 2表示有2-10条评论 3表示有11-50条评论 4表示大于50条评论
has_bad_comment	是否有差评	0表示无，1表示有
bad_comment_rate	差评率	查评论占总评论数的比重

4、行为数据

user_id	用户编号	脱敏
sku_id	商品编号	脱敏
time	行为时间
model_id	点击模块编号，如果是点击	脱敏
type	1.浏览（值浏览商品详情页）； 2.加入购物车； 3.购物车删除； 4.下单； 5.关注； 6.点击
cate	品类ID	脱敏
brand	品牌ID	脱敏

任务描述：

参赛者需要使用京东多个品类下商品的历史销售数据，构建算法模型，预测用户在未来5天内，对某个目标品类下商品的购买意向。对于训练集中出现的每一个用户，参赛者的模型需要预测该用户在未来5天内是否购买目标品类下的商品以及所购买商品的SKU_ID。评测算法将针对参赛者提交的预测结果，计算加权得分。

评分标准：

参赛者提交的结果文件中包含对所有用户购买意向的预测结果。对每一个用户的预测结果包括两方面：

1、该用户2016-04-16到2016-04-20是否下单P中的商品，提交的结果文件中仅包含预测为下单的用户，预测为未下单的用户，无须在结果中出现。若预测正确，则评测算法中置label=1，不正确label=0；

2、如果下单，下单的sku_id （只需提交一个sku_id），若sku_id预测正确，则评测算法中置pred=1，不正确pred=0。对于参赛者提交的结果文件，按如下公式计算得分：

Score=0.4*F11 + 0.6*F12

此处的F1值定义为：

F11=6*Recall*Precise/(5*Recall+Precise)

F12=5*Recall*Precise/(2*Recall+3*Precise)

其中，Precise为准确率，Recall为召回率.

F11是label=1或0的F1值，F12是pred=1或0的F1值.

数据清洗：

比赛的题目是高潜用户的购买意向的预测,从机器学习的角度来讲,可以认为这是一个二分类的任务。那么就是要构建正负样本. 由于拿到的是原始数据,里面存在很多噪声,因而第一步先要对数据清洗,

比如说: 去掉只有购买记录的用户(没有可用的历史浏览等记录来预测用户将来的购买意向)

去掉浏览量很大而购买量很少的用户(惰性用户或爬虫用户)

去掉最后5(7)天没有记录(交互)的商品和用户

......

为了能够进行上述清洗,在此首先构造了简单的用户(user)行为特征和商品(item)行为行为特征,对应于两张表user_table和item_table

user_table特征包括:

user_id(用户id),age(年龄),sex(性别),

user_lv_cd(用户级别),browse_num(浏览数),

addcart_num(加购数),delcart_num(删购数),

buy_num(购买数),favor_num(收藏数),

click_num(点击数),buy_addcart_ratio(购买加购转化率), buy_browse_ratio(购买浏览转化率),

buy_click_ratio(购买点击转化率), buy_favor_ratio(购买收藏转化率)

item_table特征包括:

sku_id(商品id),attr1,attr2,

attr3,cate,brand,browse_num,

addcart_num,delcart_num,

buy_num,favor_num,click_num,

buy_addcart_ratio,buy_browse_ratio,

buy_click_ratio,buy_favor_ratio,

comment_num(评论数),

has_bad_comment(是否有差评),

bad_comment_rate(差评率)

探索高潜用户的行为：

比赛的题目是高潜用户购买意向预测, 那么理解清楚什么是高潜用户对于数据分析,特征抽取,以及之后的建立模型有着至关重要的作用. 简单来讲,作为训练集的高潜用户应该具有以下特征:

必须有购买行为

对一个商品购买和其他交互行为(浏览,点击,收藏等)时间差应该多于一天

因为根据赛题,我们需要预测未来5天的购买情况,那么如果用户对某商品在同一天完成所有的交互行为(包括购买),

无法从这种交易中指导未来的预测.

特征工程：

用户相关特征：

主要根据用户数据集，对用户原本的年龄、性别、用户等级，采用独热编码。

def convert_age(age_str):
    if age_str == u'-1':
        return 0
    elif age_str == u'15岁以下':
        return 1
    elif age_str == u'16-25岁':
        return 2
    elif age_str == u'26-35岁':
        return 3
    elif age_str == u'36-45岁':
        return 4
    elif age_str == u'46-55岁':
        return 5
    elif age_str == u'56岁以上':
        return 6
    else:
        return -1

        user = pd.read_csv(user_path, encoding='gbk')
        user['age'] = user['age'].map(convert_age)
        age_df = pd.get_dummies(user["age"], prefix="age")
        sex_df = pd.get_dummies(user["sex"], prefix="sex")
        user_lv_df = pd.get_dummies(user["user_lv_cd"], prefix="user_lv_cd")
        user = pd.concat([user['user_id'], age_df, sex_df, user_lv_df], axis=1)

商品相关特征：

根据商品数据集和评论数据集，对商品属性特征a1、a2、a3，和评论数量comment_num，进行独热编码


        product = pd.read_csv(product_path)
        attr1_df = pd.get_dummies(product["a1"], prefix="a1")
        attr2_df = pd.get_dummies(product["a2"], prefix="a2")
        attr3_df = pd.get_dummies(product["a3"], prefix="a3")
        product = pd.concat([product[['sku_id', 'cate', 'brand']], attr1_df, attr2_df, attr3_df], axis=1)

       comments = comments[(comments.dt >= comment_date_begin) & (comments.dt < comment_date_end)]
        df = pd.get_dummies(comments['comment_num'], prefix='comment_num')
        comments = pd.concat([comments, df], axis=1) # type: pd.DataFrame
        comments = comments[['sku_id', 'has_bad_comment', 'bad_comment_rate', 'comment_num_1', 'comment_num_2', 'comment_num_3', 'comment_num_4']]

提取商品在某段时间内的浏览购买转化率，加入购物车购买转化率，收藏购买转化率，点击购买转化率，可展现该商品在近期的人气与热门程度，方便预测该商品是否为用户可能购买的高潜商品。

        actions = get_actions(start_date, end_date)
        df = pd.get_dummies(actions['type'], prefix='action')
        actions = pd.concat([actions['sku_id'], df], axis=1)
        actions = actions.groupby(['sku_id'], as_index=False).sum()
        actions['product_action_1_ratio'] = actions['action_4'] / actions['action_1']
        actions['product_action_2_ratio'] = actions['action_4'] / actions['action_2']
        actions['product_action_3_ratio'] = actions['action_4'] / actions['action_3']
        actions['product_action_5_ratio'] = actions['action_4'] / actions['action_5']
        actions['product_action_6_ratio'] = actions['action_4'] / actions['action_6']

用户行为相关特征：

提取从起始日期start_date到截止日期end_date内的行为数据集，对用户行为类型type做one-hot编码，然后使用聚合函数groupby，对user_id,sku_id进行聚合分组，对组内的其他特征进行相加，即可统计出在此期间用户对商品的各种行为类型的累计交互次数。

这个函数方便后面采用划窗方式，多次提取不同时间段的用户行为累计特征。


        actions = actions[(actions.time >= start_date) & (actions.time < end_date)]
        actions = actions[['user_id', 'sku_id', 'type']]
        df = pd.get_dummies(actions['type'], prefix='%s-%s-action' % (start_date, end_date))
        actions = pd.concat([actions, df], axis=1)  # type: pd.DataFrame
        actions = actions.groupby(['user_id', 'sku_id'], as_index=False).sum()

提取按时间衰减的累计行为特征，使用匿名函数lambda提取出每条行为数据发生时间与截止日期的相隔天数，然后对相隔天数取反，作为对数函数的指数。这样若发生交互行为的数据离要预测的日期离得越远，那么它对预测所占的权重指数就越小。

        actions = actions[(actions.time >= start_date) & (actions.time < end_date)]
        df = pd.get_dummies(actions['type'], prefix='action')
        actions = pd.concat([actions, df], axis=1) # type: pd.DataFrame
        #近期行为按时间衰减
        actions['weights'] = actions['time'].map(lambda x: datetime.strptime(end_date, '%Y-%m-%d') - datetime.strptime(x, '%Y-%m-%d %H:%M:%S'))
        #actions['weights'] = time.strptime(end_date, '%Y-%m-%d') - actions['datetime']
        actions['weights'] = actions['weights'].map(lambda x: math.exp(-x.days))
        actions['action_1'] = actions['action_1'] * actions['weights']
        actions['action_2'] = actions['action_2'] * actions['weights']
        actions['action_3'] = actions['action_3'] * actions['weights']
        actions['action_4'] = actions['action_4'] * actions['weights']
        actions['action_5'] = actions['action_5'] * actions['weights']
        actions['action_6'] = actions['action_6'] * actions['weights']
        actions = actions.groupby(['user_id', 'sku_id', 'cate', 'brand'], as_index=False).sum()

通过提取用户的点击购买转化率，加入购物车后购买转化率，以及浏览购买转换率，可以更深刻的刻画该用户是否是要寻找的高潜购买用户对象。

        actions = get_actions(start_date, end_date)
        df = pd.get_dummies(actions['type'], prefix='action')
        actions = pd.concat([actions['user_id'], df], axis=1)
        actions = actions.groupby(['user_id'], as_index=False).sum()
        actions['user_action_1_ratio'] = actions['action_4'] / actions['action_1']
        actions['user_action_2_ratio'] = actions['action_4'] / actions['action_2']
        actions['user_action_3_ratio'] = actions['action_4'] / actions['action_3']
        actions['user_action_5_ratio'] = actions['action_4'] / actions['action_5']
        actions['user_action_6_ratio'] = actions['action_4'] / actions['action_6']

完成了特征工程部分，接下来主要就是从特征工程生成的许多特征中选出有用的特征，然后对模型参数进行调优。使用xgboost模型对用户模型进行建模，然后由于xgboost是基于树模型的分类器，那么在建树的过程中也就自动完成了对特征的选择。

模型调优：

我们使用xgboost自带的交叉验证函数，先大约确定最优迭代次数。

param = {'eta' : 0.1, 'max_depth': 3, 'seed':27,
        'min_child_weight': 1, 'gamma': 0, 'subsample': 0.8, 'colsample_bytree': 0.8,
        'scale_pos_weight': 1,  'objective': 'binary:logistic','eval_metric':'auc'}
 
bst=xgb.cv( param, dtrain, 500,nfold=5,early_stopping_rounds=100)
bst

然后再使用sklearn的格子搜索，类似以下代码，然后更改param_grid的值，即可确定每个参数的最优值。

param_test1 = {
    'max_depth':[1,3,5,7]
}
gsearch1 = GridSearchCV(estimator = XGBClassifier(         learning_rate =0.1, n_estimators=178, max_depth=5,
min_child_weight=1, gamma=0, subsample=0.8,             colsample_bytree=0.8,
 objective= 'binary:logistic', nthread=4,     scale_pos_weight=1, seed=27), 
 param_grid = param_test1,     scoring='roc_auc',   n_jobs=4,   iid=False,   cv=StratifiedKFold(training_data.label,n_folds=5))
gsearch1.fit(dtrain_x,training_data.label)
gsearch1.grid_scores_, gsearch1.best_params_,     gsearch1.best_score_

当确定好所有超参数时，用这些参数作为xgboost模型的参数，然后训练出预测模型，此时可以调用xgboost自带的得分函数查看各个特征的重要性，方便确定哪些特征比较重要，哪些特征被选做分裂节点的次数少。然后可以试着重新选择特征集，不断重复上面的调优步骤，直到结果比较符合期望。

feature_score = bst.get_score()
feature_score = sorted(feature_score.items(), key=lambda x:x[1],reverse=True)
feature_score

编程过程中遇到的其他问题和解决方法：

1、MemoryError

因为数据集总共有5个多G，最初没做内存方面的考虑，运行代码出现了“MemoryError”的问题，用以下方法成功解决：数据量非常大时，比如一份银行一个月的流水账单，可能有高达几千万的record。对于一般性能的计算机，有或者是读入到特殊的数据结构中，内存的存储可能就非常吃力了。考虑到使用数据的实际情况，并不需要将所有的数据提取出内存。当然读入数据库是件比较明智的做法。若不用数据库呢？可将大文件拆分成小块按块读入后，这样可减少内存的存储与计算资源。Python里面可用chunker做分块处理。

简易使用方法：

chunker = pd.read_csv(PATH_LOAD, chunksize = CHUNK_SIZE)

读取需要的列：

columns = ("date_time",  "user_id")
chunks_train = pd.read_csv(filename, usecols = columns, chunksize = 100000)

分块读取chunk中的每一行：

for rawPiece in chunker_rawData:
        current_chunk_size = len(rawPiece.index)   #rawPiece 是dataframe
        for i in range(current_chunk_size ):
            timeFlag = timeShape(rawPiece.ix[i])   #获取第i行的数据

2、特征变量的表示特征变量的选择和提取对于最后的目标函数（预测）非常关键，一开始用时间衰减来做效果很差，改用统计方法，把数值特征（如年龄、评论数等）表示成哑变量，并处理成onehot编码，预测结果准确率提升了20%。

Jenkins-pipeline语法说明 xiao-xiang jenkins jenkins 运维
一.简述：JenkinsPipeline是一种持续集成和持续交付（CI/CD）工具，它允许用户通过代码定义构建、测试和部署流程。二.关于jenkinsfile：1.Sections部分：Pipeline里的Sections通常包含一个或多个Directives或Steps：a).agent：指定整个Pipeline或特定阶段将在Jenkins环境中执行的节点位置，具体取决于该agent部分的配置。
你的Go应用真的用了正确的 CPU 核数吗？ go
Go的调度模型是GMP，其中G是goroutine，M是线程，P是可用的CPU核数。多个G会共用一个M。M作为操作系统层面上的调度单位，在执行时需要绑定到P。如果操作系统认为的某个Go进程可用的CPU数，和该进程认为的可用的CPU数不一致，那么即使把M绑定到某个P上，操作系统也不一定会执行这个线程。所以能否获取准确的可用CPU核数会影响Go的调度效率。当用户在k8s中设置了资源限制：spec:co
Python已正确安装Numpy但无法调用？——探索背后的奥秘 cda2024 python numpy 开发语言
在Python编程的世界里，Numpy作为一款重要的科学计算库，其高效的数据处理能力深受广大开发者喜爱。然而，有时候我们明明已经成功安装了Numpy库，却在尝试导入时遇到种种问题，例如常见的ModuleNotFoundError或ImportError错误信息。这不仅令人困惑，甚至会中断我们的开发进度。那么，问题究竟出在哪里呢？本文将深入探讨这一现象背后的原因，并提出有效的解决方案。一、理解Num
CentOS 7.9(linux) 设置 MySQL 8.0.30 开机启动详解小胡说技书手册/开发图谱运维 Java+SSM+DB linux centos mysql
文章目录一、运行级别简介二、MySQL服务安装与运行验证三、通过chkconfig配置开机启动四、验证开机启动配置五、总结一、运行级别简介运行级别（Runlevel）定义了系统的运行模式，常见的运行级别如下：运行级别描述0关机模式（系统停止运行）。1单用户模式（维护模式，类似安全模式）。2多用户模式，无网络支持。3完整的多用户模式，带网络支持（常用）。4用户自定义模式（通常未使用）。5图形界面模式
简述kafka生产者ack确认机制技匠三石弟弟数据开发 kafka
一、总结该章节主要探讨造成数据丢失问题生产者ack确认机制(目的是要有多少个分区副本收到消息，生产者才认为该消息写入成功；acks参数对数据是否丢失起重要的作用)（1）ack=0，就是表示生产者不会和broker确认消息是否写入成功。这就有可能造成服务器broker因出现问题，导致没有接收到生产者的消息，而生产者却无从得知。这也就造成数据的丢失。--较低延迟和高吞吐量，但是以消息丢失的高风险为代价
Linux驱动设备--IIO驱动玮玮豆豆 linux linux c语言 ubuntu
一、简介加速度计、陀螺仪、电流/电压测量芯片、光传感器、压力传感器等都属于IIO系列设备IIO模型基于设备和通道架构:设备代表芯片本身，它位于整个层次结构的顶层通道表示设备的单个采集线，设备可能有一个或多个通道。例如，加速度计是具有3个通道的设备，每个轴(X、Y和Z)都有一个通道。用户空间与IIO驱动程序进行交互的两种方式：/sys/bus/iio/iio:deviceX:代表传感器及其通道/de
黑盒/白盒运维监控闲猫运维运维
运维监控分为黑盒和白盒黑盒：不深入代码，在系统角度看TPS，延迟等指标白盒：深入代码分析，通过日志捕捉，以及主动上报告警等来进行监控黑盒监控：1.页面功能：域名是否可访问，系统可用性（页面是否可以刷出来），按钮点击模拟，console报错日志，http请求（时延，错误，正确率），用户在线数量2.对外API接口：QPS/TPS时间延迟错误信息成功率白盒监控1.架构组件1.VPC，ELB等2.DNS：
excel波士顿矩阵怎么做_如何用excel做波士顿矩阵图？ weixin_39743064 excel波士顿矩阵怎么做
波士顿矩阵的操作可以参考下这篇文章，把横纵坐标轴改成你想要：占有率，增长率即可。至于尺寸大小如何操作，在文末特意展示了。波士顿矩阵(BCGMatrix)，又称市场增长率—相对市场份额矩阵、波士顿咨询集团法、四象限分析法、产品系列结构管理法等。波士顿矩阵由美国著名的管理学家、波士顿咨询公司创始人布鲁斯·亨德森于1970年首创。通过对两两属性的正负排列组合，得到四种不同性质的类型产品：双高(明星类产品
精通Python (21) 码商行者人工智能 python 人工智能
Python语言进阶之并发编程Python中实现并发编程的三种方案：多线程、多进程和异步I/O。并发编程的好处在于可以提升程序的执行效率以及改善用户体验；坏处在于并发的程序不容易开发和调试，同时对其他程序来说它并不友好。一，多线程Python中提供了Thread类并辅以Lock、Condition、Event、Semaphore和Barrier。Python中有GIL来防止多个线程同时执行本地字节
kafka 生产者发送流程 jxj_cd mysql 数据库
Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。kafka的基础架构：Kafka生产者发送流程详解:拦截器序列化器分区器生产者端由两个线程协调完成，分别是main线程和Sender线程。main线程在将消息通过拦截器、序列化器和分区器处理后缓存到消息累加器（Reco
ISO：摄影中的光线敏感度密码长安er 光电摄影 ISO 摄影摄影三要素光圈快门
目录一、ISO究竟是什么二、ISO与光线的关系（一）低ISO在充足光线下的表现（二）高ISO在光线不足时的作用三、ISO对画质的影响（一）低ISO带来的优质画质（二）高ISO引发的噪点问题四、不同ISO在实际拍摄中的应用（一）低ISO的适用场景（二）高ISO的适用场景五、如何在拍摄中合理选择ISO（一）根据光线条件选择（二）结合拍摄场景和需求选择（三）利用相机功能控制噪点六、ISO与其他摄影要素的
PyPi 是什么 HoneyMoose CS
pypi是PythonPackageIndex的首字母简写，其实表示的是Python的Packag索引，这个也是Python的官方索引。你需要的包（Package）基本上都可以从这里面找到。作为开源软件，你也希望能够贡献你的Package到这里供其他用户使用。我们举个栗子，如果你希望你的Python程序能够下载金融数据，目前比较好用的金融数据来源是Yahoo和Google。你可能需要读取这2个平台
linux IIO驱动框架内核老工人 linux 网络运维
工业IO(IndustrialI/O)是专用于ADC和DAC的内核子系统，加速度计、陀螺仪、电流电压测量芯片、光传感器、压力传感器等都属于IIO系列设备。IIO模型采用设备和通道架构。其中设备属于芯片本身，通道则表示设备的单个采集线，设备可能有若干个通道。例如加速度计就有3个通道，每个轴(X、Y和Z)都有一个通道。IIO设备和用户空间交互有两种方式：/sys/bus/iio/iio:deviceX
【53】Camunda8-Zeebe核心引擎-Partitions分区与Internal processing内部处理 AlieNeny Camunda camunda8 流程引擎 zeebe partitions 分区
Partitions分区在Zeebe中，所有数据都是基于分区的。（一个）分区本质上是一个关于流程事件的持久化流。在broker集群中，分区分布在节点之间，因此可以将其视为分片。启动/初始化Zeebe集群时，用户可以配置所需的分区数。如果使用过Kafka，这部分内容是比较相似的。每当部署流程时，都会将其部署到第一个分区。然后，该流程将分发到所有分区。在所有分区上，此流程接收相同的key和版本，以便可
【TCN回归预测】蜣螂算法优化时间卷积神经网络DBO-TCN负荷数据回归预测【含Matlab源码 6222期】 Matlab领域 matlab
欢迎来到海神之光博客之家✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，完整代码论文复现程序定制期刊写作科研合作扫描文章底部QQ二维码。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab智能算法神经网络预测与分类仿真内容点击①Matlab神经网络预测与分类（进阶版）②付费专栏Matlab智能算法神经网络预
unity转微信小游戏：激励广告和插屏广告的添加使用会潜水的小火龙 unity转微信小游戏 unity 微信游戏引擎
unity转微信小游戏：激励广告和插屏广告的添加使用微信小游戏广告开通及创建unity添加使用微信小游戏广告激励广告插屏广告微信小游戏广告开通及创建微信小游戏注册用户达到500人后，24小时后进入网页版小程序点击小程序左侧流量主进去开通。开通流量主后，在广告管理点击新建广告位创建广告。创建完广告后广告管理下面对应广告会显示广告位名称、广告位ID、广告位状态、操作等。广告位名称：可以自定义主要用来区
【游戏设计原理】85 - 菲兹定律 tealcwu #游戏设计的100个原理游戏游戏策划
1.什么是菲兹定律菲兹定律描述了目标大小、目标距离与到达目标所需时间之间的关系。目标越大、离起始点越近，人们越容易快速而精确地点击它。相反，目标越小或距离越远，操作的难度就越高。2.适用场景菲兹定律适用于以下场景：游戏设计战斗与瞄准：决定目标的大小和移动速度，平衡挑战与玩家体验。操控设计：控制器（如鼠标、手柄）精度与速度的优化。用户界面设计（UI/UX）按钮布局：将常用的功能按钮设计得更大，放置在
RTMP|RTSP播放器只解码视频关键帧功能探讨音视频牛哥 RTSP播放器 RTMP播放器大牛直播SDK 实时音视频音视频 rtsp播放器 rtmp播放器 rtsp player rtmp player 大牛直播SDK
技术背景我们在做RTMP|RTSP直播播放器的时候，遇到过这样的技术诉求，在一些特定的应用场景中，可能只需要关键帧的信息，例如视频内容分析系统，可能只对关键帧进行分析，以提取特征、检测对象或场景变化。鉴于关键帧包含完整的图像信息，解码时不需要依赖其他帧，可以独立解码。相比之下，预测帧（P帧）和双向预测帧（B帧）需要参考其他帧的信息进行解码，在这种情况下，仅解码关键帧可以满足需求，同时避免不必要的解
AI驱动内容跨媒体转换新机遇 XianxinMao 人工智能
标题：AI驱动内容跨媒体转换新机遇文章信息摘要：文章深入探讨了AI工具在内容跨媒体转换中的应用价值。这类工具能将文本快速转换为音频和视频内容，显著降低了制作门槛和成本，月费用仅需10-50美元。通过多模态内容分发，创作者可以满足不同用户的内容消费偏好，提升内容可访问性，增加曝光机会。AI工具的自动化特性不仅节省了创作者的时间和精力，还能保证较高的输出质量，为内容创作行业带来新的机遇和可能性。===
【ELM回归预测】蜣螂算法优化极限学习机DBO-ELM数据回归预测【含Matlab源码 3566期】 Matlab仿真科研站 matlab
欢迎来到Matlab仿真科研站博客之家✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：Matlab仿真科研站博客之家代码获取方式：扫描文章底部QQ二维码⛳️座右铭：行百里者，半于九十；路漫漫其修远兮，吾将上下而求索。⛄更多Matlab神经网络预测与分类（仿真科研站版）仿真内容点击Matlab神经网络预测与分类（仿真科研站版）⛄一、蜣螂算法优化
【电力负荷预测】蜣螂算法优化回声神经网络DBO-ESN电力负荷预测（多输入单输出）【含Matlab源码 5346期】 Matlab武动乾坤 matlab
Matlab武动乾坤博客之家
【BP回归预测】蜣螂算法优化BP神经网络DBO-BP光伏数据预测（多输入单输出）【含Matlab源码 5175期】 Matlab武动乾坤 matlab
Matlab武动乾坤博客之家
【CNN回归预测】蜣螂算法优化卷积神经网络DBO-CNN风电数据预测（多输入单输出）【含Matlab源码 5289期】 Matlab武动乾坤 matlab
Matlab武动乾坤博客之家
计算机毕业设计之基于PythonBOSS直聘招聘数据可视化系统的设计与实现 wx—bishe58 信息可视化数据分析数据挖掘 rnn 人工智能课程设计 python
本文主要介绍了基于PythonBOSS直聘招聘数据可视化系统的设计与实现。随着互联网的普及，BOSS直聘招聘网站成为了企业和求职者的重要交流平台。然而，大量的招聘信息给用户带来了信息过载的问题。为了解决这一问题，本文提出了一种基于PythonBOSS直聘招聘数据可视化系统的设计与实现方法。首先，本文采用爬虫技术收集了拉勾BOSS直聘招聘网站上的大量招聘信息。然后，利用爬虫优化算法对爬取到的数据进行
单片机基础模块学习——DS1302时钟芯片 promising-w 单片机嵌入式硬件单片机
一、DS1302时钟简介1.与定时器对比DS1302时钟也称为RTC时钟（RealTimeClock,实时时钟），说到时钟，可能会想到定时器，下表来简单说明一下两者的区别。定时器(Timer)实时时钟(RTC)精度高，可达微秒级精度较低，多为秒级计时范围短计时范围长2.开发板所在位置下面方框里面的是该时钟芯片，左侧的是晶振，晶振的精度也就决定了时钟芯片的精度。二、DS1302时钟原理图1脚对应的V
QRCNN-BiLSTM卷积神经网络-双向长短期记忆神经网络分位数回归区间预测附Matlab完整源码天天酷科研分位数回归区间预测（QR）QRCNN-BiLSTM 卷积双向长短期记忆神经网络分位数回归区间预测
效果模型描述QRCNN-BiLSTM卷积神经网络-双向长短期记忆神经网络分位数回归区间预测附Matlab完整源码QRCNN-BiLSTM（QuantileRegressionConvolutionalNeuralNetwork-BidirectionalLongShort-TermMemory）是一种结合了卷积神经网络（CNN）和双向长短期记忆神经网络（BiLSTM）的分位数回归模型，用于区间预测
Python 中的异常处理：try except Exception as e 三带俩王 python
在Python编程中，异常处理是一项至关重要的技能，它可以帮助我们提高程序的稳定性和可靠性。其中，tryexceptExceptionase语句是一种常见的异常处理方式。在这篇博客中，我们将深入探讨这个语句的要点和高级用法。一、异常处理的重要性在编程过程中，错误是不可避免的。这些错误可能是由于用户输入错误、文件不存在、网络连接问题等原因引起的。如果我们不处理这些错误，程序可能会崩溃，导致数据丢失或
linux环境变量配置文件区别 /etc/profile和~/.bash_profile 思静鱼 Linux&运维安装 linux
在Linux系统中，环境变量可以定义用户会话的行为，而这些变量的加载和配置通常涉及多个文件，如~/.bash_profile和/etc/profile。这些文件的作用和加载时机各有不同。以下是对它们的详细区别和用途的说明：文章目录1.环境变量配置文件的主要分类2.文件的加载时机和优先级3.常见文件的作用和示例4.推荐的配置方法5.总结1.环境变量配置文件的主要分类文件名作用范围加载时机说明/etc
探讨淘宝商品 API 接口：运用及收益前端后端运维数据挖掘api
在电商行业蓬勃发展的今天，淘宝作为国内电商巨头，拥有海量的商品数据和庞大的用户群体。对于开发者、电商从业者以及数据分析师而言，淘宝商品API接口就像是一座蕴藏着无尽宝藏的矿山，蕴含着巨大的价值。通过调用这个接口，我们能够获取丰富的商品信息，如商品详情、价格、销量、评价等。这些数据不仅可以用于电商平台的搭建、商品推荐系统的优化，还能为市场调研、竞品分析提供有力支持，进而为业务带来显著的收益。本文将深
【鸿蒙生态学堂 07】冷启动优化、合理使用动画、长列表加载性能优化最佳实践 harmonyos
课程简介本课程是【HarmonyOS生态学堂】的第7课。本课程深入探讨HarmonyOS应用的冷启动优化技巧，从应用冷启动概述到具体实施策略，提供全面的优化方案。课程内容包括合理使用动画提升用户感知流畅度、数据驱动UI更新机制、以及长列表加载性能优化的最佳实践。你将学习到如何通过懒加载、缓存列表项、组件复用和布局优化等技术手段，有效提高冷启动速度，减少用户等待时间，从而打造更流畅、更高效的Harm
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。