MZY_ayoung

基于机器学习算法对风险用户识别

题目简介：

根据提供的样本数据（语音通话、短信收发、及移动网络使用行为等特征），进行特征挖掘，并采用合适的算法模型（推荐xgboost），调试合适的参数，进行训练学习，最后得到风险用户判别结果。

资料说明：（数据集中uid->vid，代码中替换一下即可）

答题思路：

1.对数据集进行特征挖掘

#导入库
import pandas as pd
import numpy as np
import time

#读取文件数据
voice_train = pd.read_csv("voice_train.csv",sep="\t")
voice_test = pd.read_csv("voice_test.csv",sep="\t")
wa_test= pd.read_csv("wa_test.csv",sep="\t")
wa_train= pd.read_csv("wa_train.csv",sep="\t")
sms_train = pd.read_csv("sms_train.csv",sep ="\t")
sms_test = pd.read_csv("sms_test.csv",sep ="\t")

#合并数据
voice = pd.concat([voice_train,voice_test])
sms = pd.concat([sms_train,sms_test])
wa = pd.concat([wa_test,wa_train])

uid_train = pd.read_csv("uid_train.csv",sep ="\t")
uid_test = pd.read_csv("uid_test.csv",sep ="\t")
uid = pd.concat([uid_train,uid_test])

#去除重复的数据
voice.drop_duplicates(inplace=True)

#分组、统计in_out数、添加新字段名
voice_in_out = voice.groupby(['vid','in_out'])['vid'].count().unstack().add_prefix('voice_in_out_').reset_index().fillna(0)

#统计主动拨入与总平均拨入差值、
voice_in_out['voice_in_out-mean']=voice_in_out.voice_in_out_1 - np.mean(voice_in_out.voice_in_out_1)
#以vid分组输出特征唯一值
voice_in_out_unique = voice.groupby(['vid','in_out'])['opp_num'].nunique().unstack().add_prefix('voice_in_out_unique_').reset_index().fillna(0)
#对比呼入呼出次数
voice_in_out['voice_in_out_diff'] = voice_in_out.voice_in_out_1 - voice_in_out.voice_in_out_0
voice_in_out_unique['voice_in_out_unique_diff'] = voice_in_out_unique.voice_in_out_unique_1 - voice_in_out_unique.voice_in_out_unique_0

#号码分组、并统计号码唯一值次数
voice_opp_num = voice.groupby(['vid'])['opp_num'].agg({'unique_count': lambda x: len(pd.unique(x)),'count':'count'}).add_prefix('voice_opp_num_').reset_index().fillna(0)

#比较号码开头
voice_opp_head = voice.groupby(['vid'])['opp_head'].agg({'unique_count': lambda x: len(pd.unique(x))}).add_prefix('voice_opp_head_').reset_index().fillna(0)
#号码长度类型唯一性
voice_opp_len_type = voice.groupby(['vid'])['opp_len'].agg({'unique_count': lambda x: len(pd.unique(x))}).add_prefix('voice_opp_len_type_').reset_index().fillna(0)

#对唯一号码的长度分组
voice.opp_len = voice.opp_len.map(lambda x: 0 if (x==3 or x==6 or x == 14 or x>15) else x)
voice_opp_len=voice.groupby(['vid','opp_len'])['vid'].count().unstack().add_prefix('voice_opp_len_').reset_index().fillna(0)
#对唯一号码的类型分组
voice.call_type = voice.call_type.map(lambda x: 0 if (x > 3) else x)
voice_call_type = voice.groupby(['vid','call_type'])['vid'].count().unstack().add_prefix('voice_call_type_').reset_index()
#对号码类型统计
voice_call_type_unique = voice.groupby(['vid','call_type'])['opp_num'].nunique().unstack().add_prefix('voice_call_type_unique_').reset_index()

#数据集清洗函数
def time_gap(start,end):
    
    if pd.isnull(start):
        return np.nan
    
    start = str(start)
    end = str(end)
    
    if(len(start)==7):
        start = '0'+start
        
    if(len(start)==6):
        start = '00'+start
        
    if(len(end)==7):
        end = '0'+end
        
    if(len(end)==6):
        end = '00'+end
    
    start_day = int(str(start)[0:2])
    end_day = int(str(end)[0:2])
    
    day_gap = (end_day-start_day)*86400
    
    start_hour = int(str(start)[2:4])
    end_hour = int(str(end)[2:4])
    
    hour_gap = (end_hour-start_hour)*3600
    
    start_min = int(str(start)[4:6])
    end_min = int(str(end)[4:6])
    
    min_gap = (end_min-start_min)*60
    
    start_sec = int(str(start)[6:8])
    end_sec = int(str(end)[6:8])
    
    sec_gap = (end_sec-start_sec)
    
    return day_gap+hour_gap+min_gap+sec_gap

# 对时间进行数据清洗
def time_clean(df):
    try:
        df["start_time"] = int(df["start_time"])
    except ValueError:
        df["start_time"] = df["end_time"]
    return df

voice = voice.apply(time_clean,axis=1)

#对通话时间的统计
voice['gap_time']=voice[['start_time','end_time']].apply(lambda x: time_gap(x[0],x[1]),axis=1)
voice_gap_time=voice.groupby(['vid'])['gap_time'].agg(['std','max','min','median','mean','sum',np.ptp]).add_prefix('voice_gap_time_').reset_index()

#通话间隔统计
voice_sort = (voice.sort_values(by=['start_time','end_time'],ascending=True)).reset_index()
voice_sort['last_end_time']=voice_sort.groupby(['vid'])['end_time'].apply(lambda i:i.shift(1))
voice_sort['last_end_time'].dropna(inplace=True)

#对号码索引添加新列、计算其唯一数量
opp_num_list = voice.groupby(['opp_num'])['vid'].count().sort_values(ascending=False).reset_index()['opp_num'][0:1000].values
voice_each_opp_num_count=voice[voice.opp_num.map(lambda x: x in opp_num_list)].groupby(['vid','opp_num'])['vid'].count().unstack().add_prefix('voice_each_opp_num_count_').reset_index().fillna(0)

#对号码开头索引添加新列、计算其唯一数量
voice_each_opp_head_count=voice.groupby(['vid','opp_head'])['vid'].count().unstack().add_prefix('voice_each_opp_head_count_').reset_index().fillna(0)

#对端短信号码个数及出现次数
sms_opp_num_numcount=sms[["opp_num"]]
sms_opp_num_numcount["numcount"]=1
sms_opp_num_numcount=sms_opp_num_numcount.groupby(["opp_num"],as_index=False)["numcount"].agg({"numcount":np.sum})

sms_opp_head_0_count =sms.groupby(['vid'])['opp_head'].agg({'0': lambda x: np.sum(x.values == 0)}).add_prefix('sms_opp_head_').reset_index().fillna(0)
sms_opp_head_0_count['sms_head_0_count-mean'] = sms_opp_head_0_count.sms_opp_head_0 - np.mean(sms_opp_head_0_count.sms_opp_head_0)
sms = sms[sms.opp_head != 0]

#用户短信发送0/接收1数量
sms_in_out = sms.groupby(['vid','in_out'])['vid'].count().unstack().add_prefix('sms_in_out_').reset_index().fillna(0)
sms_in_out['sms_in_out-mean'] = sms_in_out.sms_in_out_1 - np.mean(sms_in_out.sms_in_out_1)
sms_in_out_unique = sms.groupby(['vid','in_out'])['opp_num'].nunique().unstack().add_prefix('sms_in_out_unique_').reset_index().fillna(0)
sms_in_out_unique['sms_in_out_unique-mean'] = sms_in_out_unique.sms_in_out_unique_1 - np.mean(sms_in_out_unique.sms_in_out_unique_1)

#用户每天接收短信数量
sms['sms_date'] = ((sms.start_time.astype(str).str.slice(0, 2).astype('int')-1) / 5).astype('int')
sms_date_count = sms.groupby(['vid', 'sms_date'])['vid'].count().unstack().add_prefix('sms_date_').reset_index().fillna(0)
sms_date_count_unique = sms.groupby(['vid', 'sms_date'])['opp_num'].nunique().unstack().add_prefix('sms_date_unique_').reset_index().fillna(0)

sms_opp_num = sms.groupby(['vid'])['opp_num'].agg({'unique_count': lambda x: len(pd.unique(x)),'count':'count'}).add_prefix('sms_opp_num_').reset_index().fillna(0)
sms_opp_num['sms_count-mean'] = (sms_opp_num.sms_opp_num_count - np.mean(sms_opp_num.sms_opp_num_count)).astype('float')
sms_opp_num['sms_unique_count-mean'] = (sms_opp_num.sms_opp_num_unique_count - np.mean(sms_opp_num.sms_opp_num_unique_count)).astype('float')
sms_opp_num['sms_opp_num_diff']=sms_opp_num.sms_opp_num_count - sms_opp_num.sms_opp_num_unique_count
#sms_opp_num
#_unique_count是排除多次重复接收短信后的次数，_count是包括了重复收到的短信次数,in_out中0是发送，1是接受

#统计用户接收的短信号码长度数量
sms.opp_len = sms.opp_len.map(lambda x: -1 if (x==3 or x==6 or x>15) else x)
sms_opp_len = sms.groupby(['vid','opp_len'])['vid'].count().unstack().add_prefix('sms_opp_len_').reset_index().fillna(0)
sms_opp_len_type = sms.groupby(['vid'])['opp_len'].agg({'unique_count': lambda x: len(pd.unique(x))}).add_prefix('sms_opp_len_type_').reset_index().fillna(0)

#统计一些特殊号码106的通知类短信，170、171虚拟号码段
sms_opp_head_17_count=sms.groupby(['vid'])['opp_head'].agg({'17_': lambda x: np.sum(x.values == 170) + np.sum(x.values == 171)}).add_prefix('sms_opp_head_').reset_index().fillna(0)
sms_opp_head_106_count =sms.groupby(['vid'])['opp_head'].agg({'106': lambda x: np.sum(x.values == 106)}).add_prefix('sms_opp_head_').reset_index().fillna(0)
sms_opp_head_106_count['sms_opp_head_106_count-mean'] = sms_opp_head_106_count.sms_opp_head_106 - np.mean(sms_opp_head_106_count.sms_opp_head_106)
sms_opp_head_106_count['sms_opp_head_not_106_count'] = sms_opp_num.sms_opp_num_count - sms_opp_head_106_count.sms_opp_head_106
sms_opp_head_106_count['sms_opp_head_not_106_count-mean'] = sms_opp_head_106_count.sms_opp_head_not_106_count - np.mean(sms_opp_head_106_count.sms_opp_head_not_106_count)

#统计特殊短信如opp_head为100的，像运营商的号码；170、171虚拟号码段，106的通知类短信
sms_opp_head_100_count =sms.groupby(['vid'])['opp_head'].agg({'100': lambda x: np.sum(x.values == 1)}).add_prefix('sms_opp_head_').reset_index().fillna(0)
sms_opp_head_100_count['sms_opp_head_100_count-mean'] = sms_opp_head_100_count.sms_opp_head_100 - np.mean(sms_opp_head_100_count.sms_opp_head_100)
sms_opp_head_100_count['sms_opp_head_not_100_count'] = sms_opp_num.sms_opp_num_count - sms_opp_head_100_count.sms_opp_head_100
sms_opp_head_100_count['sms_opp_head_not_100_count-mean'] = sms_opp_head_100_count.sms_opp_head_not_100_count - np.mean(sms_opp_head_100_count.sms_opp_head_not_100_count)

#用户短信接收/发送类型与相应的对端号码长度
sms_in_out_len = sms.groupby(['vid','opp_len'])['in_out'].agg({'in_out_0': lambda x: np.sum(x==0),'in_out_1': lambda x: np.sum(x==1)}).unstack().add_prefix('sms_in_out_len_').reset_index().fillna(0)

sms_opp_num_list = sms.groupby(['opp_num'])['vid'].count().sort_values(ascending=False).reset_index()['opp_num'][0:1000].values
sms_each_opp_num_count=sms[sms.opp_num.map(lambda x: x in sms_opp_num_list)].groupby(['vid','opp_num'])['vid'].count().unstack().add_prefix('sms_each_opp_num_count_').reset_index().fillna(0)

#去重函数drop_duplicates
wa.drop_duplicates(inplace=True)

#统计网站/APP的次数
wa_type =wa[['vid','watch_type']]
types = pd.get_dummies(wa_type["watch_type"])
types.columns =["APP","网站"]
wa_type = pd.concat([wa_type[["vid"]],types],axis=1)
wa_type =wa_type.groupby(["vid"],as_index=False).sum()

#统计浏览的总时长与次数
wa_visit =wa[['vid','visit_time_long']]
wa_visit =wa_visit.groupby(["vid"],as_index=False)["visit_time_long"].agg({"visit_time_long":np.sum})
wa_vist = wa[["vid","vist_times"]]
wa_vist = wa_vist.groupby(["vid"],as_index=False)["vist_times"].agg({"vist_times":np.sum})

#选择特征
feature = [
           voice_in_out, voice_in_out_unique,
           voice_opp_num, voice_opp_head,
           voice_opp_len, 
           voice_opp_len_type,
           voice_call_type, 
           voice_call_type_unique,
           voice_gap_time,
           #voice_each_opp_num_count,
           voice_each_opp_head_count,
    
           sms_in_out_len,#用户短信接收/发送类型与相应的对端号码长度
           sms_opp_head_0_count,
           sms_in_out, 
           sms_in_out_unique,#用户短信发送0/接收1数量
           sms_opp_num, 
          #sms_opp_head, 
           sms_opp_len,sms_opp_len_type,#统计用户接收的短信号码长度数量
           sms_opp_head_106_count, sms_opp_head_100_count,sms_opp_head_17_count,
         #统计特殊短信如opp_head为100的，像运营商的号码；170、171虚拟号码段，106的通知类短信
           #sms_start_time, 
        #  sms_date_count, sms_date_count_unique,#用户每天接收短信数量

         wa_type,wa_vist
    
           ]

train_feature = uid_train
for feat in feature:
    train_feature=pd.merge(train_feature, feat, how='left',on='vid').fillna(0)

test_feature = uid_test
for feat in feature:
    test_feature=pd.merge(test_feature,feat,how='left',on='vid').fillna(0)

#feature = pd.concat([train_feature,test_feature])
train_feature

train_feature.to_csv('total_train.csv',index=None)
test_feature.to_csv('total_test.csv',index=None)

以上是对训练集和测试集的特征挖掘，对数据清洗中，解决方法有：方法1、x/1000000取天数，其余类似。方法2 可以先数据清洗，对于长度不为8的先转字符串然后前面加 ‘00’ 再按位处理。以上挖掘的特征比较多，可以选择性选取训练，下一篇会有对特征模型训练的代码，欢迎大家一起讨论。

VideoView视频组件 Android洋芋 Android控件音视频
简介VideoView在Android中是一个用户界面组件，它允许开发者在Android设备的屏幕上播放视频文件。它是AndroidSDK的一部分，位于android.widget包中。VideoView提供了一种简单的方法来嵌入和控制视频播放，包括设置视频源、开始、暂停、seek（跳转到视频的特定位置）以及显示视频的控件等基本功能。开发人员可以轻松地将VideoView添加到布局文件中，并通过J
JavaScript基础-API 和 Web API 難釋懷前端 javascript 开发语言
在现代Web开发中，API（应用程序接口）是连接不同软件组件或系统之间的桥梁。对于前端开发者来说，JavaScript与WebAPI的结合使用尤为重要，它使得我们可以访问浏览器提供的各种功能和服务，从而构建出交互性更强、用户体验更好的网页应用。本文将介绍API的基本概念，重点探讨WebAPI及其在JavaScript中的应用。一、什么是API？API全称为“ApplicationProgrammi
HBase安装 lianhedaxue Hadoop hbase
HBase安装本章将介绍如何安装HBase和初始配置。需要用Java和Hadoop来处理HBase，所以必须下载java和Hadoop并安装系统中。安装前设置安装Hadoop在Linux环境下之前，需要建立和使用LinuxSSH(安全Shell)。按照下面设立Linux环境提供的步骤。创建一个用户首先，建议从Unix创建一个单独的Hadoop用户，文件系统隔离Hadoop文件系统。按照下面给出创建
鸿蒙开发：自定义一个Toast egzosn
前言代码案例基于Api13。系统的toast已经可以满足大部分的场景了，而且使用起来也是十分的简单，可以修改很多的可配置属性，简单的使用代码如下：登录后复制promptAction.showToast({message:"toast提示"})1.但是偏偏有一点实现不了，那就是圆角度数的设置，还有就是和icon结合使用的场景也无法满足，为了更好的适配UI的设计图，那么自定义一个Toast是在所难免的
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
C++中map和set的详解程序员Hagei c++算法开发语言
C++中map和set的介绍与使用在C++编程中，map和set是标准模板库（STL）中两种非常重要的关联容器。它们基于平衡二叉搜索树（通常是红黑树）的数据结构来实现，提供了高效的数据存储和检索功能。本文将详细介绍map和set的特点、用法以及一些常见的操作示例。一、map的介绍与使用1.map的基本概念map是一个键值对容器，其中每个键都是唯一的，且按照升序排序。map的内部结构是红黑树，这使得
CST Microwave Studio助力射频电路多物理场耦合分析 FindEveryone 课程设计
摘要本文重点阐述CSTMicrowaveStudio在射频电路多物理场耦合分析中的关键作用。通过解析射频电路中涉及的电磁场、热场、机械场等多物理场耦合现象，详细介绍如何运用CSTMicrowaveStudio构建多物理场联合模型，进行全面的仿真分析。结合具体案例，深入探讨多物理场耦合对射频电路性能的影响，并依据仿真结果提出有效的优化策略，为提升射频电路在复杂工作环境下的可靠性和稳定性提供理论依据与
Vue相关面试题努力的搬砖人. vue.js
以下是150道Vue相关面试题及详细答案：Vue基础1.Vue.js是什么？Vue.js是一个用于构建用户界面的渐进式JavaScript框架，专注于视图层，允许开发者以声明式的方式构建用户界面，具有轻量、高效、易上手等特点。2.Vue实例的作用是什么？Vue实例是应用程序的核心，它管理数据、方法、生命周期钩子等，通过数据双向绑定将数据与视图层连接起来，实现数据驱动视图。3.如何创建一个Vue实例
Linux下文件名中文乱码导致无法访问的问题解决方法无级程序员 linux 文件名乱码
一个基于openwrt路由器做文件服务器，硬盘里面有些文件的中文名乱码了，导致无法打开，也无法复制，想改名也无法操作，怎么办呢，网上搜了一大圈，都是说如何转换乱码，但文件都无法访问了，怎么转换？比如其中一个文件名是：“IVItripsummaryV1.0❁´◡`❁.xlsx"，我试着如下命令发现能唯一的找到它：ls"IVItripsummaryV1.0"*于是，试着改名：mv"IVItripsum
【概念】Node.js，Express.js MongoDB Mongoose Express-Validator Async Handler 一袋米扛几楼98 各类概念 node.js express javascript
1.Node.js定义：Node.js是一个基于ChromeV8引擎的JavaScript运行时环境，允许你在服务器端运行JavaScript代码。作用：它使得开发者可以使用JavaScript编写服务器端代码，从而实现前后端使用同一种语言。比喻：Node.js就像是“工厂的电力系统”，它为整个工厂（应用程序）提供动力（运行环境）。没有电力系统，工厂的机器（代码）就无法运转。特点：非阻塞I/O：N
文本转语音常用的几个python库天蓝海乡 python 开发语言人工智能 nlp 语音识别
在Python编程领域，文本到语音（Text-to-Speech,TTS）的转换是一个常见的需求，尤其是在开发能够与用户交互的应用程序时。以下是几个流行的Python库，它们可以帮助开发者实现文本到语音的转换，并且有的可以将转换后的语音保存为MP3文件。gTTS(GoogleText-to-Speech)gTTS是一个依赖于Google的文本转语音API的Python库。它能够将文本转换为自然听起
网络管理 Introducing Meraki – Your Complete Network Management S AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Meraki网络管理平台是一款专为企业级网络管理员设计的网络安全解决方案。它帮助用户轻松管理和监控其组织中的所有网络设备、VLANs及其设置。Meraki网络管理平台包括许多内置功能，如集中管理，安全，可视化分析等。此外，Meraki还提供强大的RESTAPI接口，开发者可以利用这些API来定制属于自己的应用。通过将现有工具、流程和工具合成为一体的网络管理解决方
P2P下载器项目我的sun&shine 项目
1.项目介绍该项目完成一个在局域网中进行附近文件共享下载功能的工具；能够进行搜索匹配局域网中运行工具的主机；获取到局域网在线主机列表；能够获取指定主机所共享的文件信息列表（指定的共享目录下的文件信息）；能够对指定主机上的指定文件进行多进程分块下载来提高传输效率。2.项目使用的技术Socket套接字编程（了解最基本线程池版本任务处理的tcp服务端程序）HTTP协议格式（了解最基本的http服务器中数
CAD开发经验总结我的sun&shine CAD二次开发 c++
作为一个拥有三年CAD二次开发经验的C++程序员，今天将积累的经验总结整理了一下，希望对二次开发人员有帮助，一个word文档，放到下载里面了，挣点积分，文档目录截个图
npm详解：掌握 Node.js 包管理的艺术 Lv_Jin_Gang npm
在现代软件开发领域，包管理和依赖处理是任何项目不可或缺的一部分。对于基于Node.js的应用程序而言，NPM（NodePackageManager）不仅是安装和管理第三方库的标准工具，也是发布、共享和重用代码片段的核心平台。本文将深入探讨NPM的各个方面，从基础概念到高级用法，旨在为你提供一个全面而深入的理解。一、NPM简介与安装1.1NPM的诞生与重要性NPM伴随着Node.js的诞生而出现，它
Shell 脚本：自动化运维的利器 Waitccy linux 服务器运维
Shell脚本：自动化运维的利器一、引言在计算机的世界里，效率就是一切。当我们需要频繁执行一系列命令时，手动输入不仅繁琐，还容易出错。Shell脚本就是为解决这类问题而生的强大工具。它允许用户将一系列的命令组合在一起，形成一个可执行的脚本文件，从而实现自动化任务，提高工作效率。无论是系统管理员进行服务器维护，还是开发者进行项目部署，Shell脚本都发挥着重要的作用。本文将详细介绍Shell脚本的基
JavaScript基础-DOM事件流難釋懷 javascript 开发语言
在Web开发过程中，理解和掌握DOM事件流是实现高效交互的关键。DOM事件流描述了当一个事件发生时，它在文档树中的传播路径。了解事件流的概念有助于我们更精确地控制事件处理逻辑，避免不必要的行为，并提升用户体验。本文将深入探讨DOM事件流的基本概念，包括事件捕获、目标阶段和事件冒泡，并通过示例展示如何应用这些知识。一、什么是DOM事件流？DOM事件流是指事件在整个页面结构中传播的过程。根据W3C标准
如何快速理解模糊PID---（二） Invinciblenuonuo STM32 算法
模糊控制规则上文只介绍了误差这一个输入量，我们可以用相同的方法对误差的变化率这一输入量进行模糊化。模糊控制规则主要有两种，Mamdini和T-S型模糊控制器这里只介绍Mamdini型模糊控制器Mamdini型模糊控制器就是一堆“如果x是U1y是U2那么z是W1”的语句组成先上图设误差为E，误差的变化率为EC，而输出量我们也用上文的方法将他划分出六个区域，并规定出它的模糊论域（NB,NM,NS,Z0
盛科7132版本编译记录狮子再回头 ARM嵌入式开发 linux 国产化交换机盛科 7132
7132编译总结：1.新增具有root权限的用户，rootfs系统编译时不能使用root，否则很麻烦，编译出来后命令使用会出问题useraddzhuwei_newpasswdzhuwei_newusermod-aGwheelzhuwei_newnano/etc/pam.d/su找到以下行：authrequiredpam_unix.so在这一行下面添加以下内容：authsufficientpam_w
基于PyCATIA的工程图视图锁定工具开发实战解析 Python×CATIA工业智造 CATIA二次开发 python 自动化
引言本文针对CATIA工程图设计中视图误操作问题，基于PySide6与PyCATIA库开发了一款轻量化视图锁定工具。通过Python二次开发实现全视图/选定视图快速锁定、非模态交互界面及状态实时反馈功能，有效提升大型装配体工程图操作效率。文章深度解析代码架构设计、关键技术实现及工程应用价值，提供完整的开发方法论。一、工具功能与工程应用场景1.1核心功能模块功能模块技术指标应用场景全视图锁定批量操作
位图思想详解：用一个小小的比特征服整个世界 Joseit 优选算法 java 算法
位图思想详解：用一个小小的比特征服整个世界一、什么是位图？二、位图的形象理解三、位图的Java实现四、位图的算法原理剖析五、实际应用案例：网站用户活跃度统计五、真实的应用场景：布隆过滤器的基础六、算法题：判断字符是否唯一（easy）一、什么是位图？位图是一种超级节省空间的数据结构，他利用二进制位（0/1）来表示某个元素是否存在或某种状态是否为真。想象一下，用一个小小的比特位就能记录一个信息，这简直
计算机毕业设计指南晴天毕设课程设计毕业设计 java 毕设开发语言
毕业设计是计算机专业学生展示综合能力的重要环节，不仅是对所学知识的总结，也是进入职场或深造前的实战演练。本文将从选题、需求分析、系统设计、编码实现、测试优化、论文撰写、答辩准备等方面，为你提供一份详细的毕业设计指南。如果有其他问题，可以点击文章末尾名片咨询，可免费分享源码1.选题阶段选题是毕业设计的起点，直接影响后续工作的难度和完成质量。选题原则兴趣驱动：选择自己感兴趣的方向，能够激发研究动力。创
【Docker】搭建实用的内网穿透工具 - FRP UPToZ 群晖Docker docker 容器运维
前言本教程基于群晖的NAS设备DS423+的docker功能进行搭建FRP的客户端，DSM版本为7.2.1-69057Update5。采用香港机Debian12系统的服务器来安装FRP的服务端作为演示。服务器购买地址：https://www.crash.work/aff/AQXGDNKY简介FRP（FastReverseProxy）是一个高性能的反向代理应用，它可以帮助您将内网服务通过反向代理暴露
Windows 和 MacOS 上安装配置ADB（安卓调试桥）网络安全苏柒 windows macos adb 网络安全 python web安全数据库
一、Android调试桥(ADB)Android调试桥（ADB）是一款多功能命令行工具，它让你能够更便捷地访问和管理Android设备。使用ADB命令，你可以轻松执行以下操作网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！在设备上安装、复制和删除文件；安装应用程序；录制设备屏幕或截图；对设备进行调试，以便排查问题；检查手机上的日志文件；更新应用程序和系统组件的固件；完整地访问有关操作系
通过启用Ranger插件的Hive审计日志同步到Doris做分析 fzip Doris Hive doris 审计 hive
以下是基于ApacheDoris的RangerHive审计日志同步方案详细步骤，结合审计日志插件与数据导入策略实现：一、Doris环境准备1.创建审计日志库表参考搜索结果的表结构设计，根据Ranger日志字段调整建表语句：CREATEDATABASEIFNOTEXISTSranger_audit;CREATETABLEIFNOTEXISTSranger_audit_hive_log(repoTyp
探索安全的开发之路：Eclipse Steady深度揭秘尚竹兴
探索安全的开发之路：EclipseSteady深度揭秘steadyEclipseSteady:这是一个开源的持续集成和持续部署工具，用于自动化软件的开发和部署过程。它提供了一个基于Web的界面，用于创建和管理软件项目的构建和部署流程。适合用于需要自动化软件开发和部署的开发团队。特点包括简单易用、丰富的插件生态系统和与Maven和Jenkins的紧密集成。项目地址:https://gitcode.c
一篇文章带你了解-selenium工作原理详解程序员笑笑软件测试 selenium 测试工具软件测试自动化测试功能测试程序人生职场和发展
前言Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7,8,9,10,11），MozillaFirefox，Safari，GoogleChrome，Opera等。主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能
使用Pygame实现记忆拼图游戏点我头像干啥 Ai pygame python 开发语言
引言记忆拼图游戏是一种经典的益智游戏，玩家需要通过翻转卡片来匹配相同的图案。这类游戏不仅能够锻炼玩家的记忆力，还能带来很多乐趣。本文将详细介绍如何使用Pygame库来实现一个简单的记忆拼图游戏。我们将从Pygame的基础知识开始，逐步构建游戏的各个部分，最终完成一个完整的游戏。1.Pygame简介Pygame是一个用于编写视频游戏的Python库，它基于SDL库（SimpleDirectMedia
Selenium工作原理详解天才测试猿 selenium 测试工具自动化测试软件测试测试用例 python 职场和发展
Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7,8,9,10,11），MozillaFirefox，Safari，GoogleChrome，Opera等。主要功能包括：测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。测试系统功能——创建回归测试检验软件功能和用
云原生周刊丨CIO 洞察：Kubernetes 解锁 AI 新纪元 KubeSphere 云原生云原生 kubernetes 人工智能
开源项目推荐DRANETDRANET是由谷歌开发的K8s网络驱动程序，利用K8s的动态资源分配（DRA）功能，为高吞吐量和低延迟应用提供高性能网络支持。它旨在优化资源管理，确保K8s集群中的网络资源能够按需高效分配。DRANET采用Apache-2.0开源许可，鼓励社区贡献与扩展，是云原生环境下提升网络性能的创新解决方案。LazyjournalLazyjournal是一个用Go语言编写的终端用户界
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

基于机器学习算法对风险用户识别

基于机器学习算法对风险用户识别

题目简介：

资料说明：（数据集中uid->vid，代码中替换一下即可）

答题思路：

1.对数据集进行特征挖掘

你可能感兴趣的:(基于机器学习算法对风险用户识别)