CS正阳

【项目实战】：基于python的p2p运营商数据信息的特征挖掘

######【风控建模】

基于python的p2p运营商数据信息的特征挖掘

**@author: sunyaowu** **@datetime: 2018年8月**

说明：利用平台数据和第三方数据建立基于用户通信信息的反欺诈规则，判别通信信息及通话记录对客户潜在逾期发生的预警。

一获取数据

1）数据库: petty_loan

①用户信息

cl_user_base_info

②运营商数据

账户信息
cl_operator_basic
消费账单
cl_operator_bills
通话记录
cl_operator_voices_1
cl_operator_voices_2

③通讯录

cl_user_contacts_1
cl_user_contacts_2

④紧急联系人

cl_user_emer_contacts

⑤借贷客户逾期数据

cl_borrow_repay

2）数据信息

用户手机号
用户手机号开户时间
用户手机号在平台注册时间
用户手机号归属地址、拨号地址
用户手机号消费账单
用户手机号通话记录
- 通话日期、时间
- 通话号码
- 通话时间
- 主叫地址
用户通讯录详单
用户紧急联系人电话号、身份关系

3）信息价值

表单	信息	价值
手机号	手机号开户时间	①手机号真实性 ②判断手机号使用时长 ③用户粘性
通话记录	①通话地址(范围) ②通话群体 ③通话时长	①手机号价值 ②手机号粘性 ③用户活跃度
通讯录	①通讯录大小 ②判断通讯录名单联系频率	①客户社交范围 ②通讯录价值
紧急联系人	①是否在通讯录中 ②是否有近期通话记录	①联系人真实性 ②潜在欺诈风险
逾期账户	①是否逾期	①逾期客户通信信息情况反馈

二数据预处理 + 特征分析 + 模型搭建

1）项目思路

①直接从数据库中通过python/sql语句获取测试数据，也可以保存excel、csv、pkl文件。

②数据预处理和数据分析。

③建立Logistic、随机森林算法模型，寻找变量之间的关系。

2）分步逻辑

①从数据库抓取数据，为方便代码复用，建立三个函数，分别是：

专门用来连接mysql数据库的DataBaseSql函数
专门用来存储sql语句的sql_query函数
专门用来调用sql语句和mysql数据库连接以生成Dataframe数据的get_data函数

②对数据进行预处理。包括数据缺失值、异常值处理等，主要分为三步：

合并数据。数据分别存储在不同的excel文件中，以备不同情况下的处理，合并数据以获得此次分析所需要的数据。
缺失值处理，对需要处理的数据字段进行缺失值填充和丢失处理。
生成用来作进一步分析处理的数据。

③数据分析+可视化报告：

爬取数据统计。主要就样本总体情况做指标，打印报告。
紧急联系人通话记录统计。判断紧急联系人的通讯录权限、运营商信息权限开通情况，做统计图。
放款客户逾期情况统计。

3）语法重点

①python编程整体思路：

python: 函数式编程、数据流程、代码复用、实例化、debug处理

②数据库：

mysql:多表查询join、多表合并union、时间戳gettime、筛选条件where、
python：调用数据库connet、游标cursor、数据匹配fetchall、事务提交commit

③数据处理：

常用方法：读取文件read_excel、计数value_counts、重置索引reset_index、关联匹配merge、去除重复值drop_duplicates、最大值max、去除空值dropna、替换replace、字符串str、矩阵形状shape、整形int
特殊思路：建立一个for循环，判断字段里是否有某个字符串、建立循环，批量填充

③可视化+执行报告：

常用方法：
xlsxwriter.Workbook、workbook.add_worksheet、time.sleep(0)、worksheet.insert_image、set_column、zip、plt、echart

4）执行代码

①导入python模块，定义类名：

"""
pro:AntiFraudRule.py
@author: sunyaowu
"""

import numpy as np
import pandas as pd
import time
import os
import pymysql
import sys
import matplotlib.pyplot as plt
import seaborn as sns
import pyecharts 
import xlwt
import xlsxwriter
_path = r'C:\Users\A3\Desktop\2：项目\项目\项目22： Python数据库模块搭建，支持增删查改调用'
os.chdir(_path + '\data')
sys.path.append(_path)
import DataBaseSql

②数据库query数据

编写数据库查询函数，可存为DataBaseSql.py文件，支持调用

# -*- coding: utf-8 -*-
"""
Created on Mon Aug 20 10:27:06 2018
pro:DataBaseSql.py
@author: sunyaowu
"""
import pymysql
import pandas as pd

class DataBaseSql():
    def __init__(self):
        pass       
    def sql_Select(sql,config):
        try:
            conn = pymysql.connect(**config)
            with conn.cursor() as cur:
                cur.execute(sql)
                conn.commit()
                df = pd.DataFrame(cur.fetchall())
                cur.colse()
        except:
            conn.rollback()
        finally:
            conn.close()
        return df

编写sql语句

    def sql_query(self,num):
        sql1 ='''select                       
                distinct                     
                a.user_id,                   
                gmt_modified,                
                real_name,        
                basic_phone_num,                  
                b.phone as emer_phone,        
                a.phone as user_phone, 
                relation                     
                from                         
                cl_user_base_info a          
                left join cl_user_emer_contacts b on b.user_id = a.user_id 
                left join cl_operator_basic c on c.user_id = b.user_id
                where a.user_id < %i '''%(num)    
        '''通讯录'''
        sql2 ='''select 
                user_id,phone
                from
                cl_user_contacts_1
                where user_id < %i 
                union 
                select 
                user_id,phone
                from
                cl_user_contacts_2
                where user_id < %i  
                union 
                select 
                user_id,phone
                from
                cl_user_contacts_3
                where user_id < %i '''%(num,num,num)      
        '''通话记录'''      
        sql3 ='''select
                user_id,voice_to_number,voice_place,voice_date,voice_duration
                from
                cl_operator_voices_1
                where user_id < %i 
                union 
                select 
                user_id,voice_to_number,voice_place,voice_date,voice_duration
                from
                cl_operator_voices_2
                where user_id < %i 
                union
                select 
                user_id,voice_to_number,voice_place,voice_date,voice_duration
                from
                cl_operator_voices_3
                where user_id < %i ''' %(num,num,num)              
        sql4 ='''select 
                user_id,penalty_amout,penalty_day
                from 
                cl_borrow_repay
                where user_id < %i ''' %(num)     
        sql5 ='''select 
                distinct
                user_id,phone
                from 
                cl_user_emer_contacts
                where user_id < %i ''' %(num)                  
        return sql1,sql2,sql3,sql4,sql5

从数据库中query数据，保存为excel文件

def get_data(self,name):
        config = {
                  'host':'XXXXXXXXXXX',
                  'port':3XX6,
                  'db':'pXXXXX_loan',
                  'user':'cash_XXXXXyw_r',
                  'password':'IxCZIXXXXXXXXXXXXXXlext5G',  
                  'charset':'utf8mb4',
                  'cursorclass':pymysql.cursors.DictCursor,
                  }  
        sql_ = list(self.sql_query(number))
        n = 0
        for i in sql_:
            try:
                data = DataBaseSql.DataBaseSql.sql_Select(i,config)
                print('Bingo,get:%i!' %(n + 1))
            except:
                print('Bingo,error!')
            finally:
                pass
            data.to_excel(path +"\data\%s.xlsx" % name[n],index = False, encoding = 'utf-8')   
            n += 1

②数据处理

    def data_pro(self,name):   
        data0 = pd.read_excel('%s.xlsx'%name[0])
        data1 = pd.read_excel('%s.xlsx'%name[1])
        _data1 = data1['user_id'].value_counts().reset_index()
        _data1.columns = 'user_id','phone_counts'
        data_mix = pd.merge(data0,_data1,on = 'user_id',how = 'left')
        data2 = pd.read_excel('%s.xlsx'%name[2])
        _data2 = data2['user_id'].value_counts().reset_index()
        _data2.columns = 'user_id','voice_counts'   #data22.rename(columns = {'index':'user_id','user_id':'voice_counts'},inplace = True)
        data_mix = pd.merge(data_mix,_data2,on = 'user_id',how = 'left')
        _data2 = data2['voice_to_number'].value_counts().reset_index()
        _data2.columns = 'voice_to_number','tel_counts'
        __data2 = pd.merge(data2.dropna(),_data2,on = 'voice_to_number',how = 'left').drop_duplicates(subset=['voice_to_number']).astype({'tel_counts':'int'})
        __data2 = __data2 [__data2['tel_counts'] > 5] 
        _data2 = __data2['user_id'].value_counts().reset_index()
        _data2.columns = 'user_id','tel_5_counts'  
        _data2 = pd.merge(_data2,__data2[['user_id','tel_counts']].groupby('user_id').max().reset_index(),on = 'user_id',how = 'left')
        _data2.rename(columns = {'tel_counts':'max_tel_count'},inplace = True)
        data_mix = pd.merge(data_mix,_data2,on = 'user_id',how = 'left')   
        data4 = pd.read_excel('%s.xlsx'%name[4])
        data24_mix = pd.merge(data2,data4,on = 'user_id',how = 'left').drop_duplicates(subset=['voice_to_number']).dropna().reset_index()
        #data24_mix['voice_to_number'] = data24_mix['voice_to_number'].str.replace(')','').str.replace('(','').str.replace('*','').str.replace('+','')
        #for i in range(data24_mix.shape[0]):
        #    data24_mix['voice_to_number'][i] = int(''.join(list(filter(lambda ch: ch in '0123456789',data24_mix['voice_to_number'][i]))))
        #    print(i)
        #data24_mix = data24_mix.dropna()
        data24_mix['emer_in_voice'] = 0
        for i in range(data24_mix.shape[0]):
            a = str(data24_mix['voice_to_number'][i])
            b = str(data24_mix['phone'][i])
            print (i)
            if a == b:
                data24_mix['emer_in_voice'][i] = 1
        data24_mix = data24_mix[data24_mix['emer_in_voice'] == 1]
        data_mix = pd.merge(data_mix,data24_mix[['user_id','emer_in_voice']],on = 'user_id',how = 'left') 

        data3 = pd.read_excel('%s.xlsx'%name[3])
        data_mix = pd.merge(data_mix,data3,on = 'user_id',how = 'left')
        for i in ['phone_counts','voice_counts','tel_5_counts','max_tel_count','emer_in_voice']:            
            data_mix[i].fillna(0,inplace = True)
        data_mix.to_excel(_path +'\data\%s.xlsx'%name[5]) 
        emer_in_voice = data_mix[data_mix['emer_in_voice'] == 1]
        emer_in_voice.to_excel(_path +'\data\%s.xlsx'%name[6])
        emer_in_repay = data_mix[data_mix['penalty_day'] >= 0]
        '''emer_in_repay['penalty'] = 0
        for i in range(emer_in_repay.shape[0]):
            a = emer_in_repay['penalty_day'][i]
            pirnt(a)
            if a > 0 :
                emer_in_repay['penalty'][i] = 1'''
        emer_in_repay.to_excel(_path +'\data\%s.xlsx'%name[7])
        return data_mix,emer_in_voice,emer_in_repay

③数据分析 + 可视化报告

    '''所有抓取数据的特征描述、分析及可视化报告'''
    def data_query_description(self,num,name):
        data = pd.read_excel(_path +'\data\%s.xlsx'%name[5])
        worksheet1 = workbook.add_worksheet('query_data_report')
        worksheet1.set_column('A:B',50)
        a = ['通讯录信息','运营商信息','通话记录','通话记录']
        b = ['phone_counts','voice_counts','tel_5_counts','emer_in_voice']
        c = ['开通通讯录权限','开通运营商信息权限','有通话记录','与紧急联系人存在通话记录']
        data_count = []
        m = 0
        for i,j,n in zip(a,b,c):
            _p = len(data)
            _q = len(data[data[j]>0])
            data_count.append(_q)
            d,e = '爬取%i数据共%s条,其中有效数据共%i条' %(num,i,_q),'说明用户%s的比例为：%.2f%%' %(n,_q/_p*100)
            print(d,e)  
            worksheet1.write(m,0,d)#写入excel报告
            worksheet1.write(m,1,e)#写入excel报告
            time.sleep(0)       
            m += 1
            print('-----next-----')
        time.sleep(0) 
        d = '开通运营商权限的%i个用户中，有过通话记录的为%i,占比%.2f%%'   %(data_count[1],data_count[2],data_count[2]/data_count[1]*100) 
        print(d)  
        e = '有过通话记录的%i个用户中，与紧急联系人通话的为%i,占比%.2f%%'   %(data_count[2],data_count[3],data_count[3]/data_count[2]*100) 
        print('-----next-----')
        print(e)          
        print('Bingo!')
        worksheet1.write(m + 1,0,d)#写入excel报告
        worksheet1.write(m + 2,0,e)#写入excel报告
        self.data_query_show(num,data,name,worksheet1) 
        workbook.close() #关闭excel文件
        return data
        
    def data_query_show(self,num,data,name,worksheet):
        box = ['phone_counts','voice_counts','tel_5_counts','max_tel_count']
        for item in box :
            #data[item].bar()
            #plt.show()   #直接利用Dataframe画图  
            self.hist_show(data[data[item] > 0],item,100)  #为变量属性画直方图 
        v = 8
        for p,q,l in zip(box,[8,8,18,18],['A','B','A','B']) :
            worksheet.insert_image('%s%i'%(l,q),_path + r'\report+image\%s.png'%p,{'x_scale': 0.5, 'y_scale': 0.5})#写入excel报告
        #for item in ['relation','emer_in_voice']:   
        #    data[item].bar()
        #    plt.show()
            #self.hist_show(data[data[item] > 0],item,100)  #为变量属性画箱型图 
        #self.data_report():        
        #self.echart_show(data['relation'])
        
    '''存在紧急联系人数据的特征描述、分析及可视化报告'''
    def data_emer_description(self,num,name):
        data = pd.read_excel(_path +'\data\%s.xlsx'%name[5])
        worksheet2 = workbook.add_worksheet('emer_data_report')
        a = ['通讯录信息','运营商信息','通话记录','通话记录']
        b = ['phone_counts','voice_counts','tel_5_counts','emer_in_voice']
        c = ['开通通讯录权限','开通运营商信息权限','有通话记录','与紧急联系人存在通话记录']
        data_count = []
        for i,j,n in zip(a,b,c):
            _p = len(data)
            _q = len(data[data[j]>0])
            data_count.append(_q)
            print('爬取客户数据共%i条,其中有效%s数据共%i条' %(num,i,_q))
            print('说明用户%s的比例为：%.2f%%' %(n,_q/_p*100))    
            print('-----next-----')
            time.sleep(0)       
        #type(data_count[0])
        print('开通运营商权限的%i个用户中，有过通话记录的为%i,占比%.2f%%'   %(data_count[1],data_count[2],data_count[2]/data_count[1]*100) )  
        print('-----next-----')
        time.sleep(0) 
        print('有过通话记录的%i个用户中，与紧急联系人通话的为%i,占比%.2f%%'   %(data_count[2],data_count[3],data_count[3]/data_count[2]*100) )          
        print('Bingo!')
        #写入text报告
        self.data_query_show(num,data,name)
        #函数中将过程产生图片也保存在text报告中
        return data       
    
    def data_emer_show(self,name): 
        data = pd.read_excel(_path +'\data\%s.xlsx'%name[6])
        for item in ['phone_counts','voice_counts','tel_5_counts']:
            self.hist_show(data1[(data1[item] > 0) & (data1[item] < 1*data1[item].max())],item,20)   
        return data
    
    '''借贷用户还款数据的特征描述、分析及可视化报告'''
    def data_repay_description(self,num,name):
        data = pd.read_excel(_path +'\data\%s.xlsx'%name[5])
        worksheet3 = workbook.add_worksheet('repay_data_report')
        a = ['通讯录信息','运营商信息','通话记录','通话记录']
        b = ['phone_counts','voice_counts','tel_5_counts','emer_in_voice']
        c = ['开通通讯录权限','开通运营商信息权限','有通话记录','与紧急联系人存在通话记录']
        data_count = []
        for i,j,n in zip(a,b,c):
            _p = len(data)
            _q = len(data[data[j]>0])
            data_count.append(_q)
            print('爬取%s数据共%i条,其中有效数据共%i条' %(i,num,_q))
            print('说明用户%s的比例为：%.2f%%' %(n,_q/_p*100))    
            print('-----next-----')
            time.sleep(0)       
        #type(data_count[0])
        print('开通运营商权限的%i个用户中，有过通话记录的为%i,占比%.2f%%'   %(data_count[1],data_count[2],data_count[2]/data_count[1]*100) )  
        print('-----next-----')
        time.sleep(0) 
        print('有过通话记录的%i个用户中，与紧急联系人通话的为%i,占比%.2f%%'   %(data_count[2],data_count[3],data_count[3]/data_count[2]*100) )          
        print('Bingo!')
        #写入text报告

        
        self.data_query_show(num,data,name)
        #函数中将过程产生图片也保存在text报告中
        return data     
         
    def data_repay_show(self,name):
        data = pd.read_excel(_path +'\data\%s.xlsx'%name[7])
        for item in ['phone_counts','voice_counts','tel_5_counts']:
            self.hist_show(data1[data1[item] > 0],item,20)     
        for item in ['relation','phone_counts','voice_counts']:
            self.boxplot_show(data3,item,'penalty_day') 
        return data
# =============================================================================
# #可视化及数据报告功能
# =============================================================================
    '''频率分布直方图'''            
    def hist_show(self,data,field,bin):
        '''data[field].hist(bins = bin,
                  histtype = 'bar',
                  align = 'mid',
                  orientation = 'vertical',
                  alpha = 0.5,
                  normed = True                  
                )
        data[field].plot(kind = 'kde',style = 'k--')'''
        plt.hist(data[field], bins=40, normed=0, facecolor="blue", edgecolor="black", alpha=0.7)
        plt.title(field)
        plt.savefig(_path + r'\report+image\%s.png' % field, dpi=100)
        plt.show()

    '''柱状图'''   
    '''箱型图''' 
    '''双变量箱型图'''       
    def boxplot_show(self,data,field1,field2):
        data = pd.concat([data[field1], data[field2]], axis=1)
        fig = sns.boxplot(x=field1, y=field2, data=data)
        plt.title(field1)
        plt.show()       
        #plt.savefig('%s.png' % field, dpi=200)
        
    '''本地文件eharts''' 
    def echart_show(self,data):
        from pyecharts import Bar  
        from pyecharts import Bar, Line
        from pyecharts.engine import create_default_environment
        bar = Bar("紧急联系人分布", "副标题")
        bar.add('联系人',data)
        # bar.print_echarts_options() # 该行只为了打印配置项，方便调试时使用
        bar.render()    # 生成本地 HTML 文件
    
    '''写入excel文件并生成报告''' 
    def data_report():
        pass

avatar

④特征挖掘

待续！

    def **model_result**(self):
        pass

⑤主函数

if __name__ == "__main__":
    AFR = AntiFraudRule() 
    number = 10000 #int(input('请输入您要查询的ID数量!\n')) 
    name = ['emer_relation_data','phonebook_data','tel_records_data','repay_data',
            'emer_real_data','data_mix','emer_in_voice','emer_in_repay']
    _begin_time = time.time() 
    ''' 1、数据获取'''
    print("---------- 1.get_data ----------")
    #AFR.get_data(name)
    ''' 2、数据处理'''
    print("---------- 2.data_pro ----------")
    #data_mix,emer_in_voice,emer_in_repay = AFR.data_pro(name) 
    ''' 3、数据分析'''
    print("---------- 3.data_show ----------")
    workbook = xlsxwriter.Workbook('report.xlsx')
    data_query = AFR.data_query_description(number,name)
    #data_emer = AFR.data_emer_description(number,name)
    #data_repay = AFR.data_repay_description(number,name)
    ''' 4、特征挖掘'''
    #print("---------- 4.data_rule ----------")
    #print('finished!')
    ''' 5、可视化报告'''
    #print("---------- 5.result_model ----------")
    #print('finished!')
    _end_time = time.time()
    print('You have finished!\nfanilly use time: {x:.2f}s'.format(x = _end_time - _begin_time))

三总结

初衷：此项目用于新手项目练手，重在完整的展现一个数据挖掘项目的数据整理流程。包括数据获取、处理、挖掘、可视化等模块。用时五个工作日，新手期可以接受。
问题：由于维度比较单一，可视化分析和可供挖掘的特征比较少，故只简单的实现了基础功能，并未深挖，后续有时间再补充。整个项目，看起来比较简单，实则已经运用了python的一些基础却高效的功能。例如:pandas、matplotlib、sql、url、xlwt、echart、os、path等。
反思：代码只是执行思维的工具，有一个接触、理解、运用、熟练的过程。重点是coder思维逻辑是否清晰，能否按照工程流workflow、项目流、数据流的方式层次、结构化、逻辑化的去执行工作。
Finally！
- 高效学习有两个很重要的习惯：
  ①快速进入专注的状态。
  ②长期保持专注的状态。

基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件 David WangYang 硬件工程
介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
关于使用python进行处理雷达数据笔记六毛驴 python 数据分析
好久不见，甚是想念本人深知这段时间鸽了一篇博（上一篇博），后续会补上的，今天想写一下关于使用python进行TI雷达接收回波数据处理的一些常见问题和解决方法。这也是前几天领导给我布置的任务，所以我将这段时间自己遇到的并且已经解决的问题进行了简单的汇总，也会推荐几本这几天阅读了python书籍。python书籍推荐：python学习手册MarkLutz著（对应python版本3.X，2.X都可）Py
常见的数学统计模型若木胡数学模型
以下是常见的数学统计模型分类及简要说明，适用于数据分析、预测和推断等场景：1.参数模型（ParametricModels）假设数据服从特定分布（如正态分布），通过估计参数来描述数据规律。1.1线性回归模型数学形式：(y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_px_p+\epsilon)应用：预测连续型目标变量（如房价预测）。特点：简单、可解释性强，假
焊接性能分析代码（Python）骑蜗牛上月亮 python 开发语言
welding_performance_data.xls数据文件。welding_strengthtoughness5001052012480855015490953013510115401447075601690018600121500139111578115importpandasaspdimportmatplotlib.pyplotaspltimporttkinterastkfrommatp
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
PTA天梯赛PYthon7-10 树的遍历胡同Alley 算法数据结构 python
给定一棵二叉树的后序遍历和中序遍历，请你输出其层序遍历的序列。这里假设键值都是互不相等的正整数。输入格式：输入第一行给出一个正整数N（≤30），是二叉树中结点的个数。第二行给出其后序遍历序列。第三行给出其中序遍历序列。数字间以空格分隔。输出格式：在一行中输出该树的层序遍历的序列。数字间以1个空格分隔，行首尾不得有多余空格。输入样例：723157641234567输出样例：4163572代码长度限制
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
做数据分析，如何给业务提可行性建议——看板软件数据可视化
在为业务提供数据分析可行性建议时，看板软件的选择是一个重要环节。以下是一些建议，可以帮助您为业务选择适合的数据分析看板软件：一、明确业务需求首先，需要明确业务的具体需求，包括数据分析的目的、所需的数据类型、分析的深度与广度等。这将有助于确定所需看板软件的功能和特性。二、了解看板软件类型看板软件可以分为多种类型，如数据可视化工具、商业智能（BI）工具、项目管理工具等。了解这些类型及其特点，有助于更好
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
Java 大视界 -- Java 大数据在智能体育赛事直播数据分析与观众互动优化中的应用（142）青云交大数据新视界 Java 大视界 java 大数据体育赛事直播数据分析观众互动数据采集个性化推荐
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
跨境电商老司机的秘密：多账号管理的正确打开方式跨境卫士萌萌经验分享
跨境电商老司机的秘密：多账号管理的正确打开方式在跨境电商行业，很多卖家运营不止一个店铺。无论是在亚马逊、eBay、Wish，还是Shopee、Lazada，合理管理多个账号，既能分散风险，又能提高整体收益。但是，稍有不慎，多账号运营可能会引发平台的风控问题，导致账号关联、封号，甚至损失整个业务。那么，如何正确打开多账号管理的方式？本篇文章将结合行业经验，帮你避坑并高效运营。为什么需要多账号运营？1
数据分析 SQL 面试全攻略，看这篇就够了！程功学数据分析 sql 面试
数据分析SQL面试八股文（含答案）已经打包好，看文末领取在数据分析领域，SQL技能堪称基石，也是众多企业在招聘数据分析岗位时重点考察的内容。今天，就为大家深度剖析数据分析SQL面试的要点，助力大家顺利通关。一、常见面试题型大揭秘（一）简单查询这类题目通常要求考生从单表中检索数据。例如，给定一个“员工信息表”，包含员工编号、姓名、年龄、部门等字段，题目可能是“查询年龄大于30岁的员工姓名和部门”。解
基于 Python 将 PDF 转 Markdown 并拆解为 JSON，支持自定义标题处理 drebander python pdf json
在日常工作中，我们经常需要将PDF文件转换为可编辑、可结构化的数据格式，比如Markdown和JSON。但实际操作中，自动化工具往往会出现标题识别不准确的问题，尤其是PDF转换过程中，缺乏明确的标题标识。这篇文章将教你如何使用Python将PDF转换为Markdown，并通过自定义规则精准识别标题，最终将内容按标题结构拆解为JSON，方便后续快速检索与使用。1.实现目标将PDF文件转换为Markd
Python 项目自动化与 CI/CD 实践：让部署和发布像开挂一样简单全栈探索者chen python python 自动化 ci/cd 开发语言程序人生性能优化可用性测试
Python项目自动化与CI/CD实践：让部署和发布像开挂一样简单在软件开发的世界里，自动化和持续集成/持续部署（CI/CD）是超级英雄，它们不仅让我们的工作更加高效，还能避免那些令人头疼的手动操作。它们就像开发者的最佳伙伴，随时准备打击bug，拯救开发进度。那么，今天我们就来聊聊怎么在Python项目中玩转自动化和CI/CD，让你从繁琐的手动部署中解脱出来，飞速交付高质量的代码。文章目录什么是C
Python列表与元组的深度剖析 jijihusong006 程序 python windows 开发语言
Python列表与元组的深度剖析：从底层实现到应用场景的全方位对比一、核心差异概览Python教程https://pan.quark.cn/s/7cefe3163f45传送代资料库https://link3.cc/aa99特性列表(List)元组(Tuple)可变性可变(Mutable)不可变(Immutable)语法表示方括号[]圆括号()内存占用较大(动态数组结构)较小(静态数组结构)哈希支持
【含文档+PPT+源码】基于微信小程序农家乐美食餐厅预约推广系统编程毕设微信小程序美食小程序
项目介绍本课程演示的是一款基于微信小程序农家乐美食餐厅预约推广系统，主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的Java学习者。1.包含：项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项目附带的源码资料可作为毕设使用该系统功能架构图如下：技术栈说明技术栈：后端：SpringBoot+Vue+ElementUI（后端是前后端分离的）前端：Un
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
跨境电商多账号管理革命！2025年团队协作工具深度解析跨境卫士萌萌跨境电商大数据人工智能业界资讯经验分享
跨境电商多账号管理革命！2025年团队协作工具深度解析引言：跨境电商团队协作的新挑战近年来，全球跨境电商市场持续高速增长，企业面对的竞争也愈加激烈。随着亚马逊、eBay、Shopify等多个平台的布局需求增加，商家需要管理多个卖家账号。然而，新规则的不断更新、多账户风控的升级，使得团队在运营过程中面临诸多挑战。如何高效管理多账号？如何避免IP关联、账号封禁？如何提升团队协作效率？2025年，随着多
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
ERROR: No matching distribution found for tf-estimator-nightly==2.8.0.dev2021122109 小九在学习 python 开发语言
ERROR:Ignoredthefollowingversionsthatrequireadifferentpythonversion:1.14.0Requires-Python>=3.10;1.14.0rc1Requires-Python>=3.10;1.14.0rc2Requires-Python>=3.10ERROR:Couldnotfindaversionthatsatisfiesther
Spring Boot 整合 Elasticsearch 实践：从入门到上手遇见伯灵说 mysql Spring elasticsearch jenkins springboot
引言Elasticsearch是一个开源的分布式搜索引擎，广泛用于日志分析、搜索引擎、数据分析等场景。本文将带你通过一步步的教程，在SpringBoot项目中整合Elasticsearch，轻松实现数据存储与查询。1.创建SpringBoot项目首先，你需要创建一个SpringBoot项目。如果你还没有创建，可以使用SpringInitializr快速生成一个项目。在生成项目时，确保选择了以下依赖
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

【项目实战】：基于python的p2p运营商数据信息的特征挖掘

基于python的p2p运营商数据信息的特征挖掘

一 获取数据

1）数据库: petty_loan

①用户信息

②运营商数据

③通讯录

④紧急联系人

⑤借贷客户逾期数据

2）数据信息

3）信息价值

二 数据预处理 + 特征分析 + 模型搭建

1）项目思路

①直接从数据库中通过python/sql语句获取测试数据，也可以保存excel、csv、pkl文件。

②数据预处理和数据分析。

③建立Logistic、随机森林算法模型，寻找变量之间的关系。

2）分步逻辑

①从数据库抓取数据，为方便代码复用，建立三个函数，分别是：

②对数据进行预处理。包括数据缺失值、异常值处理等，主要分为三步：

③数据分析+可视化报告：

3）语法重点

①python编程整体思路：

②数据库：

③数据处理：

③可视化+执行报告：

4）执行代码

①导入python模块，定义类名：

②数据库query数据

②数据处理

③数据分析 + 可视化报告

④特征挖掘

⑤主函数

三 总结

你可能感兴趣的:(项目实战：数据分析,python,风控建模)

一获取数据

二数据预处理 + 特征分析 + 模型搭建

三总结