bigdata老司机

python随机森林实现反欺诈案例

近年来，国内的电信诈骗案件呈愈演愈烈之势，本文以某省电信公司简化版本的防诈骗模型为案例，利用python机器学习工具，使用随机森林算法，从数据处理、特征工程、到反诈骗模型的模型的构建及评估等完整流程进行一个简单的记录和介绍。

流程图

环境设置、模块加载

# coding: utf-8
import os
import numpy as np
import pandas as pd
from sklearn.ensemble import IsolationForest
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.externals import joblib
from sklearn import metrics
from scipy import stats
import time
from datetime import datetime

import warnings
warnings.filterwarnings("ignore")

os.chdir('home//zj//python//python3.6.9//bin//python3')

数据加载

自定义工作目录，并加载样本数据

def read_file(filepath): 
    os.chdir(os.path.dirname(filepath))  
    return pd.read_csv(os.path.basename(filepath),encoding='utf-8')

file_pos = "E:\\工作文件\\***\\防诈骗识别\\data_train.csv"
data_pos = read_file(file_pos)

特征重命名

data_pos.columns = ['BIL_ACCS_NBR','ASSET_ROW_ID','CCUST_ROW_ID','LATN_ID','TOTAL_CNT',
'TOTAL_DURATION','ZJ_CNT','ZJ_TOTAL_DURATION','TOTAL_ROAM_CNT','ZJ_ROAM_CNT','ZJ_LOCAL_CNT','ZJ_ROAM_DURATION','ZJ_LOCAL_DURATION','ZJ_LONG_CNT','BJ_LOCAL_CNT','WORK_TIME_TH_TT_CNT','FREE_TIME_TH_TT_CNT','NIGHT_TIME_TH_TT_CNT','DURATION_TP_1','DURATION_TP_2','DURATION_TP_3','DURATION_TP_4','DURATION_TP_5','DURATION_TP_6','DURATION_TP_7','DURATION_TP_8',
'DURATION_TP_9','TOTAL_DIS_BJ_NUM','DIS_BJ_NUM','DIS_OPP_HOME_NUM','OPP_HOME_NUM','MSC_NUM','DIS_MSC_NUM','ZJ_AVG_DURATION','TOTAL_ROAM_CNT_RATE','ZJ_DURATION_RATE','ZJ_CNT_RATE','ZJ_ROAM_DURATION_RATE','ZJ_ROAM_CNT_RATE','DURATION_RATIO_0_15','DURATION_RATIO_15_30',
'DURATION_RATIO_30_45','DURATION_RATIO_45_60','DURATION_RATIO_60_300','DUR_30_CNT_RATE',
'DUR_60_CNT_RATE','DUR_90_CNT_RATE','DUR_120_CNT_RATE','DUR_180_CNT_RATE','DUR_BIGGER_180_CNT_RATE','DIS_BJ_NUM_RATE','TOTAL_DIS_BJ_NUM_RATE','CALLING_REGION_DISTRI_LEVEL','ACT_DAY','ACT_DAY_RATE','WEEK_DIS_BJ_NUM','YY_WORK_DAY_OIDD_23_NUM','IS_GJMY','ZJ_DURATION_0_15_CNT','ZJ_DURATION_15_30_CNT','ZJ_DURATION_30_60_CNT','ZJ_DURATION_RATIO_0_15','ZJ_DURATION_RATIO_15_30','ZJ_DURATION_RATIO_30_60','H_MAX_CNT','H_MAX_CIRCLE','INNER_MONTH','MIX_CDSC_FLG','CPRD_NAME','AMT','CUST_ASSET_CNT','CUST_TELE_CNT','CUST_C_CNT','ALL_LL_USE',
'MY_LL_USE','MY_LL_ZB','ALL_LL_DUR','MY_LL_DUR','MY_DUR_ZB','AGE','GENDER','CUST_TYPE_GRADE_NAME','ISP','TERM_PRICE','SALES_CHANNEL_LVL2_NAME','CORP_USER_NAME','TOTOL_7_CNT',
'TOTOL_7_DUR','TOTOL_7_ZJ_DUR','TOTOL_7_ZJ_CNT','TOTOL_7_ZJ_D_CNT','TOTOL_7_BJ_D_DUR',
'TOTOL_7_JZGS_CNT','WEEK_CNT','WEEK_DUR','ZB_WS','COUPLE_NUMBER','TIME_COUPLE_NUMBER','ZJ_0912','HB_0912','ZJ_1417','HB_1417','CHG_CELLS','ZHANBI','ETL_DT','IS_HARASS']

数据查看

数据表行/列

data_pos.shape

可以看出，正样本数据只有3436，负样本较多，属于极度不平衡样本数据

数据预处理

无意义字段删除

data_pos_1 = data_pos.drop([
    'BIL_ACCS_NBR',
    'ASSET_ROW_ID',
    'CCUST_ROW_ID',
    'LATN_ID',
    'CPRD_NAME',
    'ISP',
    'AGE',
    'CUST_TYPE_GRADE_NAME',
    'ETL_DT',
    'WEEK_DIS_BJ_NUM',
    'TOTOL_7_ZJ_D_CNT',
    'TOTOL_7_JZGS_CNT',
    'INNER_MONTH'
],axis = 1)

正负样本规模

data_pos.IS_HARASS.value_counts()

TERM_PRICE 进行分箱处理


data_pos_1['TERM_PRICE'] = data_pos_1['TERM_PRICE'].apply(lambda x: np.where(x > 5000, '>5000',
                                                                             np.where(x>3000, '(3000,5000]',
                                                                                      np.where(x>2000, '(2000,3000]',
                                                                                               np.where(x>1000, '(1000,2000]',
                                                                                                        np.where(x>0, '(0,1000]', '未识别'))))))

字段填充及转化
将类别型变量空值及极小规模类别做替换

data_pos_1.TERM_PRICE.value_counts()
data_pos_1.MIX_CDSC_FLG.value_counts()
data_pos_1.CORP_USER_NAME.value_counts()
data_pos_1.SALES_CHANNEL_LVL2_NAME.value_counts()

#依次处理TERM_PRICE、MIX_CDSC_FLG、CORP_USER_NAME、SALES_CHANNEL_LVL2_NAME
def CHANGE_SALES_CHANNEL_LVL2_NAME(data):
    if data  in ['社会渠道','实体渠道','电子渠道','直销渠道']:
        return data
    else:
        return '未识别'
        
data_pos_1['SALES_CHANNEL_LVL2_NAME'] = data_pos_1.SALES_CHANNEL_LVL2_NAME.apply(CHANGE_SALES_CHANNEL_LVL2_NAME)

缺失值处理

##缺失值统计
def na_count(data):
    data_count = data.count()
    na_count = len(data) - data_count
    na_rate = na_count/len(data)
    na_result = pd.concat([data_count,na_count,na_rate],axis = 1)
    return na_result

na_count = na_count(data_pos_1)
na_count

拆分字段
字段按照连续、类别拆分

def category_continuous_resolution(data,variable_category):
    for key in list(data.columns):
        if key not in variable_category:
            variable_continuous.append(key)
        else:
            continue
    return variable_continuous


#字段按照类型拆分
variable_category = ['MIX_CDSC_FLG','GENDER','TERM_PRICE','SALES_CHANNEL_LVL2_NAME','CORP_USER_NAME']
variable_continuous = []

variable_continuous = category_continuous_resolution(data_pos_1,variable_category)

字段类型转化

def feture_type_change(data,variable_category):
    '''
    字段类型转化
    '''
    for col_key in list(data.columns):
        if col_key in variable_category:
            data[col_key] = data[col_key].astype(eval('object'), copy=False)
        else:
            data[col_key] = data[col_key].astype(eval('float'), copy=False)
    return data

data_pos_2 = feture_type_change(data_pos_1,variable_category)

缺失值填充

def na_fill(data,col_name_1,col_name_2):
    '''
    缺失值填充
    '''
    for col_key in list(data.columns):
        if col_key in col_name_1:
            data[col_key] = data[col_key].fillna(value = '未识别')
        elif col_key in col_name_2:
            data[col_key] = data[col_key].fillna(data[col_key].mean())
        else:
            data[col_key] = data[col_key].fillna(value = 0)
    return data

#缺失值填充
col_name_1 = variable_category
col_name_2 = []
data_pos_3 = na_fill(data_pos_2,col_name_1,col_name_2)

类别变量one_hot处理

##one_hot
def data_deliver(data,variable_category):
    '''
    ont_hot衍生
    '''
    for col_key in list(data.columns):
        if col_key in variable_category:
            temp_one_hot_code = pd.get_dummies(data[col_key],prefix = col_key)
            data = pd.concat([data,temp_one_hot_code],axis = 1)
            del data[col_key]
        else:
            continue
    return data

data_pos_4 = data_deliver(data_pos_3,variable_category)

特征工程

相关性分析

def max_corr_feture_droped(train_data,variable_continuous,k):
    '''
    相关性分析
    '''
    table_col = train_data.columns
    table_col_list = table_col.values.tolist()          
    all_lines = len(train_data)
    train_data_number = train_data[variable_continuous]
    ###连续型变量的处理过程：数据的标准化
    from numpy import array
    from sklearn import preprocessing
    def normalization(data,method,feature_range=(0,1)):
        if method=='MaxMin':
            train_data_scale=data.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x))) 
            return train_data_scale
        if method=='z_score':
            train_data_scale=data.apply(lambda x: (x - np.mean(x)) / (np.std(x))) 
        return train_data_scale
    train_data_scale = normalization(train_data_number,method=scale_method)
    # 输出各个变量之间的相关性报告
    def data_corr_analysis(raw_data, sigmod = k):
        corr_data = raw_data.corr()
        for i in range(len(corr_data)):
            for j in range(len(corr_data)):
                if j == i:
                    corr_data.iloc[i, j] = 0
        x, y, corr_xishu = [], [], []
        for i in list(corr_data.index):
            for j in list(corr_data.columns):        
                if abs(corr_data.loc[i, j]) > sigmod: # 保留相关性系数绝对值大于阈值的属性
                    x.append(i)
                    y.append(j)
                    corr_xishu.append(corr_data.loc[i, j])
        z = [[x[i], y[i], corr_xishu[i]] for i in range(len(x))]
        high_corr = pd.DataFrame(z, columns=['VAR1','VAR2','CORR_XISHU'])
        return high_corr
    high_corr_data = data_corr_analysis(train_data_number, sigmod=k)
    def data_corr_choice(data,train_data_scale,high_corr_data):
        high_corr_data_1=[]
        target_var=pd.DataFrame(data.loc[:,target_col])
        for i in range(high_corr_data.shape[0]):
            for  j in range(high_corr_data.shape[1]-1):
                d1=pd.DataFrame(train_data_scale.loc[:,high_corr_data.iloc[i,j]])
                data1=pd.concat([d1, data.loc[:,target_col]], axis=1, join='inner')
                corr_data = data1.corr()
                high_corr_data_1.append(corr_data.iloc[0,-1]) #输出的为各个变量与目标变量之间的相关关系
        high_corr_data_2=np.array(high_corr_data_1).reshape(high_corr_data.shape[0],high_corr_data.shape[1]-1)
        high_corr_data_2=pd.DataFrame(high_corr_data_2,columns=high_corr_data.columns[:-1])
        del_var_cor=[]
        for  i in range(high_corr_data_2.shape[0]):
            if abs(high_corr_data_2.iloc[i,0])>=abs(high_corr_data_2.iloc[i,1]):
                del_var_cor.append(high_corr_data.iloc[i,1])
            else:
                del_var_cor.append(high_corr_data.iloc[i,0]) 
        train_data_number_2.drop(del_var_cor,axis=1,inplace = True) #将强相关的变量直接剔除      
        return  set(high_corr_data_1),set(del_var_cor),train_data_number_2
    train_data_number_2 = pd.concat([train_data[variable_continuous],train_data[target_col]],axis=1)
    high_corr_data_1,del_var_cor,train_data_scale = data_corr_choice(train_data_number_2,train_data_scale,high_corr_data)  
    train_data2 = train_data[:]
    train_data2.drop(set(del_var_cor),axis=1,inplace = True)
    return train_data2,del_var_cor


#相关性分析，去除高相关变量
scale_method = 'MaxMin'
target_col = 'IS_HARASS'
data_pos_5,del_var_cor = max_corr_feture_droped(data_pos_4,variable_continuous,k=0.8)
del_var_cor  #删除的variable查看

特征重要性分析

def data_sample(data, target_col, smp):
    '''
    数据平衡
    '''
    data_1 = data[data[target_col] == 1].sample(frac=1)
    data_0 = data[data[target_col] == 0].sample(n=len(data_1)*smp)
    # data_1 = data_1.sample(len(data_2)*smp)
    data = pd.concat([data_1, data_0]).reset_index()
    return data

def train_test_spl(data):
    '''
    训练数据、测试数据切分
    '''
    X_train, X_test, y_train, y_test = train_test_split(
        data[ipt_col], data[target_col], test_size=0.2, random_state=42)
    return X_train, X_test, y_train, y_test

定义特征重要性分析函数，并循环遍历获取最佳抽样比例

def feture_extracted(train_data, alpha):
    '''
    维度重要性判断
    '''
    global ipt_col
    ipt_col= list(train_data.columns)
    ipt_col.remove(target_col)
    sample_present = [1,5]   # 定义抽样比例
    f1_score_list = []
    model_dict = {
     }
    for i in sample_present:
        try:
            train_data = data_sample(train_data, target_col, smp=i)
        except ValueError:
            break
        X_train, X_test, y_train, y_test = train_test_spl(train_data)   
    # 开始RF选取特征
        model = RandomForestClassifier()
        model = model.fit(X_train, y_train)
        model_pred = model.predict(X_test)
        f1_score = metrics.f1_score(y_test, model_pred)
        f1_score_list.append(f1_score)
        model_dict[i] = model
    max_f1_index = f1_score_list.index(max(f1_score_list))
    print('最优的抽样比例是：1:',sample_present[max_f1_index])
    d = dict(zip(ipt_col, [float('%.3f' %i) for i in model_dict[sample_present[max_f1_index]].feature_importances_]))
    f = zip(d.values(), d.keys())
    importance_df = pd.DataFrame(sorted(f, reverse=True), columns=['importance', 'feture_name'])
    list_imp = np.cumsum(importance_df['importance']).tolist()
    for i, j in enumerate(list_imp):
        if j >= alpha:
            break
    print('大于alpha的特征及重要性如下：\n',importance_df.iloc[0:i+1, :])
    print('其特征如下：')
    feture_selected = importance_df.iloc[0:i+1, 1].tolist()
    print(feture_selected)
    return feture_selected

#重要性检验，选择重要变量
data_pos_5_feture = feture_extracted(data_pos_5, alpha = 0.9)

模型训练

数据平衡

data_pos_6 = data_sample(data_pos_5, target_col, smp = 3)

正负样本拆分

def model_select(data, rf_feture, target_col ,test_size):
    '''
    正负样本拆分
    '''
    X_train, X_test, y_train, y_test = train_test_split(
        data[rf_feture], data[target_col], test_size=test_size, random_state=42)
    return X_train, X_test, y_train, y_test

#拆分比例7:3
X_train, X_test, y_train, y_test = model_select(data_pos_6,data_pos_5_feture,target_col,test_size=0.3)

定义模型函数

RF两个主要参数说明:

min_samples_split：当对一个内部结点划分时，要求该结点上的最小样本数，默认为2；
min_samples_leaf：设置叶子结点上的最小样本数，默认为1。当尝试划分一个结点时，只有划分后其左右分支上的样本个数不小于该参数指定的值时，才考虑将该结点划分，换句话说，当叶子结点上的样本数小于该参数指定的值时，则该叶子节点及其兄弟节点将被剪枝。在样本数据量较大时，可以考虑增大该值，提前结束树的生长。

def model_train(x_train, y_train, model):
    '''
    算法模型，默认为RF
    '''
    if model == 'RF':
        res_model = RandomForestClassifier(min_samples_split = 50,min_samples_leaf = 50)
        res_model = res_model.fit(x_train, y_train)
        feature_importances = res_model.feature_importances_[1]
    if model == 'LR':
        res_model = LogisticRegression()
        res_model = res_model.fit(x_train, y_train)
        list_feature_importances = [x for x in res_model.coef_[0]]
        list_index = list(x_train.columns)
        feature_importances = pd.DataFrame(list_feature_importances, list_index)
    else:
        pass
    return res_model, feature_importances


#训练模型
rf_model, feature_importances = model_train(X_train, y_train, model='RF')  #也可以选择使用LR

模型验证

def model_predict(res_model, input_data, alpha ):
    # 模型预测
    # input_data: 输入新的无目标变量的数据
    data_proba = pd.DataFrame(res_model.predict_proba(input_data).round(4))
    data_proba.columns = ['neg', 'pos']
    data_proba['res'] = data_proba['pos'].apply(lambda x: np.where(x >= alpha, 1, 0))  #将>0.5输出为正调整为1
    return data_proba

def model_evaluate(y_true, y_pred):
    y_true = np.array(y_true) 
    y_true.shape = (len(y_true),)
    y_pred = np.array(y_pred) 
    y_pred.shape = (len(y_pred),)
    print(metrics.classification_report(y_true, y_pred))

data_pos_6 = data_sample(data_pos_5, target_col, smp = 50)
X_train, X_test, y_train, y_test = model_select(data_pos_6,data_pos_5_feture,target_col,test_size=0.5)


Precision = []
Recall = []
for alpha in np.arange(0, 1, 0.1):
    y_pred_rf = model_predict(rf_model, X_test, alpha = alpha)
    cnf_matrix = confusion_matrix(y_test, y_pred_rf['res'])
    Precision.append((cnf_matrix[1,1]/(cnf_matrix[0,1] + cnf_matrix[1,1])).round(4))
    Recall.append((cnf_matrix[1,1]/(cnf_matrix[1,0] + cnf_matrix[1,1])).round(4))


score = pd.DataFrame(np.arange(0, 1, 0.1),columns = ['score'])
Precision = pd.DataFrame(Precision,columns = ['Precision'])
Recall = pd.DataFrame(Recall,columns = ['Recall'])
Precision_Recall_F1 = pd.concat([score, Precision, Recall],axis = 1)
Precision_Recall_F1['F1'] = (2 * Precision_Recall_F1['Precision'] * Precision_Recall_F1['Recall'] / (Precision_Recall_F1['Precision'] + Precision_Recall_F1['Recall'])).round(2)
Precision_Recall_F1

模型封装保存

start = datetime.now()
joblib.dump(rf_model, 'model.dmp', compress=3)
print("模型保存所用时间： %s 秒" %(datetime.now() - start).seconds)

上述案例比较简单，没有过多涉及数据清洗及预处理，包括RF算法也只定义了两个参数，且没有参数的优化过程，感兴趣的可以在此基础上深入一下。

Python新春烟花 Want595 pygame python 开发语言
目录系列文章写在前面技术需求完整代码下载代码代码分析1.程序初始化与显示设置2.烟花类(Firework)3.粒子类(Particle)4.痕迹类(Trail)5.烟花更新与显示6.主函数(fire)7.游戏循环8.总结注意事项写在后面系列文章序号直达链接爱心系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳
使用MoA(Mixture of Agents)混合智能体技术,结合多个开源大语言模型如Llama3、phi-3和Mistral,实现一个强大的AI智能体 fc&&fl 大模型实战应用人工智能语言模型自然语言处理
1.简介论文简介:论文提出了一种称为混合智能体(Mixture-of-Agents,MoA)的方法,利用多个大语言模型(LLM)的集体智慧来提高自然语言理解和生成任务的性能。MoA采用了分层结构,每一层包含多个LLM智能体。每个智能体都将前一层所有智能体的输出作为辅助信息来生成自己的回答。通过迭代地综合和优化回答,MoA可以充分利用不同LLM的独特优势。实验发现,即使其他模型提供的辅助回答质量较低
Python BI 数据清洗和整合：提升数据质量的关键步骤菜狗小测试 Python技术专栏 python 开发语言
在商业智能（BI）领域，数据是核心资产。然而，原始数据往往存在各种问题，如缺失值、重复数据、数据格式不一致等。数据清洗和整合是将这些原始数据转化为高质量、可用数据的关键过程。在这篇博客中，我们将使用Python来展示如何进行BI数据的清洗和整合，并详细讲解代码。一、数据清洗和整合的重要性在BI项目中，不准确或不一致的数据可能导致错误的分析结果和决策。数据清洗可以去除数据中的噪声和错误，而整合则能将
第15章：Python TDD应对货币类开发变化（二） Tester_孙大壮测试驱动开发驱动开发
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
如何使用python爬图片小雨帅 python 开发语言
一、说明使用Python爬取图片（或其他类型的文件）通常是为了自动化从互联网上下载图片的过程，这样可以节省人工下载的时间和精力，尤其是在需要大量图片时，下面将介绍两种方法，方法二步骤稍微多些，但可以爬取防爬虫的网站上的图片。二、准备安装python，谷歌浏览器，下载chromedriver，注意chromedriver的版本必须兼容谷歌浏览器，否则在运行python代码时会报错，在windows操
第2章：Python TDD构建Dollar类基础 Tester_孙大壮测试驱动开发 python
写在前面这本书是我们老板推荐过的，我在《价值心法》的推荐书单里也看到了它。用了一段时间Cursor软件后，我突然思考，对于测试开发工程师来说，什么才更有价值呢？如何让AI工具更好地辅助自己写代码，或许优质的单元测试是一个切入点。就我个人而言，这本书确实很有帮助。第一次读的时候，很多细节我都不太懂，但将书中内容应用到工作中后，我受益匪浅。比如面对一些让人抓狂的代码设计时，书里的方法能让我逐步深入理解
Python制作BI图表（Temps）魔弓紫喵 Python碎片 python 开发语言
用Python制作BI（BusinessIntelligence）图表时，你可以使用多种数据可视化库来实现。下面是一个详细的教程，包括使用matplotlib、seaborn和plotly来创建不同类型的BI图表的示例代码。步骤1：安装必要的库确保你的系统已经安装了以下库：pandas：用于数据处理和准备。matplotlib：一个常用的绘图库，用于创建各种静态图表。seaborn：基于Matpl
【分类】【损失函数】处理类别不平衡：CEFL 和 CEFL2 损失函数的实现与应用丶2136 AI 分类人工智能损失函数
引言在深度学习中的分类问题中，类别不平衡问题是常见的挑战之一。尤其在面部表情分类任务中，不同表情类别的样本数量可能差异较大，比如“开心”表情的样本远远多于“生气”表情。面对这种情况，普通的交叉熵损失函数容易导致模型过拟合到大类样本，忽略少数类样本。为了有效解决类别不平衡问题，Class-balancedExponentialFocalLoss(CEFL)和Class-balancedExponen
【新人系列】Python 入门（十六）：正则表达式 Pandaconda #Python 新人系列 python 正则表达式开发语言后端笔记面试
✍个人博客：https://blog.csdn.net/Newin2020?type=blog专栏地址：https://blog.csdn.net/newin2020/category_12801353.html专栏定位：为0基础刚入门Python的小伙伴提供详细的讲解，也欢迎大佬们一起交流~专栏简介：在这个专栏，我将带着大家从0开始入门Python的学习。在这个Python的新人系列专栏下，将会
【新人系列】Python 入门（十七）：类与对象 Pandaconda #Python 新人系列 python 开发语言后端笔记面试面向对象类
✍个人博客：https://blog.csdn.net/Newin2020?type=blog专栏地址：https://blog.csdn.net/newin2020/category_12801353.html专栏定位：为0基础刚入门Python的小伙伴提供详细的讲解，也欢迎大佬们一起交流~专栏简介：在这个专栏，我将带着大家从0开始入门Python的学习。在这个Python的新人系列专栏下，将会
【新人系列】Python 入门（十一）：控制结构 Pandaconda #Python 新人系列 python 开发语言后端笔记面试控制结构经验分享
✍个人博客：https://blog.csdn.net/Newin2020?type=blog专栏地址：https://blog.csdn.net/newin2020/category_12801353.html专栏定位：为0基础刚入门Python的小伙伴提供详细的讲解，也欢迎大佬们一起交流~专栏简介：在这个专栏，我将带着大家从0开始入门Python的学习。在这个Python的新人系列专栏下，将会
2024年Python最新Python爬虫入门教程27：爬取某电商平台数据内容并做数据可视化 2401_84584609 程序员 python 爬虫信息可视化
‘详情页’])csv_writer.writeheader()forpageinrange(1,26):print(f’正在保存第{page}页数据内容===========')url=f’http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2017-0-1-{page}’headers={‘User-Agent’:‘
VSCode 配置python虚拟环境（激活环境细节）_vscode python conda虚拟环境(1) 2401_83817171 程序员 vscode python conda
AnacondaPrompt常用命令：1.查看存在的环境：condainfo-e2.创建新环境：condacreate-n环境名python=（python的版本号）3.切换到某个环境：condaactivate环境名4.查看环境中已安装的包：condalist5.在环境中安装包：pipinstall包名6.删除包:pipunstall包名7.删除环境：condaenvremove-n环境名下载库
Python单元测试之道：从入门到精通的全面指南合集雅雅酱o log4j python 开发语言编程计算机单元测试
深入探讨Python单元测试的各个方面，包括基本概念、基础知识、实践方法、高级话题，如何在实际项目中进行单元测试，单元测试的最佳实践，以及一些有用的工具和资源。python学习资料、教程分享：一、单元测试重要性测试是软件开发中不可或缺的一部分，它能够帮助我们保证代码的质量，减少bug，提高系统的稳定性。在各种测试方法中，单元测试由于其快速、有效的特性，特别受到开发者们的喜欢。本文将全面介绍Pyth
Python酷库之旅-第三方库Pandas(181) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲836、pandas.api.types.is_file_like函数836-1、语法836-2、参数836-3、功能836-4、返回值836-5、说明836-6、用法836-6-1、数据准备836-6-2、代码示例836-6-3、结果输出837、pandas.api.types.is_list_like函数837-1、语法837-2、参数837-3、功能837-4、返回值837-
【Python】serial库的介绍及用法 "啦啦啦" python python 网络 linux
目录1、应用场景2、serial-三方库1、应用场景serial库，也被称为pySerial，主要用于串行通信，它在以下几个场景中被广泛应用：嵌入式系统通信：许多嵌入式系统（如Arduino、RaspberryPi等）都使用串行通信进行数据传输。pySerial可以帮助Python程序与这些设备进行通信。硬件设备控制：许多硬件设备（如机器人、传感器、GPS模块等）都使用串行接口进行控制。pySer
如何利用 Python抓取网页数据其他方式抓取网页数据列举数码小沙 python实例操作 python php 开发语言
在Python中可以使用多种方法抓取网页数据，以下是一种常见的方法，使用requests和BeautifulSoup库。一、安装所需库在命令提示符或终端中执行以下命令安装requests和BeautifulSoup库：pipinstallrequestspipinstallbeautifulsoup4二、抓取网页数据步骤发送请求使用requests库发送HTTP请求来获取网页内容。例如：impor
【新人系列】Python 入门（二十七）：Python 库 Pandaconda #Python 新人系列 python 开发语言后端笔记面试 python库库
✍个人博客：https://blog.csdn.net/Newin2020?type=blog专栏地址：https://blog.csdn.net/newin2020/category_12801353.html专栏定位：为0基础刚入门Python的小伙伴提供详细的讲解，也欢迎大佬们一起交流~专栏简介：在这个专栏，我将带着大家从0开始入门Python的学习。在这个Python的新人系列专栏下，将会
存储过程报错ORA-01031 权限不足 ORA-00942 解决办法学无止境的小一 oracle dba 数据库
昨天有客户在执行存储过程的时候出现了报错，具体报错信息如下存储过程中的内容很简单，就是普通的select,update语句。但是操作的表是在另一个用户下。并且用户表示在外部单独执行这条语句是可以执行的。这是oracle的一个经典案例。下面在测试环境来模拟一下此问题。测试环境创建用户并赋予dba权限SYS@orcl>createuserpro_testidentifiedbytestaccountu
python爬取高德地图道路交通状态数据代码 weixin_17839606517 可视化 python 开发语言
"""author:17839606517"""importdatetimeimportdatetimeimportosimportcsvfromcodecsimportStreamReaderWriterimportnumpyasnpimportrequestsimportpandasaspdimportjsonimportcodecsimporttimedefaaa():#初始API的URL#
大量研究SSRF文章和报告的总结渗透小白鼠安全安全 web安全网络安全
资源链接：https://pan.quark.cn/s/a900691a3ec3免责声明由于传播、利用本公众泷羽Sec提供的文章、工具而造成的任何直接或者间接的后果及损失，均由使用者本人负责，公众号泷羽Sec团队及作者不为此承担任何责任，一旦造成后果请自行承担！前言研究大量有关服务器端请求伪造(SSRF)的文章和报告后，输出了一份有关SSRF漏洞的全面概述服务器端请求伪造（SSRF）服务器端请求伪
python雪人_python实现滑雪者小游戏 weixin_39692761 python雪人
引言这是一个用pygame写的滑雪者的游戏。skier从上向下滑，途中会遇到树和旗子，捡起一个旗子得10分，碰到一颗树扣100分，可以用左右箭头控制skier方向。安装pygamepipinstallpygame用pip或设置界面安装，可自行百度以下是主界面代码，每一个类都是一个py文件，需要导包importpygameimportrandomfromsettingsimportSettingsf
相约深圳，个推与你共寻AI时代下的数据价值和数智增长机会运营产品经理
抓住AI风口，共探变革机遇。12月7日-8日，AI产品经理大会将在深圳召开。每日互动（个推）将在7日上午场带来《AI时代下的数据价值体现和数智增长机会》主题演讲，并在当天举办“数据驱动运营增长”专题闭门会。同时，在两天的会期中，个推在大会展区也将为现场观众带来数智化运营增长的实战案例与创新产品，助力各位产品官、运营官在AI产品飞速迭代的时代洞察发展趋势，稳抓增长曲线。本次产品经理大会聚焦AI时代的
LLama3.2-Vision + Gradio + 流式输出未来之星扣寄艾斯 llama vim
这里写自定义目录标题LLama-3.2-11B/90B-Vision-Instruct模型下载环境代码效果LLama-3.2-11B/90B-Vision-Instruct使用Gradio+流式输出+LLama3.2-Vision构建模型推理webdemo模型下载Huggingface：https://huggingface.co/meta-llama/Llama-3.2-11B-Vision-I
基于区块链技术的超级账本(Hyperledger) - 从理论到实战
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
华为云开天 aPaaS 平台的流使用体验
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
知识蒸馏和剪枝我叫罗泽南深度学习剪枝算法机器学习
知识蒸馏（KnowledgeDistillation）和模型剪枝（ModelPruning）是两种常用的模型压缩和加速技术，它们被广泛用于提高模型的推理效率，尤其是在边缘设备和资源受限的环境中。这两种技术的目标是减少模型的大小和计算成本，同时尽量保持模型的性能。1、知识蒸馏定义：知识蒸馏是一种将复杂模型（通常称为“教师模型”）的知识传递给小模型（称为“学生模型”）的技术。学生模型通过模仿教师模型的
交叉熵损失函数（Cross-Entropy Loss）我叫罗泽南深度学习人工智能
原理交叉熵损失函数是深度学习中分类问题常用的损失函数，特别适用于多分类问题。它通过度量预测分布与真实分布之间的差异，来衡量模型输出的准确性。交叉熵的数学公式交叉熵的定义如下：CrossEntroyLoss=−∑i=1Nyi⋅log(y^i)\begin{equation}CrossEntroyLoss=-\sum_{i=1}^{N}y_i\cdotlog(\hat{y}_i)\end{equati
什么是多模态机器学习：跨感知融合的智能前沿非凡暖阳人工智能神经网络
在人工智能的广阔天地里，多模态机器学习（MultimodalMachineLearning）作为一项前沿技术，正逐步解锁人机交互和信息理解的新境界。它超越了单一感官输入的限制，通过整合视觉、听觉、文本等多种数据类型，构建了一个更加丰富、立体的认知模型，为机器赋予了接近人类的综合感知与理解能力。本文将深入探讨多模态机器学习的定义、核心原理、关键技术、面临的挑战以及未来的应用前景，旨在为读者勾勒出这一
使用Llama 3.2-Vision多模态LLM与您的图像聊天 AI程序猿人 llama transformer pytorch 深度学习大模型应用人工智能大模型
介绍将视觉能力与大型语言模型（LLMs）结合的多模态LLM（MLLM）正在通过多模态LLM革命性地改变计算机视觉领域。这些模型结合了文本和视觉输入，展示了在图像理解和推理方面的出色能力。虽然这些模型以前只能通过API访问，但最近的开源选项现在允许本地执行，使其在生产环境中更具吸引力。在此教程中，我们将学习如何使用开源的Llama3.2-Vision模型与图像进行聊天，你会对其OCR、图像理解和推理
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发