黑_太狼de数据

基于Python的逻辑回归实现及数据挖掘应用案例讲解

商业背景：随着三大运营商和民营企业的迅猛发展，移动市场竞争激烈，市场日趋饱和，各通信运营商的发展重心由发展新用户过渡到维系保有老用户，为了更好支撑老用户维系工作，用户流失预警作为其中一项重要环节被尤其重视，本案例是基于电信集团某省公司几千万用户数据展开。
本案例只展示核心步骤及相关代码，使用工具为Python，主要算法和技术为LR、RandomForest、交叉验证法、网格搜索调优参数。

第一步、数据库数据读取

近两千万用户规模，考量时间跨度为3个月，综合用户基本信息、订购数据、套餐数据、财务及缴费数据、通信行为数据、使用终端数据、投诉及维修数据、互联网搜索及DPI数据共106个指标，另外本案例为ORACLE数据库：

# -*- coding: utf-8 -*-
# 某省电信用户流失预警专题
# author: ***
# date: 11-01 
# note: 基于Python3.6 编写
#####数据库读取数据##############
import pandas as pd
import cx_Oracle as co
import os

def query(table,column):
    username = "用户账号"
    pwd = "密码"
    dsn = co.makedsn('数据库ID','1521','sdedw')
    conn = co.connect(username,pwd,dsn)
    cursor = conn.cursor() 
    sql = table 
    cursor.execute(sql)
    rows = cursor.fetchall() 
    count = cursor.rowcount 
    print("=====================")
    print("Total:", count)
    print("=====================")
    data = pd.DataFrame(rows,columns = column)
    cursor.close

    return data

定义指标名称并对数据表重命名，转换成python可以识别的形式，用以后续分析建模，由于原始数据表数据驳杂，质量不高，首先在数据库里进行了初步加工，形成最后的目标表：

data_ls = query("select * from temp_rwk_cnk_ls6_21",['SERV_ID','CUST_AGE','SERV_NEW_CUST_TYPE',……，'IS_LIUSHI'])
data_ls = data_ls.set_index('SERV_ID')  #指定索引

第二步、数据查看及处理

import os   
os.chdir('E:\\Python\\model_sd_chaoniuka_ls')  # change working directory

data_ls.head() 
data_ls.shape  
data_ls.info() 
data_ls.describe().T 
# 目标变量（IS_LIUSHI）分布可视化
fig, axs = plt.subplots(1,2,figsize=(14,7))
sns.countplot(x='IS_LIUSHI',data=data_ls,ax=axs[0])
axs[0].set_title("Frequency of each IS_LIUSHI")
data_ls['IS_LIUSHI'].value_counts().plot(x=None,y=None, kind='pie', ax=axs[1],)
axs[1].set_title("Percentage of each IS_LIUSHI")
plt.show()

# 查看缺失值情况
def na_count(data):
    data_count = data.count()             
    na_count = len(data) - data_count            
    na_rate = na_count/len(data)                 
    result = pd.concat([data_count,na_count,na_rate],axis = 1)    
    return result;

na_count(data_ls)

data_ls = data_ls.dropna(how='any')  #去掉包含缺失值的行

指标相关分析及基于随机森林算法的指标重要性分析：

####### 相关性分析 #######
def data_corr_analysis(data, sigmod):
    # 返回出原始数据的相关性矩阵以及根据阈值筛选之后的相关性较高的变量
    corr_data = data.corr()
    for i in range(len(corr_data)):
        for j in range(len(corr_data)):
            if j >= i:
                corr_data.iloc[i, j] = 0
    x, y = [], []
    for i in list(corr_data.index):
        for j in list(corr_data.columns):
            if abs(corr_data.loc[i, j]) >= sigmod:
                x.append(i)
                y.append(j)
    z = [[x[i], y[i]] for i in range(len(x))]
    return corr_data, pd.DataFrame(z, columns=['index','columns'])

data_corr_analysis(data_ls, 0.8)
data_ls = data_ls.drop(['CALLING_DURATION','CALLING_DURATION_TREND','CALLING_COUNT'], axis=1)
# 对特征的重要性进行排序:构建X变量和Y变量。
x_feature = list(data_ls.columns)
x_feature.remove('IS_LIUSHI')
x_val = data_ls[x_feature]
y_val = data_ls['IS_LIUSHI']
# 利用随机森林的feature importance对特征的重要性进行排序。
names = data_ls[x_feature].columns
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier(n_estimators=10,random_state=123) 
clf.fit(x_val, y_val) 
names, clf.feature_importances_
for feature in zip(names, clf.feature_importances_):
    print(feature)

plt.style.use('fivethirtyeight')
plt.rcParams['figure.figsize'] = (12,6)
## feature importances 可视化
importances = clf.feature_importances_
feat_names = names
indices = np.argsort(importances)[::-1]
fig = plt.figure(figsize=(20,6))
plt.title("Feature importances by RandomTreeClassifier")
plt.bar(range(len(indices)), importances[indices], color='lightblue',  align="center")
plt.step(range(len(indices)), np.cumsum(importances[indices]), where='mid', label='Cumulative')
plt.xticks(range(len(indices)), feat_names[indices], rotation='vertical',fontsize=9)
plt.xlim([-1, len(indices)])

plt.show()

指标重要性评估结果输出图例：

data_ls = data_ls.drop(['LOCAL_CALLING_RATE_TREND',……，'SUB_TYPE'], axis=1)

第三步、LR模型训练

# 构建X变量和Y变量。
x_feature = list(data_ls.columns)
x_feature.remove('IS_LIUSHI')
x_val = data_ls[x_feature]
y_val = data_ls['IS_LIUSHI']
## 训练与预测数据处理
def data_spilt(raw_data):
    x_data = raw_data[x_feature]
    y_data = raw_data['IS_LIUSHI']
    x_train,x_test, y_train, y_test = train_test_split(x_data, y_data,test_size=0.3,random_state = 0)      
    return x_train,x_test, y_train, y_test

x_train,x_test, y_train, y_test = data_spilt(data_ls)
############## 模型训练及输出 #################
def model_train(x_train, y_train, model='LR'):
    if model == 'LR':
        res_model = LogisticRegression()
        res_model = res_model.fit(x_train, y_train)
        list_feature_importances = [x for x in res_model.coef_[0]]
        list_index = list(x_train.columns)
        feature_importances = pd.DataFrame(list_feature_importances, list_index)
    else:
        pass
    return res_model, feature_importances;

res_model, feature_importances = model_train(x_train, y_train, model='LR')
print (u"指标系数为：\n", feature_importances[0].order(ascending=False), u"\n常数项为:", res_model.intercept_)
print (u"重要变量贡献度为：\n", abs(feature_importances[0]).order(ascending=False))

第四步、模型预测及评估

def model_predict(res_model, input_data, alpha=0.5):
    data_proba = pd.DataFrame(res_model.predict_proba(input_data)) 
    data_proba.columns = ['neg', 'pos']
    data_proba['res'] = data_proba['pos'].apply(lambda x: np.where(x >= alpha, 1, 0))  
    return data_proba

def model_evaluate(y_true, y_pred):
    y_true = np.array(y_true) 
    y_true.shape = (len(y_true),)
    y_pred = np.array(y_pred) 
    y_pred.shape = (len(y_pred),)
    print(metrics.classification_report(y_true, y_pred))

y_pred = model_predict(res_model, x_test)
y_pred = y_pred['res']   
model_evaluate(y_test, y_pred)

# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test, y_pred)  
np.set_printoptions(precision=2)
print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

def plot_confusion_matrix(cm, classes,
                      title='Confusion matrix',
                      cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    """
    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=0)
    plt.yticks(tick_marks, classes)

    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, cm[i, j],
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix , classes=class_names , title='Confusion matrix')
plt.show()

## 绘制 ROC曲线 ##################
fpr, tpr, thresholds = roc_curve(y_test, y_pred)
roc_auc = auc(fpr,tpr)

plt.title('Receiver Operating Characteristic')
plt.plot(fpr, tpr, 'b',label='AUC = %0.5f'% roc_auc)
plt.legend(loc='lower right')
plt.plot([0,1],[0,1],'r--')
plt.xlim([-0.1,1.0])
plt.ylim([-0.1,1.01])
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
plt.show()

结果显示为准确率0.28，召回率0.45，F值0.345，相比原始数据的自然流失率0.043，模型准确率有显著提高。

第五步、模型优化

上一个步骤中，我们的模型训练和测试都在同一个数据集上进行，这样导致模型产生过拟合的问题，下边进行优化模型训练，结合cross-validation（交叉验证法）和grid search（模型调优算法：网格搜索调优参数）重新训练模型。

# 构建参数组合 
param_grid = {'C': [0.01,0.1, 1, 10, 100, 1000,],
                            'penalty': [ 'l1', 'l2']}

grid_search = GridSearchCV(LogisticRegression(),  param_grid, cv=10) 
grid_search.fit(x_train, y_train)

模型再次评估：

results = pd.DataFrame(grid_search.cv_results_) 
best = np.argmax(results.mean_test_score.values)
print("Best parameters: {}".format(grid_search.best_params_))
print("Best cross-validation score: {:.5f}".format(grid_search.best_score_))

y_pred = grid_search.predict(x_test)
print("Test set accuracy score: {:.5f}".format(accuracy_score(y_test, y_pred,)))
print(classification_report(y_test, y_pred))
print("Best parameters: {}".format(grid_search.best_params_))
print("Best cross-validation score: {:.5f}".format(grid_search.best_score_))
# Compute confusion matrix
cnf_matrix = confusion_matrix(y_test, y_pred)  
np.set_printoptions(precision=2)
print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

# Plot non-normalized confusion matrix
class_names = [0,1]
plt.figure()
plot_confusion_matrix(cnf_matrix , classes=class_names , title='Confusion matrix')
plt.show()

解决不同的问题，通常需要不同的指标来度量模型的性能。例如我们希望用算法来预测癌症是否是恶性的，假设100个病人中有5个病人的癌症是恶性，对于医生来说，尽可能提高模型的查全率（recall）比提高查准率（precision）更为重要，因为站在病人的角度，发生漏发现癌症为恶性比发生误判为癌症是恶性更为严重。

y_pred_proba = grid_search.predict_proba(x_test)  
thresholds = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]  # 设定不同阈值

plt.figure(figsize=(15,10))

j = 1
for i in thresholds:
    y_test_predictions_high_recall = y_pred_proba[:,1] > i
    plt.subplot(3,3,j)
    j += 1
    # Compute confusion matrix
    cnf_matrix = confusion_matrix(y_test, y_test_predictions_high_recall)
    np.set_printoptions(precision=2)

    print("Recall metric in the testing dataset: ", cnf_matrix[1,1]/(cnf_matrix[1,0]+cnf_matrix[1,1]))

    class_names = [0,1]
    plot_confusion_matrix(cnf_matrix , classes=class_names , title='Thresholds >= ' + str(i))

plt.show()

# 不同阈值下ROC曲线
from itertools import cycle
thresholds = [0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9]
colors = cycle(['navy', 'turquoise', 'darkorange', 'cornflowerblue', 'teal', 'red', 'yellow', 'green', 'blue','black'])

plt.figure(figsize=(12,5))

j = 1
for i,color in zip(thresholds,colors):
    y_test_predictions_prob = y_pred_proba[:,1] > i 

    precision, recall, thresholds = precision_recall_curve(y_test, y_test_predictions_prob)
    area = auc(recall, precision)

    # Plot Precision-Recall curve
    plt.plot(recall, precision, color=color,
                 label='Threshold: %s, AUC=%0.5f' %(i , area))
    plt.xlabel('Recall')
    plt.ylabel('Precision')
    plt.ylim([0.0, 1.05])
    plt.xlim([0.0, 1.0])
    plt.title('Precision-Recall Curve')
    plt.legend(loc="lower left")

plt.show()

令alpha = 0.5，结果显示为准确率0.307，召回率0.47，F值0.371。可以看出，结合cross-validation和grid search技术训练模型对模型效果有显著地提升。
precision和recall是一组矛盾的变量。从上面混淆矩阵和PRC曲线可以看到，阈值越小，recall值越大，模型能找出流失用户的数量也就更多，但换来的代价是误判的数量也较大。随着阈值的提高，recall值逐渐降低，precision值也逐渐提高，误判的数量也随之减少。通过调整模型阈值，控制模型流失发生的力度，若想找出更多的用户流失就设置较小的阈值，反之，则设置较大的阈值。
实际业务中，阈值的选择取决于公司业务边际利润和边际成本的比较；当模型阈值设置较小的值，确实能找出更多的即将流失用户，但随着误判数量增加，不仅加大了市场部营销人员的工作量，也会降低误判为流失用户的消费体验，从而导致客户满意度下降，如果某个模型阈值能让业务的边际利润和边际成本达到平衡时，则该模型的阈值为最优值。
后边按照月份往后平滑数据进行模型平滑检验以及模型的持续优化，这里不再展示。

GUI编程（window系统→Linux系统）诚信爱国敬业友善心得 linux python gui
最近有个项目需要将windows系统的程序往Linux系统上面移植，由于之前程序没有考虑过多平台兼容的问题，导致部分功能不可用以下是对近期遇到的问题的总结，以及相应的解决方案和经验分享。1.Python模块安装与管理在Linux系统中，安装和管理Python模块时可能会遇到权限问题或依赖冲突。安装模块：使用pip安装模块时，建议使用--user选项，避免需要管理员权限：bash复制pipinsta
ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例楼台的春风嵌入式开发 STM32 嵌入式 c语言 mcu 自动驾驶嵌入式硬件 stm32 物联网
ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例目录ADC（模数转换器）与DAC（数模转换器）详解：从基础到应用示例引言一、ADC（模数转换器）1.ADC的基本概念2.ADC的工作原理3.ADC的主要类型4.ADC的技术指标5.ADC的应用场景6.ADC在嵌入式系统中的使用案例二、DAC（数模转换器）1.DAC的基本概念2.DAC的工作原理3.DAC的主要类型4.DAC的技术指标5
spring boot基于知识图谱的阿克苏市旅游管理系统python-计算机毕业设计 QQ1963288475 spring boot 知识图谱旅游 python vue.js django flask
目录功能和技术介绍具体实现截图开发核心技术：开发环境开发步骤编译运行核心代码部分展示系统设计详细视频演示可行性论证软件测试源码获取功能和技术介绍该系统基于浏览器的方式进行访问，采用springboot集成快速开发框架，前端使用vue方式，基于es5的语法，开发工具IntelliJIDEAx64，因为该开发工具，内嵌了Tomcat服务运行机制，可不用单独下载Tomcatserver服务器。由于考虑到
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
基于JavaSpringboot+Vue实现前后端分离房屋租赁系统网顺技术团队成品程序项目 vue.js 前端 javascript 课程设计 spring boot mybatis
基于JavaSpringboot+Vue实现前后端分离房屋租赁系统作者主页网顺技术团队欢迎点赞收藏⭐留言文末获取源码联系方式查看下方微信号获取联系方式承接各种定制系统精彩系列推荐精彩专栏推荐订阅不然下次找不到哟Java毕设项目精品实战案例《1000套》感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录基于JavaSpringboot+
市面上采用多进程架构的游戏或游戏引擎的案例深入分析你一身傲骨怎能输软件架构设计架构游戏游戏引擎
《绝地求生》（PUBG）《绝地求生》（PUBG）是一款采用多进程架构的游戏，这种设计帮助它在处理复杂的游戏逻辑和网络通信时提高了性能和稳定性。以下是一些关于《绝地求生》如何利用多进程架构的具体细节：多进程架构的优势性能优化：多进程架构允许游戏将不同的任务分配到多个处理器核心上运行，这样可以充分利用现代多核CPU的计算能力。例如，游戏的物理计算、AI逻辑、渲染和网络通信可以在不同的进程中并行处理，从
Python学习心得两大编程思想 lifegoesonwjl python 开发语言 pycharm 前端 c语言
一、两大编程思想：1.面向过程：功能上的封装典型代表：C语言2.面向对象：属性和行为上的封装典型代表：Python、Java二、面向过程与面向对象的异同点：1.区别：面向过程：事物比较简单，可用线性的思维去解决面向对象：事务比较复杂，使用简单的线性思维无法解决2.共同点：（1）面向过程和面向对象都是解决实际问题的一种思维方式；（2）二者相辅相成，并不是对立的；（3）解决复杂问题，通过面向对象方式便
Linux升级Anacodna并配置jupyterLab 伪_装环境部署 linux 服务器 Anaconda python jupyter
在使用Anaconda的过程中，随着项目和需求的发展，可能需要升级Anaconda的Base环境中的Python版本。本文将详细介绍如何安全地进行升级，包括步骤、代码示例与最终流程图。升级Python一、环境准备在进行任何升级之前，建议先检查当前的Python版本以及各个库的兼容性。我们可以通过以下命令检查当前的Python版本：condainfo你会看到类似以下的输出，其中包含了当前Python
【Linux】删除Conda虚拟环境不是伍壹 Linux linux conda 运维
1、查看当前系统的conda虚拟环境condainfo--envscondaenvlist2、创建虚拟的环境condacreate-n（你的环境名字）python=（你需要的版本号，如（3.7,3.8,3.10））3、查看安装了哪些包condalist4、删除虚拟环境condaremove-nname--all5、删除虚拟环境中的包condaremove--name$（需要删除的环境名字）$（需要
动态规划之背包问题--python版本我是小码搬运工 #python基础动态规划背包问题 python版本
动态规划之背包问题–python版本问题已知一个最大量的背包，给定一组给定固定价值和固定体积的物品，求在不超过最大值的前提下，能放入背包中的最大总价值。解题思路该问题是典型的动态规划问题，分为三种不同的类型（0-1背包问题、完全背包和多重背包问题）解题关键–状态转移表达式：B(k,C)=max(B(k−1,C),B(k−1,C−ci)+vi)B(k,C)=max(B(k-1,C),B(k-1,C-
Centos7 搭建 Jupyter + Nginx 服务某龙兄 python nginx linux centos
JupyterNotebook（此前被称为IPythonnotebook）是一个交互式笔记本，支持运行40多种编程语言。JupyterNotebook的本质是一个Web应用程序，便于创建和共享文学化程序文档，支持实时代码，数学方程，可视化和markdown。用途包括：数据清理和转换，数值模拟，统计建模，机器学习等等。本文讲述如何搭建Jupyter+Nginx服务,仅供学习与交流，请勿用于商业用途一
动态规划之背包问题的Python实现名侦探debug Python 数据结构 python 数据结构动态规划求解
目录1.问题描述2.动态规划之网格法3.python实现1.问题描述题目来源于《算法图解》第9章练习题9.2，如下图所示。对于背包问题，通常的做法有列举法、贪婪算法和动态规划（1）列举法：列举出所有的可能情况，再选择最优解，但当情况很多时，这种算法复杂度很高（2）贪婪算法：在容量允许范围内，每次都拿剩余物品中价值最高的，贪婪算法能够快速解决复杂度很高的问题，但通常得到的是次优解，但就对这个题目而言
OpenAI 深度研究与 Gemini 深度研究：哪个更好？知识小报童 DeepSeek 人工智能深度学习机器学习神经网络自然语言处理语言模型 AIGC
目录*什么是OpenAI深度研究？**OpenAI深度研究的关键特性：**OpenAI深度研究的应用：**使用案例：**什么是Gemini深度研究？**Gemini深度研究的关键特性：**Gemini深度研究的应用：**使用案例：**Gemini2.0Flash：增强性能**可用性：**OpenAI深度研究与Gemini深度研究：详细比较**OpenAI深度研究与Gemini深度研究之间的关键区别
总结10个Python赚钱的接单平台兼职月入5000+ begefefsef 面试学习路线阿里巴巴 android 前端后端
前言“如果说当下什么编程语言最靠谱或者比较适合搞副业？”答案肯定100%是：Pythonpython是所有语法中最简单易上手的语言，不需要特别的的英语词汇量，逻辑思维也不需要很差就能上手。而且学会了之后就能编写代码爬取各种数据，制作各种图表，提升工作效率。而且还能利用业余时间接点私活，一个月轻松收入过万不是问题，这样的生活他不香吗？今天就给大家盘点几个基本入门接私活的资源，让你轻松学python，
大学生学完python靠几个接单网站兼职，实现经济独立「已注销」 python 开发语言
大学生学完python靠几个接单网站兼职，实现经济独立程序员就是当今时代的手艺人，程序员可以通过个人的技术来谋生。而在工作之余接私单可以作为一种创富的途径，受到程序员的广泛认可。说句实在话，现在这个时代，很多人仅靠主业顶多维持基本生活，想让自己、家人生活好一点很难。我接的私活并不算多，加起来也就几万左右，只能算一半，我想把一些经验分享出来，毕竟现在生活都不容易，能赚一点是一点。一、程序员接活、新手
Python wifi 安装手机app yichengace python
目的当测试机数量越来越多时，测试包的安装会成为一个问题，用wifi安装来解决这个问题，并且用脚本语言来批量控制思路思路就是py调用pc端的adb命令，向手机发送请求，无线是因为，如果未来测试机越来越多，一台电脑的usb接口数量肯定不够准备工具python，adb，pycharm，测试用app，这里选择qq（https://qd.myapp.com/myapp/qqteam/AndroidQQ/mo
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
Python 舆论风向分析爬虫：全流程数据获取、清洗与情感剖析西攻城狮北 python 爬虫开发语言实战案例
引言在当今信息爆炸的时代，互联网上充斥着海量的用户言论和观点。了解舆论风向对于企业、政府机构以及研究者等具有重要的意义，可以帮助他们及时把握公众情绪、调整策略与决策。Python作为一种强大的编程语言，在数据爬取与分析方面具有得天独厚的优势，能够助力我们高效地实现舆情监测与深入剖析。一、环境搭建与目标确定1.环境搭建为了顺利完成爬虫与数据分析任务，首先需要确保你的开发环境已经安装了以下Python
分布式数据库解析 qcidyu 文章归档数据分片高可用架构云数据库共识算法全球一致性分布式事务 CAP定理
title:分布式数据库解析date:2025/2/20updated:2025/2/20author:cmdragonexcerpt:通过金融交易、社交平台、物联网等9大真实场景，结合GoogleSpanner跨洲事务、DynamoDB毫秒级扩展等38个生产级案例，揭示分布式数据库的核心原理与工程实践。内容涵盖CAP定理的动态权衡策略、Paxos/Raft协议的工程实现差异、TrueTime时钟
PyCharm 集成 DeepSeek：本地运行 or API 直连？打造你的 AI 编程神器！ AI云极【AI智能系列】pycharm 人工智能 ide deepseek
在AI赋能编程的时代，如何让AI辅助写代码，提升开发效率？DeepSeek作为一款开源、强大、免费的AI编程助手，结合PyCharm，能够大幅提升Python编程体验。今天，我们就来详细讲解如何在PyCharm中接入DeepSeek，无论你想使用本地部署的DeepSeek，还是官方API版本，都能轻松实现！为什么选择DeepSeek+PyCharm？DeepSeekR1采用6710亿参数的MoE（
Python3.5源码分析-sys模块及site模块导入小屋子大侠 python Python分析 python源码
Python3源码分析本文环境python3.5.2。参考书籍>python官网Python3的sys模块初始化根据分析完成builtins初始化后，继续分析sys模块的初始化，继续分析_Py_InitializeEx_Private函数的执行，void_Py_InitializeEx_Private(intinstall_sigs,intinstall_importlib){...sysmod=
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Labelbox：引领AI与人类协作的未来魏兴雄Milburn
Labelbox：引领AI与人类协作的未来labelbox-pythonLabelboxPythonClient项目地址:https://gitcode.com/gh_mirrors/la/labelbox-python项目介绍Labelbox是一款专为企业和学术研究社区设计的开源工具，旨在简化数据标注、生成高质量的人类反馈数据、评估和提升模型性能，并通过无缝结合AI与人类工作流程来自动化任务。无
基于python使用scanpy分析单细胞转录组数据探序基因单细胞分析 python 开发语言
探序基因肿瘤研究院整理相关后缀的格式介绍：.h5ad：是一种用于存储单细胞数据的文件格式，可以通过anndata库在Python中处理.loom：高效的数据存储格式（.loom文件），使得用户可以轻松地存储、查询和分析大规模的单细胞数据集。Loompy的设计目标是提供一个快速、灵活且易于使用的工具，以支持生物信息学家和研究人员在单细胞水平上进行数据分析。python的单细胞转录组数据结构说明：da
Mybatis判断问题：深入解析与实战案例 DTcode7 sql数据库相关数据库 mysql SQL 数据库开发 sql
Mybatis判断问题：深入解析与实战案例基础概念与作用说明``标签``,``,````示例一：基本的``标签使用说明示例二：``,``,``的使用说明示例三：使用``标签简化条件语句说明实际工作中的使用技巧自行拓展内容在现代企业级应用开发中，MyBatis作为一款优秀的持久层框架，以其灵活的SQL映射机制和强大的动态SQL功能，深受广大开发者的喜爱。然而，在使用过程中，如何准确地进行条件判断，特
本地搭建小型 DeepSeek 并进行微调非著名架构师大模型知识文档智能硬件人工智能大数据大模型 deepseek
本文将指导您在本地搭建一个小型的DeepSeek模型，并进行微调，以处理您的特定数据。1.环境准备Python3.7或更高版本PyTorch1.8或更高版本CUDA(可选，用于GPU加速)Git2.克隆DeepSeek仓库bash复制gitclonehttps://github.com/deepseek-ai/deepseek.gitcddeepseek3.安装依赖bash复制pipinstall
侯捷 C++ 课程学习笔记：C++ 面向对象开发的艺术孤寂大仙v c++c++学习笔记
在侯捷老师的C++系列课程中，《C++面向对象开发》这门课程让我对面向对象编程有了更深入的理解。面向对象编程（OOP）是现代软件开发中最重要的编程范式之一，而C++作为支持OOP的语言，提供了强大的工具和特性。侯捷老师通过系统的讲解和实战案例，帮助我掌握了如何在C++中高效地使用面向对象技术。以下是我对这门课程的学习笔记和心得体会。一、课程核心内容：C++面向对象开发的关键特性![侯捷老师的课程详
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
【Python系列】Python 解释器的站点配置 Kwan的解忧杂货铺@新空间代码工作室 s1 Python python 开发语言
欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐:kwan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kafka,Spring,微服务,Netty等常用开发工具系列:罗列常用的开发工具,如IDEA,M
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战傻啦嘿哟 pandas
目录一、准备工作二、抓取网页数据三、数据清洗四、数据处理五、保存数据六、完整代码示例七、总结在数据分析和机器学习的项目中，数据的获取、清洗和处理是非常关键的步骤。今天，我们将通过一个实战案例，演示如何利用Python中的BeautifulSoup库进行网页数据抓取，并使用Pandas库进行数据清洗和处理。这个案例不仅适合初学者，也能帮助有一定经验的朋友快速掌握这两个强大的工具。一、准备工作在开始之
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS