Sim1480

我的新书《R语言数据分析、挖掘建模和可视化》出版上市啦！

出发点

2018年年初开始了处女作的编写，并在当年10月上线《从零开始学Python数据分析与挖掘》。在编写处女作的同时也在想另一件事，Python更多的应用于企业界，而教育领域的统计学专业，还更多地基于R语言实现统计应用和计算。所以特地基于R语言重新写了《从零开始学Python数据分析与挖掘》姊妹篇《R语言数据分析、挖掘建模和可视化》，并在2021年1月份上线。希望本著作能够展现给更多的朋友，在读者朋友的平时学习和工作中起到辅助和参考效果。

内容简介

第一部分（第1~4章）介绍R语言的一些基础知识和使用技巧，内容包含R语言中的数据结构、控制流语句和自定义函数、apply簇函数的使用、外部数据的读取、数据的清洗和整理以及正则表达式的使用。

第二部分（第5、6章）重点介绍绘图包ggplot2的使用，详细讲解各种统计图形的绘制方法（如条形图、环形图、瓦片图、直方图、小提琴图、折线图、面积图、散点图、地图等），以及图形绘制过程中的微调策略（如图例位置的摆放、自定义颜色的调整、图形形状的选择以及多图形的组合等）。

第三部分（第7~15章）一共包含了10种数据挖掘算法的应用，如线性回归、决策树、支持向量机、GBDT等。采用通俗易懂的手法介绍每一个挖掘算法的理论知识，并借助于具体的项目数据完成算法的实战。本部分内容既可以提高数据分析与挖掘的水平和技能，也可以作为数据挖掘算法实操的模板。

详细目录

下拉查看详细目录

第1章 R语言的必备基础知识 1

1.1 R语言简介 1

1.2 R软件的下载与安装 2

1.3 第三方包的下载与加载 4

1.3.1 手动下载法 4

1.3.2 代码下载法 4

1.3.3 第三方包的加载 5

1.4 如何查看帮助文档 6

1.4.1 知包知函数——help函数 6

1.4.2 知函数未知包——help.search函数 6

1.4.3 知包未知函数——apropos函数 7

1.4.4 未知函数未知包——RSiteSearch函数 8

1.5 R语言中的数据结构 9

1.5.1 向量的创建 9

1.5.2 向量元素的获取 13

1.5.3 基于向量的数据类型转换 15

1.5.4 向量的因子化转换 18

1.5.5 基于向量的常用函数 20

1.6 矩阵的构造 21

1.6.1 矩阵索引的使用 23

1.6.2 基于矩阵运算的常用函数 24

1.7 数据框的构造及常用函数 24

1.7.1 构造数据框 24

1.7.2 基于数据框的常用函数 26

1.8 列表的构造及索引的使用 30

1.8.1 列表的构造 30

1.8.2 列表索引的使用 31

1.9 控制流语句及自定义函数 31

1.9.1 if分支 32

1.9.2 for循环 33

1.9.3 while循环 35

1.10 R语言中的自定义函数 37

1.11 巧用apply簇函数 38

1.11.1 tapply函数的使用 38

1.11.2 apply函数的使用 40

1.11.3 lapply与sapply函数的使用 42

1.12 教你一个爬虫项目 44

1.13 篇章总结 46

第2章数据的读写操作 47

2.1 文本文件数据的读取 47

2.1.1 csv或txt格式的数据读入 47

2.1.2 Json格式的数据读入 53

2.2 Excel数据的读取 56

2.2.1 xlsx包读取Excel数据 56

2.2.2 readxl包读取Excel数据 60

2.3 数据库数据的读取 63

2.3.1 读取MySQL数据库 63

2.3.2 读取SQL Server数据库 66

2.4 几种常见的数据写出格式 70

2.4.1 写出至文本文件 70

2.4.2 写出至电子表格Excel 71

2.4.3 写出至数据库 73

2.5 篇章总结 74

第3章数据的清洗与管理 76

3.1 重复记录的识别和处理 77

3.2 缺失值的识别 79

3.3 缺失值的处理办法 82

3.3.1 删除法 82

3.3.2 替换法 83

3.3.3 插补法 84

3.4 异常值的识别和处理 86

3.4.1 基于分位数法识别异常值 86

3.4.2 基于σ方法识别异常值 88

3.4.3 基于模型法识别异常值 90

3.4.4 异常值的处理办法 92

3.5 数据形状的重塑 93

3.5.1 reshape2包 93

3.5.2 Tidyr包 96

3.6 数据的聚合操作 97

3.6.1 基于aggregate函数的聚合 97

3.6.2 基于sqldf函数的聚合 99

3.6.3 基于group_by和summarize函数的聚合 101

3.7 数据的合并与连接 102

3.7.1 基于bind_rows函数的数据合并 102

3.7.2 基于*_join函数的数据连接 104

3.8 几种常用的抽样技术 106

3.8.1 简单随机抽样 106

3.8.2 分层抽样 107

3.8.3 整群抽样 108

3.9 篇章总结 109

第4章基于正则表达式的字符串处理技术 111

4.1 基于字符串位置的处理技术 112

4.1.1 数据截断——特定位置的子串获取 112

4.1.2 数据清洗——非常规的字符型转数值型 114

4.1.3 数据清洗——字符串子串的隐藏 116

4.2 正则表达式的定义及用途 117

4.2.1 什么是正则表达式 117

4.2.2 正则表达式的常见用法 118

4.3 基于正则的单字符匹配 118

4.3.1 从静态文本的匹配开始 118

4.3.2 任意单字符的匹配 121

4.3.3 指定字符集的匹配 122

4.4 字符匹配次数的设置 125

4.4.1 无上限的次数匹配 125

4.4.2 有限次数的匹配 128

4.5 其他正则符号的使用 131

4.6 篇章总结 132

第5章数据可视化技术的应用 134

5.1 条形图的绘制 136

5.2 饼图与环形图的绘制 140

5.3 矩形图与瓦片图的绘制 141

5.4 直方图与频次多边形图的绘制 144

5.5 箱线图与小提琴图的绘制 147

5.6 折线图与阶梯图的绘制 150

5.7 面积图与带状图的绘制 153

5.8 散点图及气泡图的绘制 155

5.9 区块频次图的绘制 160

5.10 核密度图的绘制 163

5.11 QQ图的绘制 165

5.12 篇章总结 166

第6章可视化图形的个性化调整 169

6.1 分面图与组合图的绘制 169

6.2 参考线和文本标签的添加 175

6.3 轴系统coord_*的设置 180

6.4 尺度scale_*的设置 182

6.5 颜色、形状和线条类型的自定义设置 189

6.6 图形主题的设置 191

6.7 有关图例布局的调整 195

6.8 篇章总结 199

第7章线性回归模型的预测应用 201

7.1 相关性分析 201

7.2 回归性分析 202

7.3 线性回归模型的介绍 203

7.4 回归系数求解 204

7.4.1 构造似然函数 205

7.4.2 取对数并整理 205

7.4.3 展开并求导 206

7.4.4 计算偏回归系数 206

7.5 实战案例——如何基于成本预测利润 206

7.6 模型的显著性检验——F检验 210

7.6.1 提出假设 210

7.6.2 构造统计量 210

7.6.3 计算统计量 211

7.6.4 对比统计量的值和理论分布值 212

7.7 参数的显著性检验——t检验 212

7.7.1 提出假设 212

7.7.2 构造统计量 213

7.7.3 计算统计量 213

7.7.4 对比统计量的值和理论分布值 214

7.8 变量选择——逐步回归法 214

7.9 验证模型的各类假设前提 216

7.9.1 多重共线性检验 216

7.9.2 正态性检验 217

7.9.3 独立性检验 220

7.9.4 方差齐性检验 220

7.10 模型的预测 222

7.11 篇章总结 223

第8章岭回归与LASSO回归模型 225

8.1 岭回归模型的介绍 225

8.1.1 参数求解 226

8.1.2 系数求解的几何意义 227

8.1.3 岭回归模型的应用 228

8.1.4 模型的预测 234

8.2 LASSO回归模型的介绍 235

8.2.1 参数求解 236

8.2.2 系数求解的几何意义 237

8.2.3 LASSO回归模型的应用 238

8.2.4 模型的预测 240

8.3 篇章总结 242

第9章 Logistic回归模型的分类应用 244

9.1 Logistic回归模型的构建 245

9.2 Logistic回归模型的参数求解 247

9.2.1 极大似然估计 247

9.2.2 梯度下降 249

9.3 Logistic回归模型的参数解释 249

9.4 几种常用的模型评估方法 250

9.4.1 混淆矩阵 250

9.4.2 ROC曲线 251

9.4.3 K-S曲线 253

9.5 Logistic回归模型的应用 256

9.5.1 建模 256

9.5.2 预测 259

9.5.3 模型评估 260

9.6 篇章总结 262

第10章决策树与随机森林的应用 264

10.1 节点字段的选择 265

10.1.1 信息增益 266

10.1.2 信息增益率 268

10.1.3 基尼指数 270

10.2 决策树的剪枝 272

10.2.1 误差降低剪枝法 272

10.2.2 悲观剪枝法 273

10.2.3 代价复杂度剪枝法 274

10.3 随机森林 276

10.3.1 随机森林的思想 277

10.3.2 随机森林的函数说明 278

10.4 决策树与随机森林的应用 279

10.4.1 分类问题的应用 280

10.4.2 预测问题的应用 287

10.5 篇章总结 290

第11章 KNN模型 292

11.1 KNN算法的思想 292

11.2 最佳k值的选择 293

11.3 相似度的度量方法 294

11.3.1 欧氏距离 294

11.3.2 曼哈顿距离 295

11.3.3 余弦相似度 295

11.3.4 杰卡德相似系数 296

11.4 近邻样本的搜寻方法 297

11.4.1 KD树搜寻法 297

11.4.2 球树搜寻法 301

11.5 KNN模型的应用 303

11.5.1 分类问题的判别 304

11.5.2 预测性问题的解决 309

11.6 篇章总结 312

第12章朴素贝叶斯模型 314

12.1 朴素贝叶斯理论基础 315

12.2 几种贝叶斯模型 316

12.2.1 高斯贝叶斯分类器 316

12.2.2 高斯贝叶斯分类器的应用 318

12.2.3 多项式贝叶斯分类器 322

12.2.4 多项式贝叶斯分类器的应用 324

12.2.5 伯努利贝叶斯分类器 327

12.2.6 伯努利贝叶斯分类器的应用 329

12.3 篇章总结 335

第13章 SVM模型 337

13.1 SVM的简介 338

13.1.1 距离公式的介绍 339

13.1.2 SVM的实现思想 339

13.2 几种常见的SVM模型 341

13.2.1 线性可分的SVM 341

13.2.2 一个手工计算的案例 344

13.2.3 近似线性可分SVM 346

13.2.4 线性SVM的损失函数 348

13.2.5 非线性可分SVM 349

12.2.6 几种常用的SVM核函数 351

12.2.7 SVM的回归预测 352

12.2.8 R语言函数介绍 353

13.3 分类性SVM模型的应用—手写字母的识别 355

13.4 预测性SVM回归模型的应用—受灾面积的预测 358

13.5 篇章总结 361

第14章 GBDT模型 363

14.1 提升树算法 364

14.1.1 AdaBoost算法的损失函数 364

14.1.2 AdaBoost算法的操作步骤 366

14.1.3 AdaBoost算法的简单例子 367

14.1.4 AdaBoost算法的应用 369

14.2 GBDT算法的介绍 375

14.2.1 GBDT算法的操作步骤 375

14.2.2 GBDT分类算法 376

14.2.3 GBDT回归算法 377

14.2.4 GBDT算法的应用 378

14.3 非平衡数据的处理 382

14.4 XGBoost算法 384

14.4.1 XGBoost算法的损失函数 384

14.4.2 损失函数的演变 386

14.4.3 XGBoost算法的应用 388

14.5 篇章总结 394

第15章 Kmeans聚类分析 396

15.1 Kmeans聚类 397

15.1.1 Kmeans的思想 397

15.1.2 Kmeans的原理 398

15.2 最佳k值的确定 399

15.2.1 拐点法 400

15.2.2 轮廓系数法 402

15.2.3 Gap Statistic 404

15.3 Kmeans聚类的应用 407

15.3.1 鸢尾花类别的聚类 407

15.3.2 基于NBA球员历史参赛数据的聚类 410

15.4 Kmeans聚类的注意事项 415

15.5 篇章总结 416

专家推荐

下拉查看详细推荐语

本书从数据分析的流程和应具备的核心技能出发引导初学者进行数据的探索与价值的发现，是一本想通过以R为基础系统学习数据挖掘知识和常用算法成为一名优秀数据分析师不可或缺的参考书。本书是作者《从零开始学习Python数据分析与挖掘》的姐妹篇，对于将来想通过Python进一步学习机器学习的读者定会起到事半功倍的作用。

--------华东师范大学统计学院教授，博士生导师; 上海数萃大数据科技有限公司联合创始人

本书从R语言的基础内容开始，逐渐深入至数据的清洗管理、数据的可视化技术、数据挖掘的各种算法，涵盖的内容十分全面。无论是新手入门，还是对于有一定基础想进一步深入了解数据分析技能的读者，都是不错的一本工具书。

--------浙江工商大学应用统计系教授，博士生导师，杨晓蓉

数据分析和数据挖掘从来就不是分离的。一个优秀的数据科学家是商学院思维、模型算法思维和软件工程思维的完美统一体。全面掌握和灵活运用至少一门面向数据分析和挖掘的编程语言，对数据科学家而言也是最基本的要求。这本书的内容涵盖了数据清洗、数据处理、数据可视化以及主流挖掘算法，堪称企业级数据应用的R语言编程全流程实战宝典。

--------重庆农村商业银行金融创新部大数据中心总监孙光辉

R语言作为当今数据科学中应用最广的编程语言之一，离不开其背后强有力的社区贡献。此书不仅介绍了R语言入门的基础知识，还列举了多种常用机器学习算法的实现，深入浅出，相信对于数据科学领域或者想要熟悉R语言的同学，这本书无疑是一个不错的建议。

--------蚂蚁金服，数据技术专家，王修坤

这本书内容翔实、编排得当，覆盖了整个数据分析和挖掘领域的基础知识与核心算法。各种方法的介绍由浅入深，理论和实践融合得很好，尤其是各个实际操作的例子，非常体现作者的功力，增之一分则太长减之一分则太短。

--------“统计之都”核心成员、《统计之美》作者李舰

精彩实拍

致谢

最后再次感谢清华大学出版社的编辑以及其他默默为本书付出的出版工作者，真诚地感谢广大网友及粉丝朋友的期待和关注，是你们给了我动力坚持将本书内容写好写足。同时，也期待读者朋友们给予指正和建议。

为表达读者朋友一直以来的支持和认可，特赠送5本图书，邀请大家踊跃参与留言，根据留言排名寄送图书哦（截止时间：2021年1月15日）。

读者朋友们可以通过天猫、当当、京东等平台搜索选购，关于书中的任何疑问都可以直接加我微信（lsx19890717），一起讨论书中的知识哦~

day11 学习笔记豆豆学习笔记 python
文章目录前言一、类方法二、静态方法三、构造方法四、魔术方法前言通过今天的学习，我掌握了更多Python中有关面向对象编程思想中方法的概念与操作，包括类方法，静态方法，构造方法，魔术方法一、类方法类方法是属于类的行为，一般使用类而非对象进行调用类方法需要使用@classmethod装饰器定义类方法至少有一个形参用于绑定类，约定为cls类和该类的实例都可以调用类方法，但一般不用实例进行调用类方法不能访
“四预”驱动数字孪生水利：让智慧治水守护山河安澜 GeoSaaS 实景三维智慧城市人工智能 gis 大数据安全
近年来，从黄河秋汛到海河特大洪水，从珠江流域性洪灾到长江罕见骤旱，极端天气频发让水安全问题备受关注。如何实现“治水于未发”？数字孪生水利以“预报、预警、预演、预案”（四预）为核心，正在掀起一场水利治理的智慧革命。一、数字孪生水利：从物理世界到虚拟镜像的跃迁数字孪生水利并非简单的“数字建模”，而是通过高精度传感器、大数据、人工智能等技术，在虚拟空间构建与物理流域完全映射的“数字分身”，实现水情、工情
Python 正则表达式小结1 大收藏家 Python 正则表达式 python
[声明]：本文参考了白夜黑雨老师的网页讲解。如有侵权，请与我联系！！！Python正则表达式小结11.正则表达式验证2.特殊元字符及含义3匹配某种字符类型4.正则表达式举例大收藏家说1.正则表达式验证提供两个网站用于正则表达式的验证，可以敲入文本与正则表达式。通过该网站，验证正则表达式的正确性。非常好用！英文网站中文网站2.特殊元字符及含义元字符含义.表示要匹配除了换行符之外的任何单个字符*星号-
python离线语音转文本_使用Python将语音转换为文本的方法 weixin_39760619 python离线语音转文本
使用Python将语音转换为文本的方法,语音,转换为,文本,您的,麦克风使用Python将语音转换为文本的方法易采站长站，站长之家为您整理了使用Python将语音转换为文本的方法的相关内容。语音识别是计算机软件识别口语中的单词和短语，并将其转换为可读文本的能力。那么如何在Python中将语音转换为文本？如何使用SpeechRecognition库在Python中将语音转换为文本？我们不需要从头开始
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
8、Python 字符串处理与正则表达式实战指南 wolf犭良 python python 正则表达式
Python字符串处理与正则表达式实战指南文章概述本文深入探讨Python字符串处理核心方法与正则表达式实战技巧，涵盖字符串编码转换、分割替换、正则表达式语法精髓，并通过日志解析、数据清洗等真实场景案例展示高阶应用。最后提供10道阶梯式练习题（附完整答案代码），助你从基础到进阶全面掌握文本处理技能。一、字符串处理核心三剑客1.1编码转换（encode/decode）text="中文文本"utf8_
deepseek api参数详解孽小倩大语言模型 python java 前端人工智能 deepseek
deepseek的参数与openai保持兼容，所以openai能用的参数deepseek都可以使用，以下是常用的参数介绍。在使用Deepseek/OpenAI的PythonAPI时，最常用的API端点是chat/completions，用于调用deepseek生成文本对话内容。以下是openai.ChatCompletion.create()方法的主要参数及其作用：1.model作用：指定使用的模
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
Python（正则表达式）羡江007 Python进阶 python 正则表达式开发语言
re模块#在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个re模块'''re模块三步走#第一步：导入re模块importre#第二步：使用match方法进行匹配操作result=re.match(pattern正则表达式,string要匹配的字符串,flags=0)#第三步：如果数据匹配成功，使用group方法来提取数据result.group()re.match(patte
Ubuntu20.04安装并配置Pycharm2020.2.5 搬砖的打工人!!! ubuntu pycharm python
一.下载pycharm社区版1.下载地址：PyCharm:thePythonIDEfordatascienceandwebdevelopmentThePythonIDEfordatascienceandwebdevelopmentwithintelligentcodecompletion,on-the-flyerrorchecking,quick-fixes,andmuchmore.https:/
使用python中you-get库实现下载网抑云瞎老弟 python python 音视频爬虫
WYY音乐下载前言代码实现使用说明前言前几天，我做了b站视频的下载，有好兄弟表示，只下载视频，不能够让人满足，我还希望能够下载网易云的音乐。上一次在我发布的b站视频下载中，使用了you-get库作为下载方式，但是实际上，这个库也可以下载网易云音乐，因此，我们只需要参考我们上次的b站视频下载，简单的进行一下修改，就可以完成音乐的下载了。为了能够更加方便的批量下载音乐，这里采用了“按艺术家“的下载方式
Python用Pyqt5制作音乐播放器 Aix959 python 开发语言
具体效果如下需要实现的功能主要的几个有：1、搜索结果更新至当前音乐的列表，这样播放下一首是搜素结果的下一首2、自动播放3、滚动音乐文本4、音乐进度条5、根据实际情况生成音乐列表。我这里的是下面的情况，音乐文件的格式是歌名_歌手.mp3所以根据需求修改find_mp3_files方法，我这里返回的是[{"path":音乐文件路径,"music":歌名,"singer":歌手},{"path":音乐文
使用vscode远程连接linux运行项目报错解决方案大数据lsy 笔记 vscode linux python
报错：subprocess.CalledProcessError:Command'['/xxx/anaconda3/envs/graphinvent/bin/python','./graphinvent/main.py','--job-dir','/xxx/GraphINVENT/output_gdb13_1K/example/job_0/']'returnednon-zeroexitstatus
代码管理工具——SVN weixin_33728708 git 开发工具 python
2019独角兽企业重金招聘Python工程师标准>>>SVN版本控制的作用：记录若干文件内容变化，以便将来查阅特定版本修订情况。版本管理工具发展简史，cvs-->svn-->Git（参考：http://luckypoem14.github.io/test/2012/04/24/scm-history/）。svn全称subversion，是一个开源版本控制系统（C/S架构），始于2000年；git（
jieba库词频统计_jieba分词器（应用及字典的补充）及文档高频词提取实战袁圆园建建 jieba库词频统计
jieba分词器是Python中最好的中文分词组件，本文讲解一下jieba分词器及其应用。1、jieba分词器的分词模式jieba分词器提供了三种常用的分词模式1、精确模式：将句子按照最精确的方法进行切分，适合用于进行文本分析；2、全模式：将句子当中所有可以成词的词语都扫描出来，分词速度很快但容易产生歧义；3、搜索引擎模式：在精确模式分词的基础上，将长的句子再次进行切分，提高召回率，适用于搜索引擎
【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】一只小白跳起来 leetcode java 算法开发语言
美美超过管解题目：3.无重复字符的最长子串给定一个字符串s，请你找出其中不含有重复字符的最长的长度。示例1:输入:s="abcabcbb"输出:3解释:因为无重复字符的最长子串是"abc"，所以其长度为3。注意：考虑空字符串问题有重复之后要在重复的那个后面新建序列，减少时间，故需要列表储存（标准做法里用的集合捏）标准做法：把重复的set.remove（），a指针步进，没有重复的话，b指针一直步进怎
并发爬虫实战：多线程高效抓取王者荣耀全英雄皮肤 YiFoEr_Liu 爬虫案例实操爬虫部署 python 爬虫 python 大数据
一、场景与挑战在网络爬虫开发中，我们常常面临以下挑战：需要处理成百上千个页面的数据抓取目标服务器存在反爬机制和请求频率限制单线程模式下载效率低下，难以充分利用带宽本文以王者荣耀英雄皮肤下载为例（日访问量超过1亿的热门游戏），演示如何通过Python并发编程实现高效数据抓取。二、技术选型分析2.1为什么选择并发线程？I/O密集型场景：网络请求占比90%以上GIL限制：Python线程适合I/O密集型
实用工具-Another Redis Desktop Manager介绍吕海洋数据库工具 redis 数据库
GitHub：https://github.com/qishibo/AnotherRedisDesktopManager/releasesGitee：AnotherRedisDesktopManager发行版-Gitee.comAnotherRedisDesktopManager是一款免费的Redis可视化管理工具，具有以下特点和功能：特点跨平台支持：兼容Windows、Mac、Linux等操作系
OpenEuler kinit报错找不到文件的解决办法久违的太阳其他故障处理服务器运维
客户一套华为大数据集群平台,在一台arm平台openEuler服务器上面安装完集群客户端之后,使用kinit认证出现报错Nosuchfileordirectory:最终定位是操作系统/lib64缺少ld包导致,执行下面的命令恢复：ln-sv/lib/ld-linux-aarch64.so.1/lib64/ld-linux-aarch64.so.1
使用提示词进行信息抽取的实用方法 scaFHIO windows python
在大规模语言模型（LLM）中进行信息抽取时，我们不一定需要工具调用功能。通过精心设计的提示词（prompt）可以指导模型输出特定格式的信息，然后对其进行解析以生成结构化数据。这种方法依赖于创建良好的提示词，并将LLM的输出解析为所需的Python对象。技术背景介绍大规模语言模型可以根据提示词生成特定格式的文本。例如，我们可以要求模型以JSON格式输出所需的信息。在信息抽取的场景中，设计良好的提示词
深入解析Python测试框架pytest 一休哥助手 python python pytest 开发语言
目录引言pytest简介安装与配置安装pytest配置pytest基础用法编写测试用例运行测试用例测试结果报告
浏览器工作原理深度解析（阶段一）：从 URL 到页面渲染的完整流程码农的时光故事 javascript 前端
一、浏览器工作流程概述作为前端开发者，我们每天都在与浏览器打交道，但多数人对其内部工作机制却知之甚少。实际上，浏览器的核心功能就是将用户输入的URL转换为可视化的网页。这一过程大致分为六个关键步骤：网络请求：通过HTTP/HTTPS协议获取页面资源构建DOM树：解析HTML代码生成文档对象模型样式计算：解析CSS规则并应用到对应元素布局渲染：计算元素位置和尺寸生成渲染树合成优化：将渲染层合并为位图
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
JAVA学习-练习试用Java实现“实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选” 守护者170 java学习 java 学习
问题：实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选。解答思路：要实现一个Spark应用，对大数据集中的文本数据进行情感分析和关键词筛选，需要按照以下步骤进行：1.环境准备确保的环境中已经安装了ApacheSpark。可以从[ApacheSpark官网](https://spark.apache.org/downloads.html)下载并安装。2.创建Spark应用以下是
怎么进入python 的venv文件夹_python虚拟环境模块venv使用及示例 weixin_39796140 怎么进入python 的venv文件夹
相信只要学习python的同学对于虚拟环境这个概念肯定不会太陌生，虚拟环境指的是一个个单独隔离的python开发环境。各个虚拟环境之间互不干扰，都有自己独立的开发包。就像是在电脑上装了很多个虚拟机，每个虚拟机里面你随便折腾，不会影响到物理机，也不会影响到其他虚拟机。既然这么有用，那么Python里面用来创建虚拟环境的模块virtualenv是怎么使用的呢？我们一起来看一下。virtualenv基本
python的离线安装包下载 Lake说科技 python 服务器 linux 开发语言运维
Python,安装相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python的离线安装包下载一、流程：步骤说明1确定需要下载的Python安装包版本2下载对应版本的离线安装包3将下载好的安装包传输至目标机器4在目标机器上进行安装二、具体步骤及代码：步骤1
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
python3+ffmpeg下载B站视频，附代码才华横溢吴道简爬虫 python windows
最近要去外面玩，旅途漫长，于是乎，就写了个代码，从B站上下载纪录片看，代码附后，请自取，如果觉得有用，麻烦点个赞，鼓励一下。感谢~~一、下载安装ffmpegFfmpeg是一款自由软件，用于视频和音频文件的处理，在本例中，我使用它进行视频文件和音频文件的合并。合并代码写在python脚本中，你只需下载好ffmpeg即可，而且因为合并代码中使用ffmpeg的绝对路径，所以也不用设置环境配置。Ffmpe
学习Python如何高效处理CSV文件的技巧！程序员总部 python python json
在Python中，处理CSV文件是一项非常常见的任务，特别是在数据分析和数据科学领域。CSV文件的全称是Comma-SeparatedValues，顾名思义，它以逗号为分隔符来存储表格数据。这种格式简单易读，也很方便进行数据的存储和交换。接下来就让我们一起探讨一下如何在Python中读取和写入CSV文件吧！CSV模块简介Python内置了一个非常强大的库，名为csv，这个库专门用于处理各种CSV文
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

我的新书《R语言数据分析、挖掘建模和可视化》出版上市啦！

你可能感兴趣的:(可视化,数据挖掘,大数据,编程语言,python)