小八四爱吃甜食

R语言处理数据——janitor包的介绍及使用

janitor功能介绍

janitor可以检查并清理脏数据，适用于R语言用户。主要功能如下：
1、完美格式化数据框的列名；
2、创建并格式化1-3个变量的频率表，可以看作是一个改进的table()函数；
3、提供用于清理和检查数据框的其他工具

制表和报告功能类似于SPSS和excel的常用功能。janitor是一个对标tidyverse的包。具体来讲，它与%>%这一pipeline配合的很好，并针对清理readr和readxl包中的数据进行了优化。

janitor的安装

方法一

install.packages("janitor")

方法二

install.packages("devtools")
devtools::install_github("sfirke/janitor")

janitor的使用

具体使用方法可以点击链接。以下是快速入门例子。

清理脏数据

例如下图中的数据

需要清理的部分主要有：
1、顶部标题；
2、列名；
3、包含excel格式但不包含数据的行和列；
4、单列中两种不同格式的日期（MM/DD/YYYY和数字）
5、“Certification”列中的值分布不一致
以下是读入R后的数据展示：

library(readxl); library(janitor); library(dplyr); library(here)

roster_raw <- read_excel(here("dirty_data.xlsx")) # available at https://github.com/sfirke/janitor
glimpse(roster_raw)
#> Rows: 14
#> Columns: 11
#> $ `Data most recently refreshed on:`  "First Name", "Jason", "Jason", "Alicia", "Ada", "Desus", "Chien-…
#> $ ...2                                "Last Name", "Bourne", "Bourne", "Keys", "Lovelace", "Nice", "Wu"…
#> $ ...3                                "Employee Status", "Teacher", "Teacher", "Teacher", "Teacher", "A…
#> $ `Dec-27 2020`                       "Subject", "PE", "Drafting", "Music", NA, "Dean", "Physics", "Che…
#> $ ...5                                "Hire Date", "39690", "43479", "37118", "38572", "42791", "11037"…
#> $ ...6                                "% Allocated", "0.75", "0.25", "1", "1", "1", "0.5", "0.5", NA, "…
#> $ ...7                                "Full time?", "Yes", "Yes", "Yes", "Yes", "Yes", "Yes", "Yes", NA…
#> $ ...8                                "do not edit! --->", NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, …
#> $ ...9                                "Certification", "Physical ed", "Physical ed", "Instr. music", "P…
#> $ ...10                               "Certification", "Theater", "Theater", "Vocal music", "Computers"…
#> $ ...11                               "Active?", "YES", "YES", "YES", "YES", "YES", "YES", "YES", NA, "…

现在，从列名开始清理它。名字清洗有两种方式。make_clean_names()对字符向量进行操作，可在数据导入期间使用:

roster_raw_cleaner <- read_excel(here("dirty_data.xlsx"), 
                                 skip = 1,
                                 .name_repair = make_clean_names)
glimpse(roster_raw_cleaner)
#> Rows: 13
#> Columns: 11
#> $ first_name         "Jason", "Jason", "Alicia", "Ada", "Desus", "Chien-Shiung", "Chien-Shiung", NA, "J…
#> $ last_name          "Bourne", "Bourne", "Keys", "Lovelace", "Nice", "Wu", "Wu", NA, "Joyce", "Lamarr",…
#> $ employee_status    "Teacher", "Teacher", "Teacher", "Teacher", "Administration", "Teacher", "Teacher"…
#> $ subject            "PE", "Drafting", "Music", NA, "Dean", "Physics", "Chemistry", NA, "English", "Sci…
#> $ hire_date          39690, 43479, 37118, 38572, 42791, 11037, 11037, NA, 36423, 27919, 42221, 34700, 4…
#> $ percent_allocated  0.75, 0.25, 1.00, 1.00, 1.00, 0.50, 0.50, NA, 0.50, 0.50, NA, NA, 0.80
#> $ full_time          "Yes", "Yes", "Yes", "Yes", "Yes", "Yes", "Yes", NA, "No", "No", "No", "No", "No"
#> $ do_not_edit        NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA
#> $ certification      "Physical ed", "Physical ed", "Instr. music", "PENDING", "PENDING", "Science 6-12"…
#> $ certification_2    "Theater", "Theater", "Vocal music", "Computers", NA, "Physics", "Physics", NA, "E…
#> $ active             "YES", "YES", "YES", "YES", "YES", "YES", "YES", NA, "YES", "YES", "YES", "YES", "…

clean_names()是make_clean_names()的便捷版本，可用于管道data.frame工作流。clean_names()的等效步骤如下:

roster_raw <- roster_raw %>%
  row_to_names(row_number = 1) %>%
  clean_names()

现在dataframe有了干净的列名。进一步整理：

roster <- roster_raw %>%
  remove_empty(c("rows", "cols")) %>%
  remove_constant(na.rm = TRUE, quiet = FALSE) %>% # remove the column of all "Yes" values 
  mutate(hire_date = convert_to_date(hire_date, # handle the mixed-format dates
                                     character_fun = lubridate::mdy),
         cert = dplyr::coalesce(certification, certification_2)) %>%
  select(-certification, -certification_2) # drop unwanted columns
#> Removing 1 constant columns of 10 columns total (Removed: active).

roster
#> # A tibble: 12 × 8
#>    first_name   last_name employee_status subject    hire_date  percent_allocated full_time cert          
#>                                                                  
#>  1 Jason        Bourne    Teacher         PE         2008-08-30 0.75              Yes       Physical ed   
#>  2 Jason        Bourne    Teacher         Drafting   2019-01-14 0.25              Yes       Physical ed   
#>  3 Alicia       Keys      Teacher         Music      2001-08-15 1                 Yes       Instr. music  
#>  4 Ada          Lovelace  Teacher                2005-08-08 1                 Yes       PENDING       
#>  5 Desus        Nice      Administration  Dean       2017-02-25 1                 Yes       PENDING       
#>  6 Chien-Shiung Wu        Teacher         Physics    1930-03-20 0.5               Yes       Science 6-12  
#>  7 Chien-Shiung Wu        Teacher         Chemistry  1930-03-20 0.5               Yes       Science 6-12  
#>  8 James        Joyce     Teacher         English    1999-09-20 0.5               No        English 6-12  
#>  9 Hedy         Lamarr    Teacher         Science    1976-06-08 0.5               No        PENDING       
#> 10 Carlos       Boozer    Coach           Basketball 2015-08-05               No        Physical ed   
#> 11 Young        Boozer    Coach                  1995-01-01               No        Political sci.
#> 12 Micheal      Larsen    Teacher         English    2009-09-15 0.8               No        Vocal music

检查脏数据

寻找重复项

在数据清理期间，使用get_dupes()来识别和检查重复记录。让我们看看是否有教师被多次列出:

roster %>% get_dupes(contains("name"))
#> # A tibble: 4 × 9
#>   first_name   last_name dupe_count employee_status subject   hire_date  percent_allocated full_time cert     
#>                                                                 
#> 1 Chien-Shiung Wu                 2 Teacher         Physics   1930-03-20 0.5               Yes       Science …
#> 2 Chien-Shiung Wu                 2 Teacher         Chemistry 1930-03-20 0.5               Yes       Science …
#> 3 Jason        Bourne             2 Teacher         PE        2008-08-30 0.75              Yes       Physical…
#> 4 Jason        Bourne             2 Teacher         Drafting  2019-01-14 0.25              Yes       Physical…

是的，有些老师会出现两次。我们应该在计算员工人数之前解决这个问题。

制表工具

一个变量(或两个或三个变量的组合)可以用tabyl()制成表格。生成的data.frame可以用一套adorn_函数进行调整和格式化，以便在报告中快速分析和打印漂亮的结果。对于非表类型，adorn_函数也很有帮助。

tabyl()

与table()类似，但是支持管道，基于数据帧，并且功能齐全。

tabyl有两种用法:

1、在向量上，当对单个变量制表时:tabyl(roster$subject)
2、在data.frame上，指定1、2或3个要制表的变量名:roster %>% tabyl(subject，employee_status)。
这里，data.frame通过%>%管道传入；这允许在分析管道中使用tabyl

一个变量:

roster %>%
  tabyl(subject)
#>     subject n    percent valid_percent
#>  Basketball 1 0.08333333           0.1
#>   Chemistry 1 0.08333333           0.1
#>        Dean 1 0.08333333           0.1
#>    Drafting 1 0.08333333           0.1
#>     English 2 0.16666667           0.2
#>       Music 1 0.08333333           0.1
#>          PE 1 0.08333333           0.1
#>     Physics 1 0.08333333           0.1
#>     Science 1 0.08333333           0.1
#>         2 0.16666667            NA

两个变量：

roster %>%
  filter(hire_date > as.Date("1950-01-01")) %>%
  tabyl(employee_status, full_time)
#>  employee_status No Yes
#>   Administration  0   1
#>            Coach  2   0
#>          Teacher  3   4

三个变量：

roster %>%
  tabyl(full_time, subject, employee_status, show_missing_levels = FALSE)
#> $Administration
#>  full_time Dean
#>        Yes    1
#> 
#> $Coach
#>  full_time Basketball NA_
#>         No          1   1
#> 
#> $Teacher
#>  full_time Chemistry Drafting English Music PE Physics Science NA_
#>         No         0        0       2     0  0       0       1   0
#>        Yes         1        1       0     1  1       1       0   1

装饰tabyls

adorn_函数修饰这些制表调用的结果，以实现快速、基本的报告。以下是一些增强报告汇总表的功能:

roster %>%
  tabyl(employee_status, full_time) %>%
  adorn_totals("row") %>%
  adorn_percentages("row") %>%
  adorn_pct_formatting() %>%
  adorn_ns() %>%
  adorn_title("combined")
#>  employee_status/full_time         No        Yes
#>             Administration   0.0% (0) 100.0% (1)
#>                      Coach 100.0% (2)   0.0% (0)
#>                    Teacher  33.3% (3)  66.7% (6)
#>                      Total  41.7% (5)  58.3% (7)

在您的RMarkdown报告中直接将它输入到knitter::kable()中。

这些模块化装饰可以分层，以减少R在快速、信息丰富的计数方面相对于Excel和SPSS的不足。从tabyls简介中了解更多关于tabyl()和adorn _ 函数的信息。

你可能感兴趣的:(r语言,excel,开发语言)

Python生成成绩报告单：从理论到实践 Tech Synapse python 开发语言
在教育信息化日益普及的今天，自动化生成和处理学生成绩报告单已成为学校和教育机构的一项重要任务。Python作为一种功能强大且易于学习的编程语言，非常适合用于这种数据处理和报告生成任务。本文将详细介绍如何使用Python生成成绩报告单，包括理论概述和完整的代码示例。一、理论概述1.数据存储与处理生成成绩报告单的第一步是存储和处理学生成绩数据。常见的数据存储方式包括CSV文件、Excel文件和数据库。
【数据分享】1929-2024年全球站点的逐年平均降水量（Shp\Excel格式）小鲨鱼-立方数据学社立方数据学社数据分享气象数据气象站点降水数据
气象数据是在各项研究中都经常使用的数据，气象指标包括气温、风速、降水、湿度等指标！说到气象数据，最详细的气象数据是具体到气象监测站点的数据！有关气象指标的监测站点数据，之前我们分享过1929-2024年全球气象站点的逐年平均气温数据、最高气温数据和最低气温数据（均可查看之前的文章获悉详情）。本次我们为大家继续带来具体到气象监测站点的数据——1929-2024年全球气象站点的逐年平均降水量数据！原始
如何在WPS/Excel中批量查询手机号码归属地不吃鱼不吃鱼 wps excel
在这个信息化发展时代，无论是企业客服中心、销售团队，经常需要处理大量的电话号码。从客户信息管理到市场调研，再到日常生活中的通讯记录整理，号码归属地的查询成为了不可或缺的一环。然而，手动查询不仅耗时耗力，还容易出错。今天，就让我们一起探索Excel函数库的神奇之处，学习如何利用简单的公式实现号码归属地的自动查询，让数据处理变得更加高效便捷！那么如何使用这个号码归属地查询公式呢？第一步：安装Excel
EXCEL&WPS工作表批量重命名（按照sheet1中A列内容）歌颂平凡 excel wps
将工作表名称批量重命名（按照sheet1中A列内容）打开WPSOffice的Excel文件。按Alt+F11打开VBA编辑器。在VBA编辑器中，插入一个新模块：点击插入->模块。将以下代码粘贴到模块中：运行→运行宏SubRenameSheetsBasedOnSheet1()DimwsAsWorksheetDimsheet1AsWorksheetDimiAsLong,lastRowAsLongDim
java poi excel 富文本粗体无效 upcdxlq excel
javapoiexcel设置单元格富文本粗体无效解决办法_poi设置富文本-CSDN博客问题描述需求：java导出excel模板，单元格需要设置字段名+备注，字段名加粗，备注不加粗。方案：可以采用富文本RichTextString来实现设置部分字体加粗样式。效果：打开下载的xlsx模板表格，没有展示加粗效果，设置部分标红可以，加粗没有效果。原因分析网上查找资料，寻求帮助，看到上述博文，场景确实是w
Github上最热门的11个Java开源项目你会了吗 Java小叮当项目 Github 项目 java 程序员 IT
前言4月份GitHub上最热门的Java开源项目排行已经出炉啦，一起来看看吧！1JimuReport（地址见文末）这是一款免费的数据可视化工具，报表与大屏设计！类似于excel操作风格，在线拖拽完成报表设计！功能涵盖:报表设计、图形报表、打印设计、大屏设计等，永久免费！2dolphinscheduler（地址见文末）ApacheDolphinScheduler是一个可视化的分布式大数据工作流任务调
jira.issueviews yaoshengting jira jira
jira.issueviews是JIRA提供的一种功能，用于以多种格式（如Excel、XML、RSS、Word等）导出查询结果或单个Issue的详细信息。这一功能特别适用于JIRAServer和JIRADataCenter环境，方便用户将数据导出并进一步分析或分享。以下是对jira.issueviews的详细介绍：1.功能概述jira.issueviews提供了多种数据导出格式，用户可以通过特定的
MySQL与Oracle对比及区别 m0_74823434 面试学习路线阿里巴巴 java
一、比较1、MySQL的特点性能卓越，服务稳定，很少出现异常宕机；开放源代码无版本制约，自主性及使用成本低；历史悠久，社区和用户非常活跃，遇到问题及时寻求帮助；软件体积小，安装使用简单且易于维护，维护成本低；品牌口碑效应；支持多种OS，提供多种API接口，支持多种开发语言，对流行的PHP，Java很好的支持2、Oracle的特点兼容性：Oracle产品采用标准SQL，并经过美国u构架标准技术所（N
周报管理系统大霸王龙行业+领域+业务场景=定制 python microsoft ascii 文本处理
代码仓库产品名称：智汇周报管理系统主要功能：自动化报告生成：智汇周报管理系统能够自动收集项目进展、任务完成情况、团队成员工作日志等关键数据，基于预设模板或用户自定义模板，一键生成周报。支持多格式导出（如Word、PDF、Excel），满足不同场景下的报告需求。智能数据分析与可视化：系统内置强大的数据分析引擎，能够自动对收集到的数据进行统计分析，如任务完成率、进度延误情况、成员工作负荷等，并通过图表
python字符串写入excel-python 将数据写入excel weixin_37988176
摘要链接：python第三方库——xlrd和xlwt操作Excel文件学习：http://blog.csdn.net/wangkai_123456/article/details/50457284python操作Excel读写(使用xlrd和xlrt)：http://blog.csdn.net/mr__fang/article/details/7089581Python中一般使用xlrd（exce
【自动化】使用PlayWright+代理IP实现多环境隔离青塬科技 Python
Playwright是由微软公司2020年初发布的新一代自动化测试工具，相较于目前最常用的Selenium，它仅用一个API即可自动执行Chromium、Firefox、WebKit等主流浏览器自动化操作。对各种开发语言也有非常好的支持。常用的NodeJs、Java、python都有支持，且有丰富的文档参考。Python环境下的安装使用1、安装依赖库pipinstallplaywright2、安装
oracle 替代方案,oracle – PL/SQL或替代方案的数值优化寂寂若离 oracle 替代方案
我们需要做一些计算繁重的工作来连接Oracle数据库.到目前为止,我们已经在PL/sql中进行了数值计算,并且很大程度上缺乏性能.我用三种语言实现了部分算法：Fortran(90-2008符合gfortran),Excel中的VBA和PL/sql,并围绕它进行了一百万次调用测试循环.即使使用binary_double数据类型和使用PLsql_CODE_TYPE=NATIVE的本机编译(两者都会导致
基于JAVA软件技术课程学习系统设计与实现计算机毕业设计源码+数据库+lw文档+系统+部署小朱科技学习
基于JAVA软件技术课程学习系统设计与实现计算机毕业设计源码+数据库+lw文档+系统+部署基于JAVA软件技术课程学习系统设计与实现计算机毕业设计源码+数据库+lw文档+系统+部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQ
java计算机毕业设计-学生宿舍故障报修管理信息系统-源码+数据库+系统+lw文档+mybatis+运行部署雪夜科技 mybatis java 数据库
java计算机毕业设计-学生宿舍故障报修管理信息系统-源码+数据库+系统+lw文档+mybatis+运行部署java计算机毕业设计-学生宿舍故障报修管理信息系统-源码+数据库+系统+lw文档+mybatis+运行部署本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Wi
python处理excel的具体操作若木胡 tools python
安装相关库openpyxl库：用于读取和写入Excel文件（.xlsx/.xlsm）。可以使用pipinstallopenpyxl命令进行安装。pandas库：提供了高效的数据结构和数据分析工具，它对openpyxl进行了封装，使操作Excel文件更加方便。安装命令是pipinstallpandas。使用openpyxl读取Excel文件打开工作簿：首先要导入openpyxl库，然后使用load_
wps2019数据分析加载项_怎样用Excel做数据分析（电商案例） weixin_39907939 wps2019数据分析加载项
一、数据分析步骤明确问题：知道你要研究什么问题，从而有目地的查找数据理解数据：寻找与问题相关的数据；从数据中你能得出的信息；理解字段信息数据清洗（数据预处理）：选择子集；列名重命名；删除重复值；缺失值处理；一致化处理；数据排序；异常值处理数据分析或构建模型：数据透视表；在Excel安装数据分析功能（安装步骤：文件～选项～加载项～Excel加载项转到～分析工具库，注意！这是MicrosoftExce
python openpyxl 读取excel数据最强张宝 python封装方法 python excel windows
该实现方法主要适用于存在表头的excel，自读判断excel的列数与行数，将excel中的数据以不同格式展示，使用的是openpyxl入参：filePath：excel文件的路径，只能导入xlsx的文件Type：导出数据的格式，支持输入"list"、"list_dict"、"list_list"、"dict_dict"、"dict_list"keyName：当Type为”dict_dict“、”d
Kotlin语言之let、with、run、apply、also内联函数 mysimplelove 学无止境 Android kotlin 内联函数 let with run apply also lambda
前言：随着公司项目对主开发语言切换的需要，本人也是在持续的对Kotlin语言进行深入全面的学习和使用。相比Java,Kotlin提供了不少高级语法特性，在Kotlin中的源码标准库(Standard.kt)中提供了一些Kotlin扩展的内置函数可以优化kotlin的编码。Standard.kt是Kotlin库的一部分，它定义了一些基本函数。这个源代码文件虽然一共不到50行代码，但是这些函数功能都非
C# 关于进程回收管理的一款工具设计与分享初九之潜龙勿用 c#开发语言
目录设计初衷开发运行环境CraneofficeProcessGC运行主界面管理任务与策略其它设置移动存储设备管理核心代码-计时器监控小结设计初衷在使用COM模式操作OFFICE组件的开发过程中，当操作完相关文档后，在某些情况下仍然无法释放掉Word或EXCEL等应用进程，因此根据进程活动情况或时间点范围开发了一个强制杀掉指定进程名称的WinForm程序，做为一种辅助工具运行在云服务器上，命名为Cr
2024年最全办公室文员必备python神器，将PDF文件表格转换成excel表格！(1)，把面试官逗笑了 TOP级别安卓开发程序员 python pdf excel
如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。一、Python所有方向的学习路线Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。二、学习软件工欲善其必先利其器。学习Py
【EXCEL_VBA_实战】多工作薄合并深入理解南子98 软件应用 excel
工作背景：多个工作薄存在冲突的名称，需快速合并困难点：工作表移动复制时，若有冲突的名称，会不断弹出对话框待人工确认思路：利用代码确认弹出的对话框关键代码：Application.DisplayAlerts=FalseSubMerge_WB()'文件合并DimWBs_SourceAsVariant'工作薄序列DimsAsInteger'工作薄序列下标'选择工作薄（）WBs_Source=Applic
Error in py_run_file_impl(file, local, convert) : ModuleNotFoundError: No module named ‘igraph‘ hyena_7 Python R 服务器配置 python r语言开发语言
在HPC平台上跑我的R语言代码，结果一直报错说：Errorinpy_run_file_impl(file,local,convert):ModuleNotFoundError:Nomodulenamed'igraph'我就知道是我R语言里面导入python包那里出现了问题，对应的python环境没有这个包，我进入了R环境，使用命令如下：library(reticulate)py_module_av
在 ASP.NET Core 6.0 Web API 中将 Excel 文件数据上传并保存到数据库中 csdn_aspnet Net6.0 excel 数据库 .Net6.0 webapi
本文示例代码：https://download.csdn.net/download/hefeng_aspnet/90174856本文将探讨使用ASP.NETCoreWebAPI上传Excel文件并将其数据保存到数据库的分步过程。我们将利用NPOI库和EntityFrameworkCore来实现此功能。安装所需的库首先，我们必须从NuGet包管理器安装NPOI库：接下来，我们还将安装EntityFr
python使用TestLink-API-Python-client库对testLink操作——excel导入 fairytaildhk python python testLink excel
依赖库：TestLink-API-Python-client，xlrd通过pip安装:python3-mpipinstallTestLink-API-Python-client(笔者本地有多个版本python，只有一个版本直接python就可以)url:替换自己的testLink地址http://xx.xx.xx.xx:xxxx/testlink/lib/api/xmlrpc/v1/xmlrpc.
QAbstractItemModel简介深蓝海拓 pyside6系统学习 pyside6学习笔记 qt pyqt python
QAbstractItemModel是Qt框架中用于构建复杂数据模型的基类。它提供了模型/视图架构中的核心功能。QAbstractItemModel的子类主要分为几大类，分别用于处理不同类型的数据结构和界面需求。以下是一些常见的子类及其用途：1.表格模型QAbstractTableModel:用于处理二维表格数据。适用于类似Excel表格的视图（如QTableView）。需要重写rowCount(
基于springbootBBS论坛系统的设计与实现四金学长计算机毕业设计参考案例 spring boot maven java BBS论坛系统
1.引言在当今的软件开发领域，企业级应用的开发和部署速度直接影响着业务的竞争力。SpringBoot以其轻量级、快速启动和强大的集成能力，成为构建现代企业级应用的首选框架。本文将带您深入了解SpringBoot框架的核心特性，并展示如何利用它构建一个高效、可扩展的系统。2.开发环境开发语言：Java框架：springbootJD版本：JDK1.8服务器：tomcat7数据库：mysql5.7（一定
java 解析PDF文件里面的表格并转换成EXCEL，不是表格的不会解析妳、终究不属于涐 java pdf excel
importcom.collection.integration.constant.ReminderConstant;importcom.spire.pdf.PdfDocument;importcom.spire.pdf.utilities.PdfTable;importcom.spire.pdf.utilities.PdfTableExtractor;importcom.spire.xls.Ex
EXCEL的一些用法记录 qq_1203981337 excel
按某个分隔符进行拆分多列【数据】-【分列】多列调整成多行复制-粘贴-选择【转置】部分内容替换SUBSTITUTE()函数，固定内容加“”
2024年最新办公室文员必备python神器，将PDF文件表格转换成excel表格！ 2401_84691713 程序员 python pdf excel
初始化DataFrame数据对象、用于DataFrame数据保存data_frame=pd.DataFrame()读取PDF表格pdf文件路径pdf_file=‘/usr/load/data.pdf’读取pdf数据pdf_data=pdfplumber.open(pdf_file)遍历PDF数据forpageinpdf_data.pages:每一页的Tbale表格数据table=page.extr
R 语言科研绘图第 18 期 --- 箱线图-散点 TigerZ 生信宝库 r语言贴图开发语言程序人生
在发表科研论文的过程中，科研绘图是必不可少的，一张好看的图形会是文章很大的加分项。为了便于使用，本系列文章介绍的所有绘图都已收录到了sciRplot项目中，获取方式：R语言科研绘图模板---sciRplothttps://mp.weixin.qq.com/s/QA_8LVqjkdg4A16zLonw4w?payreadticket=HLhuy98A4H7uWmJW_snkz-a2Wljhix8ma
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他