Cachel wood

pandas教程：2012 Federal Election Commission Database 2012联邦选举委员会数据库

文章目录

14.5 2012 Federal Election Commission Database（2012联邦选举委员会数据库）
1 Donation Statistics by Occupation and Employer（按职业与雇主划分的捐赠数据）
2 Bucketing Donation Amounts（桶捐赠额）
3 Donation Statistics by State（按州划分的捐赠数据）

14.5 2012 Federal Election Commission Database（2012联邦选举委员会数据库）

这个选举数据库对于政治宣传很有用。里面包含了支持者的名字，职业和雇主，地址，赞助金额。一个有意思的数据集是关于2012年美国总统选举的。这个数据集有150MB，名称为P00000001-ALL.csv。（译者：因为github对于单个文件的上传限额是100MB，所以这个数据集无法推送到github上，这里我是把数据集压缩成了ZIP格式，解压后能正常导入）。我们用pandas来加载这个数据集：

import numpy as np
import pandas as pd

pd.options.display.max_rows = 10

fec = pd.read_csv('../datasets/fec/P00000001-ALL.csv', low_memory=False)
# 不设定low_memory=False的话会报错

fec.info()


RangeIndex: 1001731 entries, 0 to 1001730
Data columns (total 16 columns):
cmte_id              1001731 non-null object
cand_id              1001731 non-null object
cand_nm              1001731 non-null object
contbr_nm            1001731 non-null object
contbr_city          1001712 non-null object
contbr_st            1001727 non-null object
contbr_zip           1001620 non-null object
contbr_employer      988002 non-null object
contbr_occupation    993301 non-null object
contb_receipt_amt    1001731 non-null float64
contb_receipt_dt     1001731 non-null object
receipt_desc         14166 non-null object
memo_cd              92482 non-null object
memo_text            97770 non-null object
form_tp              1001731 non-null object
file_num             1001731 non-null int64
dtypes: float64(1), int64(1), object(14)
memory usage: 122.3+ MB

拿出一份记录来看是什么样子：

fec.iloc[123456]

cmte_id             C00431445
cand_id             P80003338
cand_nm         Obama, Barack
contbr_nm         ELLMAN, IRA
contbr_city             TEMPE
                    ...      
receipt_desc              NaN
memo_cd                   NaN
memo_text                 NaN
form_tp                 SA17A
file_num               772372
Name: 123456, Length: 16, dtype: object

我们可以已经能想到如何切割、整理数据，来提取赞助者的统计数据，或提取宣传活动的模式，这里我们展示一些不同的分析方法。

我们可以看到这里面没有政治党派（political party affiliations），所以我们最好添加这样的信息。我们可以使用unique得到所有候选人名单：

unique_cands = fec.cand_nm.unique()
unique_cands

array(['Bachmann, Michelle', 'Romney, Mitt', 'Obama, Barack',
       "Roemer, Charles E. 'Buddy' III", 'Pawlenty, Timothy',
       'Johnson, Gary Earl', 'Paul, Ron', 'Santorum, Rick', 'Cain, Herman',
       'Gingrich, Newt', 'McCotter, Thaddeus G', 'Huntsman, Jon',
       'Perry, Rick'], dtype=object)

unique_cands[2]

'Obama, Barack'

一种标记政党的方法是使用dict：

parties = {'Bachmann, Michelle': 'Republican',
           'Cain, Herman': 'Republican', 
           'Gingrich, Newt': 'Republican', 
           'Huntsman, Jon': 'Republican', 
           'Johnson, Gary Earl': 'Republican', 
           'McCotter, Thaddeus G': 'Republican', 
           'Obama, Barack': 'Democrat', 
           'Paul, Ron': 'Republican', 
           'Pawlenty, Timothy': 'Republican', 
           'Perry, Rick': 'Republican', 
           "Roemer, Charles E. 'Buddy' III": 'Republican', 
           'Romney, Mitt': 'Republican', 
           'Santorum, Rick': 'Republican'}

用map方法，把这个映射应用到Series对象上，我们可以用候选者名字得到一个政党的数组：

fec.cand_nm[123456:123461]

123456    Obama, Barack
123457    Obama, Barack
123458    Obama, Barack
123459    Obama, Barack
123460    Obama, Barack
Name: cand_nm, dtype: object

fec.cand_nm[123456:123461].map(parties)

123456    Democrat
123457    Democrat
123458    Democrat
123459    Democrat
123460    Democrat
Name: cand_nm, dtype: object

# Add it as a column
fec['party'] = fec.cand_nm.map(parties)

fec['party'].value_counts()

Democrat      593746
Republican    407985
Name: party, dtype: int64

一些需要注意的地方。首先，这个数据集中包含捐款和退款（退款表示把捐赠的钱退还给捐助者，用负数表示）：

(fec.contb_receipt_amt > 0).value_counts()

True     991475
False     10256
Name: contb_receipt_amt, dtype: int64

为了简化之后的分析过程，这里我们只取捐款的数据，不考虑退款的数据：

fec = fec[fec.contb_receipt_amt > 0]

因为Barack Obama和Mitt Romney是两个最主要的候选者，所以这里我们单独准备一个子集来包含二人的数据：

fec_mrbo = fec[fec.cand_nm.isin(['Obama, Barack', 'Romney, Mitt'])]

1 Donation Statistics by Occupation and Employer（按职业与雇主划分的捐赠数据）

职业与捐赠也是有关系的。例如，律师倾向于给民主党（Democrats）捐更多的钱，而企业主管（business executives）倾向给共和党（Republicans）捐更多的钱。

首先，按职业计算捐赠总额：

fec.contbr_occupation.value_counts()[:10]

RETIRED                                   233990
INFORMATION REQUESTED                      35107
ATTORNEY                                   34286
HOMEMAKER                                  29931
PHYSICIAN                                  23432
INFORMATION REQUESTED PER BEST EFFORTS     21138
ENGINEER                                   14334
TEACHER                                    13990
CONSULTANT                                 13273
PROFESSOR                                  12555
Name: contbr_occupation, dtype: int64

可以看到有些职业是同一种工作类型，指代的是同一个东西。下面用一小段代码来清理一下，把一些职业映射为另一种；注意dict.get方法，它会无视没有映射关系的职业：

occ_mapping = { 
    'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED', 
    'INFORMATION REQUESTED' : 'NOT PROVIDED', 
    'INFORMATION REQUESTED (BEST EFFORTS)' : 'NOT PROVIDED', 
    'C.E.O.': 'CEO' 
}

# If no mapping provided, return x 
f = lambda x: occ_mapping.get(x, x) 
fec.contbr_occupation = fec.contbr_occupation.map(f)

/Users/xu/anaconda/envs/py35/lib/python3.5/site-packages/pandas/core/generic.py:3110: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self[name] = value

译者：上面这个warning我觉得也有必要好好了解一下，这个网站做了很好的讲解，Understanding SettingwithCopyWarning in pandas。

简单的说，pandas会在遇到Chained assignment的情况时，跳出这个SettingWithCopyWarning。Chained assignment指的是data[data.bidder == 'parakeet2004']['bidderrate'] = 100这样的情况，即把两个索引操作连在一起。

data[data.bidder == ‘parakeet2004’]
[‘bidderrate’] = 100

这两个连续操作是分别独立执行的，一个结束后，另一个才开始。第一个操作是一个访问（access）方法，这个方法会返回一个新的DataFrame。而第二个方法是一个赋值（assignment）方法，这个方法是作用在新产生的DataFrame上，所以这里的100是赋给了新的DataFrame，原始的DataFrame并没有被更改。所以为了防止这样的情况出现，pandas会发出SettingWithCopyWarning，让我们检查一下有没有出错。

那就检查一下呗，下面输出fec.contbr_occupation，发现映射关系被正常执行了，所以这里的warning我们可以忽略：

fec.contbr_occupation

0                               RETIRED
1                               RETIRED
2                          NOT PROVIDED
3                               RETIRED
4                               RETIRED
                       ...             
1001726                    NOT PROVIDED
1001727                  BUSINESS OWNER
1001728                    NOT PROVIDED
1001729    LONGWALL MAINTENANCE FOREMAN
1001730                    NOT PROVIDED
Name: contbr_occupation, Length: 991475, dtype: object

对雇主也做同样的映射处理：

emp_mapping = { 
    'INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED', 
    'INFORMATION REQUESTED' : 'NOT PROVIDED', 
    'SELF' : 'SELF-EMPLOYED', 
    'SELF EMPLOYED' : 'SELF-EMPLOYED', 
}

# If no mapping provided, return x 
f = lambda x: emp_mapping.get(x, x) 
fec.contbr_employer = fec.contbr_employer.map(f)

/Users/xu/anaconda/envs/py35/lib/python3.5/site-packages/pandas/core/generic.py:3110: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self[name] = value

fec.contbr_employer

0                               RETIRED
1                               RETIRED
2                          NOT PROVIDED
3                                  NONE
4                                  NONE
                       ...             
1001726                    NOT PROVIDED
1001727    DUFFY EQUIPMENT COMPANY INC.
1001728                    NOT PROVIDED
1001729                        T.A.C.C.
1001730                    NOT PROVIDED
Name: contbr_employer, Length: 991475, dtype: object

现在，我们可以用pivot_table，按政党和职业对数据进行聚合，然后过滤下得到捐赠额大于两百万美元以上的职业：

by_occupation = fec.pivot_table('contb_receipt_amt', 
                                index='contbr_occupation',
                                columns='party',
                                aggfunc='sum')

over_2mm = by_occupation[by_occupation.sum(1) > 2000000]
over_2mm

party	Democrat	Republican
contbr_occupation
ATTORNEY	11141982.97	7.477194e+06
CEO	2074974.79	4.211041e+06
CONSULTANT	2459912.71	2.544725e+06
ENGINEER	951525.55	1.818374e+06
EXECUTIVE	1355161.05	4.138850e+06
...	...	...
PRESIDENT	1878509.95	4.720924e+06
PROFESSOR	2165071.08	2.967027e+05
REAL ESTATE	528902.09	1.625902e+06
RETIRED	25305116.38	2.356124e+07
SELF-EMPLOYED	672393.40	1.640253e+06

17 rows × 2 columns

画出柱状图，barh表示水平柱状图：

import seaborn as sns
%matplotlib inline

over_2mm.plot(kind='barh', figsize=(10, 8))

我们可以能对那些捐款给Obama和Romney的顶级捐助者职业，或顶级捐助公司感兴趣。想要得到这些信息的话，可以按候选者名字进行分组，然后使用top方法的一个变形：

def get_top_amounts(group, key, n=5):
    totals = group.groupby(key)['contb_receipt_amt'].sum()
    return totals.nlargest(n)

然后按职业和雇主聚合：

grouped = fec_mrbo.groupby('cand_nm')
grouped

grouped.apply(get_top_amounts, 'contbr_occupation', n=7)

cand_nm        contbr_occupation    
Obama, Barack  RETIRED                  25305116.38
               ATTORNEY                 11141982.97
               INFORMATION REQUESTED     4866973.96
               HOMEMAKER                 4248875.80
               PHYSICIAN                 3735124.94
                                           ...     
Romney, Mitt   HOMEMAKER                 8147446.22
               ATTORNEY                  5364718.82
               PRESIDENT                 2491244.89
               EXECUTIVE                 2300947.03
               C.E.O.                    1968386.11
Name: contb_receipt_amt, Length: 14, dtype: float64

grouped.apply(get_top_amounts, 'contbr_employer', n=10)

cand_nm        contbr_employer      
Obama, Barack  RETIRED                  22694358.85
               SELF-EMPLOYED            17080985.96
               NOT EMPLOYED              8586308.70
               INFORMATION REQUESTED     5053480.37
               HOMEMAKER                 2605408.54
                                           ...     
Romney, Mitt   CREDIT SUISSE              281150.00
               MORGAN STANLEY             267266.00
               GOLDMAN SACH & CO.         238250.00
               BARCLAYS CAPITAL           162750.00
               H.I.G. CAPITAL             139500.00
Name: contb_receipt_amt, Length: 20, dtype: float64

2 Bucketing Donation Amounts（桶捐赠额）

一个分析这种数据的有用方法是使用cut函数，把捐赠额去中心化，按捐赠额大小分为多个桶：

bins = np.array([0, 1, 10, 100, 1000, 10000,
                 100000, 1000000, 10000000])

labels = pd.cut(fec_mrbo.contb_receipt_amt, bins)
labels

411         (10, 100]
412       (100, 1000]
413       (100, 1000]
414         (10, 100]
415         (10, 100]
             ...     
701381      (10, 100]
701382    (100, 1000]
701383        (1, 10]
701384      (10, 100]
701385    (100, 1000]
Name: contb_receipt_amt, Length: 694282, dtype: category
Categories (8, interval[int64]): [(0, 1] < (1, 10] < (10, 100] < (100, 1000] < (1000, 10000] < (10000, 100000] < (100000, 1000000] < (1000000, 10000000]]

我们可以按二人的名字和箱标签（bin label）分组，得到按不同捐赠额的直方图：

grouped = fec_mrbo.groupby(['cand_nm', labels])
grouped.size().unstack(0)

cand_nm	Obama, Barack	Romney, Mitt
contb_receipt_amt
(0, 1]	493.0	77.0
(1, 10]	40070.0	3681.0
(10, 100]	372280.0	31853.0
(100, 1000]	153991.0	43357.0
(1000, 10000]	22284.0	26186.0
(10000, 100000]	2.0	1.0
(100000, 1000000]	3.0	NaN
(1000000, 10000000]	4.0	NaN

这份数据说明Obama收到的小额捐助是远超Romney的。我们也可以对每一个箱进行归一化，然后得到百分比数据：

bucket_sums = grouped.contb_receipt_amt.sum().unstack(0)
bucket_sums

cand_nm	Obama, Barack	Romney, Mitt
contb_receipt_amt
(0, 1]	318.24	77.00
(1, 10]	337267.62	29819.66
(10, 100]	20288981.41	1987783.76
(100, 1000]	54798531.46	22363381.69
(1000, 10000]	51753705.67	63942145.42
(10000, 100000]	59100.00	12700.00
(100000, 1000000]	1490683.08	NaN
(1000000, 10000000]	7148839.76	NaN

normed_sums = bucket_sums.div(bucket_sums.sum(axis=1), axis=0)
normed_sums

cand_nm	Obama, Barack	Romney, Mitt
contb_receipt_amt
(0, 1]	0.805182	0.194818
(1, 10]	0.918767	0.081233
(10, 100]	0.910769	0.089231
(100, 1000]	0.710176	0.289824
(1000, 10000]	0.447326	0.552674
(10000, 100000]	0.823120	0.176880
(100000, 1000000]	1.000000	NaN
(1000000, 10000000]	1.000000	NaN

normed_sums[:-2].plot(kind='barh', figsize=(10, 8))

这里没有包含捐款数额最大的两个bins，因为没有Romney这边没有捐款。

3 Donation Statistics by State（按州划分的捐赠数据）

按州划分也是一个比较常见的方法：

grouped = fec_mrbo.groupby(['cand_nm', 'contbr_st'])

totals = grouped.contb_receipt_amt.sum().unstack(0).fillna(0)
totals

cand_nm	Obama, Barack	Romney, Mitt
contbr_st
AA	56405.00	135.00
AB	2048.00	0.00
AE	42973.75	5680.00
AK	281840.15	86204.24
AL	543123.48	527303.51
...	...	...
WI	1130155.46	270316.32
WV	169154.47	126725.12
WY	194046.74	252595.84
XX	0.00	400250.00
ZZ	5963.00	0.00

67 rows × 2 columns

totals = totals[totals.sum(1) > 100000]
totals

cand_nm	Obama, Barack	Romney, Mitt
contbr_st
AK	281840.15	86204.24
AL	543123.48	527303.51
AR	359247.28	105556.00
AZ	1506476.98	1888436.23
CA	23824984.24	11237636.60
...	...	...
WA	4250933.16	1341521.56
WI	1130155.46	270316.32
WV	169154.47	126725.12
WY	194046.74	252595.84
XX	0.00	400250.00

52 rows × 2 columns

还可以得到每个州，两个候选人获得金额的百分比：

percent = totals.div(totals.sum(1), axis=0)
percent[:10]

cand_nm	Obama, Barack	Romney, Mitt
contbr_st
AK	0.765778	0.234222
AL	0.507390	0.492610
AR	0.772902	0.227098
AZ	0.443745	0.556255
CA	0.679498	0.320502
CO	0.585970	0.414030
CT	0.371476	0.628524
DC	0.810113	0.189887
DE	0.802776	0.197224
FL	0.467417	0.532583

你可能感兴趣的:(pandas使用教程,pandas,数据库,scikit-learn,python,人工智能,selenium,django)

Django SimpleUI运维管理系统搭建教程 ivwdcwso 开发运维 sqlite 数据库 Django SimpleUI Django python 开发
DjangoSimpleUI运维管理系统搭建教程本教程将详细介绍如何从零搭建一个基于DjangoSimpleUI的运维管理系统。一、环境准备1.安装Python和相关依赖#安装Python3.8+sudoaptinstallpython3.8python3.8-dev#安装虚拟环境pip3installvirtualenv#创建并激活虚拟环境virtualenvvenvsourcevenv/bin
Django 静态文件配置实战指南 ivwdcwso django sqlite python 开发
静态文件（如CSS、JavaScript、图片等）是Django项目中构建用户界面的重要组成部分。然而，静态文件的配置问题常常导致开发和生产环境中的404NotFound错误。本文将详细介绍如何正确配置Django静态文件，结合最佳实践，帮助你解决常见的静态文件问题，并确保项目在不同环境中正常运行。©ivwdcwso(ID:u012172506)1.静态文件的基本概念1.1什么是静态文件？静态文件
分享：selenium ide中，对于一些已经自动化填写过数值的输入框，在最后点击保存时，输入框内容被清空。小崔很笨 selenium 自动化前端
1.项目中有一个表单，表单有一些控件，用seleniumide对表单进行自动化填写时，最后一步点击提交，提交失败，一看是输入框被清空了。2.解决办法，只需要在输入数据的代码下新增一条dispatchEvent“手动触发事件”。3.代码如下：executescriptdocument.querySelector("#app>div>div>section>section>main>div>div.t
WAS 日志分析（websphere application server) Change is good websphere application server 服务器 jvm deployment
关键字:websphere日志WebSphereApplicationServer是一个基于Java的Web应用程序服务器，它构建在开放标准的基础之上，能帮助您部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。它遵循J2EE并为Java组件、XML和Web服务提供了一个可移植的Web部署平台，这个平台能够与数据库交互并提供动态Web内容。随着WebSphereApplicatio
Robot Framework 测试总结 Change is good 测试框架和工具 robotframework
在2014年结识robotframework，缘于一个偶然的机会。一个测试前辈推荐了robotframework。Robotframework是python语言的测试框架。简单的看了一下介绍，觉得不错，很适合新手入门。而且测试部门的领导也很支持引入开源的自动化测试工具。RobotFramework是一个开源的测试自动化框架，用于验收测试和验收测试驱动开发。它遵循不同的测试用例样式——关键字驱动、行
XPath 选取具有特定文本值的节点 Change is good
使用selenium进行自动化测试时，Xpath对界面元素的识别有很重要的作用。如何利用xpath查找到带有特定文本值的节点是一个很重要的技能。要解决的问题：从xml文件中选取具有某个特定文本值的节点，比如说我要处理的是plist文件，内容如下：AppIDNamechineseidublinApplicationIdentifierPrefixCS8M2QZ3L3TimeToLive364Vers
python-unittest-selenium执行用例实例/执行多个用例 Change is good python python selenium 开发语言
我们在做selenium测试的时候呢，经常会碰到一些需要执行多个用例的情况，也就是多线程执行py程序，我们前面讲过单个的py用例怎么执行和生产html报告，下面给大家介绍下多个用例怎么执行并自动生成html报告。一、写好每个测试用例，如我_register/_boot/_check/_buy/_longin/，我这里写了六条用例，当然每个用例下还是有分支的测试点。上面是一个例子，其他的不截图出来了
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
如何处理selenium Webdriver中的文本框？知识的宝藏 Selenium基础篇 selenium 前端 python
文本框或字段在整个网页中广泛使用，本文将介绍如何在Java中使用SeleniumWebdriver处理文本框。可以有各种文本字段，我们将尝试包括其中的大多数，并执行各种操作，如清除和输入文本。我们将使用我们的Selenium游乐场网站-testkru，与各种文本框进行交互。您也可以使用同一个网站来执行任何所需的操作。下面是文本框的屏幕截图;我们将使用其中的一些来执行文本框上的各种操作。我们来看看下
Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
selenium clear（）方法清除文本框内容 Change is good selenium python 测试工具
在使用Selenium进行Web自动化测试时，清除文本框内容是一个常见的需求。这可以通过多种方式实现，取决于你使用的是哪种编程语言（如Python、Java等）以及你的具体需求。以下是一些常见的方法：1.使用clear()方法clear()方法是Selenium提供的一个非常直接的方法来清除文本框的内容。这个方法会删除文本框中的所有内容，并将其设置为空字符串。python：fromselenium
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
conda创建新虚拟环境——从无到有 S.T.A.R. 深度学习 tensorflow anaconda
自己租的GPU最近有点鱼的记忆，base配什么环境自己都忘了，所以自己开始学习如何创建并且配置一个新环境，当然这一切建立在andonate3安装完的前提下自己的配置：Linux系统，Xshell编译器创建环境condacreate-nyourEnvnamepython=3.6激活环境condaactivateyourEnvname就可以看到命令行的base换成了你的环境名可以开始installco
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
mysql var目录很快_删除/var/lib/mysql目录的解决办法逆铭 mysql var目录很快
在学习阶段偶尔会删除/var/lib/mysql/*目录来达到清除数据库管理员账户和密码的目的。but，对于新手来说经常会不小心删除/var/lib/mysql目录，导致重启mysql时找不到/var/lib/mysql。解决方法如下：mkdir/var/lib/mysqchownmysql:mysql/var/lib/mysqlsystemctlstartmysql此时如果还是失败，并产生如下提
【Sql Server】随机查询一条表记录，并重重温回顾下存储过程的封装和使用 web13688565871 面试学习路线阿里巴巴数据库 oracle
大家好，我是，欢迎来到《小5讲堂》。这是《SqlServer》系列文章，每篇文章将以博主理解的角度展开讲解。温馨提示：博主能力有限，理解水平有限，若有不对之处望指正！目录前言随机查询语句存储过程基本概念基本结构基础例子存储过程封装文章推荐前言温故而知新，最近在写sql查询语句，需求是随机查询表的其中一条记录。基于这个查询，顺便把数据库自定义函数、存储过程这个两个知识点重温固定下。因此，本篇文章将在
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
miniforge选择躺平小菜菜 python
一、介绍说明Miniforge是一款Python环境和包管理工具，相比Anaconda，推荐使用Miniforge的原因主要有以下三个方面。首先，miniforge集成了Anaconda的核心工具：conda。conda是一个包和环境管理工具，因此，miniforge里面的conda和Anaconda里面的conda完全一样；你能用Anaconda做的安装、升级、删除包等功能，miniforge都
(6) 深入探索Python-Pandas库的核心数据结构：DataFrame全面解析码界领航 pandas 数据结构 python numpy
目录前言1.DataFrame简介2.DataFrame的特点3.DataFrame的创建3.1使用字典创建DataFrame3.2使用列表的列表（或元组）创建DataFrame3.3使用NumPy数组创建DataFrame3.4使用Series构成的字典创建DataFrame3.5使用字典构成的字典创建DataFrame4.从CSV文件读取5.DataFrame的属性和方法5.1查看DataFr
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
Selenium 结合 Requests 爬取网易云音乐“我喜欢的”及评论数API分析 dreadp selenium python 前端 web安全网络协议爬虫
前言基于selenium和requests，在网易云音乐网页上爬取前1000首“我喜欢的音乐”以供后续数据分析。重点讲解了__init__.py文件的重要性、Cookie的添加和检查方式、Selenium选择器的使用技巧，特别是的处理方法。同时，也分享了我对网易云评论数API接口的探索。提供完整的脚本。项目地址:Github链接文件相对路径:NeteaseCloudMusicGaze/src/AP
Anaconda 中更新当前环境的 Python 版本菌菌的快乐生活 python
要在Anaconda中更新当前环境的Python版本，可以按照以下步骤操作：打开AnacondaPrompt（Windows）或终端（macOS/Linux）。首先，你可以激活你想要更新的环境：condaactivateyour_environment_name将your_environment_name替换成你的环境名称。检查可用的Python更新版本：condasearchpython这将列出
rocketmq python 某个队列不消费_RocketMQ消息发送常见错误与解决方案 weixin_39849479 rocketmq python 某个队列不消费
点击上方“中间件兴趣圈”，选择“设为星标”做积极的人，越努力越幸运！本文将结合自己使用RocketMQ的经验，对消息发送常见的问题进行分享，基本会遵循出现问题，分析问题、解决问题。1、Norouteinfoofthistopic无法找到路由信息，其完整的错误堆栈信息如下：而且很多读者朋友会说Broker端开启了自动创建主题也会出现上述问题。RocketMQ的路由寻找流程如下图所示：上面的核心关键点
centos8安装python2.7_CentOS6.8 升级python2.7 杀心成焚
前提：centos6.8虚拟机，新机器，很多包都没有centos6.8自带python是2.6，项目需要python2.7注意：因为是新机器，所以os上很多依赖包都没有。我第一次参考链接的方式安装2.7，结果在执行pythonget-pip.py中报错：zipimport.ZipImportError:can'tdecompressdata;zlibnotavailable。查看了一些文档，都然并
华为OD机试D卷 --矩阵匹配--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 矩阵 python javascript java c++c语言
文章目录题目描述输入描述输出描述用例题目解析java源码js源码python源码c源码c++源码题目描述从一个N*M（N≤M）的矩阵中选出N个数，任意两个数字不能在同一行或同一列，求选出来的N个数中第K大的数字的最小值是多少。输入描述输入矩阵要求：1≤K≤N≤M≤150输入格式：NMKN*M矩阵输出描述N*M的矩阵中可以选出M!/N!种组合数组，每个组合数组种第K大的数中的最小值。无需考虑重复数字
linux离线安装gensim,安装gensim 宇宙探索未解之迷 linux离线安装gensim
pip3installjieba-0.39.zippip3installdocutils-0.15.2-py3-none-any.whlpip3installpython_dateutil-2.8.0-py2.py3-none-any.whlRequirementalreadysatisfied:six>=1.5pip3installbotocore-1.12.238-py2.py3-none-a
【Python】RocketMQ 基础使用 Encarta1993 Python rocketmq
目录1.介绍2.实践2.1.启动消费者2.2.启动生产者1.介绍RocketMQ是一个开源的分布式消息传递系统，最初由阿里巴巴集团开发并于2012年开源。它旨在解决高可靠性、高吞吐量、低延迟和可伸缩性等大规模分布式系统下的消息通信需求。RocketMQ的设计目标是提供一种灵活、可靠、高性能的消息传递解决方案，适用于各种场景，包括在线消息通信、日志处理、流式处理、事件驱动架构等。下面是对Rocket
YOLO 目标检测编程详解不知名靓仔 YOLO 目标检测人工智能
引言目标检测是计算机视觉中的一个重要任务，它旨在识别图像中的对象并定位这些对象的位置。YOLO（YouOnlyLookOnce）是一种流行的目标检测算法，因其速度快且准确度高而广受好评。本文将深入探讨YOLO的原理及其实现方法，并提供一个使用Python和PyTorch的示例代码。项目源码见最下方1.YOLO算法简介YOLO算法的核心思想是将目标检测视为回归问题，而不是传统的分类加定位的两阶段方法
python对接rocketmq i_nekohuang python rocketmq
背景有对接java系统监听其相关资源同步新增的需求，该java系统使用了rocketmq。前置说明1、目前Python客户端仅支持Linux和macOS操作系统，暂不支持Windows系统2、rocketmq-client-python基于rocketmq-client-cpp进行包装，因此需要先编译出librocketmq.so3、文档中相关源码包和依赖包版本和github中README.md有
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少