2019独角兽企业重金招聘Python工程师标准>>>
资源整理。
1 Coding:
1.地理空间应用的Docker镜像,安装有GDAL等常用开源空间分析库。
docker gdal base
2.R语言包clex,气象数据提取与降尺度。
clex
3.用R做数据科学和数据分析的书。
data science in education
4.R语言包leafsync,leafsync是一个插件,用于生成包装Leaflet.Sync的可能同步的小型多页Web地图。
leafsync
5.R语言包twoe,估算树种数量统计学和模拟森林动态。
twoe
6.R语言包betterposter,使用R Markdown和pagedown更好看的科学壁报。
betterposter
7.一起来学技术。自学者的福音网站。
teachtogether.tech
8.R语言dabestr,Bootstrap耦合估计的数据分析包。
dabestr
9.面向开发人员的机器学习基础框架。
cortex
10.Python库automl_gs,提供输入CSV和目标字段进行预测,生成模型+代码以运行它。
automl gs
11.auto-sklearn是一个自动化的机器学习工具包,是scikit-learn估算器的直接替代品。
auto sklearn
12.Featuretools是一个用于自动化特征工程的python库。
teaturetools
13.python-pdal的conda-smithy存储库。pdal是点云数据处理的GDAL衍生库。
python pdal feedstock
14.R语言包h3js,R中h3-js的接口,一个基于六边形的地理网格系统。
h3js
15.R语言包batchtools,作为BatchJobs和BatchExperiments软件包的后续产品,batchtools为由Slurm,Sun Grid Engine,OpenLava,TORQUE / OpenPBS,Load Sharing Facility(LSF)或Docker Swarm等调度程序管理的高性能计算系统提供Map的并行实现。
batchtools
16.Geoportal Server下一代搜索应用程序和元数据目录,基于elasticsearch。
geoportal server catalog
17.Geoportal Server是一种基于标准的开源产品,可以发现和使用地理空间资源,包括数据和服务。
geoportal server
18.R语言包validate,验证R-package可以非常轻松地检查数据是否符合您对领域知识的期望。 它的工作原理是允许您定义独立于代码或数据集的数据验证规则。 接下来,您可以使用规则来对抗数据集或其各种版本。 结果可以汇总,绘图等。
validate
19.ripgrep是一种面向行的搜索工具,可以递归搜索当前目录中的正则表达式模式。 默认情况下,ripgrep将尊重您的.gitignore并自动跳过隐藏的文件/目录和二进制文件。 ripgrep在Windows,macOS和Linux上拥有一流的支持,每个版本都有二进制下载。 ripgrep类似于其他流行的搜索工具,如The Silver Searcher,ack和grep。
ripgrep
20.SQL Server,Oracle,MySQL,PostgreSQL,SQLite,DB2的示例数据库。
chinook database
21.TVM是深度学习系统的编译器堆栈。 它旨在缩小以生产力为重点的深度学习框架与以性能和效率为重点的硬件后端之间的差距。
tvm
22.使用条件对抗网的PyTorch实现图像到图像的翻译(pix2pix)。
pix2pix
23."Learning to Discover Cross-Domain Relations with Generative Adversarial Networks."的Pytorch实现。
DiscoGAN pytorch
24.graphpipe-go提供了多种功能,可帮助您使用非常快速的GraphPipe协议轻松提供和访问ml模型。
graphpipe go
25.ONNX Runtime:跨平台,高性能评分的ML模型引擎。
onnxruntime
26.Web性能的方方面面。
web performance
27.R语言包broman,包含Karl Broman个人R代码的软件包。
broman
28.R语言包Cubist,用于拟合Quinlan Cubist回归模型的R包。
Cubist
29.R语言包HighFreq,目的是创建一个功能库,用于管理交易和报价(TAQ)和OHLC数据,以及从该数据中有效地估计各种统计数据,如波动率,偏差,赫斯特指数和夏普比率。
HighFreq
30.交互式的Brokers Trader Workstation的R接口。
IBrokers
31.oist是一种将矩阵或数组输出到无损图像文件的快速方法。
foist
32.一本在大学水平上写的开源教科书。 OpenIntro还提供第二个大学水平的入门统计教科书和高中变体。
openintro statistics
33.用R实现17种分类算法。
17 Classification
34.在R中使用CPU性能数据的19个回归模型。
cpu performance
35.R语言包dfdetective,搜索数据框,不要触及任何行。
dfdetective
36.合成孔径雷达(SAR)软件,库和资源的精选列表。
awesome sar
37.Python HDR图像处理库。
hydra
38.RAT(雷达工具)是一款功能强大的开源软件工具,用于处理IDL编程的SAR(合成孔径雷达)遥感数据。 它已在柏林科技大学开发多年,现已停产! 此存储库包含最新版本的RAT,它收到了一堆错误修正,使其可以与当前的IDL版本一起使用。
RAT
39.李宏毅机器学习(台湾大学)。
NTU Machine learning
40.Datawhale 学习社群问题库。
Learning community
41.用于重现“百页机器学习手册”中插图的Python代码。
theMLbook
42.用于预览LaTeX PDF输出的Vim插件。
vim latex live preview
43.使用gluon-cv重现SFD面部检测器。
sfd.gluoncv
44.R语言包vroom,快速读取分隔文件。
vroom
45.Google Earth Engine分析是否可重现?
earthengine
46.R语言包knitrBootstrap,一个框架,用于从knitr Rmarkdown创建bootstrap样式的HTML报告。
knitrBootstrap
47.瓦赫宁根大学地理处理脚本,课程13:Google Earth Engine。
Earth Engine
48.R语言包Sinew,它生成一个roxygen2骨架,其中填充了从函数脚本中删除的信息。
sinew
49.R语言包moderndive,用于tidyverse友好的介绍性线性回归。
moderndive
50.从计算生物学到金融建模,R计算环境已成为定量研究的重要工具。在本次实践研讨会中,我们将探讨常用的策略,以有效地分析R中的大规模数据集。参与者将学习如何在计算集群上自动化他们的R分析,配置文件内存使用,在R中调用快速C ++例程,并实现简单的并行化策略,包括多线程和分布式计算。
R large scale
51.R语言包RcppXsimd,R C++包装器,用于C ++标头库Xsimd,它使用SIMD提供并行化数学实现。
RcppXsimd
52.大规模纵向证据系统中健康信息的自动表征(ACHILLES) - 关于OMOP CDM数据库的描述性统计。
Achilles
53.R语言包SqlRender,这是一个R包和Java库,用于呈现参数化SQL。
SqlRender
54.用于在OMOP公共数据模型中的观察数据库中执行患者水平预测的R包。
PatientLevelPrediction
55.Keras 深度学习库 PDF 版。
keras doc zh
56.用于空间遗传分析的脚本和文件。
2019 Acropora
57.深度学习研究人员的自然语言处理教程。
nlp tutorial
58.一组简单的bash命令,它们将r-spatial工具带到Linux命令行。
mapix
59.Python库GOSTnets,它汇集了一系列函数,用于使用开源数据对位置之间的物理连接进行快速,独立的分析。
GOST PublicGoods
60.使用R的Shiny库构建的地图,用于显示美国城市中的无人设备。
swarm of scooters
2 Paper:
1.Change in household fuels dominates the decrease in PM 2.5 exposure and premature mortality in China in 2005–2015/家庭燃料的变化主导着2005-2015年中国PM 2.5暴露和过早死亡率的下降
为解决中国严重的细颗粒物(PM 2.5)污染问题,政府自2005年以来一直实施严格的控制政策,主要针对发电厂,工业和交通运输,但政策的有效性和健康影响的时间趋势的估计是大的不确定性。通过结合化学传输模拟,环境/家庭暴露评估和健康影响评估的综合方法,我们发现PM 2.5(IPWE)的综合人口加权暴露下降了47%(95%置信区间,37- 55%)从2005年[180(146-219)μg/m³]到2015 [96(83-111)μg/m³]。出乎意料的是,这种减少的90%(86-93%)归因于家庭固体燃料使用的减少,这主要是由于快速城市化和收入改善而不是具体的控制政策。由于用于烹饪和加热的家用燃料的IPWE减少,但烹饪的影响明显更大。家庭相关的IPWE减少估计每年可以避免0.40(0.25-0.57)百万的过早死亡,占2015年PM 2.5诱导的死亡率的33%.IPWE将进一步减少63%(57-68%)如果剩余的家用固体燃料被清洁燃料取代,这将避免额外的0.51(0.40-0.64)百万的过早死亡。这种向清洁燃料,特别是供暖的过渡,需要技术创新和政策支持,以克服分配系统成本高的障碍,正如最近在京津冀地区尝试的那样。考虑到家庭燃料使用对PM 2.5暴露的影响,我们建议家庭燃料的使用在国家控制政策中的优先级更高。发表于PNAS的一篇雄文,分析了家庭燃料变化对PM2.5暴露和过早死亡率的影响。分析结果发现家庭燃料才是PM2.5暴露和过早死亡率下降的主要原因。这一点还是比较有意思的,之前北大陶澍院士团队也做了相关的工作,深入农村收集燃料库构建排放清单。
2.Urban green space cooling effect in cities/城市绿地降温对城市的影响
城市绿地被认为是减少城市热岛效应并为附近居住者提供舒适的适当方式。除了冷却实际空间外,城市绿地也能够影响周边地区,这种现象被称为城市绿地降温效应。关于城市绿地降温效果的最重要问题是冷却的强度和密度,这对城市设计师和规划者在处理城市热岛方面起着重要作用。本文回顾了近年来研究城市绿地降温效应的最新研究。根据他们的样本评估方法,研究分为三组。第一类包括对整个城市的一部分或整个城市的一组城市绿地进行研究,主要通过遥感和卫星地图进行。第二类调查城市公园或几个具有可识别形状和位置的城市公园。在本节中,主要通过实地观察收集信息。第三类涉及根据不同的绿地布局情景通过模拟对城市空间的一部分进行建模的研究。本研究结果表明,最大的冷却效果距离和冷却效果强度适用于面积超过10公顷的大型城市公园;然而,除了该地区,城市绿地的自然元素和质量,以及气候特征,影响城市绿地降温效果。分析了城市绿地的降温效应。分析了降温效应的距离以及强度与公园的大小关系,此外城市绿地的基本要素对降温效果有关键作用。
3.Reprint of “Spatial scaling of urban impervious surfaces across evolving landscapes: From cities to urban regions”/“城市不透水面在不断变化的景观中的空间尺度:从城市到城市地区”重新出版
城市不透水面(UIS)影响城市系统的结构和功能,被广泛认为是城市环境条件的关键指标。然而,统计研究的数量和模式都随着空间尺度的变化而变化,这使得统计研究所的计算和解释变得复杂。需要更好地理解UIS的空间尺度关系来解决这种困境。因此,本研究的主要目的是利用中国三大城市群的数据,探讨UIS如何随着城市等级层面的空间范围和人口规模的增加而变化。此外,对六个世界大都市区进行了比较分析,以测试UIS比例关系的一般性。使用尺度图和标准化的主轴回归来研究关于空间范围和城市尺寸的比例关系。我们的主要研究结果包括:(1)当分析的空间范围从当地城市扩展到整个城市群时,UIS的总量增加,而UIS的百分比以阶梯式下降; (2)UIS的空间尺度遵循当地城市中相当一致和严格的幂律功能,但在当地城市之外变得不那么一致且不那么紧张; (3)UIS总量的比例关系比UIS的比例更加一致,UIS的总量与城市面积的关系比城市人口规模更紧密。这些发现揭示了统计研究所的规模依赖性,表明应采用多尺度方法来量化统计研究所并将其用作城市环境指标。邬建国老师团队的成果,分析了城市不透水面的空间尺度效应。强调了多尺度研究的必要性。
4.Temporal Changes in Multiple Ecosystem Services and Their Bundles Responding to Urbanization and Ecological Restoration in the Beijing–Tianjin–Hebei Metropolitan Area/京津冀都市圈多元生态系统服务的时间变化及其对城市化和生态恢复的响应
到2050年,70%的人口可能生活在城市中,使城市化成为一个日益增长的全球趋势。检测生态系统服务(ES)及其捆绑的变化以应对城市化对于评估土地使用政策至关重要。我们研究了中国京津冀都市区2000年至2010年谷物,蔬菜,水果,碳固存,土壤保持,防沙,保水的变化情况;然后,使用k-means聚类分析,我们根据类似的ES集合将该区域的202个县分为组(捆绑)。我们发现(1)城市,林地和草地分别增加了22%,3.6%和1.7%,而耕地减少了4.6%; (2)尽管农田全面减产,但粮食,蔬菜和水果的供应量增加了24-90%;碳储存和保沙率分别增加了40%和7%,而土壤和水分保持率略有增加。每个1%; (3)72个县改变了他们的ES捆绑; 2000年“农业捆绑”占主导地位,2010年下降了50%,主要转变为“次发达城市群”,表明这十年间农田流失。 ES捆绑的转换可用于理解城市化的影响。该研究表明,农村地区的改良技术和生态恢复有助于在快速城市化的世界中维持多种ES。分析了十年间京津冀都市圈多元生态系统服务变化影响以及相互作用。
5.The Hidden Hazard of Household Air Pollution in Rural China/中国农村家庭空气污染的隐患
中国城市的空气污染已成为公众辩论和政治关注的主要议题。与此同时,很少有农村地区受到环境空气质量的测量,政策文件和媒体很少讨论使用生物质进行烹饪和取暖而产生的家庭空气污染(HAP)造成的健康和环境风险。 2014年至2017年期间,一个跨学科团队在中国最富裕的省份浙江省之一开展了空气质量和空气污染感的联合研究。我们发现农村的PM 2.5浓度与城市地区相似。此外,对于城市和农村参与者而言,24小时个人接触微粒污染(PM 2.5)的平均值相似。然而,我们发现某些亚组的暴露水平增加,如生物量使用者,女性和家庭厨师。我们发现,虽然村民们非常关注来自附近工厂的空气污染风险,但他们基本上没有意识到HAP的问题。在本文中,我们分析了HAP在所研究区域中对空气污染暴露的贡献程度,并讨论了它在很大程度上仍然存在隐患的可能原因。总之,我们认为农村地区的空气污染应该得到媒体,环保组织和政策制定者的更多关注;此外,特别是应将HAP纳入空气污染政策的更大范围内,并将其对农村地区空气污染暴露的贡献更加公开。这篇文章分析了农村空气污染的隐患。类似前面介绍的文章,农村区域空气污染其实也是一个非常重要的议题。
6.Incorporating satellite-derived data with annual and monthly land use regression models for estimating spatial distribution of air pollution/将卫星导出的数据与年度和月度土地利用回归模型相结合,以估算空气污染的空间分布
本研究的目的是评估年度和月度土地利用回归(LUR)模型在台湾估算NO2和PM2.5空间分布的表现。 2015年在73个空气质量监测点收集样本。数据转换与提取原理组件和卫星衍生数据相结合,与LUR建模相结合,并应用于提高PM2.5模型性能。结果表明,与PM2.5相比,NO2表现出更强的模型性能。 NO2年度模型的留一交叉验证(LOOCV)R²为0.76,月模型的范围为0.56至0.81。通过应用主成分分析和增加卫星数据(即日照覆盖百分比和气溶胶光学深度),将PM2.5年度模化的LOOCVR²从0.13提高到0.56。这些方法还改善了PM2.5月度模型的性能。中位LOOCVR²从0.12增加到0.49。LUR的年和月尺度模型估算NO2和PM2.5的比较,总的来说NO2模型精度更高。
7.Deep spatio-temporal residual neural networks for road-network-based data modeling/基于道路网络的数据建模的深度时空残差神经网络
最近,研究人员引入了深度学习方法,如卷积神经网络(CNN)来模拟时空数据,并取得了比传统方法更好的结果。然而,这些基于CNN的模型使用网格图来表示空间数据,这不适用于基于道路网络的数据。为了解决这个问题,我们提出了一种用于基于道路网络的数据建模(DSTR-RNet)的深度时空残差神经网络。所提出的模型构建局部连接的神经网络层(LCNR)来模拟道路网络拓扑并且集成残差学习以模拟时空依赖性。我们通过预测滴滴司机服务的交通流量来测试DSTR-RNet,该服务位于中国成都的一个8平方公里的区域,有2,616个路段。结果表明,DSTR-RNet保持了道路网络的空间精度和拓扑结构,提高了预测精度。我们讨论预测误差并将预测结果与基于网格的CNN模型进行比较。我们还探讨了模型对其参数的敏感性;这将有助于将此模型应用于基于网络的数据建模。利用深度学习方法进行道路网络建模,利用的是滴滴大数据。可以说是众包路网地图数据的一个典型应用。这一方面武汉大学唐炉亮老师也有一些成果。
8.Reinvestigating Chinese growing cities through the lens of allometric scaling/通过异速增长的尺度效应重新调查中国发展中的城市
城市是复杂的系统;我们期望城市化过程的动态遵循幂律,这暗示了异速生长的尺度效应。在过去的几十年里,城市规模作为一种基础理论引起了地理学和城市研究文献的广泛关注;然而,它在全球范围内的适用性存在不确定性,特别是在中国等快速变化的城市环境中。更重要的是,关于中国城市异速生长规模的研究很少。本研究旨在展示动态演化概念在城市系统中的重要性。我们研究了城市化的最重要影响是由尺度效应定律明确表现出来的,尺度指数是关键指标。我们应用比例定律来检验假设,即与静态或等距状态相比,城市化的不同阶段的实际比例指数是稳定的。我们发现,中国政府主导的事态发展可能会破坏权力法律并扩大城市因素之间的关系,但这只会在短时间内发生。尽管不同城市的驱动力在不同的城市化阶段改变了它们的影响;生长过程的指数(城市土地利用面积及其人口密度)遵守自相似性和尺度一致性的规律和规则。双对数线性回归和分位数回归的分析揭示了城市系统的实际和观察到的比例关系将始终演变为与理论假设一致,这对未来城市发展和城市规模和城市密度的规划提供了影响。分析异速生长的尺度效应是否与中国城市实际情况相符?异速生长和尺度效应是一个很广泛的概念,值得深入研究。
9.Does Clean Air Increase the Demand for the Consumer City? Evidence from Beijing/清洁空气是否会增加对消费城市的需求? 来自北京的证据
城市提供大量可能的就业和休闲机会。 在污染较严重的日子里,这种消费城市休闲的收益可能会降低。 我们研究了中国日常消费活动与室外空气污染之间的关系,并找到了有利于这样一个假设的证据,即清洁空气和离开休闲旅行的家是补充。 鉴于发展中国家城市的空气污染程度很高,监管导致的环境质量改善可能会进一步刺激对消费城市的需求。分析空气对于城市人群消费的影响。类似之前做的公共自行车骑行与天气的相关关系,在污染天气下,更多人会选择呆在室内。城市活力下降,从而影响经济和消费。