Lino_white

2021年全国职业院校技能大赛 “大数据技术与应用”—模拟赛题（三）

2021年全国职业院校技能大赛 “大数据技术与应用” ——模拟赛题（三）

文章适合了解大数据技术与应用技能大赛赛题。文章在编写过程中难免有疏漏和错误，欢迎大佬指出文章的不足之处；更多内容请点进 Lino_White 查看。
未来的世界充满着各式各样的数据，我们该怎么好好利用起来呢？开启正文吧~~~

赛题文字过多，文章有删除了部分，需要完整的文档请看评论区

持续更新相关赛题，包括2021年国赛模拟题10套、2019年广东省真题赛题、相关比赛技巧、难点突破技巧等等，需要的关注小编或者公众号 NoWrite

# {
   文字较多，不要觉得繁琐，比赛文字更多，这里小编已经删减了许多！
   认真看，想要赢静下心，仔细看每个字!!!
}

背景描述
据央视财经报道，2020年我国O2O市场规模突破万亿元，O2O市场存在着巨大的潜力。特别是餐饮和外卖行业，占据市场较大份额，并且业务增长迅速。截至2020年底，全国外卖总体订单量已超过171.2亿单，同比增长7.5%，全国外卖市场交易规模达到8352亿元，同比增长14.8%。我国外卖用户规模已接近5亿人，其中80后、90后是餐饮外卖服务的中坚消费力量，消费者使用餐饮外卖服务也不再局限于传统的一日三餐，下午茶和夜宵逐渐成为消费者的外卖新宠。为把握这一商业机遇，ChinaSkills公司计划进驻外卖平台市场，现需对大规模成熟外卖平台进行详细评估调研，采集多方多维度数据，寻找行业痛点，摸清市场需求，以技术为手段为投资保驾护航。
为完成该项工作，你所在的小组将应用大数据技术，以Python、Java、Scala作为整个项目的基础开发语言，基于大数据平台综合利用MapReduce、Spark、MySQL、Scrapy、Flask、ECharts等，对数据进行获取、处理、清洗、挖掘、分析、可视化呈现，力求实现对公司未来的重点战略方向提出建议。
你们作为该小组的技术人员，请按照下面任务完成本次工作，并编制综合报告。

模块A：Hadoop平台及组件的部署管理（15分）

环境说明：
编号主机名类型用户密码
1 master 主节点 root passwd
2 slave1 从节点 root passwd
3 slave2 从节点 root passwd
补充说明：主节点MySQL数据库用户名/密码：root/Password123$
相关软件安装包在/chinaskills目录下
所有模块中应用命令必须采用绝对路径

任务一：Hadoop 全分布部署管理

本环节需要使用root用户完成相关配置，安装Hadoop需要配置前置环境。命令中要求使用绝对路径，具体部署要求如下:
1、将/chinaskills下的JDK包解压到/usr/local/src路径，将完整命令复制粘贴到对应报告中;
2、修改/root/.bash_profile文件，设置JDK环境变量，并使环境变量只对当前root用户生效将环境变量配置内容复制粘贴至对应报告中;
3、从master复制上面步骤配置的JDK环境变量文件到slave1、slave2节点，命令和结果复制粘贴在对应报告中;
4、配置SSH密钥登录，实现从master登录到slave1，将登录命令和结果复制粘贴在对应报告中;
5、将配置文件hadoop-env.sh变更内容复制粘贴在对应报告中；
6、将配置文件core-site.xml变更内容复制粘贴在对应报告中；
7、初始化Hadoop环境namenode，将命令及结果复制粘贴在对应报告中；
8、查看master及slave1节点jps进程，将其命令及结果复制粘贴至对应报告中。

任务二：Sqoop部署管理

本环节需要使用root用户完成相关配置，已安装Hadoop及需要配置前置环境，具体部署要求如下：
1、解压/h3cu路径下的Sqoop安装包到/usr/local/src路径下，并使用相关命令，修改解压后文件夹名为sqoop，进入sqoop文件夹，并将查看内容复制粘贴至对应报告中；
2、修改Sqoop环境变量，并使环境变量只对当前root用户生效,将环境变量配置内容复制粘贴至对应报告中；
3、修改并配置sqoop-env.sh文件，将命令及结果复制粘贴至对应报告中；
4、测试Sqoop连接MySQL数据库是否成功，将命令及结果复制粘贴至对应报告中。具体任务要求：使用sqoop命令连接MySQL数据库，查询MySQL中所有数据库名称，将命令及结果复制粘贴至对应报告中。

任务三：Spark组件部署管理

1、解压scala安装包到“/usr/local/src”路径下，并更名为scala，命令及结果复制粘贴至对应报告中；
2、设置scala环境变量，并使环境变量只对root用户生效，配置文件内容复制粘贴至对应报告中；
3、进入scala命令行界面，将命令及结果复制粘贴至对应报告中；
4、解压Spark安装包到“usr/local/src”路径下，并更名为spark，将命令及结果复制粘贴至对应报告中；
5、设置Spark相关环境变量，并使环境变量只对root用户生效，配置Spark的master节点主机名、端口、worker结点的核数、内存，将命令复制粘贴至对应报告中；
6、启动Spark shell，将命令及结果复制粘贴至对应报告中。

模块B：数据采集与处理（20分）

项目背景说明
1、查看餐饮外送统计平台网站源码结构。
1）打开网站，在网页中右键点击检查，或者F12快捷键，查看源码页面；
2）检查网站：浏览网站源码查看所需内容。
2、从餐饮外送统计平台中采集需要数据，按照要求使用Python语言编写代码工程，获取指定数据项，并对结果数据集进行必要的数据处理。请将符合任务要求的结果复制粘贴至对应报告中。
具体步骤如下：
1）创建工程工程项目：C:\food_delivery
2）构建采集请求
3）按要求定义相关字段
4）获取有效数据
5）将获取到的数据保存到指定位置
6）对数据集进行基础的数据处理
至此已从餐饮外送统计平台中获取所需数据，并完成了必要的基础的数据处理。
3、自行创建Scrapy工程项目food_delivery，路径为C:\ food_delivery按照任务要求从餐饮外送统计平台中获取数据。提取“商户数据”页面相关字段（包括平台餐厅ID、餐厅名称、城市等全部有效数据项），保存至文件restaurant_data.json；再提取“配送平台灰度维度数据”页面相关数据（包括餐厅名称、城市、营业时长等全部字段）保存至文件grey_test.json。
4、每条数据记录请以单独一行保存，信息存储格式为key：value。文件保存路径为：C:\output。
示例：
{" rest_id ": “***”, " rest_name “: “***”,……}，
{” rest_id ": “***”, " rest_name ": “***”,……}，
……
5、任务中要求将“以下内容及答案完整复制粘贴至对应报告中。”，粘贴到对应报告中的内容示例如下：
配送范围审核相关数据页数为：100
灰度数据对比相关数据页数为：100

任务一：爬取“POI数据”页面

自行创建Scrapy工程编写爬虫代码，爬取“POI数据”页面相关数据，通过爬虫代码分页爬取，以合理的程序逻辑判断相关数据包含的页数并将答案复制粘贴至对应报告中。
示例格式：
POI数据页数为：

任务二：爬取配送平台灰测数据

编写爬虫代码，爬取“配送平台灰测维度数据”页面相关数据，通过爬虫代码分页爬取，以合理的程序逻辑判断相关数据包含的页数并将答案复制粘贴至对应报告中。
示例格式：
灰测维度相关数据页数为：

任务三：爬取指定文件

运行代码，爬取网页数据至指定文件。查看文件并填写采集到的记录条数，并将答案复制粘贴至对应报告中。
示例格式：
POI.json行数为：
grey_test.json行数为：

任务四：各商家“30天销量”数据处理

POI.json文件中，“商家id”字段值重复的样本，请以多条样本记录的“30天销量”属性均值作为该属性的值，并删除多余样本。请在PyCharm控制台打印输出删除的样本条数，并将打印语句复制粘贴至对应报告中。
示例格式：
=因重复样本记录，删除样本条数为***条=

任务五：grey_test缺失值统计

针对爬取的grey_test数据，利用missingno库方法探索数据集各字段数据缺失情况，将可视化图片复制粘贴至对应报告中。

任务六：属性缺失统计

根据可视化输出，grey_test数据中那一个属性缺失值最多？请将正确答案复制粘贴至对应报告中。
示例格式：
缺失值最多的属性为：
属性缺失的样本数为：

模块C：数据清洗与挖掘分析（25分）

项目背景说明
餐饮外卖平台的核心价值体现在配送，而配送的价值则依赖于商家与客户的双向选择。外卖平台通常会通过内容激活消费者和商家两个群体的活跃度。消费者会参考平台展示的内容选择商家，商家也会以消费者评价与平台统计数据为依据调整策略，由此再吸引更多的用户下单、评论、形成正向循环。保证配送的时效与品质是从优化用户体验的角度，吸引更多的用户参与，进而带动商家不断入驻。由此，商家、消费者、骑手在平台上形成越来越多的真实可靠的数据，帮助消费者更好的做出消费决策，同时促进商家提高服务质量。而平台通过数据，不断调整优化服务，从而不断提升这种多边网络效应。提升网络效应的直接结果就是用户和商家规模大幅提升，进而形成规模效应——降低获客成本、提高效益，并且不断提升自己的行业壁垒。
为探索各大外卖平台的市场策略与经营模式，现已从平台获取到了原始数据集，包含“餐厅id，retailer_id，餐厅名称，城市，商户业务包，配送范围，客单价，推单数，接单数，有效完成单数，投诉率，异常率，欺诈单数，拒单数，商户取消数，客户取消数，系统取消数，配送取消异常数，整体时长，接单时长，到店时长，取餐时长，送达时长，商户投诉数，用户投诉数，差评数，好评数，评价数，最远订单距离，该订单整体时效，该订单接单时效，该订单到店时效，该订单取餐时效，该订单送达时效，该订单评价”字段。为保障用户隐私和行业敏感信息，已经对数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或一些商业性敏感数据的情况下，对真实数据进行改造并提供测试使用，如身份证号、手机号等个人敏感信息都需要进行数据脱敏。本题已将脱敏后的数据存放于“C:\数据源”。

任务一：数据清洗

子任务1

任务背景：
数据源为众多网站及平台的数据汇总，且为多次采集的结果，在整合多来源数据时可能遇到数据冲突，或数据拼接导致的属性列矛盾等情况。请根据任务具体参数要求，针对原始数据集中不符合业务逻辑的属性列进行清洗，并写入指定的数据库或数据文件，复制并保存结果。
任务描述：
数据源文件存放于平台“C:\数据源”，其中属性“推单数”是指外卖平台通过顾客点单向商家推送的订单数量，“接单数”为商家根据自身情况，最终选择接受订单的数量。一般来说，商家对于平台推送的订单，排除自身原因，例如原材料耗尽、用户下单时店铺已经打烊等特殊情况，都会选择接单。请按照如下要求编写Python程序对数据进行清洗，结果文件保存至路径“C:\输出结果”文件夹中，并命名为diliveryoutput1.csv。
1)分析“C:\数据源”中数据文件
2)针对属性列“推单数”、“接单数”，排查并删除异常数据条目。
3)运行Python程序，结果文件保存至路径“C:\输出结果”，并命名为diliveryoutput1.csv。
具体任务要求：
1、读取“C:\数据源”中相关数据源文件，在PyCharm控制台打印输出数据集样本条数，将打印语句复制粘贴至对应报告中。编写Python程序，剔除属性列“推单数”小于“接单数”的异常数据条目，并在程序中以打印语句输出异常条数。将打印输出结果复制并保存至对应报告中。
示例格式：
=数据集初始样本条数为***条=
=“推单数”小于“接单数”的异常数据条数为***条=
2、运行Python程序，将剔除异常数据后的结果数据集保存至路径“C:\输出结果”，并命名为diliveryoutput1.csv。查看结果数据集前10行数据记录，将查看结果复制粘贴至对应报告中。

子任务2

任务背景：
客单价是指客户在该商铺下一单的平均支付价格。根据商家定位不同，可以分为高客单价和低客单价。高客单价，单量一般表现平平；低单价则通常会获得更高的单量。不同的定价针对的消费人群不同、选择的位置不同、营业的时间也不同。高客单价的品类偏向于白领人群，一般说来办公楼覆盖越多的位置越好，但是办公楼并不一定都是白领人群，所以办公楼也要区分区域性，客户行业越是前沿的，具备消费能力越高，但晚上和周末的单量一般较少。低客单价的品类偏向于大众化，选址优先办公/大学区/小区综合覆盖区域，满足低消费与一般消费能力用户群。当前数据源因涉及到多个平台及数据库对接，个别信息由于人为操作失误或计算机故障等原因产生了数据缺失值。缺失值是一种常见的脏数据情况。对于缺失值的处理，从总体上来说分为缺失值删除和缺失值插补两种处理方式。当缺失值过多时，信息条目本身的价值也会随之降低，此时如果对缺失值进行填补，则数据分析结果可能会受到干扰，有失客观性。结合行业数据本身特点及上述考虑，对于数据集中数值字段缺失的情况，通常可以采用填充固定值、均值、中位数、KNN 填充、以及把缺失值作为新的 label 等方式处理。同时，不当的填充可能会令后续的分析结果出现导向性偏差，当缺失信息的记录数较少时可采用删除的方式来进行处理。下面请根据任务具体参数要求处理关键字段缺失。
任务描述：
请以上述1、（任务数字编号）任务结果数据集“C:\数据源\diliveryoutput1.csv”作为数据源，编写Python程序，按照如下要求实现对数据的清洗，并将结果数据集保存至路径“C:\输出结果“中，并命名为diliveryoutput2.csv。

解析文件diliveryoutput1.csv；
2)针对数据集“客单价”属性，审查缺失值数量
3)当缺失值比例小于5%时，对包含缺失值数据的样本进行删除；
当缺失值比例大于5%时，对缺失值字段进行中位数填充。
4)运行Python程序，将结果数据集保存至路径“C:\输出结果“中，并命名为diliveryoutput2.csv。
具体任务要求：
1、根据任务要求，编写Python程序，针对数据集“客单价”属性，审查缺失值数量，并打印输出，将打印输出结果复制并粘贴至对应报告中。
示例格式：=“客单价”属性缺失记录为*条，缺失比例%=
2、缺失值处理
a)当缺失比例小于5%时，对含缺失值数据记录进行删除，同时在对应答案报告中粘贴如下内容：=“客单价”缺失记录已删除=
b)当缺失比例大于5%时，利用“客单价”属性中位数对缺失值进行填充，并将中位数打印输出，将打印输出结果复制并粘贴至对应报告中。
示例格式：=“客单价”属性中位数为***天=
c)清洗后的数据集，保存至路径“C:\输出结果“中，并命名为diliveryoutput2.csv，并查看输出文件前10行，将查看命令与执行结果复制粘贴至对应报告中。

任务二：数据挖掘分析

任务背景：
聚类分析又称群分析，它是研究分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的。通常，模式是一个度量的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，同一个聚类簇中的模式之间具有相似性，不同聚类簇之间具有相异性。
在商业上，聚类可以帮助平台市场分析人员从数据中区分出不同的商家群体，并提取每一类商家的经营模式。它作为数据挖掘中的一个模块，可以作为一个单独的工具以发现数据中的深层的信息，并且提取出每一类样本的特点，或者把注意力放在某一个特定的类上以作进一步的分析；同时，聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。本题数据请采用数据清洗的输出文件“C:\输出结果\diliveryoutput2.csv”。
选择数据分析的维度通常分为用户维度、行为维度和产品维度，想要对外卖平台入驻商家进行聚类划分，有侧重地分类评估商家对平台的价值，首先需要针对商家数据选择核心数据集，为确保聚类模型收敛速度与质量，以及消除量纲对聚类结果的影响，首先应对数据进行归一化或标准化处理，再进行数据建模。
任务描述：
请以数据清洗任务结果数据集“C:\输出结果\diliveryoutput2.csv”作为输入数据源，按照如下要求编写Python程序实现对数据的分析，并将结果保存至路径“C:\输出结果“中，并命名为diliveryoutput3.csv。
1)解析文件diliveryoutput2.csv。
2)提取商家数据核心属性。
3)针对商家核心属性进行预处理。
4)利用处理过的核心属性集完成商家聚类。
具体任务要求：
1、针对相关数据集抽取北京地区相关数据记录，并计算商家好评比，将“好评比”作为新属性添加至属性“评价数”后。将结果数据集保存至路径“C:\输出结果“中，并命名为diliveryoutput3.csv，并查看输出文件前10行，将查看命令与执行结果复制粘贴至对应报告中。
【好评比计算公式：好评比=好评数/评价数】
2、根据结果数据集diliveryoutput3.csv，筛选4项核心属性集：“商户业务包”，“接单数”，“客单价”，“好评比”，数据记录以接单数降序排列。将结果数据集保存至路径“C:\输出结果“中，并命名为diliveryoutput4.csv，并查看结果数据集前10行，将查看命令与执行结果复制粘贴至对应报告中。
3、由于核心数据集中“商户业务包”为分类属性，请将该属性设置为哑变量；同时对属性“接单数”，“客单价”进行max-min归一化，以实现对核心属性的预处理。将处理后的结果数据集以接单数降序排列，输出至/diliveryoutput5，并查看输出文件前10行，将查看命令与执行结果复制粘贴至对应报告中。
【归一化公式：x’ = (x - X_min) / (X_max - X_min)】
4、以上属性对商家进行k-means聚类，聚类数设为4，迭代次数为2000次，请以打印语句输出聚类中心，及每个类的商家数。
示例格式：
cluster 0: 聚类中心为[*]=商家数为个=
cluster 1: 聚类中心为[*]=商家数为个=
……

模块D：数据可视化（20分）

MySQL数据库中的相关数据集包含了城市、地点、商家id、网格id、餐品种类、标品属性等多项基础信息字段。请使用Flask框架，结合Echarts完成下列任务。
数据库账号: takeout 密码：takeout
自行创建代码工程路径为C:\food_dilivery
每个可视化图中需要添加图片作为背景水印。

任务一：条形图呈现“Top10城市商家数量”

任务背景：
近年来，我国外卖行业发展迅速，互联网餐饮外卖市场规模逐渐扩大，外卖平台已覆盖全国所有省份。2019全年外卖交易超7274亿元，截至2020年3月，我国网上外卖及手机网上外卖用户渗透率已达44%。2020年底，全国外卖总体订单量已超过171.2亿单。为了解外卖平台发展较为领先的城市范围，请根据相关数据集，按任务指定要求，输出分析图例。
任务描述：
请根据相关表格数据，统计不同城市商家数量，并条形图呈现。
具体任务要求：
1、根据相关表格中“id，Request_id，Walle_id，Retailer_id，retailer_name，retailer_address，etailer_location，City_id，City_name，Grid_id，Carrier_id，Team_id，Applicant_id，Applicant_name，first_auditor_role，first_auditor_candidate_ids，first_auditor_id，first_auditor_name，second_auditor_role，second_auditor_candidate_ids，second_auditor_id，second_auditor_name，status，max_distance_before_edit，min_distance_before_edit，max_distance_after_edit，min_distance_after_edit，area_before_edit，area_after_edit，created_at，updated_at，申请时间，创建时间”等字段，统计不同城市商家数量。请在PyCharm控制台打印输出商家数量最高的前10个城市名称及商家数量，并以商家数量降序排列。
示例格式：
1.城市: ***，商家***个=
2.城市: ***，商家***个=
……
2、使用Flask框架，结合Echarts，条形图输出。标题为“城市商家数量Top10”，横坐标为商家数量，纵坐标为城市名称。将可视化结果截图并保存（截图需包含浏览器地址栏）。

任务二：柱状图呈现审核效率

任务背景：
外卖的配送范围一般由外卖平台的业务人员为商家设定，商家也可以根据实际情况向平台申请修改配送范围。在申请配送范围修改时，审核员将考虑实际道路限制、综合运力成本、顾客等待时长等因素，对配送范围变更的申请进行考量，最终做出通过/拒绝/驳回的结果判定。一级审核员通常为该地区的渠道经理，针对运力等综合因素对审核记录进行考量；二级审核员为外卖平台专职审核人员，将综合考虑配送范围的合理性及更改后的用户体验。考核员的审核具有一定的时效要求，审核效率直接影响合作商家平台活跃性以及商家的合作体验。请根据相关数据集，按任务指定要求，统计并输出审核效率相关的分析图例。
任务描述：
请根据相关表格，参考数据字段同可视化1、（数字任务编号），统计审核效率最高的十位明星审核员，并以柱状图表达。
具体任务要求：
1、根据可视化1中提到的相关字段，汇总各二级审核人审批的申请数量。在PyCharm控制台打印输出审核记录数最多的10位审核人id，审批总数。
示例格式：
1.二级审核人id:***, 审批数量：***条=
2.二级审核人id:***, 审批数量：***条=
……
2、使用Flask框架，结合Echarts，完成柱状图输出。要求标题为“Top10明星审核员”，横坐标为审核人姓名，纵坐标为审核记录数，以审批记录数降序排列。将可视化结果截图并保存（截图需包含浏览器地址栏）。

任务三：双饼图呈现业务包属性占比

任务背景：
外卖平台在不同城市进行推广时应具有不同的侧重方面，城市具有不同的人口数量及特点，例如居住人口数量、工作人口数量、过往人口数量、居民户数和企事业单位数，及相应人口年龄、性别、职业和收入水平构成等。商户业务包是指该商户在经营定位时所确定的主要消费群体。不同城市消费群占比不同，大致可以分为大客户，白领，小客户，高校，家庭，其它六个商业业务包。请根据相关数据集，按任务指定要求，统计并输出城市商户业务包相关的分析图例。
任务描述：
请根据相关数据库表格中“餐厅id，retailer_id，餐厅名称，城市，商户业务包，配送范围，客单价，推单数，接单数，有效完成单数，投诉率，异常率，欺诈单数，拒单数，商户取消数，客户取消数，系统取消数，配送取消异常数，整体时长，接单时长，到店时长，取餐时长，送达时长，商户投诉数，用户投诉数，差评数，好评数，评价数，最远订单距离，该订单整体时效，该订单接单时效，该订单到店时效，该订单取餐时效，该订单送达时效，该订单评价”等字段，统计不同城市的商业业务包组成，并以双饼图表达。
程序输出及可视化输出时请使用商户业务包中文释义，中文释义对应关系如表1所示。
字母缩写中文释义
GKA 大客户
BL 白领
SIG 小客户
GX 高效
FML 家庭
OTH 其他
表1 商户业务包中文释义
具体任务要求：
1、根据相关数据库表格字段，分析北京与深圳两座城市在商户业务包属性占比方面的差异。在PyCharm控制台打印输出两座城市不同商户业务包属性的商家数量，以商家数量降序排列。
示例格式：
北京：1.商户业务包：***, 商家数量：***家=
北京：2.商户业务包：***, 商家数量：***家=
……
深圳：1.商户业务包：***, 商家数量：***家=
深圳：2.商户业务包：***, 商家数量：***家=
……
2、使用Flask框架，结合Echarts，完成双饼图输出。要求标题分别为“北京商户业务包属性占比”（左）、“深圳商户业务包属性占比”（右），顺时针显示次序与打印语句数据一致，将可视化结果截图并保存（截图需包含浏览器地址栏）。

任务四：玫瑰图呈现投诉占比

任务背景：
投诉是顾客对平台管理和服务不满的表达方式，也是企业有价值的信息来源，它为企业探索更多可能。分析顾客投诉的种种因素，把顾客的不满转化满意，锁定他们对平台和产品的忠诚，已成为企业营销实践的重要内容之一。请根据相关数据集，按任务指定要求，统计并输出投诉相关的分析图例。
任务描述：
请根据相关数据库表格，参考数据字段同可视化3、（数字任务编号），统计北京地区，不同“商户业务包”的投诉数量，并以玫瑰图呈现。
具体任务要求：
1、根据相关数据库表格字段，统计北京地区不同商户业务包投诉数量。在PyCharm控制台打印输出不同商户业务包的投诉数量，以投诉数降序排列。
示例格式：
商户业务包：***, 投诉数量：***家=
商户业务包：***, 投诉数量：***家=
……
2、使用Flask框架，结合Echarts，完成玫瑰图输出。要求标题为“北京商户业务包投诉占比”，顺时针显示次序与打印语句数据一致，将可视化结果截图并保存（截图需包含浏览器地址栏）。

任务五：柱状堆叠图呈现审核结果比例

任务背景：
外卖的配送范围一般由外卖平台的业务人员为商家设定，商家也可以根据实际情况向平台申请修改配送范围。通常配送范围并不是毫无棱角的圆形，因为这种划分并没有因地制宜，是不合理的。最大配送距离指的是配送范围中距离商家最远的直线距离，最小配送距离则是配送范围中距离商家最近的直线距离。在申请配送范围修改时，审核员将考虑实际道路限制、综合运力成本、顾客等待时长等因素，对配送范围变更的申请进行考量，最终做出通过/拒绝/驳回的结果判定。请根据相关数据集，按任务指定要求，输出范围审核相关分析图例。
任务描述：
请根据数据库相关表格数据，统计审核通过与拒绝的范围申请记录数量，并以柱状堆叠图表达。
具体任务要求：
1、根据相关表格中“id，Request_id，Walle_id，Retailer_id，retailer_name，retailer_address，etailer_location，City_id，City_name，Grid_id，Carrier_id，Team_id，Applicant_id，Applicant_name，first_auditor_role，first_auditor_candidate_ids，first_auditor_id，first_auditor_name，second_auditor_role，second_auditor_candidate_ids，second_auditor_id，second_auditor_name，status，max_distance_before_edit，min_distance_before_edit，max_distance_after_edit，min_distance_after_edit，area_before_edit，area_after_edit，created_at，updated_at，申请时间，创建时间”等字段，汇总各二级审核人审批的申请数量，并统计其中通过与拒绝的条数。在PyCharm控制台打印输出审核记录数最多的10位审核人id，审批总数，以及其中通过与拒绝的条数，按审批总数降序排列。
示例格式：
1.二级审核人id:**, 审批数量：条，其中通过条，拒绝条=
2.二级审核人id:**, 审批数量：条，其中通过条，拒绝条=
……
2、使用Flask框架，结合Echarts，完成柱状堆叠图输出。要求标题为“审核通过与拒绝对比”，横坐标为审核人id，纵坐标为审核记录数。画出审核数量最多的10位二级审核人记录审批情况，通过记录数蓝（蓝色表示）上方叠加拒绝和驳回记录数（红色表示），以审批总数降序排列。将可视化结果截图并保存（截图需包含浏览器地址栏）。

任务六：散点地图呈现各城市商家数量分布

任务背景：
近年来，我国外卖行业发展迅速，互联网餐饮外卖市场规模逐渐扩大，外卖平台已覆盖全国所有省份。2019全年外卖交易超7274亿元，截至2020年3月，我国网上外卖及手机网上外卖用户渗透率已达44%。2020年底，全国外卖总体订单量已超过171.2亿单。为纵观全国范围内外卖平台签约商家分布情况，请根据相关数据集，按任务指定要求，输出相关分析图例。
任务描述：
请根据相关表格数据，统计不同城市商家数量，并散点地图呈现。
具体任务要求：
1、根据相关表格，参考字段同可视化3、（任务数字编号），统计不同城市商家数量。请在PyCharm控制台以商家数量降序打印输出城市名称，商家数量。
示例格式：
1.城市: ***，商家***个=
2.城市: ***，商家***个=
……
2、使用Flask框架，结合Echarts，完成散点地图输出。标题为“各城市商家数量散点地图”。将可视化结果截图并保存（截图需包含浏览器地址栏）。

模块E：综合分析（20分）

通过模块B的网站分析及数据爬取、模块C的数据清洗与分析及模块D的可视化呈现，我们已经清晰的了解了餐饮外卖平台业务背景及相关数据，在综合理解外卖业务数据的基础上，根据任务要求进行分析，并编写分析报告。
请根据任务要求，分析以下内容，并编写分析报告。分别从商家价值聚类、推单差值等维度对外卖平台推广情况与网格销售表现进行分析，并平台经营提出几点建议。
分析报告要求：

任务一：商家聚类分析

结合平台相关数据文件，以雷达图表示4类商家在核心属性集上的聚类表现。说明商家聚类对平台发展的用途及经营策略影响。分别以文字描述和图例进行说明。

任务二：各地区商户业务包分析

结合模块D可视化分析中对不同地区商户业务包的统计结果，说明图表有哪些差异？说明了什么问题？分别以文字描述和图例进行说明。

任务三：平台规划建议

请结合平台业务背景及相关分析结论，对平台未来规划提出建议（不少于3条建议）。

附录：补充说明
数据集中涉及字段及中文说明：
poi： point of interest 兴趣点
数据表字段中文释义：

看评论区！！！

你可能感兴趣的:(竞赛知识点,文章,大数据,java,spark)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
JSON 与 AJAX Auscy json ajax 前端
一、JSON（JavaScriptObjectNotation）1.数据类型与语法细节支持的数据类型：基本类型：字符串（需用双引号）、数字、布尔值（true/false）、null。复杂类型：数组（[]）、对象（{}）。严格语法规范：键名必须用双引号包裹（如"name":"张三"）。数组元素用逗号分隔，最后一个元素后不能有多余逗号。数字不能以0开头（如012会被解析为12），不支持八进制/十六进制
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
JavaScript 树形菜单总结 Auscy microsoft
树形菜单是前端开发中常见的交互组件，用于展示具有层级关系的数据（如文件目录、分类列表、组织架构等）。以下从核心概念、实现方式、常见功能及优化方向等方面进行总结。一、核心概念层级结构：数据以父子嵌套形式存在，如{id:1,children:[{id:2}]}。节点：树形结构的基本单元，包含自身信息及子节点（若有）。展开/折叠：子节点的显示与隐藏切换，是树形菜单的核心交互。递归渲染：因数据层级不固定，
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
LeetCode 148. 排序链表：归并排序的细节解析进击的小白菜 2025 Top100 详解 leetcode 链表算法
文章目录题目描述一、方法思路：归并排序的核心步骤二、关键实现细节：快慢指针分割链表1.快慢指针的初始化问题2.为什么选择`fast=head.next`？示例1：链表长度为偶数（`1->2->3->4`）三、完整代码实现四、复杂度分析五、总结题目描述LeetCode148题要求对链表进行排序，时间复杂度需为O(nlogn)，且空间复杂度为O(logn)。由于链表的特殊结构（无法随机访问），归并排序
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
【前端】jQuery数组合并去重方法总结
在jQuery中合并多个数组并去重，推荐使用原生JavaScript的Set对象（高效简单）或$.unique()（仅适用于DOM元素，不适用于普通数组）。以下是完整解决方案：方法1：使用ES6Set（推荐）//定义多个数组constarr1=[1,2,3];constarr2=[2,3,4];constarr3=[3,4,5];//合并数组并用Set去重constmergedArray=[...
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Java特性之设计模式【责任链模式】 Naijia_OvO Java特性 java 设计模式责任链模式
一、责任链模式概述顾名思义，责任链模式（ChainofResponsibilityPattern）为请求创建了一个接收者对象的链。这种模式给予请求的类型，对请求的发送者和接收者进行解耦。这种类型的设计模式属于行为型模式在这种模式中，通常每个接收者都包含对另一个接收者的引用。如果一个对象不能处理该请求，那么它会把相同的请求传给下一个接收者，依此类推主要解决：职责链上的处理者负责处理请求，客户只需要将
前端 NPM 包的依赖可视化分析工具推荐前端视界前端艺匠馆前端 npm arcgis ai
前端NPM包的依赖可视化分析工具推荐关键词：NPM、依赖管理、可视化分析、前端工程、包管理、依赖冲突、性能优化摘要：本文将深入探讨前端开发中NPM包依赖可视化分析的重要性，介绍5款主流工具的使用方法和特点，并通过实际案例展示如何利用这些工具优化项目依赖结构、解决版本冲突问题以及提升构建性能。文章将帮助开发者更好地理解和掌控项目依赖关系，提高开发效率和项目可维护性。背景介绍目的和范围本文旨在为前端开
日历插件-FullCalendar的详细使用老马聊技术 JavaScript 前端 javascript
一、介绍FullCalendar是一个功能强大、高度可定制的JavaScript日历组件，用于在网页中显示和管理日历事件。它支持多种视图（月、周、日等），可以轻松集成各种框架，并提供丰富的事件处理功能。二、实操案例具体代码如下：FullCalendar日期选择body{font-family:Arial,sans-serif;margin:20px;}#calendar{max-width:900
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口
EasyCwmp源码分析与接口实现详解：深入理解源码架构，掌握核心接口去发现同类优质开源项目:https://gitcode.com/在开源项目中，寻找一款能够提升开发效率、简化流程的工具是每个开发者的追求。今天，我们要介绍的这款开源项目EasyCwmp，正是为了帮助开发者深入了解源码架构，掌握核心接口实现，从而加速项目开发进程。以下是关于EasyCwmp源码分析与接口实现详解的项目推荐文章。项目
无线鼠标产品整体技术分析总结悟空胆好小计算机外设
无线鼠标产品对比分析，以小米为例文章目录无线鼠标产品对比分析，以小米为例一.小米无线鼠标产品对比1.1小米无线鼠标XMSMSB05YM2.4G单模款1.2小米无线鼠标XMSMSB01YM2.4G+BT双模款二.**单模鼠标与双模的区别****1.连接方式****2.通信性能与可靠性****3.功耗管理****4.适用场景****5.技术扩展性**6.**小结**三.无线鼠标产品技术重点分析3.1.
微软 Bluetooth LE Explorer 实用工具的详细使用分析悟空胆好小 microsoft
微软BluetoothLEExplorer实用工具的详细使用分析文章目录微软**BluetoothLEExplorer**实用工具的详细使用分析1.**工具定位与核心功能**2.**关键特性与更新**3.**使用场景示例**4.**系统要求与依赖**5.**与专业工具对比**6.**局限性**7.**实践建议**结论以下是微软BluetoothLEExplorer实用工具的详细使用分析：1.工具定
蓝牙MTU含义，协商修改的过程案例分析悟空胆好小嵌入式硬件网络人工智能
蓝牙MTU含义，协商修改的过程案例分析文章目录**蓝牙MTU含义，协商修改的过程案例分析****一、MTU含义解析****二、MTU协商过程详解****步骤流程****三、修改MTU的实践案例分析****案例1：中心设备主动设置（主控端）****案例2：外设端响应优化（从设备）****案例3：调试工具强制修改****四、关键限制与注意事项**蓝牙MTU（MaximumTransmissionUni
Maya自定义右键菜单样例教程 holy-pills
本文还有配套的精品资源，点击获取简介：本文详细指导如何在Maya中通过脚本节点自定义右键菜单，增强工作效率和个性化工作环境。自定义右键菜单允许用户根据个人习惯调整菜单项，使之更加便捷。文章介绍了创建脚本节点、编写菜单脚本、关联菜单到视图以及保存和加载自定义菜单的具体步骤。同时提供了实际操作样例，帮助用户更好地理解和应用这一技巧。1.Maya自定义右键菜单的重要性Maya，作为三维动画制作的行业标准
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比