Python是世界上最好的语言

女友想让我带她吃大闸蟹，我用Python做了一个最全吃蟹攻略！拿去用吧！

又到了吃大闸蟹的季节了，你吃了吗！那么为什么这么多人喜欢吃大闸蟹呢？大闸蟹有哪些特点，都有哪些大闸蟹品牌值得关注呢？

今天，就跟随着本文一看究竟吧！让你买到最好，最靠谱的螃蟹！这样吃起来才最美味

目录：

1. 聊聊大闸蟹
2. 数据采集
- 2.1. 页面分析
- 2.2. 采集程序
3. 数据清洗
4. 数据统计
- 4.1. 商品价格分布
- 4.2. 评论数分布
- 4.3. 店铺商品数分布
- 4.4. 好评率分布
5. 其他

1. 聊聊大闸蟹

一般来说，我们常常会称呼螃蟹，而吃螃蟹的人都是很勇敢的人，毕竟要敢于做第一个吃螃蟹的人。

螃蟹一般根据生活水域的不同而分为河蟹和海蟹，比如大闸蟹就是河蟹额一种，帝王蟹那种超大的就是海蟹的一类。

大闸蟹都有哪些营养价值呢？

大闸蟹营养丰富，据《本草纲目》记载：螃蟹具有舒筋益气、理胃消食、通经络、散诸热、散瘀血之功效。蟹肉味咸性寒，有清热、化瘀、滋阴之功，可治疗跌打损伤、筋伤骨折、过敏性皮炎。蟹壳煅灰，调以蜂蜜，外敷可治黄蜂蜇伤或其他无名肿毒。蟹肉也是儿童天然滋补品，经常食用可以补充优质蛋白和各种微量元素。

——百科

美味的大闸蟹！

膏多的大闸蟹

一般我们看网上的大闸蟹商品，出现较多的字眼就是鲜活、公母以及两（重量单位），那么这都是什么含义呢？

所谓鲜活，其实就是指你网购且到你手上的大闸蟹是活的状态，毕竟到手的是死蟹再烹饪谁知道会出现啥异常问题。

鲜活度判断-(来自:知乎张美丽)

所谓公母，其实就是大闸蟹的性别雌雄，公蟹的肚脐是尖尖的，而母蟹的肚脐是圆的（毕竟要放卵）。一般建议是农历八九月里可以挑母蟹，农历九月过后（也就是国庆节后）优先选公蟹。

公母判断

所谓两，就是重量单位指大闸蟹的体重，1两=50g。当然了，基本上越大越肥美了！！不过，越大价格也越贵~~

大闸蟹大小对比-(来自:知乎张美丽)

特别注意，在吃大闸蟹的时候，有四个部位不能吃，这些部位主要是有些很多寄生虫和细菌啥的。

不要吃的四个部位

大闸蟹的简单介绍就到这了，接下来我们看看京东中秋节大闸蟹的路子吧！

2. 数据采集

本次才哥采集的是京东商城里带有中秋节标签的大闸蟹商品信息，采集过程如下：

2.1. 页面分析

页面

通过进行下滑操作，我们发现单纯从页面来看默认展示30个商品信息，下滑会加载另外30个，此时的网页地址不变；当我们翻页时，发现网页地址发生变化，其中page从1变成了3。于是，我们猜测其实每个页面是两页page，于是尝试手动修改page发现确实如此。最后，我们获得网页地址规律如下：

# page是变化的，其他不变
url=  f'https://search.jd.com/Search?keyword=%E5%A4%A7%E9%97%B8%E8%9F%B9&qrst=1&wq=%E5%A4%A7%E9%97%B8%E8%9F%B9&icon=10000835&pvid=4fe80bcfa36b422e978bd65a0d579e64&page={page}'

当然，大家也可以将上面的地址变成基础地址+参数的形式，其中可变参数为keyword和page，方便进行其他商品的数据采集，这里我就不展开了。

我们通过请求这个网页地址，可以获取需要的商品信息如下：

商品信息

不过，实际操作中我们发现请求到的网页数据中其他信息都包含但是唯独不包含评价数信息，而评价数的信息需要点进去具体的商品页面进行采集。好在我们进到商品页面发现评价信息是以json数据形式存在，比较好解析，而且接口api非常明确，可以直接通过商品id这一个参数即可进行请求获取。

2.2. 采集程序

经过对页面的分析以及一些尝试，我们最终确定了采集方法。

引入需要的库

import requests
import pandas as pd
from lxml import etree
import re
import json

headers = {
    # "Accept-Encoding": "Gzip",  # 使用gzip压缩传输数据让访问更快
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36",
    # "Cookie": cookie
    }

采集页面信息

页面数据采集需要传入的参数只是page页码即可

def get_html(page):
    url=  f'https://search.jd.com/Search?keyword=%E5%A4%A7%E9%97%B8%E8%9F%B9&qrst=1&wq=%E5%A4%A7%E9%97%B8%E8%9F%B9&icon=10000835&pvid=4fe80bcfa36b422e978bd65a0d579e64&page={page}'    
    r = requests.get(url, headers=headers, timeout=6)
    
    return r

采集评论数据

采集评论数据只需要传商品id即可，这里需要注意的是这个接口貌似有访问时间限制或频次限制（我这边采集完是用的代理ip）

# 获取评论信息
def get_comment(productId):
    # time.sleep(0.5)
    url = 'https://club.jd.com/comment/skuProductPageComments.action?'
    params = {
            'callback': 'fetchJSON_comment98',
            'productId': productId,
            'score': 0,
            'sortType': 6,
            'page': 0,
            'pageSize': 10,
            'isShadowSku': 0,
            'fold': 1,
            }

    r = requests.get(url, headers=headers, params=params, timeout=6)
    comment_data = re.findall(r'fetchJSON_comment98\((.*)\)', r.text)[0]
    comment_data = json.loads(comment_data)
    comment_summary = comment_data['productCommentSummary']
    
    return comment_summary

解析页面其他信息

页面显示一共41页，所以这里我手动设置的是82页，解析操作采用的是xpath

def get_data():
    df = pd.DataFrame(columns=['productId', 'price', 'name', 'shop', '自营'])
    for page in range(1,82):
        r = get_html(page)
        r_html = etree.HTML(r.text)
        lis = r_html.xpath('.//li[@class="gl-item"]')
        for li in lis:
            item = {
                     "productId": li.xpath('./@data-sku')[0], # id
                     "price": li.xpath('./div/div[@class="p-price"]/strong/i/text()')[0], # 价格
                     "name": ''.join( li.xpath('./div/div[@class="p-name p-name-type-2"]/a/em/text()')) ,# 商品名
                     "shop": li.xpath('./div/div[@class="p-shop"]/span/a/text()')[0], # 店铺名
                     "自营": li.xpath('./div/div[@class="p-icons"]/i/text()'), # 自营
                     }

            comment_summary = get_comment(item['productId'])
            item['commentCount'] = comment_summary['commentCountStr']
            item['goodRate'] = comment_summary['goodRate']
            df = df.append(item, ignore_index=True)
            
        print(f'\r第{page}/82页数据已经采集', end='')

最终，我们得到的数据如下：

数据预览

3. 数据清洗

打开存在本地的数据文件，发现里面存在大闸蟹的一些衍生品，比如蟹八件、蟹膏等等，这些商品数据是需要删除的；此外，像name字段里存在非字符，commentCount字段里有+和万等字眼也需要替换处理；最后就是爬取过程中采集的数据可能存在重复，需要按照productId去重等等。

数据信息

>>>df.info()


RangeIndex: 2653 entries, 0 to 2652
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   productId     2653 non-null   int64  
 1   price         2653 non-null   float64
 2   name          2653 non-null   object 
 3   shop          2651 non-null   object 
 4   自营            2653 non-null   object 
 5   commentCount  2653 non-null   object 
 6   goodRate      2653 non-null   float64
dtypes: float64(2), int64(1), object(4)
memory usage: 145.2+ KB

无关数据清理

发现在name商品名称中，都用到公、母以及两字眼，我们可以根据这个信息进行无关数据清理

>>>df = df[(df['name'].str.contains('公|母'))&(df['name'].str.contains('两'))]
>>>df.info()


Int64Index: 1774 entries, 0 to 2272
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   productId     1774 non-null   int64  
 1   price         1774 non-null   float64
 2   name          1774 non-null   object 
 3   shop          1774 non-null   object 
 4   自营            1774 non-null   object 
 5   commentCount  1774 non-null   object 
 6   goodRate      1774 non-null   float64
dtypes: float64(2), int64(1), object(4)
memory usage: 110.9+ KB

一下子清理了好多！！

特殊字符处理

df.name = df.name.str.replace(r'\s','',regex=True)
df.commentCount = df.commentCount.str.replace('+','',regex=True).str.replace('万','0000',regex=True)
df.head()

无关数据清理

重复数据删除

>>>df.drop_duplicates(subset='productId', inplace=True)
>>>df.info()


Int64Index: 1546 entries, 0 to 2272
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   productId     1546 non-null   int64  
 1   price         1546 non-null   float64
 2   name          1546 non-null   object 
 3   shop          1546 non-null   object 
 4   自营            1546 non-null   object 
 5   commentCount  1546 non-null   object 
 6   goodRate      1546 non-null   float64
dtypes: float64(2), int64(1), object(4)
memory usage: 96.6+ KB

又清理了不少！！

数据类型转换

我们发现，在各字段数据类型中，commentCount评论数居然还是数字类型，那就转化一下吧。

df.commentCount = df['commentCount'].astype('int')

数据清洗完毕，我们开始做简单的统计分析展示吧！

4. 数据统计

以下，我们将从商品价格分布、评论数分布、店铺商品数分布和好评率进行统计展示，同时我们也可以将根据商品名称进行解析出公母以及重量相关数据再做探索！

4.1. 商品价格分布

# 直方图
df.price.plot.hist(stacked=True, bins=20)

价格直方图

可以看到，大部分价格在1000以内，超过600/1546件商品价格在300以内。

# 箱线图
df[['price']].boxplot(sym="r+")

价格箱线图

我们按照0-100,100-200,200-300,300-600,600-1000,1000+分类看看，可以发现300-600区间的商品占比最多！！

# 绘图代码
import matplotlib.pyplot as plt
from matplotlib import font_manager as fm

bins= [0,100,200,300,600,1000,999999]
price_Num = df['price'].groupby(pd.cut(df.price, bins= bins)).count().to_frame('数量')
labels = price_Num.index
sizes = price_Num['数量']
explode = (0, 0, 0, 0.1, 0, 0) 

fig1, ax1 = plt.subplots(figsize=(10,8))
patches, texts, autotexts = ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
                                    shadow=True, startangle=90)
ax1.axis('equal') 

# 重新设置字体大小
proptease = fm.FontProperties()
proptease.set_size('large')
plt.setp(autotexts, fontproperties=proptease)
plt.setp(texts, fontproperties=proptease)

plt.show()

商品最贵的几件

可以看到最贵的大闸蟹基本都是重量级的，来自诚蟹一品，不过销量应该一般，毕竟评论数少。不过是真的大公的都有7两多，母的都是5-6两，而常规卖的基本都是4两左右价格400左右！！

# 单元格数据全显示
pd.set_option('display.max_colwidth',1000)
df.nlargest(5,'price',keep='first')

最贵大闸蟹

4.2. 评论数分布

大部分的商品评论数集中在200以下，有5个商品的评论数超过10万。不过，我们基本可以认定像这种10万+评论数的商品基本都是买的最多的！

bins= [0,100,200,500,1000,5000,10000,100000,9999999]
comment_Num = df['commentCount'].groupby(pd.cut(df.commentCount, bins= bins)).count().to_frame('数量')
labels = list(comment_Num.index)[:7]
labels.extend(['10万+'])
comment_Num = df['commentCount'].groupby(pd.cut(df.commentCount, bins= bins, labels=labels)).count().to_frame('数量')

评论数分布

买的人最多的基本都是公蟹4两左右+母蟹3两左右的8只组合装，价格在200-400之间，属于大众消费品吧！

df.nlargest(5,'commentCount',keep='first')

评论数也就是销量

这些商品基本也是你在京东搜索的时候出现在综合推荐前几位的吧！

综合推荐前几

4.3. 店铺商品数分布

诚蟹一品旗舰店是商品数最多的，高达79款，不过整体销量一般，感觉看前面他们家高达6000块以上的礼品盒，大概只做高端吧！

相比之下，姑苏渔歌京东自营旗舰店的商品数量多且销量也多。

店铺商品最多

import matplotlib.pyplot as plt
import numpy as np

plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

shopNum1= df.groupby('shop').agg(总商品数=('productId','count'),
                                 总评数=('commentCount',sum)
                                ).sort_values(by='总商品数', ascending=False).head(10)

# 设置柱状图颜色
colors = ['turquoise', 'coral']

labels = shopNum1.index
y1 = shopNum1.总商品数
y2 = shopNum1.总评数 / 10000

x = np.arange(len(labels))  
width = 0.35  

fig, ax = plt.subplots(figsize=(8,8))
rects1 = ax.barh(x + width/2, y1, width, label='总商品数', color=colors[0], edgecolor='grey')
rects2 = ax.barh(x - width/2, y2, width, label='总评数', color=colors[1], edgecolor='grey')

ax.set_title('商品数最多前10商店数据')
y_pos = np.arange(len(labels))
ax.set_yticks(y_pos)
ax.set_yticklabels(labels)
ax.legend()

# 显示数据标签
ax.bar_label(rects1, padding=3)
ax.bar_label(rects2, padding=3)

fig.tight_layout()

plt.show()

我们再看看销量高的店铺都有哪些！

可以看到，三家自营店：今锦上生鲜京东自营旗舰店、姑苏渔歌京东自营旗舰店、阳澄联合京东自营旗舰店销量遥遥领先！

销量高的店铺

4.4. 好评率分布

只看评价数超过1万的商品共27件，有一半商品好评率都在98%以上，相对来说整体都不错，买就买销量多且好评率高的吧，就是比较稳！

import matplotlib.pyplot as plt

# 中文及负数显示
plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
plt.rcParams['axes.unicode_minus'] = False

# 创建画布
fig, ax = plt.subplots(figsize=(8, 4), dpi=100)

# 案例数据
data = goodRateNum.数量

# 作图参数
index = goodRateNum.index.astype('str')
bar_width = 0.4

# 设置柱状图颜色
colors = ['turquoise']

# 柱状图
bar = plt.bar(index, data, bar_width, color=colors[0], edgecolor='grey')

# 设置标题
ax.set_title('1万+评价的商品好评率分布', fontsize=12)

# 显示数据标签
ax.bar_label(bar, label_type='edge')

plt.show()

关于按照商品名称中的大闸蟹重量来进行深度探索，大家可以自行试试哦！

需要此篇文章的完整代码或教程点这里即可获取！

5. 其他

其实，如果你想更深一步了解不同商品的用户评价，可以参考 2.2.采集程序中对评价信息的部分，这部分做循环然后就可获取全部的评论数据，然后再进行对应数据分析。

关于京东大闸蟹，通过商品名称我们可以得到以下热词云图：

基本都是公蟹、母蟹和礼券等关键字咯。。。

你可能感兴趣的:(Python,程序员,python,爬虫,数据可视化,数据分析,词云图)

Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Elasticsearch 入门教学：从零开始掌握分布式搜索引擎格子先生Lab 搜索引擎 elasticsearch 分布式
引言Elasticsearch是一个开源的分布式搜索引擎，基于ApacheLucene构建，能够实现近乎实时的数据搜索和分析。它广泛应用于日志分析、全文搜索、数据可视化等场景。本文将带你从零开始学习Elasticsearch，掌握其基本概念、安装配置、数据操作及搜索功能。1.Elasticsearch简介1.1什么是Elasticsearch？Elasticsearch是一个分布式的RESTful
python递推法_如何使用Python递归函数中的递推？热茶走 python递推法
我们大家都知道，一个函数可能存在多种不同的用法，很少是有函数只针对一个方式，那么基于一种函数，我们肯定要了解多个方式，今日针对递归函数里的递推内容给大家介绍哦~递归是什么？是指函数/过程/子程序在运行过程序中直接或间接调用自身而产生的重入现象。下面是个人理解：递归就是在函数内部调用自己的函数被称之为递归。实例：#直接调用自己：deffunc:print('fromfunc')funcFunc#间接
python递推式_Python 递推式构造列表(List Comprehensions) man One python递推式
你需要构造一个新的列表,列表中的元素是从一个已知列表中的元素计算而得到的.比如你要创建一个列表,里面的元素是另一个列表中的元素加23后得到的.使用递推式构造列表是最理想的方法:thenewlist=[x+23forxintheoldlist]如果你希望用一个列表中大于5的元素构造一个新的列表,使用递推式也是很方便的:thenewlist=[xforxintheoldlistifx>5]如果你希望将
zookeeper程序员指南 weixin_30326741 java 运维 shell
1简介本文是为想要创建使用ZooKeeper协调服务优势的分布式应用的开发者准备的。本文包含理论信息和实践信息。本指南的前四节对各种ZooKeeper概念进行较高层次的讨论。这些概念对于理解ZooKeeper是如何工作的，以及如何使用ZooKeeper来进行工作都是必要的。这几节没有代码，但却要求读者对分布式计算相关的问题较为熟悉。本文的大多数信息以可独立访问的参考材料的形式存在。但是，在编写第一
Dash 简介 tankusa dash
Dash是一个基于Python的开源框架，专门用于构建数据分析和数据可视化的Web应用程序。Dash由Plotly团队开发，旨在帮助数据分析师、数据科学家和开发人员快速创建交互式的、基于数据的Web应用，而无需深入掌握前端技术（如HTML、CSS和JavaScript）。Dash的核心优势在于其简单易用性和强大的功能。通过Dash，用户可以使用纯Python代码来构建复杂的Web应用，而无需编写繁
视频下载插件：yt-dlp 小怪兽长大啦 python
Yt-dlp插件使用下载方法方法一：Python插件下载使用pip工具安装即可:pipinstallyt-dlp.Python已经配置过环境变量，下载yt-dlp时不需要配置。方法二：直接下载EXE可执行文件网上下载yt-dlp应用程序：https://github.com/yt-dlp/yt-dlp/releases配置环境变量。常用使用命令（配置好环境变量后，控制台下输入命令即可）直接下载视频
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Python __init__.py 愚昧之山绝望之谷开悟之坡 python init
Python__init__.py作用详解尼古拉苏关注12018.06.1012:57:34字数745阅读45,278转载于：https://www.cnblogs.com/tp1226/p/8453854.html__init__.py该文件的作用就是相当于把自身整个文件夹当作一个包来管理，每当有外部import的时候，就会自动执行里面的函数。1.标识该目录是一个python的模块包（modul
逆天！外包都开始嫌弃外包了。。。 java
大家好，我是R哥。最近看我的Java面试群里聊天真的笑死了。。。外包卡学历不说，外包都要提交之前干过的所有公司社保流水来验证年限不说，现在连外包都开始嫌弃从外包出来的了？真是滑天下之大稽，现在有的外包公司都不要脸到这地步了吗？说到外包，我发现很多程序员对外包公司offer都有一种复杂的感情，既离不开它，又看不上它，食之无味，弃之可惜，拿了个外包的offer纠结万分。很多大厂项目一多、人手不够的时候
利用Java爬虫获取衣联网商品详情：实战指南 Jason-河山 java 爬虫开发语言
在电商领域，获取商品详情是数据分析和市场研究的重要环节。衣联网作为知名的电商平台，提供了丰富的服装商品资源。本文将详细介绍如何利用Java编写爬虫程序，通过商品ID获取衣联网商品详情。一、准备工作（一）环境搭建Java安装：确保已安装Java开发环境，推荐使用JDK11或更高版本。开发工具配置：使用IntelliJIDEA或Eclipse等Java开发工具，创建一个新的Maven项目。依赖库添加：
面试了一个 7 年 Java 程序员，结果真让我哭笑不得。。。 java
大家好，我是R哥。作为一名资深的Java程序员、面试官，同时也做后端面试辅导，面试过许多人，也见过不少神奇的面试经历。但昨晚的一次模拟面试，真的让我哭笑不得。这兄弟来自92名校，毕业7年，干了几个中厂，想冲大厂，目标：40K，于是想模拟面试一下，体验下我们导师的实力。模拟面试之前，说自己八股文准备好了，面试完，竟然连许多常见的八股文都答不上来，而且他还很疑惑地问我：“你们的面试题是哪来的？怎么和我
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
程序员如何用DeepSeek让代码效率翻倍？这份实战手册请收好后端
最近公司新来的实习生小张让我眼前一亮，上周他只用三小时就完成了原本需要两天的工作量——优化一个老旧的后端接口。当我翻开他的代码才发现，这个00后小伙子的秘密武器居然是个叫DeepSeek的AI工具。你可能已经注意到，GitHub上越来越多的开源项目开始标注"DeepSeek适配"的字样。这个由中国团队自主研发的大模型，正在悄然改变程序员的工作方式。还记得去年调试分布式系统时的痛苦经历吗？当时我对着
使用Yarn创建Grafana模板的完整指南云服务器linux运维yarn
在本篇文章中，我将带你逐步完成如何使用Yarn生成Grafana模板的过程。Grafana是一款开源的数据可视化工具，我们可以使用它来创建各种仪表板，以便更好地监控和展示数据。请跟随我一起来完成这一过程。整体流程概览在开始之前，我们先来看看整个操作的流程。以下是步骤的概述，以表格形式展示：步骤描述1安装Node.js和Yarn2创建新的Yarn项目3安装Grafana的API客户端库4编写Graf
有趣的学习Python-第十篇：Python的“魔法宝库”：标准库之旅王盼达有趣的学习Python 学习 python 开发语言
Python不仅是一门强大的编程语言，更像是一座充满宝藏的“魔法宝库”，里面装满了各种各样的“魔法工具”（标准库）。这些“魔法工具”可以帮助你轻松地完成各种任务，从文件操作到网络编程，从数据处理到性能优化。接下来，让我们一起探索Python的“魔法宝库”，看看这些“魔法工具”到底有多神奇！10.1操作系统接口：与“魔法世界”互动os模块就像是一个“魔法接口”，可以帮助你与操作系统进行互动。你可以用
有趣的学习Python-第八篇：Python的“魔法盾牌”：错误与异常处理王盼达有趣的学习Python 学习 python 开发语言
在Python的魔法世界里，即使是经验丰富的魔法师也可能遇到一些“魔法失误”。这些失误分为两种：语法错误和异常。别担心，Python为你准备了一面强大的“魔法盾牌”，帮助你应对这些挑战。8.1语法错误：魔法咒语写错了语法错误就像是你在念魔法咒语时，不小心说错了单词。这是学习Python过程中最常见的问题。比如，你可能忘记在while循环后面加上冒号：whileTrueprint('Hellowor
java vscode跳转类定义_快速使用 vscode 进行 Java 编程 weixin_39894932 java vscode跳转类定义
任何一个程序员都有自己喜爱的编辑器、工具、开发利器，有这样一群人，对于vim这种上古神器难以驾驭、IDE又太笨重，这时候多了一个选择vscode！！！vscode重新定义了编辑器，它开源、免费、Runseverywhere，是一款介于IDE和编辑器之间的产物，我们不能用IDE的所有特性都往它身上压，如果都可以的话不就是IDE吗？不就是吗？所以用起来的感觉你懂的，美滋滋(๑•̀ㅂ•́)✧那么这家伙都
Python字符串操作 weixin_30871905 python
转自http://blog.chinaunix.net/u/19742/showart_382176.html#Python字符串操作'''1.复制字符串'''#strcpy(sStr1,sStr2)sStr1='strcpy'sStr2=sStr1sStr1='strcpy2'printsStr2'''2.连接字符串'''#strcat(sStr1,sStr2)sStr1='strcat'sSt
CentOS停更；阿里发布全新操作系统（Anolis OS）萌褚 Linux 运维
镜像下载、域名解析、时间同步请点击阿里云开源镜像站Linux系统对于Java程序员来说，就好比“乞丐手里的碗”，任何业务都离不开他的身影，因为服务端的广泛使用，也因此衍生出了各种不同的发行版，其中我个人用的最多、且最喜欢的就是CentOS；不幸的是，2021年底CentOS8宣布停止了维护；不过，喜欢CentOS的朋友们不用为此而难过；21年的云栖大会上，阿里云发布全新操作系统“龙蜥”（Anoli
零基础必看！CCF-GESP Python一级考点全解析：运算符这样学就对了奕澄羽邦 python 开发语言
第一章编程世界的基础工具：运算符三剑客在Python编程语言中，运算符如同魔法咒语般神奇。对于CCF-GESPPython一级考生而言，正确掌握比较运算符、算术运算符和逻辑运算符这三大基础工具，就相当于打开了数字世界的大门。这三个运算符家族共同构成了程序逻辑的核心骨架，其灵活组合能实现从简单计算到复杂判断的多样功能。1.1运算符分类图谱算术运算符：负责数字间的数学运算（+-*/%）比较运算符：用于
Python 字符串操作 iteye_13776 Python Python C C++C#
Python截取字符串使用变量[头下标:尾下标]，就可以截取相应的字符串，其中下标是从0开始算起，可以是正数或负数，下标可以为空表示取到头或尾。#例1：字符串截取str='12345678'printstr[0:1]>>1#输出str位置0开始到位置1以前的字符printstr[1:6]>>23456#输出str位置1开始到位置6以前的字符num=18str='0000'+str(num)#合并字
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
50 种不同编程语言的“Hello World”，你知多少？逗逗逗逗666 编程 hello world 编程语言
当我们学习一门编程语言时，都是从“Hello,World!”开始。所有程序员在其职业生涯中，都至少接触过一个经典的“Hello,World!”程序。通常程序员会使用多种编程语言，多的甚至实现了十几种。还有一种称为TTHW（Timeto“Hello,World!”）的方法，来衡量程序员创建一个新的“Hello,World!”程序的时间。你可以用多少种不同的语言编写一个“Hello,World!”程序
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
C++11之列表初始化 Octopus2077 c++学习笔记
发展历史C++11是C++的第⼆个主要版本，并且是从C++98起的最重要更新。它引⼊了⼤量更改，标准化了既有实践，并改进了对C++程序员可⽤的抽象。在它最终由ISO在2011年8⽉12⽇采纳前，⼈们曾使⽤名称“C++0x”，因为它曾被期待在2010年之前发布。C++03与C++11期间花了8年时间，故⽽这是迄今为⽌最⻓的版本间隔。从那时起，C++有规律地每3年更新⼀次。列表初始化（注意区分列表初始
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl