CSDN资讯

Python 分析在德的中国程序员，告别 996 ？

作者 | 李辉

责编 | 胡巍巍

出品 | 程序人生（ID:coder_life）

今年5月27日，一位据说在德国的中国程序员@将记忆深埋在微博公布：

“半年时间，100多TB数据，利用1024、91、sex8、PornHub、xvideos 等网站采集的数据对比Facebook、instagram、TikTok 、抖音、微博等社交媒体。我们在全球范围内成功识别了10多万从事不可描述行业的小姐姐。”

热炒之下，这套Deep Learning系统瞬间炸了锅，顺便炸翻了在德国处于懵逼状态的一众平时安安静静老老实实的程序员：我们身边竟然藏着这样一个人？！

这引起了我对在德中国籍程序员的行业分类以及专业方向等相关数据的好奇。长期以来德国一直面临着劳动力短缺，特别是工程技术方向，尤其是IT专业人才的极度缺乏，以至于德国政府将这些专业的人才获得欧盟蓝卡的最低年薪标准降到了税前41808欧元（2019）。换句话说，软件信息专业的同学毕业后在德国很容易找到工作，并且获得蓝卡工作居留许可。近年来身边来自印度，俄罗斯，中国的程序员也在逐年增加。那么中国程序员在德国到底从事那些行业呢？

蓝卡和德国程序员数据

先在网上找了一圈，没有找到特别针对中国籍程序员的数据分析，只找到关于蓝卡和在德国工作的程序员的数据分析。

蓝卡数据

2013-2018年，超过76000外籍人员持蓝卡在德国工作。2017年德国共有21727外国人申请蓝卡工作签证，其中中国国籍申请者占了近10%。这说明仅2017年，就有二千多中国籍雇员申请了蓝卡，这其中IT从业者占比未知。假设IT软件信息领域的中国雇员只占比其中10%，那么过去五年中就有约800名中国籍程序员拿到蓝卡。实际上根据生活和工作的接触，我保守估计在德中国籍程序员数量超过1500人。

据2016年数据，欧盟蓝卡签证的所在申请国，84%位于德国，可以说几乎整个欧盟的外国工程师都来德国找工作了。

在德国工作的程序员数据

据来自Stack Overflow的德国IT数据分析，2016年全德国有超过120000软件开发人员，2017年暴增超过820000。不过82万这个数字不可信，毕竟德国总人口才八千多万，如果是将近1%的占比，德国不至于一直闹码农荒。可信的十几万程序员中，软件开发方向数据如下：Web开发占比65.51%，系统管理员位居第二，数据库管理员第三。仅仅这三个方向就吃掉了75%的占比，为什么德国程序员看起来很偏科，爆火的机器学习和数据分析才各占4%左右。

这是因为德国IT行业大多为德国的支柱产业服务，如汽车、制药、机械、电子等，这些公司所需的企业内部管理软件如今多为SaaS构架，同时因为传统行业对云服务的怀疑和不信任态度，亦或安全原因，他们又维护着大量的企业私有服务器，和企业级数据库。所以不难理解前三甲总合占比之大。

虽说国内的移动开发趋势这两年有点弱，但德国的iOS和Android移动开发就从来没有强过，因为缺乏B2C土壤，传统企业一般也不重视移动开发（未必需要），相关产业很多都外包于东欧或者印度，中国的团队。

在德中国程序员数据分析

网络上暂时没有发现任何关于这些可能存在的1500名中国程序员的数据，这就尴尬了，没数据怎么分析？

—-本文只好结束—-

等等，平时管理的几个德国的IT行业微信群不就是最好的数据源？群友加起来也有500多人了，样本虽不大，但毕竟还是遵循正态分布的。不过必须用Python 3开发一套脚本来收集和处理相关数据。

在德中国程序员做什么

专业方向&工作领域&开发语言和框架的数据采集

如果使用匿名调查报告方式，扰民且又费时费力，此类信息只能从群昵称上打主意了，首先是发群公告规范群友昵称标准：

大部分群友按标准改了昵称，但是还有一部分死硬派坚决不改，又不能经常发群消息提醒，只能开发机器人自动提醒了。微信机器人Wxpy是一个包装得非常简洁的微信个人号 API，在 itchat 的基础上，通过大量接口优化提升了模块的易用性，并进行丰富的功能扩展，一些常见的场景：

运行脚本时自动把日志发送到你的微信
群成员信息获取，邀请或者踢人
跨号或跨群转发消息
监听群聊或者单聊的信息
通过脚本和第三方API交互，比如图灵聊天机器人、智能办公、智能家居

开发需求

获取群聊群成员信息
找出所有群昵称不符合标准的群友
随机抽取5人，在群里发布改昵称提醒消息
同时将这次提醒的5人，存储进数据库
每天早八点晚八点两次定时启动昵称检查脚本
某人在将来被提醒次数超过10次，还不予配合不改昵称时，将自动踢出群
新群友被邀请进入群时，立刻发送群规提示改昵称

开发分解

该任务所需第三方库如下：

pip3 install wxpy
pip3 install apscheduler
pip3 install pymysql
pip3 install DBUtils

1. 建库建表

本文采用的是MySQL，后期可以扩展支持Postgre或者MongoDB。

因为需要存储微信表情字符集，所以表的默认编码采用utf8mb4_unicode_ci。

DROP TABLE IF EXISTS `wx_chat_group`;
CREATE TABLE `wx_chat_group` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` VARCHAR(64) COLLATE utf8mb4_unicode_ci  NOT NULL DEFAULT '',
  PRIMARY KEY `id` (`id`)
)
ENGINE = InnoDB
DEFAULT CHARSET = utf8mb4 COLLATE utf8mb4_unicode_ci;

INSERT INTO `wx_chat_group` (`id`, `name`) VALUES (1, '德国IT职业信息分享群');

-- 每次抽取的不合规格的昵称将存储如表以供计数
DROP TABLE IF EXISTS `wx_chat_nickname_check`;
CREATE TABLE `wx_chat_nickname_check` (
  `id` BIGINT(20) NOT NULL AUTO_INCREMENT,
  `group_id` int(9) UNSIGNED NOT NULL,
  `wx_puid` VARCHAR(16) COLLATE utf8_unicode_ci NOT NULL DEFAULT '',
  `nickname` VARCHAR(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT 'Create time',
  PRIMARY KEY `id` (`id`),
  INDEX `idx_group_id` (`group_id`),
  INDEX `idx_create_time` (`create_time`)
)
ENGINE = InnoDB
DEFAULT CHARSET = utf8mb4 COLLATE utf8mb4_unicode_ci;

2. 用户设置

所有用户自定义变量存入conf文件里，如群名、临时存储路径、数据库接入信息，踢人阈值：

[wechat]
group_name_1=德国IT职业信息分享群
group_id_1=1

path_tmp=/opt/tmp/

notice_random=5
kick_max=10
tuling_api_key=xxxxx

[mysql]
mysql_host=localhost
mysql_port=3306
mysql_user=root
mysql_pwd=xxxx
mysql_database=wechat_group_ibot

3. 监听群消息

初始化群聊对象，并且监听群消息

# 查找群聊，并且设置附加属性，以备后用
def init_group(group_name, group_id):
    group = ensure_one(bot.groups().search(group_name))
    group.ext_attr = lambda: None
    setattr(group.ext_attr, 'group_id', group_id)
    setattr(group.ext_attr, 'group_name', group_name)
    return group

# 初始化微信机器人bot
bot = Bot(cache_path=True, console_qr=True)
# unique chat person's id
bot.enable_puid()

# 读取自定义参数
cf = configparser.ConfigParser()
cf.read('wechat.conf')
group_name_1 = cf.get('wechat', 'group_name_1')
group_id_1 = cf.get('wechat', 'group_id_1')

# 初始化群聊对象
group_1 = init_group(group_name_1, group_id_1)

# 监听类型为NOTE的群消息，如："aa"邀请"bbb"加入了群聊
@bot.register(group_1, NOTE)
def welcome_for_group(msg):
    try:
        new_member_name = re.search(r'邀请"(.+?)"|"(.+?)"通过', msg.text).group(1)
    except AttributeError:
        return
    group_1.send(welcome_text.format(new_member_name, space_after_chat_at))

# 保持bot持续运行
bot.join()

4. 昵称检查

检查群友昵称，存入数据库并且发送提醒, 具体逻辑代码这里不予累述。

def check_nickname(nickname):
# 正则检验群昵称是否标准
if re.match(r'([一-龥]|[ -~]|[sS])+|([一-龥]|[ -~])+|([一-龥]|[ -~])+', nickname):
        return True
    else:
        return False

......

# 检查群友昵称
def process_group_members(group):
    # 每次检查前先刷新群成员信息，避免用户改了昵称后再次被提醒
    # 但刷新会改变成员临时的内部puid，所以检查昵称必须同时结合puid和nickname
    group.update_group(members_details=False)
    ......
    for member in group:
        nickname = member.name
        wx_puid = member.puid
        if not check_nickname(nickname):
            invalid_member = GroupMember(nickname, wx_puid, 0)
            invalid_members.append(invalid_member)

   .....
   # 随机抽取不合格的5人
   random_members = random.sample(invalid_members, k=5)
   ......

# 将本次提醒群友存入数据库，供下次计数
def insert_invalid_name(group_id, wx_puid, nickname):
    bot_db.execute("INSERT INTO wx_chat_nickname_check (`group_id`, `wx_puid`, `nickname`)"
                   " VALUES (%s, %s, %s)",
                   (group_id, wx_puid, nickname))

# 获取昵称不合规群友被提醒计数
def get_invalid_name_count(group_id, wx_puid, nickname):
    result = bot_db.get_count("SELECT id FROM wx_chat_nickname_check "
                              "WHERE group_id = %s and (wx_puid = %s or nickname = %s)", (group_id, wx_puid, nickname))
    return result

5. 数据库连接池

这里的数据库连接使用了数据库连接池：DBUtils.PersistentDB

DBUtils.PooledDB: 适用于多线程频繁开启关闭数据库连接

DBUtils.PersistentDB：适用于单线程多次频繁连接数据库

如果不采用线程池而是采取直连，那么运行一段时间后，脚本将出现该错误

pymysql.err.OperationalError: 2006

这里将DBUtils再次封装了一下，写了一个单例模式BotDatabase，提供了query(select), execute(update, delete) 以及批处理execute等常用接口。

6. 启动定时器

# 早八点晚八点各执行检查一次
def start_schedule_for_checking_member(group):
    scheduler = BlockingScheduler()
    scheduler.add_job(lambda: process_group_members(group), 'cron', hour=8, minute=1, timezone="Europe/Paris")
    scheduler.add_job(lambda: process_group_members(group), 'cron', hour=20, minute=1, timezone="Europe/Paris")

最终成果

已知问题

在消息中输入 @群员昵称并不能真正让该群友收到@提示（显示推送提示），微信App里是在@群员昵称后自动加上了一个特殊的显示空白的字符u’ ′。但是经测试，加上这个符号也不行，推测是微信Web API基于防范垃圾推送，屏蔽了群提示接口。

wxpy的bot在运行一段时间后会停止工作，出现连接服务器错误，必须重新登录，推测是微信Web API的Session安全机制导致的问题。

数据清洗

一段时间后大部分群友修改了昵称，于是有了在德中国程序员职业和专业方向的数据，经清洗后，导出CSV规格如下。

数据分析

该任务所需第三方库如下：

pip3 install pandas
pip3 install matplotlib
pip3 install jieba
pip3 install wordcloud
pip3 install seaborn
pip3 install palettable

开发需求

在德程序员男女比例
在德IT软件专业在职和学生比例
分析在德程序员所处行业和专业方向
程序猿和程序媛所处行业和专业方向对比
分析在德程序员常用开发语言和框架
程序猿和程序媛常用开发语言和框架对比
在职和学生常用开发语言和框架对比

开发分解

1. 在德程序员男女比例，输出Pie Chart

    def gen_pie_member_gender(self, csv_file):
        df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8')

        genders = df['gender']
        col = [0, 0, 0]
        for g in genders:
            if g == 1:
                col[0] = col[0] + 1
            elif g == 2:
                col[1] = col[1] + 1
            else:
                col[2] = col[2] + 1

        perccent_male = '{0:.2f}%'.format((col[0]/len(genders) * 100))
        perccent_female = '{0:.2f}%'.format((col[1]/len(genders) * 100))
        perccent_unknown = '{0:.2f}%'.format((col[2]/len(genders) * 100))

        labels = [r'Male %s' % perccent_male,
                  r'Female %s' % perccent_female,
                  r'Unknown %s' % perccent_unknown]
        colors = ['lightskyblue', 'pink', 'gold']

        plt.figure(figsize=(8, 6))
        patches, texts = plt.pie(col, colors=colors, startangle=90)
        plt.legend(patches, labels, loc="best")
        plt.title('Gender of Member')
        # Set aspect ratio to be equal so that pie is drawn as a circle.
        plt.axis('equal')
        plt.tight_layout()

        path_image = os.path.join(self.path_analyse,
                                  '%s_member_gender_pie.png' % self.group_id)

        plt.savefig(path_image, format='png', dpi=100)
        plt.close()
        return path_image

分析：

在德中国程序猿和程序媛比率约为2：1，这个比例基本和中国籍蓝卡申请人男女比率持平。但是根据2018年中国程序员数据调查表，中国程序员群体中男女比例接近12:1。德国的各位猿，你们就偷乐吧。

2. 在德IT软件专业在职人员和学生比例，输出Pie Chart

代码和上面雷同。

分析：

IT信息行业在职工作人员和在读学生比率为9比1，绝大部分人是在职工作的。

3. 在德程序员所处行业和专业方向，输出词云

    # 这里采用一个汉字停词库，近两千词
    @staticmethod
    def load_stopwords():
        filepath = os.path.join('./assets', r'stopwords_cn.txt')
        stopwords = [line.strip() for line in open(filepath, encoding='utf-8').readlines()]
        return stopwords

    def gen_wordcloud_info_nicknames(self, csv_file, column='branch', gender='all'):
        df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8')

        stopwords = set(STOPWORDS)
        stopwords.update(self.load_stopwords())
        # 可添加一些额外stopword，过滤词云结果
        stopwords.add('学生')

        #自定义jieba分词词库，定义一些IT软件特殊术语
        jieba.load_userdict("./assets/jieba_userdict.txt")

        col = df[column]
        # 将词云按限定图形布局
        shape_file = './assets/member_info_shape.png'

        word_count = ""
        for c in col:
            if c is not np.NaN:
                seg_list = jieba.cut(c, cut_all=False, HMM=True)
                for word in seg_list:
                    word_count = word_count + word + " "

        mask = np.array(Image.open(shape_file))
        font = r'./assets/heiti.ttf'

        word_cloud = WordCloud(
            margin=0,
            mask=mask,
            font_path=font,
            scale=1,
            stopwords=stopwords,
            random_state=42,
            background_color='white'
        ).generate(word_count)

        path_image = os.path.join(self.path_analyse,
                                  '%s_member_word_cloud_%s_%s.png' % (self.group_id, column, gender))

        word_cloud.to_file(path_image)

        return path_image

分析：

大数据，数据分析，数据挖掘
机器学习ML，人工智能AI，深度学习
汽车，自动驾驶，CV(机器视觉)

这三个大方向占比最大，说明中国码农在德国还是跟得上软件信息时代的变革的，并没有像一般德国码农那样一个技术吃一辈子。基于德系汽车制造业在电动车和自动驾驶领域的研发投入加重，越来越多的程序员也向这几个领域转型。一些传统企业如制造业，也开始用大数据来发现生产中潜在的工艺改进，或提前故障预警。

云计算，和以上三个方向密切相关，从业人员却不多。这可能是因为德国本土鲜有自己的大规模云计算服务商，很多企业没有自己的私有云，而将云服务部署在AWS上，如AWS就和奔驰，大众等汽车厂商达成了云数据等方向的深度合作。

互联网，电商这些领域在我另一篇文章中国程序员在德国里提过，在德国属于荒漠地带，从业人员数量少可以预见。

咨询和SAP这两个领域，在德国企业里可以说是四平八稳，很多德国传统企业的IT项目多为外包，自己的IT团队只负责管理和规划，所以专业咨询人员必不可少。同时SAP系统在德国各行业的占有率非常高，而且SAP的定制功能强大，包罗万象，可以说，如果不考虑开发时间和成本，你想要什么流程，SAP都能给你二次开发出来。

经济、金融、银行，由于英国脱欧，大批金融机构从伦敦搬到法兰克福，对程序员也是求贤若渴。

图中还出现了区块链的身影。

4. 程序猿和程序媛所处行业和专业方向对比，导出云图

处理步骤和上述雷同，所以将gen_wordcloud_info_nicknames进行扩展，按branch或者language过滤数据源。

......

        if gender == 'male':
            df_male = df[df.gender == 1]
            col = df_male[column]
            shape_file = './assets/member_%s_%s_shape.png' % (column, gender)
        elif gender == 'female':
            df_male = df[df.gender == 2]
            col = df_male[column]
            shape_file = './assets/member_%s_%s_shape.png' % (column, gender)
        else:
            col = df[column]
            shape_file = './assets/member_info_shape.png'
......

生成图片：

嗯？这是什么鬼，这两坨哪里能看出男女区别了？！

作为有着钢铁直男审美的程序员决不能容忍这么丑陋的数据呈现，好在Python支持透明PNG图片叠加，先准备相应的Alpha透明度较高的图片。

        # 加载透明背景图片
        if gender == 'male':
            ......
            shape_alpha_file = './assets/member_%s_%s_shape_alpha.png' % (column, gender)
        elif gender == 'female':
            ......
            shape_alpha_file = './assets/member_%s_%s_shape_alpha.png' % (column, gender)
        else:
            ......
            shape_alpha_file = './assets/member_info_shape_alpha.png'
       ......

       # 预定义词云输出颜色集范围，突出男女有别
       if gender == 'male':
            word_cloud.recolor(color_func=self.color_func_blue, random_state=3)
        elif gender == 'female':
            word_cloud.recolor(color_func=self.color_func_red, random_state=3)

        word_cloud.to_file(path_image)

        # 将透明背景图叠加到云图上
        background = Image.open(path_image)
        foreground = Image.open(shape_alpha_file)
        background.paste(foreground, (0, 0), foreground)
        background.save(path_image)

这下数据呈现美观且直观多了。

分析：

在大数据，数据挖掘分析，机器学习上，猿媛平分秋色
自动驾驶和机器视觉CV，猿占比稍微多一点
媛更爱ERP、CRM、VWL、仓管、MES等企业级软件系统领域，还有BI和SAP领域
软件测试少不了程序媛妹子
比较意外的是从事嵌入式开发的女汉子不少
猿从事的专业领域更广，不过这也可能是采样数据不够大的原因。

5. 在德程序员常用开发语言和框架

下面这三个分析代码一致，这里只贴出数据结果。

5.1 在德程序员常用开发语言和框架

分析：

得益于大数据和AI的火热，Python当仁不让位居第一。
Java、C和C++并驾齐驱。
Java是德国传统企业里企业级应用系统开发语言首选，出于系统稳定和兼容性考虑
C++和C在自动驾驶，医疗，机械，嵌入式系统领域是不可替代的
当然不能忘了.Net在工业界PLC系统里基本是霸主地位
Angualr、React、Vue、jQuery、TypeScript在企业级应用前端开发里使用广泛
移动开发iOS和Android基本绝迹，原因之前也提了。

以上占比分布基本是符合德国六个行业开发语言占比率的，依次为软件开发，信息技术，电商，汽车，咨询，金融。稍微反常的是德国的中国程序员在工作使用PHP的不多，可是会PHP在德国也是很容易找工作的嘛。

5.2 程序猿和程序媛常用开发语言和框架对比

分析：

猿偏向后端开发，媛偏向前端开发
在Java、C++、C上，猿媛旗鼓相当
在数据库管理和SQL使用上，媛稍微多一点

总体来说，在德程序媛的能力并不比程序猿弱，技术栈相当广，德国不愧是培养理工女汉子的国度。

5.3 在职人员和学生常用开发语言和框架对比

分析：

加上这个对比，是因为之前担心一些热门语言是因为在读学生用得多，才占比高。不过从这个图看来，程序员们在工作中是确确实实使用到了这些技术栈，并不只停留在大学和科研领域。

在德中国程序员说什么：聊天数据分析

以上知道了在德中国程序员们做什么，那么来看看他们平时聊什么？

数据采集
开发需求
监听并记录群聊入库

开发分解

1. 首先建表

DROP TABLE IF EXISTS `wx_chat_history`;
CREATE TABLE `wx_chat_history` (
  `id` BIGINT(20) NOT NULL AUTO_INCREMENT,
  `group_id` int(9) UNSIGNED NOT NULL,
  `msg_type` VARCHAR(16) COLLATE utf8_unicode_ci NOT NULL DEFAULT 'Text',
  `wx_puid` VARCHAR(16) COLLATE utf8_unicode_ci NOT NULL DEFAULT '',
  `gp_user_name` VARCHAR(70) COLLATE utf8_unicode_ci NOT NULL DEFAULT '',
  `sender_name` VARCHAR(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `receiver_name` VARCHAR(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `msg` VARCHAR(2048) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL DEFAULT '',
  `create_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT 'Create time',
  PRIMARY KEY `id` (`id`),
  INDEX `idx_group_id` (`group_id`),
  INDEX `idx_create_time` (`create_time`)
)
ENGINE = InnoDB
DEFAULT CHARSET = utf8mb4 COLLATE utf8mb4_unicode_ci;

2. 数据持久化

通过监听群消息，将获取的消息录入数据库。

# 将puid，nickname，消息等相应数据存入数据库
def insert_chat_history(group_id, msg_type, wx_puid, gp_user_name, sender_name, receiver_name, msg):
    bot_db.execute("INSERT INTO wx_chat_history (`group_id`, `msg_type`, `wx_puid`, "
                   "`gp_user_name`, `sender_name`, `receiver_name`, `msg`)"
                   " VALUES (%s, %s, %s, %s, %s, %s, %s)",
                   (group_id, msg_type, wx_puid, gp_user_name, sender_name, receiver_name, msg))

def save_message(msg, group_id):
    # create_time = msg.create_time.strftime('%Y-%m-%d %H:%M:%S')
    member_name = msg.member.name
    wx_puid = msg.member.puid
    gp_user_name = msg.member.user_name
    message = ''
    # 常规消息
    if msg.type == TEXT:
        message = msg.text
    # 分享链接
    elif msg.type == SHARING:
        art_list = msg.articles
        for item in art_list:
            print(item.url + ' ' + item.title + ' ' + item.summary)
            message = item.url + '||' + item.title + '||' + item.summary

    insert_chat_history(group_id, msg.type, wx_puid, gp_user_name, member_name, '', message)

# 监听群聊，包含自己发送的消息
@bot.register(group_1, except_self=False)
def reg_msg_for_group(msg):
    save_message(msg, group_id_1)

# keep login by block thread
bot.join()

数据清洗

定义函数，可以从数据库里提取指定时间段（如一个月）的数据，并生成csv以供下一步使用。

    def save_chat_in_current_month(self, group_id):
        results = self.load_chat_history(group_id, self.fl_days[0], self.fl_days[1])
        path_csv_file = os.path.join(self.path_analyse,
                                     '%s_chat_%s_%s.csv' % (self.group_id, self.fl_days[0], self.fl_days[1]))

        with open(path_csv_file, mode='w', encoding='utf-8') as csv_file:
            fieldnames = ['id', 'create_time', 'msg_type', 'wx_puid', 'sender_name', 'msg']
            csv_writer = csv.writer(csv_file, delimiter=' ', quotechar='"', quoting=csv.QUOTE_MINIMAL)

            csv_writer.writerow(fieldnames)
            for row in results:
                row_id = row[0]
                msg_type = row[1]
                wx_puid = row[2]
                sender_name = row[3]
                msg = row[4]
                create_time = row[5]
                msg = self.format_message(msg)
                csv_writer.writerow([row_id, create_time, msg_type, wx_puid, sender_name, msg])

        csv_file.close()

        return path_csv_file

最终生成的CSV格式文件：

数据分析

开发需求

生成话题词云
分析消息种类占比
分析日均聊天曲线
分析群员聊天活跃时间热点图

开发分解

1. 话题词云

相关代码和上面相近，生成的云图：

分析：

德国中国两者工作生活的对比是永恒的话题，到底回国还是留德，经常是热点。

因为是职业群，所以大部分话题还是集中在职场：公司、工作、老板、工资、技术

IT领域不得不提领头羊美国，包括硅谷的工资。

讨论贸易战少不了华为

创业目前在留德华中也是个热门话题

2. 消息种类占比，生成Bar Chart

    def gen_bar_plot_msg_type(self, csv_file):
        df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8')

        df['msg_type'].value_counts().plot(kind='bar')

        plt.subplots_adjust(bottom=0.2)
        plt.title('Message Type [%s - %s]' % (self.fl_days[0], self.fl_days[1]))
        path_image = os.path.join(self.path_analyse,
                                  '%s_chat_msg_type_bar_%s_%s.png' % (self.group_id, self.fl_days[0], self.fl_days[1]))
        plt.savefig(path_image)
        plt.close()

        return path_image

分析：

聊天以文字信息为主，没有出现其他灌水群的斗图行为。

3. 日均聊天频率，生成Bar Chart

def gen_bar_plot_chat_freq_day(self, csv_file):
        df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8')
        msg_count = len(df)

        time_list = self.cal_time_list_chat_freq_day(df)

        plt.figure(figsize=(18, 9))
        plt.bar(time_list.keys(), time_list.values(), width=.8, facecolor='lightskyblue', edgecolor='white')
        plt.xticks(range(len(time_list)), time_list.keys())
        for x_axies in time_list:
            y_axies = time_list[x_axies]
            label = '{}%'.format(round(y_axies*1.0/msg_count*100, 2))
            plt.text(x_axies, y_axies+0.05, label, ha='center', va='bottom')
        plt.title('Chat frequency in 24 hours [%s - %s]' % (self.fl_days[0], self.fl_days[1]))
        path_image = os.path.join(self.path_analyse,
                                  '%s_chat_freq_day_bar_%s_%s.png' % (self.group_id, self.fl_days[0], self.fl_days[1]))
        plt.savefig(path_image)
        plt.close()

        return path_image

分析：

每日从六点开始活跃，估计是一部分人上班通勤坐车时有时间聊聊
早七八点到公司开始工作，安静
早九、十点开始活跃，到午休11点左右到达高峰
午休后工作时间
下午三点开始活跃，这时是德企里的下午茶时间
晚9点饭后再次活跃一下

4. 群员聊天活跃时间周热点图, 输出Heat Map

    def gen_heatmap_member_activity(self, csv_file):
        df = pd.read_csv(csv_file, delimiter=' ', encoding='utf-8')
        create_times = df['create_time']

        week_online = [[0 for j in range(24)] for i in range(7)]
        for li in create_times:
            week_online[int(mk_datetime(li, "%Y-%m-%d %H:%M:%S").weekday())][int(li[11:13])] += 1

        week_online = np.array([li for li in week_online])
        columns = [str(i) + '-' + str(i + 1) for i in range(0, 24)]
        index = ['Mon.', 'Tue.', 'Wed.', 'Thu.', 'Fri.', 'Sat.', 'Sun.']

        week_online = pd.DataFrame(week_online, index=index, columns=columns)
        plt.figure(figsize=(18.5, 9))
        plt.rcParams['font.sans-serif'] = ['SimHei']
        sns.set()

        # Draw a heatmap with the numeric values in each cell
        sns.heatmap(week_online, annot=True, fmt="d", cmap="YlGnBu")
        path_image = os.path.join(self.path_analyse,
                                  '%s_activity_heatmap_%s_%s.png' % (self.group_id, self.fl_days[0], self.fl_days[1]))
        plt.savefig(path_image, format='png', dpi=300)
        plt.close()

        return path_image

分析：

周一大家都很忙，或者装着很忙的样子
周二下午开始活跃了
周三上午也活跃起来
周四，快到周末了，放松，全天活跃
周五，上午欢乐时光，下午和德国同事一样，走的走跑的跑
周末死一般沉寂

从这个分析图可以看出，中国程序员上班是非常用心和责任感的，同时也非常遵守德企工作时间相关制度，坚决不加班，坚决朝九晚五。

996是什么？能吃吗？

认真地说，为工作和任务有限加班是可以的，但我非常反对无效的为加班而加班，把996作为KPI考勤标准的做法。

德国大中型企业一般做法是员工自行调配加班时间，某段时间任务紧，加班时间多了的话可以将超时存起来，之后再换成休假；实在没空休假的可以换成工资，不过一般HR和工会不推荐这么做，超时太多将强制休假—-员工健康比工作重要。

在德企小公司或咨询公司里，就不一定了，因为可能业绩和分红挂钩，或者小公司项目紧张，主动或被动加班是很常见的。

绝大多数IT企业并不固定员工的上下班时间，而是采用核心时间制度，比如10-15这五个小时员工必须在岗，但员工可以自行决定上班和下班时间，早来早走，晚来晚走，自由度高。

制作PDF总报表

以上数据分析步骤生成了若干独立的图片报表，不便传阅，可以将其集中整理并且排版格式化到一个PDF总报表里，方便阅读。

所需第三方库如下，可以将含图片的html页面完整输出成PDF文件。

5G之后，中国的人工智能发展趋势如何？

https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

pip3 install pdfkit

Install wkhtmltopdf

Debian/Ubuntu:
> sudo apt-get install wkhtmltopdf

Redhat/CentOS
> sudo yum install wkhtmltopdf

MacOS
> brew install Caskroom/cask/wkhtmltopdf

开发分解

1. 准备HTML模板

<html lang="en">
<head>
    <meta charset="UTF-8">
    <style>
        h1 {
            text-align: center;
        }
        h2 {
            text-align: center;
            margin-top: 20px;
        }
        img {
            display: block;
            margin: 0 auto;
        }
    style>
head>
<body>

<h1>{{group_name}} 聊天数据分析h1>
<h2>{{date_begin}} - {{date_end}}h2>

<h2>24小时内聊天频率h2>
<img src="{{img_chat_freq_day}}" style="width:100%;"/>

<h2>消息类型h2>
<img src="{{img_chat_msg_type}}" style="width:80%;"/>

<h2>日均聊天数量h2>
<img src="{{img_chat_count_day}}" style="width:100%;"/>

<h2>群友活跃时间热点图h2>
<img src="{{img_chat_heating_act}}" style="width:100%;"/>

<div class="divider_b">div>
......

2. 生成PDF

读取HTML模板，替换Pattern，生成PDF

        with open('./assets/chat_analysis_%s.html' % lang, 'r') as file:
            file_data = file.read()

        # 替换Pattern
        file_data = file_data.replace('{{date_begin}}', self.fl_days[0])
        file_data = file_data.replace('{{date_end}}', self.fl_days[1])

        file_data = file_data.replace('{{img_chat_history}}', Path(img_chat_history).name)
        file_data = file_data.replace('{{img_chat_freq_day}}', Path(img_chat_freq_day).name)
        ......

       # 输出临时HTML文件
       with open(path_html, 'w') as file:
            file.write(file_data)
       # 输出pdf
       pdfkit.from_file(path_html, path_pdf)

3. 定时任务

添加定时任务，每月第一天早八点自动启动数据分析任务，分析上个月数据，然后自动将PDF报表发到群里。

    # 08:10am at the first day of the month
    scheduler.add_job(lambda: process_schedule(bot_db, bot, group_1), 'cron',
                      month='1-12', day=1, hour=8, minute=1, timezone="Europe/Paris")

    # 发送文件到指定群里
    group.send_file(file_path)

最终PDF报表预览：

总结

通过数据分析可以非常直观地了解工作和生活在德国的中国程序员们，平时做什么工作，说什么话题。不过因为采样数量较小，某些分析无法采用更明确的类别数量占比图，分析结果难免有偏差，还请见谅。

本文使用Python和相关库快速完成了数据采集，清洗和分析的工作，你可以基于该项目，扩展自己的数据分析模块，比如图灵聊天机器人，连接各类第三方服务。

项目源代码已上传至 GitHub，欢迎指教和加星。

PS：@将记忆深埋究竟在不在这几个IT群里，始终是个谜。

参考资料：

Figures on the EU Blue Card

76.000 Ausländer mit “Blauer Karte” in Deutschland

Der Stack Overflow Entwicklerreport 2017

2018年中国程序员数据调查表

源码地址：https://github.com/mobabel/wechat-group-ibot

注：文中聊天数据只短时间采集并供本文脱敏分析，后期清除不再继续监听。

作者简介：李辉，德国硕士毕业后，在软件咨询业工作多年，涉猎全栈及移动开发构架。

现从业物联网，在德国某一级汽车零配件供应商任高级软件工程师。德中工业4.0学会理事会理事。

【END】

CSDN 5G免费沙龙来啦！

6月29日，微软（中国）首席技术官韦青、北京邮电大学信息与通信工程学院多媒体技术教研中心主任/博士生导师孙松林、爱立信中国研发部多天线高级专家朱怀松、爱立信中国研发部主任系统工程师刘阳等行业内顶尖的领军者、资深的技术专家们共聚一堂，共同探讨5G在物联网中的巨大潜能。

扫描下方二维码，即刻免费报名！

热文 推荐

☞鸿蒙将至，安卓安否？

☞QQ 小程序来了，怎么做？

☞微软发布 VS Code Java 安装程序，一键安装所有 Java 开发环境

Docker 存储选型，这些年我们遇到的坑

☞荔枝自由？朋友，你实现了吗？

开源要自立？华为如何“复制”Google模式

☞从制造业转型物联网，看博世如何破界

回报率850%? 这个用Python优化的比特币交易机器人简直太烧脑了...

☞老码农冒死揭开编程黑幕：这些Bug让我认输，谁踩谁服！

点击阅读原文，即刻免费报名 5G 沙龙！

你点的每个“在看”，我都认真当成了喜欢

你可能感兴趣的:(Python 分析在德的中国程序员，告别 996 ？)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
爬山后遗症璃绛
爬山，攀登，一步一步走向制高点，是一种挑战。成功抵达是一种无法言语的快乐，在山顶吹吹风，看看风景，这是从未有过的体验。然而，爬山一时爽，下山腿打颤，颠簸的路，一路向下走，腿部力量不够，走起来抖到不行，停不下来了！第二天必定腿疼，浑身酸痛，坐立难安！
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l