风夜炫

使用python提取中文地址描述中的省市区信息

转

使用python提取中文地址描述中的省市区信息

2018年03月05日 14:44:00 weixin_34060741 阅读数 188

原文链接： http://www.jianshu.com/p/492440baca87


        引言

在一次建模比赛中，我手头里的原始数据中有一个“地址描述”地段，如下：

地址描述
广州国际采购中心1401
上海市长宁区金钟路658弄5号楼5楼
徐汇区虹漕路461号58号楼5楼
济南市历下区和平路34号轻骑院内东二层山东朵拉

这样的地址描述字段过于随意，很难使用，但是看这些字符串的样子似乎又可以提取出其所在的省、市和区，即使只能够提取出区或者市，如果我们有一个省、市和区的归属数据库的话，应该也能够将剩下的信息映射出来，如果自己写的话肯定很麻烦，还要去网上找数据库，于是我做了一个可以复用的python模块，一条命令就可以将上面的“地址描述”字段转换成如下的样子：

省	市	区
广东省	广州市
上海市	上海市	长宁区
上海市	上海市	徐汇区
山东省	济南市	历下区

模块安装

目前支持python3

pip install cpca

Github地址

更详细的模块介绍见Github上的README
https://github.com/DQinYuan/chinese_province_city_area_mapper

如果觉得这个模块对你有帮助的话，请给个star啊

基本功能

分词模式

本模块中最主要的方法是cpca.transform，该方法可以输入任意的可迭代类型（如list，pandas的Series类型等），然后将其转换为一个DataFrame，下面演示一个最为简单的使用方法：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "徐汇区虹漕路461号58号楼5楼", 
       
       
       
       "泉州市洛江区万安塘西工业区", 
       
       
       
       "朝阳区北苑华贸城"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

输出的结果为：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
            区    市      省      地址
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       0  徐汇区  上海市  上海市   虹漕路461号58号楼5楼
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       1  洛江区  泉州市  福建省   万安塘西工业区
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       2  朝阳区  北京市  北京市   北苑华贸城

注：程序输出的df是一个Pandas的DataFrame类型变量，DataFrame可以非常轻易地转化为csv或者excel文件，如果你对DataFrame不熟悉的话，可以参考Pandas的官方文档：http://pandas.pydata.org/pandas-docs/version/0.20/dsintro.html#dataframe

，或者往下翻到"示例与测试用例"大标题，那里我也展示了DataFrame的拼接与转换成csv文件的操作。

默认情况下transform方法的cut参数为True，即采用分词匹配的方式，这种方式速度比较快，但是准确率可能会比较低，如果追求准确率而不追求速度的话，建议将cut设为False（全文模式），具体见下一小节。

尝试着对代码稍加修改（其实就是将transform方法的umap参数置为空字典）：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "徐汇区虹漕路461号58号楼5楼", 
       
       
       
       "泉州市洛江区万安塘西工业区", 
       
       
       
       "朝阳区北苑华贸城"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str, umap={})
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

会发现输出变为：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
            区    市      省       地址
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       0  徐汇区  上海市  上海市    虹漕路461号58号楼5楼
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       1  洛江区  泉州市  福建省    万安塘西工业区
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       2  朝阳区                   北苑华贸城

发现这种情况的原因是中国其实不止一个“朝阳区”，除了北京市有一个“朝阳区”外，长春市也有一个“朝阳区”，这样的话，程序就不知道该把“朝阳区”映射到哪个市。之所以前一段程序能够成功地将“朝阳区”映射成“北京市”，是因为当你不传umap参数的时候，会默认传一个笔者推荐的字典，其内容如下（在cpca.py中）：

你会发现，其中指定了将”朝阳区“映射到北京市，因为笔者在测试数据中发现，数据中的”朝阳区“基本上都是指北京市那个”朝阳区“（原因可能是北京市的”朝阳区“的经济以及知名度要远比长春市的那个”朝阳区“发达）。当然，默认的这个umap并没有囊括中国所有的重名区，因为有的时候，两个重名区在数据中都经常被提及，无法强制指定将某个区映射成固定的市，比如福州市的“鼓楼区”与南京市的“鼓楼区”，都是经常被提及的地名。

看看下面一个例子：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "福建省鼓楼区软件大道89号"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

输出结果为：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
            区     市    省       地址
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       0  鼓楼区         福建省   软件大道89号

可以看到，市没有被成功提取出来，并且还会产生一个警告信息：

WARNING:root:建议添加到umap中的区有：{'鼓楼区'},有多个市含有相同名称的区

当程序发现重名区并且不知道将其映射到哪一个市时，会将其加入警告信息，提示用户最好根据数据给它指定一个市进行映射。

当使用以下代码时就能成功地将“鼓楼区”映射到“福州市”：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "福建省鼓楼区软件大道89号"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str, umap={
       
       
       
       "鼓楼区":
       
       
       
       "福州市"})
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

输出结果：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
            区    市      省      地址
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       0  鼓楼区  福州市  福建省   软件大道89号

好在中国只有在三级行政区存在重名问题，二级与一级行政区的名称都是唯一的。

有的时候为了方便concat，想要自定义输出表的index，可以选择使用transform函数的index参数(这个参数只要保证长度和data相同即可，可以是list或者pandas中相关的类型)，示例如下：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "徐汇区虹漕路461号58号楼5楼", 
       
       
       
       "泉州市洛江区万安塘西工业区", 
       
       
       
       "朝阳区北苑华贸城"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str, index=[
       
       
       
       "2018年",
       
       
       
       "2017年",
       
       
       
       "2016年"])
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

输出结果：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
                区     市     省             地址
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       2018年  徐汇区  上海市  上海市      虹漕路461号58号楼5楼
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       2017年  洛江区  泉州市  福建省      万安塘西工业区
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       2016年  朝阳区  北京市  北京市      北苑华贸城

全文模式

jieba分词并不能百分之百保证分词的正确性，在分词错误的情况下会造成奇怪的结果，比如下面：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "浙江省杭州市下城区青云街40号3楼",
       
       
       
       "广东省东莞市莞城区东莞大道海雅百货"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

输出的结果为：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
           区    市    省            地址
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       0 城区  东莞市  广东省  莞大道海雅百货自然堂专柜
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       1 城区  杭州市  浙江省  下青云街40号3楼

这种诡异的结果是因为jieba本身就将词给分错了，所以我们引入了全文模式，不进行分词，直接全文匹配，使用方法如下:


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "浙江省杭州市下城区青云街40号3楼",
       
       
       
       "广东省东莞市莞城区东莞大道海雅百货"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str, cut=
       
       
       
       False)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

结果如下：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
            区    市    省        地址
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       0   下城区  杭州市  浙江省  青云街40号3楼
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       1   莞城区  东莞市  广东省    大道海雅百货

这下就完全正确了，不过全文匹配模式会造成匹配效率低下，我默认会向前看8个字符(对应transform中的lookahead参数默认值为8)，这个是比较保守的，因为有的地名会比较长（比如“新疆维吾尔自治区”），如果你的地址库中都是些短小的省市区名的话，可以选择将lookahead设置得小一点，比如：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       location_str = [
       
       
       
       "浙江省杭州市下城区青云街40号3楼",
       
       
       
       "广东省东莞市莞城区东莞大道海雅百货"]
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       from cpca 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df = transform(location_str, cut=
       
       
       
       False, lookahead=
       
       
       
       3)
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
       df

输出结果和之前是一样的。

地图绘制

模块中还自带一些简单绘图工具，可以在地图上将上面输出的数据以热力图的形式画出来.

这个工具依赖folium，为了减小本模块的体积，所以并不会预装这个依赖，在使用之前请使用pip install folium .

代码如下：


   
   
   
   
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
          
       
       
       
       from cpca_drawers 
       
       
       
       import *
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
          
       
       
       
       #df为上一段代码输出的df
      
      
      
      
     
     
     
     
    
    
    
    
     
     
     
     
      
      
      
      
     
     
     
     
     
     
     
     
      
      
      
      
       
       
       
           draw_locations(df, 
       
       
       
       "df.html")

这一段代码运行结束后会在运行代码的当前目录下生成一个df.html文件，用浏览器打开即可看到
绘制好的地图（如果某条数据'省'，'市'或'区'字段有缺，则会忽略该条数据不进行绘制），速度会比较慢，需要耐心等待，绘制的图像如下：

地图绘制

还有更多的绘图工具请参考Github上的README中大标题为“示例与测试用例”的部分。

你可能感兴趣的:(使用python提取中文地址描述中的省市区信息)

顶点着色器：3D世界的魔法化妆师你一身傲骨怎能输计算机图形学着色器
摘要顶点着色器是3D图形渲染中的关键组件，负责将3D模型中的顶点数据转换为2D屏幕坐标，并传递颜色、法线、纹理等属性。它通过坐标变换、属性传递和动画变形等功能，使角色和场景动态化，如角色骨骼动画、水面波动和旗帜飘动等。顶点着色器在渲染管线中处于第一站，与其他着色器（如几何着色器和片元着色器）协作，共同完成复杂的图形渲染任务。通过优化计算和合理分配顶点数量，顶点着色器能够高效处理大量数据，广泛应用于
jvm执行i++代码的步骤，内存中数据的流转过期小朋友、 jdk
大家好，今天看了一个java面试讲解课程，里面说i++，在jvm执行时，会被分成四步：1.主存中i的数值放到线程工作内存2.加一3.加一的值放回线程工作内存中4.线程工作内存中的值放回主存中使用idea编写了一个例子，获取jvm的汇编指令，使用指令说明，翻译过来在内存中数值流转。发现2,3是一个命令iadd。具体如下:例子：packagecom.wmr.jvmtest;publicclassIPl
Mybatis ＜trim＞标签的基本使用 MYGAG mybatis 服务器运维
在MyBatis的标签中，prefix和suffixOverrides属性的行为如下：-prefix="SET"：这意味着如果标签内部的任何条件成立（即，有任何内容被添加到SQL语句中），那么"SET"这个前缀就会被添加到生成的SQL语句的开始部分。无论标签内部有多少个条件成立，"SET"只会被添加一次。-suffixOverrides=","：这意味着如果标签内部的任何条件成立，生成的SQL语句
Entity Framework 实体数据模型入门：从创建到实战应用 Leon@Lee 数据库
EntityFramework（简称EF）作为.NET平台下的ORM（对象关系映射）框架，极大地简化了数据库操作。本文将由浅入深，带您一步步了解EF实体数据模型的创建、配置、开发与使用，即使是新手也能快速上手。一、EF与ADO.NET：为何选择EF？在介绍EF之前，我们先看看传统的数据访问方式与EF的区别：ADO.NET的局限：直接编写SQL语句操作数据库，需要手动处理类型转换、SQL拼接等问题，
Vue动态绑定Class与Style
一、动态绑定Class1.1对象语法v-bind:class指令是Vue.js中用于动态绑定CSS类的指令。它可以根据Vue实例中的数据来动态添加或移除HTML元素的类。这样可以根据数据的变化来动态改变元素的样式，实现更灵活的样式控制。语法class-name:要绑定的CSS类名condition:一个表达式，当为true时，class-name会被添加；当为false时，class-name会被
Unreal Engine开发：高级渲染技术_4.高级着色器编程 chenlz2007 游戏开发虚幻着色器游戏引擎数据库网络 rpc
4.高级着色器编程在上一节中，我们探讨了UnrealEngine中的基础渲染技术，包括光照、阴影和材质系统。本节将深入探讨高级着色器编程，帮助您掌握更复杂的渲染效果和优化技术。UnrealEngine的着色器系统是基于HLSL（High-LevelShadingLanguage）和USF（UnrealShaderFormat）的，这两种语言允许开发者编写高效的着色器代码，以实现各种视觉效果。4.1
go-micro教程 — 第一章快速入门
go-micro教程—第一章快速入门1参考文档2所需依赖3安装micro3.1GoGet方式安装：3.2二进制版本3.3Docker镜像4运行micro服务4.1启动microserver服务4.2登录Micro4.3运行helloworld4.4查看运行结果4.4.1查看正在运行的服务的状态4.4.2查看服务的日志5调用服务5.1查看服务节点5.2使用API方式调用5.3客户端方式调用6创建服务
vue+typeScript 中 webpack.ProvidePlugin的使用随便放个文字在这里 vue.js webpack typescript
用vue+ts写新项目，想偷懒，少写一些代码，研究了一下providePlugin，之前写js的有用到，但是在ts里面用还是有些区别的，特意在这里记录一下。有疑问的朋友可以留言，共同学习进步。webpack.providePlugin官方文档介绍vue.config.js文件配置项constwebpack=require('webpack')constpath=require('path')mod
使用webpack.ProvidePlugin配置全局api
在使用vue开发过程中，基本每个组件都需要import引入api接口，用webpack配置ProvidePlugin后，将不用再引入api，直接使用就可以。配置方法：1、在webpack.dev.conf.js和webpack.prod.conf.js中添加plugins:[...newwebpack.ProvidePlugin({'api':'api'})...]2、在webpack.base.
洛谷 P3378 【模板】堆 Liangwei Lin 算法数据结构
题目描述给定一个数列，初始为空，请支持下面三种操作：给定一个整数x，请将x加入到数列中。输出数列中最小的数。删除数列中最小的数（如果有多个数最小，只删除1个）。输入格式第一行是一个整数，表示操作的次数n。接下来n行，每行表示一次操作。每行首先有一个整数op表示操作类型。若op=1，则后面有一个整数x，表示要将x加入数列。若op=2，则表示要求输出数列中的最小数。若op=3，则表示删除数列中的最小数
常见构建工具使用与原理浅析
1.初版构建工具1.1.GruntGrunt是前端第一个正式的构建工具，它基于Node.js开发。Grunt同样是基于插件实现功能拓展增强，但对于像Webpack上很多能力，如HMR、ScopeHoisting等都是不支持的，可以作为学习Webpack前的了解。Grunt更像是一种自动化的配置工具集，就如官方所说，Grunt是TheJavaScriptTaskRunner，每个Grunt任务通常必
Webpack 4 中使用 `webpack.ProvidePlugin` 醉方休 webpack 前端 node.js
在Webpack4中使用webpack.ProvidePluginwebpack.ProvidePlugin是Webpack4中的一个核心插件，用于自动加载模块，无需在每个文件中显式导入它们。基本用法constwebpack=require('webpack');module.exports={//...其他webpack配置plugins:[newwebpack.ProvidePlugin({/
在项目架构时，如何选择打包构建工具？ aiguangyuan 前端架构前端开发系统架构
在选择打包构建工具时，项目的具体需求、团队的技术栈、开发者的熟悉程度、以及项目的复杂度都是需要考虑的重要因素。1.项目规模与复杂度大型复杂项目：如果你的项目是一个大型复杂的单页应用程序（SPA），例如企业级应用，建议使用Webpack。Webpack的强大配置能力和丰富的插件生态系统能够满足复杂项目的各种需求，如代码拆分、缓存优化、懒加载等。中小型项目或库：如果是中小型项目或开发一个JavaScr
一、react18+项目初始化（vite）小白变怪兽 react 前端 react.js
react19使用antd兼容问题npminstall@ant-design/v5-patch-for-react-19--save//入口处引用import‘@ant-design/v5-patch-for-react-19’npmcreatevite@latest项目名称根据需要选择用vue还是react,是否使用typescript等等配置antddesign//安装npminstall--
TypeScript-webpack 難釋懷 typescript webpack javascript
一、前言随着前端工程化的不断演进，使用TypeScript编写更加健壮、可维护的代码已成为主流趋势。而Webpack则是目前最流行的模块打包工具之一，它可以帮助我们将多个模块、资源文件进行打包压缩，适用于大型项目开发。本文将带你一步步搭建一个基于TypeScript+Webpack的开发环境，涵盖基础配置、编译流程、开发服务器设置等内容，适合初学者和中级开发者学习参考。二、什么是TypeScrip
进程 ⇢ JVM ⇢ 线程＋内存关系 MYGAG jvm
.从零到跑起一个Java程序OS创建进程execvejava…→新进程的地址空间、handle、时间片就位。JavaLauncher进场可执行文件里的C/C++的main()解析参数，dlopenlibjvm.so/jvm.dll。JNI_CreateJavaVM诞生JVM实例△分配堆、元空间、代码缓存等△拉起GC/JIT/信号处理等守护线程把Launcher的原生线程变成Javamain线程开始
element目录树组件el-tree使用相关笔记 JoyceLeee 笔记 vue.js javascript elementui
文章目录默认配置懒加载每一级分页懒加载递归处理数据递归遍历树级结构，进行字段映射一维数组处理为树结构默认选中并展开特定节点初始化的需求场景切换tab后的需求场景禁止点击事件搜索本地搜索搜索后滚动定位结果添加图标方法一:通过伪类的background属性方法二:通过img标签引入图片修改选中的高亮(图标和颜色)选中时图标切换文字和背景的高亮可编辑树点击展开后回调点击节点图标切换显示(包含一键切换全部
10.2 ChatGPT自动生成训练数据实战：37.2%准确率提升秘籍少林码僧掌握先机！从 0 起步实战 AI 大模型微调打造核心竞争力 chatgpt 人工智能机器学习语言模型
ChatGPT自动生成训练数据实战：37.2%准确率提升秘籍使用ChatGPT自动设计生成训练数据的Prompt在大模型微调场景中，高质量训练数据的获取往往是制约模型效果的核心瓶颈。根据2023年GoogleResearch的实证研究，使用GPT-4生成的合成数据对LLaMA2进行微调，能达到人工标注数据85%的效果水平。本章将揭秘如何通过ChatGPT自动生成适配ChatGLM3的微调数据。一、
ModusToolbox 实战入门 - PSOC C3 Smart IO 与 GPIO 应用篇 WPG大大通 Infineon产线大大通软件 GPIO CPU 开发工具
摘要本文将带您了解PSOC™ControlC3MCU的架构与开发工具，并示范如何使用EclipseIDEforModusToolbox™创建项目。通过本次使用smartI/O外设的实作示例，您将学习如何将按钮输入引脚通过smartI/O连接至输出引脚，以驱动外部LED，在无需CPU参与的情况下完成初始化后自动运行，进一步体验PSOC™ControlC3的低功耗与高集成特性。软件下载与安装软件版本M
跨域问题(Allow CORS)解决(3 种方法) RainbowSea15 所遇问题-解决服务器运维 java 后端 spring boot
跨域问题(AllowCORS)解决(3种方法)文章目录跨域问题(AllowCORS)解决(3种方法)补充：SpringBoot设置Cors跨域的四种方式方式1：返回新的CorsFilter方式2：重写WebMvcConfigurer方式3：使用注解（@CrossOrigin）方式4：手工设置响应头（HttpServletResponse）最后：跨域问题：浏览器为了用户的安全，仅允许向同域，同端口的
Assistant API的原理及应用赛丽曼人工智能 chatgpt
什么是AssistantsAPI？**发布日期：**2023年11月6日，OpenAI在开发者大会上发布了AssistantsAPI——一款面向开发者的工具，用于在应用中构建AI助手。✅它可以做什么？AssistantsAPI允许开发者构建智能助手，这些助手可通过：instructions（指令）：设定助手行为；models（模型）：指定使用的GPT模型；tools（工具）：调用代码解释器、知识库
【小米App】Blocky语言编程入门指南 Botiway 移动APP windows kotlin android studio linux python
Blocky语言编程入门指南Blocky是一种基于可视化积木块拼接的编程语言，特别适合编程初学者和儿童学习编程概念。以下是Blocky语言的入门指南：什么是Blocky语言Blocky是由Google开发的基于Web的可视化编程工具，它通过将不同功能的代码块像拼图一样连接起来进行编程，无需记忆语法规则。开始使用Blocky访问Blocky官方网站(https://blockly-demo.apps
145、将程序划分为模块：深入理解C++中的模块化编程 raspberrypi5 C++编程入门与实践 C++模块化编程头文件
将程序划分为模块：深入理解C++中的模块化编程1.模块化编程的意义在软件开发中，将大型程序划分为较小的模块是一种常见的实践。这种做法不仅提高了代码的可维护性和可读性，还便于团队协作。通过将功能分离到不同的模块中，开发者可以专注于特定的功能实现，而不必担心整个程序的复杂性。此外，模块化编程还有助于代码的重用，减少了冗余代码的编写。优点总结减少编译时间：小模块可以更快地编译，特别是对于大型项目，整体编
如何实现表格选中时禁用树结构的复选框功能（El-Tree 与 El-Table 联动实现） Peak_Gao vue.js elementui javascript
在前端开发中，树形结构和表格是常用的组件组合，尤其是在展示和管理复杂数据时。使用ElementUI的el-tree和el-table组件，我们可以实现当表格中有选中行时，自动禁用树结构中的复选框，反之亦然。这不仅提升了用户体验，还能有效防止数据操作上的冲突。本文将详细介绍如何实现这一功能，并提供相应的代码示例。实现思路树结构(el-tree)：用于展示分层数据，支持复选框选择。表格(el-tabl
字符串的两种模式匹配算法--暴力法与KMP算法
对于字符串而言，最常见的基本操作莫过于查找某一字符串（模式串）在另一字符串（主串）中的位置，这一操作过程叫做字符串的模式匹配，常见的模式匹配算法有朴素模式匹配算法和KMP模式匹配算法，下面结合代码对这两种模式匹配算法的思想做个总结。参考博客：很详尽的KMP算法（厉害）1.朴素模式匹配算法（暴力法）朴素模式匹配算法的思想就是，把主串中的每一个字符作为子串开头，与要匹配的字符串进行逐字符匹配，直到所有
基于 Vue3 + Element-plus 封装的 Table 组件白雾茫茫丶前端开发前端 vue.js elementui
项目信息项目名称：vue3-xmw-table预览地址：点击预览Github：vue3-element-table使用方法根目录下执行npmivue3-xmw-table命令npmivue3-xmw-table全局挂载组件import{createApp}from'vue'importAppfrom'./App.vue'importXmwtablefrom'vue3-xmw-table'creat
408考研逐题详解：2010年第18题——CPU寄存器
2010年第18题下列寄存器中，汇编语言程序员可见的是（）A.存储器地址寄存器(MAR)\qquadB.程序计数器(PC)\qquadC.存储器数据寄存器(MDR)\qquadD.指令寄存器(IR)解析本题考查的是计算机组成原理中关于CPU寄存器的分类及其可见性，特别是汇编语言程序员的视角。存储器地址寄存器（MAR,MemoryAddressRegister）：用于存储CPU即将访问的内存地址（如
408考研逐题详解：2010年第17题——内存的地址转换和数据访问 CS创新实验室考研复习408 考研计算机 408 考研真题计算机考研
2010年第17题下列命中组合情况中，一次访存过程中不可能发生的是（）A.TLB未命中，Cache未命中，Page未命中B.TLB未命中，Cache命中，Page命中C.TLB命中，Cache未命中，Page命中D.TLB命中，Cache命中，Page未命中解析本题考查计算机组成原理中主存管理相关的知识点，特别是虚拟内存系统中的地址转换和数据访问流程。题目要求判断在TLB（TranslationL
Qt面试题汇总 freshman_y Qt qt 开发语言面试题
目录1.简单说一下Qt2.用过QT中的哪些模块？3.说一些你常用的Qt控件？4.Qt中如何创建一个窗口？5.说一下QT中创建控件的方式?6.说一下Qt中信号和槽机制是什么？7.说一下QT信号与槽机制原理？8.如何自定义信号和槽，信号和槽怎么连接？9.说一下Qt的事件处理流程？10.说一下事件过滤器的作用？11.Qt中connect()函数中参数有哪些，第五个参数的作用和可选类型呢？12.为什么选择
请详细描述MySQL的B+树中查询数据的全过程 WhiskyMaster mysql b树数据库
在MySQL中，B+树是一种常用的索引结构，尤其是在InnoDB存储引擎中，B+树被广泛应用于聚集索引（ClusteredIndex）和非聚集索引（SecondaryIndex）。在B+树中，数据存储在叶子节点，非叶子节点用于路由和索引查找。查询过程是通过树结构逐步定位到正确的数据位置。以下是MySQLB+树中查询数据的详细过程：B+树的基本结构非叶子节点：非叶子节点存储的是指向子节点的指针（即键
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他