啊策策

HBase导入海量数据、使用BuckLoa向HBase中导入数据 13

前言

博主之前简单介绍了，HBase写入数据的原理与HBase表在hdfs上的存储结构，还搞了搞HBase提供的导入工具ImportTsv，想了解更多ImportTsv使用，请戳HBase导入海量数据之使用ImportTsv向HBase中导入大量数据

今天咱们了解下Buckload

如下图示，充分解释了Buckload的导入原理，通过MapReduce程序在hdfs中直接生成HFlie文件，然后将HFile文件移动到HBase中对应表的HDFS目录下

ImportTsv是命令行导入，Buckload可以自定义程序生成HFile，再进行导入，由此可见，BuckLoad比较灵活

1. BuckLoad导入数据到HBase，程序编写步骤

编写mapper程序，无论是map还是reduce，输出类型必须是或者
编写map方法，包含处理数据的逻辑。
将处理后的数据写到hdfs中
配置MapReduce任务的输入/输出格式，输入/输出类型，输入/输出目录等
使用BuckLoad方式导入数据，有两种方法：
- 代码：创建LoadIncrementalHFiles对象，调用doBulkLoad方法，加载刚才MapReduce程序生成HFile到表中即可。
  doBulkLoad有两种，HTable已经过时了，现在推荐使用第一种，

LoadIncrementalHFiles loader = new LoadIncrementalHFiles(conf);
loader.doBulkLoad(new Path(OUTPUT_PATH),admin,table,connection,getRegionLocator(tableName.valueOf(tableName)))

命令行：在命令行中使用如下命令

HADOOP_CLASSPATH=`$HBASE_HOME/bin/hbase classpath` hadoop jar $HBASE_HOME/lib/hbase-server-version.jar completebulkload <生成的HFile路径> <表名称>

2. 实例展示

2.1 背景

这有一个用户浏览网站的日志，分隔符为逗号，

共有四列：

手机号反转（避免Region热点）
手机号
Mac地址
用户访问记录（用&&分割）访问记录内容：时间戳-agent-访问目录-上行流量-下行流量

56279618741,14781697265,65:85:36:f9:b1:c0,
1539787307-Mozilla/5.0 Macintosh; Intel Mac OS X 10_10_1 AppleWebKit/537.36 KHTML like Gecko Chrome/37.0.2062.124 Safari/537.36-https://dl.lianjia.com/ershoufang/102100802770.html-13660-6860
&&1539786398-Mozilla/5.0 Windows NT 5.1 AppleWebKit/537.36 KHTML like Gecko Chrome/36.0.1985.67 Safari/537.36-https://dl.lianjia.com/ershoufang/102100576898.html-1959-91040
&&1539785462-Mozilla/5.0 Windows NT 10.0 AppleWebKit/537.36 KHTML like Gecko Chrome/40.0.2214.93 Safari/537.36-https://dl.lianjia.com/ershoufang/102100762258.html-12177-53132

2.2 数据大小

12.48GB，共1999940条数据

2.3 需求

手机号反转做Rowkey,
将手机号，Mac地址，用户访问地址插入到Info列簇的phoneNumber，macAddress，userView列中，
将用户访问记录转为json格式

2.4 代码实现

编写Mapper程序和map方法

需要注意的是，要对rowkey的长度进行判断，筛选出rowkey长度大于0的，否则会报错

public static class BuckLoadMap extends Mapper<LongWritable, Text, ImmutableBytesWritable, Put> {
        public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            String[] dataLine = value.toString().split(",");
            // 手机号反转
            String phoneNumberReverse = dataLine[0];
            // 手机号
            String phoneNumber = dataLine[1];
            //  mac地址
            String macAddress = dataLine[2];
            //  用户访问浏览历史
            String userViewHistory = dataLine[3];
            //  解析用户访问浏览历史
            String[] userViewHistoryParse = userViewHistory.split("&&");
            //  创建StringBuffer用户拼接json
            StringBuffer stringBuffer = new StringBuffer();
            stringBuffer.append("[");
            for (String view : userViewHistoryParse) {
                //  拼接json
                String[] viewDetail = view.split("-");
                String time = viewDetail[0];
                String userAgent = viewDetail[1];
                String visitUrl = viewDetail[2];
                String upFlow = viewDetail[3];
                String downFlow = viewDetail[4];
                String json = "{\"time\":\"" + time + "\",\"userAgent\":\"" + userAgent + "\",\"visitUrl\":\"" + visitUrl + "\",\"upflow\":\"" + upFlow + "\",\"downFlow\":\"" + downFlow + "\"}";
                stringBuffer.append(json);
                stringBuffer.append(",");
            }
            stringBuffer.append("]");
            stringBuffer.deleteCharAt(stringBuffer.lastIndexOf(","));
            userViewHistory = stringBuffer.toString();
            //  将手机号反转作为rowkey
            ImmutableBytesWritable rowkey = new ImmutableBytesWritable(phoneNumberReverse.getBytes());
            // 筛选出rowkey为0的rowkey，某则导入的时候会报错
            if (rowkey.getLength()>0){
                //  将其他列数据插入到对应列族中
                Put put = new Put(phoneNumberReverse.getBytes());
                put.addColumn("info".getBytes(), "phoneNumber".getBytes(), phoneNumber.getBytes());
                put.addColumn("info".getBytes(), "macAddress".getBytes(), macAddress.getBytes());
                put.addColumn("info".getBytes(), "userViewHistory".getBytes(), userViewHistory.getBytes());
                context.write(rowkey, put);
            }
        }
    }

编写Reduce任务配置

导入包的时候，注意导入的FileInputFormat和FileOutputFormat是下面这两个包
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public static void main(String[] args) throws Exception {
        final String INPUT_PATH= "hdfs://cluster/louisvv/weblog-20181121.txt";
        final String OUTPUT_PATH= "hdfs://cluster/louisvv/HFileOutput";
        Configuration conf=HBaseConfiguration.create();
        conf.set("hbase.zookeeper.quorum", "192.168.1.22,192.168.1.50,192.168.1.51");
        conf.set("hbase.zookeeper.property.clientPort", "2181");
        conf.set("zookeeper.znode.parent", "/hbase-unsecure");
        conf.set("hbase.master", "192.168.1.22:16010");
        String tableName="user-view";
        Connection connection = null;
        try {
            // 创建hbase connection
            connection = ConnectionFactory.createConnection(conf);
            //  获取hbase admin
            Admin admin=connection.getAdmin();
            //  创建hbase table
            Table table = connection.getTable(TableName.valueOf(tableName));
            //  设置mapreduce job相关内容
            Job job=Job.getInstance(conf);
            job.setJarByClass(BuckLoadImport.class);
            //  设置mapper class
            job.setMapperClass(BuckLoadImport.BuckLoadMap.class);
            //  设置map输出key类型为ImmutableBytesWritable
            job.setMapOutputKeyClass(ImmutableBytesWritable.class);
            //  设置map输出value类型为put
            job.setMapOutputValueClass(Put.class);

            //  设置job的输出格式为HFileOutputFormat2
            job.setOutputFormatClass(HFileOutputFormat2.class);

            // 设置文件输入输出路径
            FileInputFormat.addInputPath(job,new Path(INPUT_PATH));
            FileOutputFormat.setOutputPath(job,new Path(OUTPUT_PATH));

            //  设置HFileOutputFormat2
            HFileOutputFormat2.configureIncrementalLoad(job,table,connection.getRegionLocator(TableName.valueOf(tableName)));
            //  等待程序退出
            job.waitForCompletion(true);

编写好job的配置后，等待MapReduce程序运行完毕，创建LoadIncrementalHFiles，调用doBulkLoad方法

 //  使用buckload方式导入刚才MapReduce程序生成的HFile
LoadIncrementalHFiles loader = new LoadIncrementalHFiles(conf);
loader.doBulkLoad(new Path(OUTPUT_PATH),admin,table,connection.getRegionLocator(TableName.valueOf(tableName)));

程序编写好了后，打包，上传到服务器上

在执行程序之前，需要创建表，如果不创建，则会自动创建
建表语句：

create 'user-view',
 {NAME => 'desc', BLOOMFILTER => 'ROWCOL', COMPRESSION => 'SNAPPY', BLOCKCACHE => 'false', REPLICATION_SCOPE => '1'}, 
{NAME => 'info', BLOOMFILTER => 'ROWCOL', COMPRESSION => 'SNAPPY', BLOCKCACHE => 'false', REPLICATION_SCOPE => '1'},SPLITS => ['0','1', '2', '3', '4','5','6','7','8','9']

运行程序

hadoop jar /louisvv/HBase-test.jar cn.louisvv.weblog.hbase.BuckLoadImport

截取部分MapReduce日志如下：

通过日志，可以看到，一共输入1999940条数据，输出1999936条数据，过滤了4条有问题的数据

18/11/23 13:30:43 INFO mapreduce.Job: Running job: job_1542881108771_0004
18/11/23 13:31:30 INFO mapreduce.Job:  map 0% reduce 0%
省略....
18/11/23 14:07:33 INFO mapreduce.Job:  map 100% reduce 100%
18/11/23 14:07:37 INFO mapreduce.Job: Job job_1542881108771_0004 completed successfully
18/11/23 14:07:38 INFO mapreduce.Job: Counters: 49
	File System Counters
		FILE: Number of bytes read=18234502087
		FILE: Number of bytes written=36506399063
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=13423862333
		HDFS: Number of bytes written=3778584104
		HDFS: Number of read operations=1051
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=30
	Job Counters 
		Launched map tasks=200
		Launched reduce tasks=11
		Data-local map tasks=200
		Total time spent by all maps in occupied slots (ms)=4528492
		Total time spent by all reduces in occupied slots (ms)=3817650
		Total time spent by all map tasks (ms)=2264246
		Total time spent by all reduce tasks (ms)=1908825
		Total vcore-milliseconds taken by all map tasks=2264246
		Total vcore-milliseconds taken by all reduce tasks=1908825
		Total megabyte-milliseconds taken by all map tasks=9274351616
		Total megabyte-milliseconds taken by all reduce tasks=7818547200
	Map-Reduce Framework
		Map input records=1999940
		Map output records=1999936
		Map output bytes=18226502217
		Map output materialized bytes=18234515161
		Input split bytes=20400
		Combine input records=0
		Combine output records=0
		Reduce input groups=1927972
		Reduce shuffle bytes=18234515161
		Reduce input records=1999936
		Reduce output records=5783916
		Spilled Records=3999872
		Shuffled Maps =2200
		Failed Shuffles=0
		Merged Map outputs=2200
		GC time elapsed (ms)=365192
		CPU time spent (ms)=5841130
		Physical memory (bytes) snapshot=570273415168
		Virtual memory (bytes) snapshot=1170857234432
		Total committed heap usage (bytes)=627039010816
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=13423769333
	File Output Format Counters 
		Bytes Written=3778584104

在hdfs上查看生产的HFile文件

生成的HFile目录，发现其中有一个info目录，是生成的列族目录
查看info目录下的内容，生产的是Region文件

使用BuckLoad方法向表中导入数据：
我这里使用的是命令行方式导入，命令如下：

HADOOP_CLASSPATH=`/usr/hdp/2.6.0.3-8/hbase/bin/hbase classpath` hadoop jar hbase-server-1.1.2.2.6.0.3-8.jar completebulkload /yw/HFileOutput user-view

数据导入成功，部分日志如下：

18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:java.library.path=:/usr/hdp/2.6.0.3-8/hadoop/lib/native/Linux-amd64-64:/usr/lib/hadoop/lib/native/Linux-amd64-64:/usr/hdp/current/hadoop-client/lib/native/Linux-amd64-64:/usr/hdp/2.6.0.3-8/hadoop/lib/native
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:java.io.tmpdir=/tmp
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:java.compiler=<NA>
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:os.name=Linux
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:os.arch=amd64
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:os.version=3.10.0-514.el7.x86_64
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:user.name=hdfs
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:user.home=/home/hdfs
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Client environment:user.dir=/usr/hdp/2.6.0.3-8/hbase/lib
18/11/23 16:29:55 INFO zookeeper.ZooKeeper: Initiating client connection, connectString=ai-main:2181,ai-node3:2181,ai-node4:2181 sessionTimeout=90000 watcher=org.apache.hadoop.hbase.zookeeper.PendingWatcher@757f675c
18/11/23 16:29:55 INFO zookeeper.ClientCnxn: Opening socket connection to server ai-node4/192.168.1.51:2181. Will not attempt to authenticate using SASL (unknown error)
18/11/23 16:29:55 INFO zookeeper.ClientCnxn: Socket connection established to ai-node4/192.168.1.51:2181, initiating session
18/11/23 16:29:55 INFO zookeeper.ClientCnxn: Session establishment complete on server ai-node4/192.168.1.51:2181, sessionid = 0x366665b1dbf0295, negotiated timeout = 60000
18/11/23 16:29:57 INFO zookeeper.RecoverableZooKeeper: Process identifier=hconnection-0x46c3a14d connecting to ZooKeeper ensemble=ai-main:2181,ai-node3:2181,ai-node4:2181
18/11/23 16:29:57 INFO zookeeper.ZooKeeper: Initiating client connection, connectString=ai-main:2181,ai-node3:2181,ai-node4:2181 sessionTimeout=90000 watcher=org.apache.hadoop.hbase.zookeeper.PendingWatcher@38fc5554
18/11/23 16:29:57 INFO zookeeper.ClientCnxn: Opening socket connection to server ai-node3/192.168.1.50:2181. Will not attempt to authenticate using SASL (unknown error)
18/11/23 16:29:57 INFO zookeeper.ClientCnxn: Socket connection established to ai-node3/192.168.1.50:2181, initiating session
18/11/23 16:29:57 INFO zookeeper.ClientCnxn: Session establishment complete on server ai-node3/192.168.1.50:2181, sessionid = 0x2673ae5cb901733, negotiated timeout = 60000
18/11/23 16:29:57 WARN mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://cluster/yw/HFileOutput/_SUCCESS
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:58 INFO hfile.CacheConfig: CacheConfig:disabled
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO compress.CodecPool: Got brand-new decompressor [.snappy]
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/f20edfdb89fc4630ae8c3791887d4852 first=80000042581 last=89999917251
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/fb6d6313abed41ef8fd5352442887031 first=00000006731 last=09999955271
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/ffa5997038414dceb9eb3b42d67b8adc first=70000014781 last=79999981941
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/4eaee167b73c41688d66440294a006d9 first=40000093231 last=49999941151
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/0c71bccc45704d129e0d0f8afce6ae5f first=1 last=19999956131
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/8b967a2cad6940619537382a2156a83c first=90000069581 last=99999997631
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/2907e292f624470ca71e4253491563f2 first=30000029371 last=39999882551
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/a67fd52d0125424b873c9ed49c0d8a7d first=20000123931 last=29999959681
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/00dcb6dc63c74d9a86a8d1ca1802b681 first=50000024931 last=59999976981
18/11/23 16:29:59 INFO mapreduce.LoadIncrementalHFiles: Trying to load hfile=hdfs://cluster/yw/HFileOutput/info/c95917012c834d7991bf77830806370e first=60000015751 last=69999815851
18/11/23 16:29:59 INFO client.ConnectionManager$HConnectionImplementation: Closing master protocol: MasterService
18/11/23 16:29:59 INFO client.ConnectionManager$HConnectionImplementation: Closing zookeeper sessionid=0x2673ae5cb901733
18/11/23 16:29:59 INFO zookeeper.ZooKeeper: Session: 0x2673ae5cb901733 closed
18/11/23 16:29:59 INFO zookeeper.ClientCnxn: EventThread shut down

验证
使用hbase shell 查看数据是否存在，就拿这条数据进行测试

56279618741,14781697265,65:85:36:f9:b1:c0,
1539787307-Mozilla/5.0 Macintosh; Intel Mac OS X 10_10_1 AppleWebKit/537.36 KHTML like Gecko Chrome/37.0.2062.124 Safari/537.36-https://dl.lianjia.com/ershoufang/102100802770.html-13660-6860
&&1539786398-Mozilla/5.0 Windows NT 5.1 AppleWebKit/537.36 KHTML like Gecko Chrome/36.0.1985.67 Safari/537.36-https://dl.lianjia.com/ershoufang/102100576898.html-1959-91040
&&1539785462-Mozilla/5.0 Windows NT 10.0 AppleWebKit/537.36 KHTML like Gecko Chrome/40.0.2214.93 Safari/537.36-https://dl.lianjia.com/ershoufang/102100762258.html-12177-53132

进入hbase shell，查找该用户浏览信息

hbase(main):002:0> get 'user-view','56279618741'
COLUMN                                          CELL                                                                                                                                       
 info:macAddress                                timestamp=1542953074902, value=65:85:36:f9:b1:c0                                                                                           
 info:phoneNumber                               timestamp=1542953074902, value=14781697265                                                                                                 
 info:userViewHistory                           timestamp=1542953074902, value=[{"time":"1539787307","userAgent":"Mozilla/5.0 Macintosh; Intel Mac OS X 10_10_1 AppleWebKit/537.36 KHTML li
                                                ke Gecko Chrome/37.0.2062.124 Safari/537.36","visitUrl":"https://dl.lianjia.com/ershoufang/102100802770.html","upflow":"13660","downFlow":"
                                                6860"},{"time":"1539786398","userAgent":"Mozilla/5.0 Windows NT 5.1 AppleWebKit/537.36 KHTML like Gecko Chrome/36.0.1985.67 Safari/537.36",
                                                "visitUrl":"https://dl.lianjia.com/ershoufang/102100576898.html","upflow":"1959","downFlow":"91040"},{"time":"1539785462","userAgent":"Mozi
                                                lla/5.0 Windows NT 10.0 AppleWebKit/537.36 KHTML like Gecko Chrome/40.0.2214.93 Safari/537.36","visitUrl":"https://dl.lianjia.com/ershoufan
                                                g/102100762258.html","upflow":"12177","downFlow":"53132"}]                                                      
3 row(s) in 0.0420 seconds

Python 基础：类诸葛思颖 python python 开发语言
目录一、类的概念二、定义类三、创建对象并进行访问四、修改属性的值方法一：句点表示法直接访问并修改方法二：通过方法进行修改五、继承继承父类属性和方法重写父类方法六、将实例用作属性七、导入类导入单个类从一个模块中导入多个类导入整个模块导入模块中的所有类八、一些代码编写规范遇到看不明白的地方，欢迎在评论中留言呐，一起讨论，一起进步！本文参考：《Python编程：从入门到实践（第2版）》一、类的概念类是是
记一次多线程导入问题排查过程程序辕日记 java MySql java spring boot
记一次多线程导入问题排查过程1.需求2.遇到问题3.排查解决问题1.需求大数据量的核对：现在有1000个excel文件，每个excel文件内有21个sheet页，现在要对这些数据进行核对，需要先将这些数据导入到库中，再进行核对。2.遇到问题库使用的是MySql，程序是Java，springcloud生态，在串行导入的时候，导入一次大概需要60分钟，现在对其进行改造，使用多线程导入，其思路为：创建线
使用Couchbase中的向量搜索进行智能查询 eahba python
技术背景介绍Couchbase是一种强大的分布式NoSQL数据库，广泛应用于云、移动、AI和边缘计算应用中。其向量搜索功能，作为全文搜索服务的一部分，支持在应用中进行高效的语义查询。这为开发者在实现AI驱动的应用时提供了极大的便利。核心原理解析Couchbase的向量搜索利用向量嵌入技术对文本进行处理，可以实现基于语义相似度的查询。这与传统的关键词匹配有根本的不同，更适合AI应用场景中模糊或语义相
第20周：Pytorch文本分类入门 weixin_46620278 pytorch 分类人工智能
目录前言一、前期准备1.1环境安装导入包1.2加载数据1.3构建词典1.4生成数据批次和迭代器二、准备模型2.1定义模型2.2定义示例2.3定义训练函数与评估函数三、训练模型3.1拆分数据集并运行模型3.2使用测试数据集评估模型总结前言本文为[365天深度学习训练营]中的学习记录博客原作者：[K同学啊]说在前面本周任务：了解文本分类的基本流程、学习常用数据清洗方法、学习如何使用jieba实现英文分
第N2周：构建词典 OreoCC NLP
本人往期文章可查阅：深度学习总结我的环境：语言环境：Python3.11编译器：PyCharm深度学习环境：Pytorchtorch==2.0.0+cu118torchvision==0.18.1+cu118显卡：NVIDIAGeForceGTX1660本周任务：使用N1周的.txt文件构建词典，停用词请自定义1.导入数据fromtorchtext.vocabimportbuild_vocab_f
基于PHP进程控制与Redis队列的异步任务实践——解决Excel导入接口超时问题
问题背景与解决方案问题场景在实现Excel数据导入功能时，遇到一个典型的生产者-消费者场景：主流程：Excel文件解析→数据校验→数据库事务写入附加流程：将成功数据推送给第三方系统当第三方接口响应缓慢时（实测平均耗时8-12秒），导致整体接口响应时间超出前端等待阈值，造成以下问题：前端显示系统错误（HTTP500）实际业务数据已完整入库用户体验与数据一致性存在割裂解决方案演进同步方案：直接顺序执行
关于FBX模型导入Unity后，在Play场景里想要选中但报错：“NullReferenceException: Object reference not set to an insta”的解决办法。宝宝嘟嘟打雷辣 unity 游戏引擎
FBX导入Unity后，本想要测试通过做一个BIM模型数字孪生场景，实现Play场景下，选择构件能展示构件属性信息。代码如下：usingSystem.Collections;usingSystem.Collections.Generic;usingUnityEngine;publicclassDemo1:MonoBehaviour{publicfloatsmooth=3f;Transformcur
在Python中运行sql语句静默追光 sql oracle 数据库
导入pymysql或者是MySQL.connector模快importpymysql#最常用importmysql.connector连接数据库#连接数据库使用pymysql模块db=pymysql.connect(host="192.168.1.110",#数据库主机名user="root",#数据库用户名password="root",#数据库密码database="test",#数据库名称c
Django 初始化导入数据详解 jay丿 django sqlite 数据库
Django初始化导入数据详解在Django项目中，初始化数据导入是一个常见的需求，特别是在开发阶段或者部署新环境时，通常需要一些预置的数据来确保应用能够正常运行。Django提供了一种高效的方法来加载初始化数据，即通过fixtures机制。本文将详细介绍如何使用Django的fixtures功能来导入初始化数据。1.Fixtures机制概述Django默认会在应用的目录下查找名为fixtures
【微信小程序】基本语法小马哥编程微信小程序小程序
一、导入小程序选择代码目录项目配置文件appid当前小程序的AppIDprojectname当前小程序的项目名称变更AppID（视情况而定，如果没有开发权限时需要变更成个人的AppID）二、模板语法在页面中渲染数据时所用到的一系列语法叫做模板语法，对应到Vue中就是指令的概念。2.1数据绑定插值{{}}小程序中使用{{}}实现数据与模板的绑定，与Vue中不同的是无论是属性的绑定还是内容的绑定都必须
SpringBoot中的导入导出(SpringBoot导出word文档、Hutool导入excel、easypoi之easy导入数据库、导出excel文件、POI设置单元格式) 种豆走天下 spring boot java spring
SpringBoot中的导入导出java导出word文档1先准备好一个导出Word文档的模板。例如：2.打开doc文件后，文件中的另存为，然后选择保存类型为2003版本的(*.xml)3、刚生成的xml文件里面比较乱，要整理一下，方法如下：使用Eclipse/idea,新建一个jsp,把xml里面的东西覆盖更新刚才的jsp,ctrl+Shift+F/ctrl+alt+L把文件整理一下，在拷贝出来，
Python __init__.py 模块详解鱼丸丶粗面 Python __init__.py
文章目录1概述2导入演示2.1执行顺序：先父后子2.2导入所有模块（含子模块）1概述1.工具:Pycharm场景:在创建一个PythonPackage时，会默认在该包下生成一个'__init__.py'文件2.目的:'进行一些初始化操作'(1)当importpackage时，"自动"执行'__init__.py'文件中的内容(2)常用于导入模块2导入演示2.1执行顺序：先父后子目录结构：目录结构简
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
新导则下的防洪评价报告编制方法及洪水建模实践技术吹翻书页的风水文水利地质地下水环境科学 arcgis 防洪评价报告编制 HEC-RAS软件二维水动力模型计算
目录1、《防洪评价报告编制导则解读河道管理范围内建设项目编制导则》（SL/T808-2021）解读2、防洪评价相关制度与解析3、防洪评价地形获取及常用计算4、HEC-RAS软件原理及特点5、HEC-RAS地形导入6、一维数学模型计算7、基于数学模型软件的一维构筑物的水动力模型计算及本章内容在报告中编写方法8、数值模型软件概述及数据基础处理9、基于数学模型软件的二维水动力模型计算析及结果输出及评价章
ollama教程——使用Ollama与LangChain实现Function Calling(函数调用)的详细教程（二）【附完整源码】 walkskyer ollama入门教程 langchain ollama LLM
ollama入门系列教程简介与目录相关文章:Ollama教程——入门：开启本地大型语言模型开发之旅Ollama教程——模型：如何将模型高效导入到Ollama框架Ollama教程——兼容OpenAIAPI：高效利用兼容OpenAI的API进行AI项目开发Ollama教程——使用LangChain：Ollama与LangChain的强强联合Ollama教程——生成内容API：利用Ollama的原生AP
scala针对复杂数据源导入与分隔符乱码处理 Tometor scala javascript 后端 java 数据结构
复杂的数据源，和奇怪的数据格式是生产中经常遇到的难题，本文将探讨如何解析分隔符混乱的数据，和如何导入各种数据源文件一、非标准分隔符处理当数据源的分隔符混乱或不统一时（如,、|、\t混合使用），可采用以下方法：1.1动态检测分隔符//示例：自动检测前100行的常用分隔符valsampleLines=spark.read.text("data.csv").limit(100).collect()val
探索R语言：经典案例解析与源代码翠绿探寻 r语言信息可视化开发语言 R语言
探索R语言：经典案例解析与源代码引言：R语言是一种流行的数据分析和统计建模工具，具有丰富的功能和广泛的应用领域。在本文中，我们将通过经典案例来探索R语言的一些重要功能和技术。我们将提供相应的源代码，以便读者能够实际运行并理解这些示例。案例一：数据导入与处理在数据分析中，数据导入和处理是首要任务。R语言提供了丰富的函数和包，用于处理各种数据格式。下面是一个简单的示例，演示了如何导入和处理CSV格式的
SpringBoot3配置全局异常类库尔班Java之路 spring boot spring
导入相关包：@Slf4j：Lombok提供的注解，用于自动生成日志记录器。@ControllerAdvice：Spring框架提供的注解，用于定义全局异常处理类。@ExceptionHandler：Spring框架提供的注解，用于处理特定类型的异常。@ResponseBody：Spring框架提供的注解，表示返回结果直接写入HTTP响应体。使用@Slf4j注解：@Slf4j注解会自动生成一个名为l
MySQL自动建立集合自动分片_mongodb撤销集合分片西风吹浮华 MySQL自动建立集合自动分片
mongodb撤销集合分片2019年08月16日16:39:41WFkwYu阅读数31更多版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。mongodb撤销集合分片基本步骤：停止所有有关和mongodb连接的应用程序导出需要撤销的集合数据禁用分片的自动平衡删除该集合导入集合数据开启分片的自动平衡1、停止所有有关和mongodb连接的应用程序(根据实际
【UI自动化】Selenium库中使用By类元素定位方法搞不来测试的摄影狮软件测试 python selenium 自动化
使用By类，首先需要在Python中导入该模块：fromselenium.webdriver.common.byimportBy1.通过元素的ID属性来定位driver.find_element(By.ID,'kw')如下图，我们需要定位百度的输入框。首先选中定位工具，然后选中输入框。我们可以看到该元素id的值为："kw"2.通过元素的NAME属性来定位driver.find_element(By
ClickHouse 作用，优缺点。 mldsh13 clickhouse
ClickHouseClickHouse是一个开源的分布式列式数据库管理系统(DBMS)，专门设计用于实时分析(OLAP)。它最初由俄罗斯的Yandex开发，后来成为了开源项目，被广泛应用于需要高性能数据分析和查询的场景。作用：实时分析：ClickHouse专注于快速查询和分析大量数据，使其特别适用于数据分析、报告和实时仪表板等应用场景。大规模数据处理：能够处理海量数据，支持分布式架构，可以水平扩
领域大模型之微调技术和最佳实践程序员莫玛人工智能深度学习语言模型金融
BERT和GPT-3等语言模型针对语言任务进行了预训练。微调使它们适应特定领域，如营销、医疗保健、金融。在本指南中，您将了解LLM架构、微调过程以及如何为NLP任务微调自己的预训练模型。-介绍-大型语言模型（LLM）的特别之处可以概括为两个关键词——大型和通用。“大”是指它们训练的海量数据集及其参数的大小，即模型在训练过程中学习的记忆和知识;“通用”意味着他们具有广泛的语言任务能力。更明确地说，L
Android Studio 安装汉化包奥特曼老师 android studio android ide
Chinese(Simplified)LanguagePack/中文语言包确认自己的AndroidStudio的版本，需要跟下载的插件包对应上。插件包下载完成，无需解压打开AndroidStudio进行选择本地导入插件包
Java基于redis实现进度条冰糖码奇朵 java redis
一.问题背景为了提升用户体验，开发中有很多场景需要用到进度条，比如导入、导出、大规模更新操作等。进度条在许多大型系统中使用频率较高，反复编写既麻烦又不利于维护，因此基于Redis抽成公共方法供不同功能调用。二.实现方案1.引入依赖如果系统已集成Redis，直接跳到第5步，进度条实现。org.springframework.bootspring-boot-starter-data-redis2.配置
Excel百万数据导入内存溢出(OOM)解决方案，以及HSSFworkbook，XSSFworkbook，SXSSFworkbook失败分析冰糖码奇朵解决问题 JAVA java
一.问题背景Excel百万数据导入，每行50+列，出现内存溢出，尝试HSSFworkbook，XSSFworkbook，SXSSFworkbook均未解决。查阅资料，采取StreamingReader的方式，问题解决。二.HSSFworkbook，XSSFworkbook，SXSSFworkbook分析序号类版本限制描述1HSSFworkbookExcel2003及以前，扩展名为.xls65536
数据库批处理 Java 顶针数据库 oracle
数据库批处理是一种处理数据的方法，通常用于对大量数据进行一次性操作。批处理可以有效地减少数据库操作的次数，提高数据处理的效率。在数据库中，批处理通常通过编写批处理脚本或使用相应的工具来实现。一般情况下，数据库批处理包括以下步骤：数据准备：准备需要处理的大量数据，通常可以通过导入数据、查询数据库等方式获取需要的数据。编写批处理脚本：编写用于处理数据的批处理脚本，通常使用SQL语句或存储过程来实现对数
Vue懒加载充气大锤前端性能优化 vue.js 前端 javascript 学习笔记前端框架性能优化
一、什么是懒加载在Vue中实现懒加载（LazyLoading）通常是为了优化应用的性能，尤其是在加载大型应用或组件时。懒加载可以帮助减少初始加载时间，只在用户需要时才加载特定的代码块或组件。二、懒加载的几种方式方法1：使用动态导入（DynamicImports）你可以使用JavaScript的动态导入语法来懒加载组件。例如，如果你想懒加载一个名为MyComponent的组件，你可以这样做：//在组
GEE APP——SnowCloudMetrics应用程序，用于分析和可视化雪的覆盖频率（SCF）和雪的消失日期（SDD）此星光明 GEE APP SCF SDD APP 应用雪 gee 交互式界面
目录简介代码解释代码结果网址简介GEEAPP——SnowCloudMetrics应用程序，用于分析和可视化雪的覆盖频率（SCF）和雪的消失日期（SDD）代码解释用于GoogleEarthEngine(GEE)的应用程序，名为"SnowCloudMetrics"，主要用于分析和可视化雪的覆盖频率（SCF）和雪的消失日期（SDD）。以下是其主要功能和结构的具体解释：###主要功能1.**数据导入**：
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &