_Mogician

【MapReduce】表自然连接笔记 Windows环境（HadoopStreaming、mrjob、java api三个版本）

表自然连接

student_course表：(SID, CID, SCORE, TID)

student表：(SID, NAME, SEX, AGE, BIRTHDAY, DNAME, CLASS)

均有表头

思路

根据文件名添加标记，两个表通过mapper分别转换为和的形式，然后通过shuffle排好序，很容易可以得到多串相同SID的行，在reducer中，对于相同的SID，判断是“S”还是“SC”，然后笛卡尔积即可。
查询知，streaming可以通过以下方式获得输入文件名

    try:
        input_file = os.environ['mapreduce_map_input_file']
    except KeyError:
        input_file = os.environ['map_input_file']  # 老版本

另一种替代方式是在reducer判断中，根据属性的数目，sc是4个，s是7个。但这样做并不普适。

Hadoop Streaming方式

Windows

请先在本地安装好Hadoop（我尝试过Docker的几个hadoop、mapreduce镜像，都需要再配置，总之有挺多bug没解决成功）

mapper.py
mapper.py

import sys
import os

def mapper():
    try:
        input_file = os.environ['mapreduce_map_input_file']
    except KeyError:
        input_file = os.environ['map_input_file']
    input_file = os.path.basename(input_file).split('.')[0]
    tag = 'sc' if input_file == 'student_course' else 's'

    for line in sys.stdin:
        data = line.strip().split('\t')
        print('\t'.join([data[0]] + [tag] + data[1:]))

mapper()

reducer.py

import sys

def reducer():

    ss = []
    scs = []
    old_key = None

    for line in sys.stdin:
        l = line.strip().split('\t')
        key = l[0]
        if old_key and key != old_key:
            if ss and scs:
                print('\n'.join(['\t'.join([key] + s + sc) for sc in scs for s in ss]))
            ss = []
            scs = []

        old_key = key
        if l[1] == 's':
            ss.append(l[2:])
        else:
            scs.append(l[2:])

    if old_key and ss and scs:
        print('\n'.join(['\t'.join([old_key] + s + sc) for sc in scs for s in ss]))


reducer()

配置一下环境变量（cmd里set是临时的大概，只在该窗口内有效）

C:\Users\Stranded>set HADOOP_HOME
HADOOP_HOME=D:\Nosql\Hadoop\hadoop-2.7.7

C:\Users\Stranded>set STREAM = %HADOOP_HOME%\share\hadoop\tools\lib\hadoop-streaming-2.7.7.jar

（linux参考 Hadoop实践之Python（一））

type student.txt + student_course.txt | python mapper.py | sort | python reducer.py

修改后，写一个bat脚本（注意，windows上用streaming和网上一般能查到的linux脚本是不一样的，不能使用-files传多个文件，必须-file一个一个上传，另外-mapper等也得是cmd或者jar的形式，可以通过hadoop jar %STREAM% -help 的方式查看）

参考 Hadoop-Streaming(Python篇)

::hdfs dfs -mkdir /user
::hdfs dfs -mkdir /user/input
::hdfs dfs -put ./*.txt /user/input
hadoop jar %STREAM% ^
        -D stream.non.zero.exit.is.failure=false ^
        -file mapper.py ^
        -file reducer.py ^
        -input /user/input ^
        -output /user/output ^
        -mapper "python mapper.py" ^
        -reducer "python reducer.py"

注意最开始要在hdfs里创建目录、上传输入文件

(base) PS C:\Users\Stranded\PycharmProjects\Aliyun\hadoopTest> hdfs dfs -ls /user/input
Found 2 items
-rw-r--r--   1 Stranded supergroup     253605 2019-12-30 17:54 /user/input/student.txt
-rw-r--r--   1 Stranded supergroup    1013707 2019-12-30 17:54 /user/input/student_course.txt

报错

There are 0 datanode(s) running and no node(s) are excluded in this operation

解决：

将hdfs-site.xml配置文件中的 dfs.datanode.data.dir配置项对应的文件夹下的cureent文件夹删除

start-all重启，jps里有datanode了

报错

Exception message: CreateSymbolicLink error (1314): ???

解决：

修改了core-site.xml文件，要添加 fs.defaultFS 和 fs.default.name两个相同的属性

https://blog.csdn.net/qq_29477175/article/details/89683491

报错：

safemode

解决

等待他过几秒自动OFF或者

hdfs dfsadmin -safemode leave

还有其他一堆报错，我太南了

各种排除问题，最后发现可能是bin的问题，之前下的是2.7.1的windows编译版本，2.7.4前后不一样，所以重新下了个2.7.7的

https://github.com/cdarlint/winutils/tree/master/hadoop-2.7.7

还要注意！要把bin文件里的hadoop.dll复制到C:/Windows/System32里，之前原本的没覆盖就还是有问题。

job运行成功后，查看各个统计信息，我最开始输出是0，修改脚本，去掉combiner就有输出了。

(base) PS C:\Users\Stranded\PycharmProjects\Aliyun\hadoopTest> .\run.bat

C:\Users\Stranded\PycharmProjects\Aliyun\hadoopTest>hadoop jar D:\Nosql\Hadoop\hadoop-2.7.7\share\hadoop\tools\lib\hadoop-streaming-2.7.7.jar         -D stream.non.zero.exit.is.failure=false         -file mapper.py         -file reducer.py         -input /user/input         -output /user/output         -mapper "python mapper.py"         -reducer "python reducer.py"
19/12/31 12:51:05 WARN streaming.StreamJob: -file option is deprecated, please use generic option -files instead.
packageJobJar: [mapper.py, reducer.py, /C:/Users/Stranded/AppData/Local/Temp/hadoop-unjar4405973670165844345/] [] C:\Users\Stranded\AppData\Local\Temp\streamjob3497312476657191470.jar tmpDir=null
19/12/31 12:51:06 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
19/12/31 12:51:06 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
19/12/31 12:51:08 INFO mapred.FileInputFormat: Total input paths to process : 2
19/12/31 12:51:08 INFO mapreduce.JobSubmitter: number of splits:3
19/12/31 12:51:08 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1577764863539_0010
19/12/31 12:51:08 INFO impl.YarnClientImpl: Submitted application application_1577764863539_0010
19/12/31 12:51:08 INFO mapreduce.Job: The url to track the job: http://DESKTOP-3EELJOI:8088/proxy/application_1577764863539_0010/
19/12/31 12:51:08 INFO mapreduce.Job: Running job: job_1577764863539_0010
19/12/31 12:51:19 INFO mapreduce.Job: Job job_1577764863539_0010 running in uber mode : false
19/12/31 12:51:19 INFO mapreduce.Job:  map 0% reduce 0%
19/12/31 12:51:33 INFO mapreduce.Job:  map 100% reduce 0%
19/12/31 12:51:42 INFO mapreduce.Job:  map 100% reduce 100%
19/12/31 12:51:42 INFO mapreduce.Job: Job job_1577764863539_0010 completed successfully
19/12/31 12:51:42 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=1303853
                FILE: Number of bytes written=3115959
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=1271710
                HDFS: Number of bytes written=2585774
                HDFS: Number of read operations=12
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters
                Launched map tasks=3
                Launched reduce tasks=1
                Data-local map tasks=3
                Total time spent by all maps in occupied slots (ms)=36326
                Total time spent by all reduces in occupied slots (ms)=6563
                Total time spent by all map tasks (ms)=36326
                Total time spent by all reduce tasks (ms)=6563
                Total vcore-milliseconds taken by all map tasks=36326
                Total vcore-milliseconds taken by all reduce tasks=6563
                Total megabyte-milliseconds taken by all map tasks=37197824
                Total megabyte-milliseconds taken by all reduce tasks=6720512
        Map-Reduce Framework
                Map input records=36535
                Map output records=36535
                Map output bytes=1230777
                Map output materialized bytes=1303865
                Input split bytes=302
                Combine input records=0
                Combine output records=0
                Reduce input groups=3998
                Reduce shuffle bytes=1303865
                Reduce input records=36535
                Reduce output records=32508
                Spilled Records=73070
                Shuffled Maps =3
                Failed Shuffles=0
                Merged Map outputs=3
                GC time elapsed (ms)=498
                CPU time spent (ms)=6307
                Physical memory (bytes) snapshot=1049423872
                Virtual memory (bytes) snapshot=1223659520
                Total committed heap usage (bytes)=739246080
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters
                Bytes Read=1271408
        File Output Format Counters
                Bytes Written=2585774
19/12/31 12:51:42 INFO streaming.StreamJob: Output directory: /user/output

这样输出就在hdfs上了，-cat查看中文乱码，可以下到本地

 hdfs dfs -get /user/output/part-00000 ./output

高级API方式(mrjob)

pip install pyhdfs -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
pip3 install mrjob -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

import os
import re

from mrjob.job import MRJob
from mrjob.protocol import RawProtocol, ReprProtocol

class Join(MRJob):

    # mrjob allows you to specify input/intermediate/output serialization
    # default output protocol is JSON; here we set it to text
    OUTPUT_PROTOCOL = RawProtocol

    # def mapper_init(self):


    def mapper(self, key, line):
        # note that the key is an object (a list in this case)
        # that mrjob will serialize as JSON text
        data = line.strip().split('\t')
        yield (data[0], data[1:])

    def combiner(self, key, values):
        # the combiner must be separate from the reducer because the input
        # and output must both be JSON
        try:
            input_file = os.environ['mapreduce_map_input_file']
        except KeyError:
            input_file = os.environ['map_input_file']
        input_file = os.path.basename(input_file).split('.')[0]
        self.tag = 'sc' if input_file == 'student_course' else 's'
        yield (key, [self.tag] + list(values))

    def reducer(self, key, values):
        # the final output is encoded as text
        scs = []
        ss = []
        for val in values:
            if val[0] == 's':
                ss += [val[1]]
            else:
                scs += [val[1]]
        for s in ss:
            for sc in scs:
                yield (key, '\t'.join(s + sc))


if __name__ == '__main__':
    # sets up a runner, based on command line options
    Join.run()

combiner应该也可以不写

JAVA版

一样是写mapper、reducer，还有Runner，代码就比较复杂了

package joiner;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.omg.PortableInterceptor.SYSTEM_EXCEPTION;

public class JoinMapper extends Mapper<Text,Text,Text,Text>{
    private static final String STUDENT_XLS = "student.xls";
    private static final String STUDENT_COURSE_XLS = "student_course.xls";
    private static final String STUDENT_FLAG = "student";
    private static final String STUDENT_COURSE_FLAG = "student_course";

    private FileSplit fileSplit;
    private Text outKey = new Text();
    private Text outValue = new Text();

    @Override
    protected void map(Text key, Text value, Context context)
            throws IOException, InterruptedException {
        fileSplit = (FileSplit) context.getInputSplit();
        String filePath = fileSplit.getPath().toString();
        if (filePath.contains(STUDENT_XLS))
            outValue.set(STUDENT_FLAG + "\t" + value);
        else if (filePath.contains(STUDENT_COURSE_XLS))
            outValue.set(STUDENT_COURSE_FLAG + "\t" + value);
        context.write(key, outValue);
    }
}

package joiner;

import java.io.IOException;
import java.util.*;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class JoinReducer extends Reducer<Text, Text, Text, Text>{
    private static final String STUDENT_FLAG = "student";
    private static final String STUDENT_COURSE_FLAG = "student_course";

    private String fileFlag = null;
    private String stuName = null;
    private List<String> stuClassNames;

    private Text outKey = new Text();
    private Text outValue = new Text();
    private Map<String,List<String>> sMap = new HashMap<String, List<String>>();
    private Map<String,List<String>> scMap = new IdentityHashMap<String, List<String>>();
    private Map<String,List<String>> finalMap = new IdentityHashMap<String, List<String>>();

    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        stuClassNames = new ArrayList<String>();
        sMap.clear();
        scMap.clear();
        finalMap.clear();
        for (Text val : values) {
            String[] fields = StringUtils.split(val.toString(),"\t");
            fileFlag = fields[0];
            if (fileFlag.equals(STUDENT_FLAG)) {
                List<String> line = new ArrayList<String>();
                for (int i = 1;i<fields.length;i++)
                    line.add(fields[i]);
                sMap.put(key.toString(),line);
            }
            else if (fileFlag.equals(STUDENT_COURSE_FLAG)) {
                List<String> line = new ArrayList<String>();
                for (int i = 1;i<fields.length;i++)
                    line.add(fields[i]);
                scMap.put(key.toString(),line);
            }
        }

        for (String k :scMap.keySet()) {
            if (sMap.containsKey(k)) {
                List<String> strings = scMap.get(k);
                strings.addAll(sMap.get(k));
                finalMap.put(k,strings);
            }
        }
        for (String k:finalMap.keySet()) {
            List<String> strings = finalMap.get(k);
            StringBuilder stringBuilder = new StringBuilder();
            for (String string:strings)
                stringBuilder.append("\t").append(string);
            outKey.set(k);
            outValue.set(stringBuilder.toString());
            context.write(outKey, outValue);
        }
    }

}

package joiner;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import tool.FileUtil;

import java.util.HashMap;
import java.util.Map;
import java.util.TreeMap;

public class JoinRunner extends Configured implements Tool{

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new Configuration(), new JoinRunner(), new String[]{"input","output"});
        System.exit(res);

    }

    public int run(String[] args) throws Exception {
        FileUtil.deleteDir("output");
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Join");
        job.setJarByClass(JoinRunner.class);

        job.setMapperClass(JoinMapper.class);
        job.setReducerClass(JoinReducer.class);
        job.setInputFormatClass(ExcelInputFormat.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        return job.waitForCompletion(true) ? 0:1;
    }
}

关于Go那些懒得看又不得不知道的东西 Hock2024 golang 开发语言后端
写在前面当开始学习go，亦或是cpp、还是java向go进行转职，这部分内容都是比较重要的。go的编译环境，模块管理以及一些基本的语法我认为还是很有必要去学习的，因此重新学习了这个部分并且写下下面的学习笔记！如果有写错或者不全面的地方，还希望大家及时纠正和指导。连接环境首先，作为一个后端er，能使用linux系统是必备的技能，这里我建议可以使用Xshell连接云服务器的方案来完成。云服务器建议使用
CST Microwave Studio助力射频电路多物理场耦合分析 FindEveryone 课程设计
摘要本文重点阐述CSTMicrowaveStudio在射频电路多物理场耦合分析中的关键作用。通过解析射频电路中涉及的电磁场、热场、机械场等多物理场耦合现象，详细介绍如何运用CSTMicrowaveStudio构建多物理场联合模型，进行全面的仿真分析。结合具体案例，深入探讨多物理场耦合对射频电路性能的影响，并依据仿真结果提出有效的优化策略，为提升射频电路在复杂工作环境下的可靠性和稳定性提供理论依据与
HBase的架构介绍，安装及简单操作 pk_xz123456 大数据 hbase 架构数据库
一、HBase安装1.环境准备Java环境：确保系统中已经安装了Java8或更高版本。可以通过在命令行中输入java-version来检查Java版本。Hadoop环境：HBase依赖于Hadoop，需要先安装并配置好Hadoop集群。确保Hadoop的相关服务（如HDFS、YARN等）已经正常启动。2.下载HBase从HBase官方网站（https://hbase.apache.org/）下载适
LINUX PCIe架构详解吕喜曦
LINUXPCIe架构详解【下载地址】LINUXPCIe架构详解分享LINUXPCIe架构详解欢迎阅读《LINUXPCIe架构详解》文档项目地址:https://gitcode.com/Open-source-documentation-tutorial/cb0cf欢迎阅读《LINUXPCIe架构详解》文档。本指南深入浅出地介绍了在Linux操作系统环境下，针对PCIExpress（PCIe）设备
Vue相关面试题努力的搬砖人. vue.js
以下是150道Vue相关面试题及详细答案：Vue基础1.Vue.js是什么？Vue.js是一个用于构建用户界面的渐进式JavaScript框架，专注于视图层，允许开发者以声明式的方式构建用户界面，具有轻量、高效、易上手等特点。2.Vue实例的作用是什么？Vue实例是应用程序的核心，它管理数据、方法、生命周期钩子等，通过数据双向绑定将数据与视图层连接起来，实现数据驱动视图。3.如何创建一个Vue实例
【概念】Node.js，Express.js MongoDB Mongoose Express-Validator Async Handler 一袋米扛几楼98 各类概念 node.js express javascript
1.Node.js定义：Node.js是一个基于ChromeV8引擎的JavaScript运行时环境，允许你在服务器端运行JavaScript代码。作用：它使得开发者可以使用JavaScript编写服务器端代码，从而实现前后端使用同一种语言。比喻：Node.js就像是“工厂的电力系统”，它为整个工厂（应用程序）提供动力（运行环境）。没有电力系统，工厂的机器（代码）就无法运转。特点：非阻塞I/O：N
文本转语音常用的几个python库天蓝海乡 python 开发语言人工智能 nlp 语音识别
在Python编程领域，文本到语音（Text-to-Speech,TTS）的转换是一个常见的需求，尤其是在开发能够与用户交互的应用程序时。以下是几个流行的Python库，它们可以帮助开发者实现文本到语音的转换，并且有的可以将转换后的语音保存为MP3文件。gTTS(GoogleText-to-Speech)gTTS是一个依赖于Google的文本转语音API的Python库。它能够将文本转换为自然听起
网络管理 Introducing Meraki – Your Complete Network Management S AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Meraki网络管理平台是一款专为企业级网络管理员设计的网络安全解决方案。它帮助用户轻松管理和监控其组织中的所有网络设备、VLANs及其设置。Meraki网络管理平台包括许多内置功能，如集中管理，安全，可视化分析等。此外，Meraki还提供强大的RESTAPI接口，开发者可以利用这些API来定制属于自己的应用。通过将现有工具、流程和工具合成为一体的网络管理解决方
P2P下载器项目我的sun&shine 项目
1.项目介绍该项目完成一个在局域网中进行附近文件共享下载功能的工具；能够进行搜索匹配局域网中运行工具的主机；获取到局域网在线主机列表；能够获取指定主机所共享的文件信息列表（指定的共享目录下的文件信息）；能够对指定主机上的指定文件进行多进程分块下载来提高传输效率。2.项目使用的技术Socket套接字编程（了解最基本线程池版本任务处理的tcp服务端程序）HTTP协议格式（了解最基本的http服务器中数
Spring Boot详解这河里吗l SpringBoot spring boot 后端 java spring
目录1.SpringBoot介绍1.1什么是SpringBoot1.2SpringBoot特点1.3Javaweb、spring、springmvc和springboot有什么区别？1.4SpringBoot的Starter2.SpringBoot入门HelloWorld3.SpringBoot的全局配置文件3.1properties配置文件3.2yml配置文件3.3yml与properties的
理解 Node.js 中的 process`对象与常用操作 red润前端 node.js 前端 javascript
理解Node.js中的process对象与常用操作在Node.js中，process是一个全局对象，提供了与当前Node.js进程相关的信息和操作。无论是获取进程信息、处理信号、访问环境变量，还是控制进程行为，process都是不可或缺的工具。看到process不犯怵了1.获取进程信息process提供了许多属性和方法来获取当前进程的信息。process.pid：获取当前进程的PID（进程ID）。
SNMP协议以及JAVA实战代码展示 potato_h java
SNMP协议以及代码实现主要是为了实现：Java通过SNMP协议和交换机进行交互JAVA开发SNMP明细第一步：（1）首先安装SNMP服务。（控制面板→添加与删除工具→添加与删除组件→管理和监视工具→详细信息→选择“简单网络管理协议”→确定）。（2）启动snmp服务。（3）下载snmp4j.jar（4）新建项目，加如snmp4j.jar，编写代码编写的代码中需要的内容：（1）枚举网元类型（目前只有
JavaScript基础-DOM事件流難釋懷 javascript 开发语言
在Web开发过程中，理解和掌握DOM事件流是实现高效交互的关键。DOM事件流描述了当一个事件发生时，它在文档树中的传播路径。了解事件流的概念有助于我们更精确地控制事件处理逻辑，避免不必要的行为，并提升用户体验。本文将深入探讨DOM事件流的基本概念，包括事件捕获、目标阶段和事件冒泡，并通过示例展示如何应用这些知识。一、什么是DOM事件流？DOM事件流是指事件在整个页面结构中传播的过程。根据W3C标准
盛科7132版本编译记录狮子再回头 ARM嵌入式开发 linux 国产化交换机盛科 7132
7132编译总结：1.新增具有root权限的用户，rootfs系统编译时不能使用root，否则很麻烦，编译出来后命令使用会出问题useraddzhuwei_newpasswdzhuwei_newusermod-aGwheelzhuwei_newnano/etc/pam.d/su找到以下行：authrequiredpam_unix.so在这一行下面添加以下内容：authsufficientpam_w
如何用Function Calling解锁OpenAI的「真实世界」交互能力？（附Node.js 实战） hongkid AI编程
一、FunctionCalling：大模型的「手脚延伸器」1.1核心定义FunctionCalling是OpenAI在2023年6月13日推出的革命性功能（对应模型版本gpt-3.5-turbo-0613和gpt-4-0613），允许开发者通过自然语言指令触发预定义函数，实现大模型与现实世界系统的交互。如同给语言模型安装「手脚」，使其不仅能思考，还能执行具体操作。openai官方说明：https:
OpenGL ES 如何渲染 16bit 图像？字节流动 OpenGL ES 3.0 OpenGLES 音视频图形渲染 Android c++
未经作者（微信ID：Byte-Flow）允许，禁止转载文章首发于公众号：字节流动最近有不少读者私信问OpenGLES如何处理16bit图像（P010）？然后我直接贴给他们一段在OpenGL环境下验证过的上传16bit图像数据的代码glTexImage2D(GL_TEXTURE_2D,0,GL_R16UI,width,height,0,GL_RED_INTEGER,GL_UNSIGNED_SHORT
位图思想详解：用一个小小的比特征服整个世界 Joseit 优选算法 java 算法
位图思想详解：用一个小小的比特征服整个世界一、什么是位图？二、位图的形象理解三、位图的Java实现四、位图的算法原理剖析五、实际应用案例：网站用户活跃度统计五、真实的应用场景：布隆过滤器的基础六、算法题：判断字符是否唯一（easy）一、什么是位图？位图是一种超级节省空间的数据结构，他利用二进制位（0/1）来表示某个元素是否存在或某种状态是否为真。想象一下，用一个小小的比特位就能记录一个信息，这简直
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
Python中Pyttsx3库实现文本转化成语音MP3格式文件定星照空 python
Pyttsx3库介绍pyttsx3库是一个功能强大且使用方便的Python本地文本转语音库。它不仅能在离线下将文本转换为语音MP3格式文件，也能在Windows、MacOS和Linux等多个操作系统上实现语音播报。同时，还可以调整语音播报的语速、音量和音色。安装与基本使用安装：cmd命令行中执行pipinstallpyttsx3。基本使用示例：importpyttsx3#初始化语音引擎engine
Node.js 包与 npm 详解：使用 npm 的重要注意事项与最佳实践还是鼠鼠 node.js node.js javascript vscode 前端
目录Node.js包与npm：使用npm的其它注意点详解1.package.json与package-lock.json的作用什么是package.json？什么是package-lock.json？示例：package-lock.json片段2.语义化版本（SemVer）与依赖版本管理3.全局安装vs.本地安装本地安装（默认）全局安装4.npm缓存管理与优化清理npm缓存5.依赖冲突与node_
springboot使用kafka自定义JSON序列化器和反序列化器 zhou_zhao_xu Kafka spring
1.序列化器packagecom.springboot.kafkademo.serialization;importcom.alibaba.fastjson.JSON;importcom.alibaba.fastjson.JSONObject;importorg.apache.kafka.common.serialization.Serializer;importjava.util.Map;/**
自定义kafka高效的protoStuff序列化 _夜渐凉 ●Java kafka protoStuff 序列化
Duang，最近搭建了一个自己的博客小破站，欢迎各位小伙伴来访吖：https://www.ares-stack.cn/blog_service/#/game目前序列化领域中，谷歌的protobuf应该是性能好，效率高的了，并且protobuf支持多种语言，可跨平台，跨语言但使用起来并不像其他序列化那么简单（首先要写.proto文件，然后编译.proto文件，生成对应的.java文件）protost
leetcode29. 两数相除-medium 智趣代码实验室 Leetcode leetcode c++
1题目：两数相除官方标定难度：中给你两个整数，被除数dividend和除数divisor。将两数相除，要求不使用乘法、除法和取余运算。整数除法应该向零截断，也就是截去（truncate）其小数部分。例如，8.345将被截断为8，-2.7335将被截断至-2。返回被除数dividend除以除数divisor得到的商。注意：假设我们的环境只能存储32位有符号整数，其数值范围是[−231,231−1]。
使用PyTorch搭建Transformer神经网络:入门篇 DASA13 pytorch transformer 神经网络
1.简介Transformer是一种强大的神经网络架构,在自然语言处理等多个领域取得了巨大成功。本教程将指导您使用PyTorch框架从头开始构建一个Transformer模型。我们将逐步解释每个组件,并提供详细的代码实现。2.环境设置首先,确保您的系统中已安装Python(推荐3.7+版本)。然后,安装PyTorch和其他必要的库:pipinstalltorchnumpymatplotlib3.P
【Docker】搭建实用的内网穿透工具 - FRP UPToZ 群晖Docker docker 容器运维
前言本教程基于群晖的NAS设备DS423+的docker功能进行搭建FRP的客户端，DSM版本为7.2.1-69057Update5。采用香港机Debian12系统的服务器来安装FRP的服务端作为演示。服务器购买地址：https://www.crash.work/aff/AQXGDNKY简介FRP（FastReverseProxy）是一个高性能的反向代理应用，它可以帮助您将内网服务通过反向代理暴露
jquery基础和导航栏声声codeGrandMaster django python 后端
jquery基础和导航栏目录1jQuery基础2jQuery事件3jQuery影藏和显示4jQuery滑动5、区块属性6、导航栏1jQuery基础介绍jQuery是一个JavaScript库。jQuery极大地简化了JavaScript编程。jQuery很容易学习。基础语法：$(selector).action()美元符号定义jQuery选择符（selector）“查询"和"查找”HTML元素jQ
Windows 和 MacOS 上安装配置ADB（安卓调试桥）网络安全苏柒 windows macos adb 网络安全 python web安全数据库
一、Android调试桥(ADB)Android调试桥（ADB）是一款多功能命令行工具，它让你能够更便捷地访问和管理Android设备。使用ADB命令，你可以轻松执行以下操作网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！在设备上安装、复制和删除文件；安装应用程序；录制设备屏幕或截图；对设备进行调试，以便排查问题；检查手机上的日志文件；更新应用程序和系统组件的固件；完整地访问有关操作系
深度剖析哈希表数据结构：原理、冲突解决与优化策略麻辣酸甜笔记
摘要哈希表作为一种高效的数据结构，在计算机科学领域广泛应用。本文深入探讨哈希表的工作原理，详细分析常见的冲突解决方法，如开放地址法、链地址法等，并进一步研究哈希表在不同场景下的优化策略，旨在帮助读者全面理解哈希表数据结构及其应用。一、引言在计算机程序中，快速查找和插入数据是常见需求。哈希表以其平均时间复杂度为O(1)的高效查找和插入特性，成为解决这类问题的有力工具。从数据库索引到编程语言的集合类实
Eagle_Wood-滤波方式学习笔记 OverflowSummer 嵌入式泛用知识学习笔记人工智能算法嵌入式硬件笔记学习
//1.移动平均滤波器（信号处理）#defineWINDOW_SIZE5floatmoving_average(float*buffer,floatnew_sample){ staticfloatsum=0; staticintindex=0; staticfloatsamples[WINDOW_SIZE]={0}; sum-=samples[index]; samples[ind
通过启用Ranger插件的Hive审计日志同步到Doris做分析 fzip Doris Hive doris 审计 hive
以下是基于ApacheDoris的RangerHive审计日志同步方案详细步骤，结合审计日志插件与数据导入策略实现：一、Doris环境准备1.创建审计日志库表参考搜索结果的表结构设计，根据Ranger日志字段调整建表语句：CREATEDATABASEIFNOTEXISTSranger_audit;CREATETABLEIFNOTEXISTSranger_audit_hive_log(repoTyp
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR