技术狂潮AI

使用OpenAI Whipser开源模型实现长音频转录并结合GPT模型做文本翻译

一、前言

在前面一篇文章《Whisper与ChatGPT联手，轻松实现音频转录文本总结》给大家介绍过如何使用OpenAI的在线API接口和开源的离线Whisper模型做语音转录文本，以及对于转录后的文本内容基于GPT模型进行摘要总结。主要应用于对音频或视频做文本转录、视频或音频摘要总结、以及视频字幕翻译等场景。甚至对于实时视频会议转录也是支持的。

实际上当时留了个悬念，本来也有计划再写一篇后续来接着第一篇深入实践，对于长语音分割方面的问题，有位粉丝朋友当天就提出了自己的一些建议，希望对原来的案例进行优化，那今天就接着说说一些优化思路吧。

看得出来，这位朋友确实对于语音这块有过实践，认真思考过，上一篇我们采取的是根据时间间隔来对语音进行分片切割的方案，这个方案其实存在一定的缺陷。我们在将长音频分片进行转录的过程里，是完全按照精确的时间去切割音频文件的。但是实际上音频的断句其实并不在那一毫秒。所以转录的时候，效果也不一定好，特别是在录音的开头和结尾部分，很有可能不是一个完整的句子，也容易出现一些错漏的情况。

二、解决思路

针对长音频文件提供两种分片切割方案，第一种在前面一篇文章中已经介绍，今天重点来介绍第二种方案，顺便结合GPT模型对转录的文本做翻译。

将音频文件按固定时间间隔分割成块，并使用Whisper API进行语音识别转录
将音频文件根据静音部分分割成块，并使用Whisper API进行语音识别转录

除了以上两种针对开源Whisper模型自己实现的方案外，也有一些比较成熟的商用解决方案，大家可以根据自己的需求进行选择，这里介绍两款产品，可以非常方便的支持可视化流程配置的方式实现LLMs的集成应用。

Gglot（https://app.gglot.com/register?ref=DYQjn57U）

Gglot 一款非常简单易用的音频和视频转录解决方案，只需要选择音频或视频文件然后指定要翻译的语言即可，也支持Youtube视频直接转录，不过源视频或者音频的质量太差可能效果不好太好。

Shipyard（https://www.shipyardapp.com/）

Shipyard 设计为一流的工作流程自动化平台，提供了许多开箱即用的功能，可以帮助数据团队比以往更快地投入生产。团队可以在不到 5 分钟的时间内启动、监控、扩展和共享业务解决方案，而无需接触基础设施。用Shipyard只需要不到5分钟即可完成Youtube视频转录翻译的功能。

三、开发实践

接下来，开始对于第二种解决方案音频文件根据静音部分分割成块的方案进行具体的编码实践。

由于OpenAI 限制了 Whisper 一次只能转录25MB大小的文件，因此我们需要将大的播客文件分割成小的片段，转录完后再将它们拼接起来。我们可以使用OpenAI在官方文档中提供的PyDub库来分割文件。

3.1、安装依赖

首先确保安装了PyDub库。

%pip install pydub

使用开源模型，需安装 openai-whisper 的相关的依赖包。

%pip install openai-whisper 
%pip install setuptools-rust

如需要翻译则需要安装 `openai` 的相关的依赖包。

!pip install openai --upgrade -q

3.2、音频切割（固定间隔）

我们先来回顾一下采用固定时间间隔进行拼音切割，然后使用Whisper进行转录的一个实际效果。

import os
import whisper
from pydub import AudioSegment
from pydub.silence import split_on_silence

model = whisper.load_model("large")

# 使用Whisper本地进行音频转录
def transcribe_audio_whisper(path):
    result = model.transcribe(path)
    text = result['text']
    return text

# 将音频文件按固定时间间隔分割成块，并使用Whisper API进行语音识别的函数
def get_large_audio_transcription_fixed_interval_whisper(path, minutes=5):
    sound = AudioSegment.from_file(path)
    chunk_length_ms = int(1000 * 60 * minutes)
    chunks = [sound[i:i + chunk_length_ms] for i in range(0, len(sound), chunk_length_ms)]

    folder_name = "audio-fixed-chunks"
    if not os.path.isdir(folder_name):
        os.mkdir(folder_name)

    whole_text = ""
    for i, audio_chunk in enumerate(chunks, start=1):
        chunk_filename = os.path.join(folder_name, f"chunk{i}.mp3")
        audio_chunk.export(chunk_filename, format="mp3")

        try:
            text = transcribe_audio_whisper(chunk_filename)
        except Exception as e:
            print("Error:", str(e))
        else:
            text = f"{text.capitalize()}. "
            print(chunk_filename, ":", text)
            whole_text += text

    return whole_text

path="generative_ai_topics_clip.mp3"

print("\nFull text:", get_large_audio_transcription_fixed_interval_whisper(path, minutes=1/6))

输出结果：

audio-fixed-chunks/chunk1.mp3 : 欢迎来到onboard,真实的一线经验,走新的投资思考。我是monica。我是高宁。我们一起聊聊软件。. 
audio-fixed-chunks/chunk2.mp3 : 如何改變世界. 
audio-fixed-chunks/chunk3.mp3 : 在gbt掀起了席卷世界的ai热潮不到三个月就积累了超过一亿的热火用户超过1300万的热火用户真的是展现了ai让人. 
audio-fixed-chunks/chunk4.mp3 : 也让很多人直呼这就是下一个互联网的未来有不少观众都说希望我们再做一期ai的讨论于是这次硬盘的讨论就开始了. 
audio-fixed-chunks/chunk5.mp3 : 进行一个讨论就来了这次我们请来了google brain的研究员雪芝她是google大语言模型pompathway language model的作者之一要请雪芝介绍一下她的研究雪芝雪芝雪芝雪芝雪芝雪芝雪芝雪芝雪芝. 
audio-fixed-chunks/chunk6.mp3 : 这个模型的参数量是gpt-3的三倍还多另外还有两位ai产品大牛一位来自著名的stable diffusion背后的商业公司. 
audio-fixed-chunks/chunk7.mp3 : Solidity ai 另一位来自某硅谷科技大厂也曾在吴恩达教授的landing ai中担任产品负责人此外,莫妮凯还. 
audio-fixed-chunks/chunk8.mp3 : 我還邀請到一位一直關注ai的投資人朋友 bill當作我的特邀共同主持嘉賓我們主要討論幾個話題一方面從研究的視角. 
audio-fixed-chunks/chunk9.mp3 : 最前沿的研究者在关注什么?现在的技术的天花板和未来大的变量可能会在哪里?从产品和商业的角度,什么是一个好的ai产品?. 
audio-fixed-chunks/chunk10.mp3 : 整个生态可能随着技术有怎样的演变更重要的,我们又能从上一波ai的创业热潮中学到什么最后,摩登的技术是如何发展的?. 
audio-fixed-chunks/chunk11.mp3 : 在本集发布的时候,google也对爆发式增长的一些新的技术提供了一些新的提示。这些提示包括了,在新的版本上,我们可以看到,在新版本上,我们可以看到,在新版本上,我们可以看到,在新版本上,我们可以看到,在新版本上,我们可以看到,在新版本上,我们可以看到,. 
audio-fixed-chunks/chunk12.mp3 : 我们在这次的测试中,我们与一位非常有名的chatgbt作出了回应。正在测试一个基于lambda模型的聊天机器人apprenticebot。证实发布后会有怎样的惊喜,我们就要来看看了。. 
audio-fixed-chunks/chunk13.mp3 : 都拭目以待ai无敌是未来几年最令人兴奋的变量之一monica也希望未来能邀请到更多一线从业者从不同角度来进行. 
audio-fixed-chunks/chunk14.mp3 : 讨论这个话题。不论是想要做创业、研究、产品还是投资的同学,希望这些对话对于大家了解这些技术演进。. 
audio-fixed-chunks/chunk15.mp3 : 商业的可能 甚至未来对于我们每个人 每个社会意味着什么 都能引发一些思考 提供一些启发这次的讨论有些技术硬核. 
audio-fixed-chunks/chunk16.mp3 : 需要各位对生成式ai大模型都有一些基础了解讨论中涉及到的论文和重要概念也会总结在本集的简介中. 
audio-fixed-chunks/chunk17.mp3 : 供大家複習參考幾位嘉賓在北美工作生活多年夾雜英文在所難免也請大家體諒了歡迎來到未來. 
audio-fixed-chunks/chunk18.mp3 : 大家enjoy.

我这里用的是一个中文的mp3音频文件，从输出结果可以看到对于中文略微有一点瑕疵，穿插着简体和繁体的内容。

3.3、音频提取

如果你需要对视频文件进行转录，PyDub也支持从视频文件中提取音频，然后交给Whisper做音频识别转录。下面的代码简单介绍了如何使用PyDub从视频文件中提取音频。也可以用前面介绍的PyTube库（主要是基于Youtube视频）

# 从MP4文件中提取音频
video_path = "01-beginner_python_developer.mp4"
audio_path = "01-beginner_python_developer.mp3"

video = AudioSegment.from_file(video_path, format="mp4")
audio = video.set_channels(1)  # 转为单声道
audio.export(audio_path, format="mp3")

3.4、音频切割（静音切割）

除了使用固定间隔的方式外，还可以使用PyDub库提供的函数，将音频文件根据静音部分来分割成块，并使用Whisper进行语音识别。按静音来分割可能会产生很多小的静音文件，为了降低过多的碎片文件，下面的代码对分割的文件进行了优化，可以设置每个segment的固定大小，小于segment的碎片都合并为一个segment。

其中对于静音分割主要是使用PyDub库中的split_on_silence()函数将音频文件分割成多个部分，其中参数的设置会影响到分割的效果。

min_silence_len（最小静音长度）：这个参数表示静音的最小持续时间（以毫秒为单位）。如果静音的持续时间小于这个值，则不会被认为是分割点。较小的值会导致更多的分割点，而较大的值则会导致更少的分割点。
silence_thresh（静音阈值）：这个参数表示音频的静音阈值。PyDub使用dBFS（分贝全幅值）来表示音频的音量。sound.dBFS-14表示将音频的音量降低14dBFS作为静音的阈值。较低的值会使更多的部分被认为是静音，从而导致更多的分割点，而较高的值则会使更少的部分被认为是静音，导致更少的分割点。
keep_silence（保留静音）：这个参数表示在分割音频时，每个分割部分之间保留的静音时间（以毫秒为单位）。如果设置为0，则不会保留任何静音。较大的值会在分割部分之间添加更多的静音，而较小的值则会减少静音时间。

要根据具体的音频文件和需求来确定这些参数的最佳设置。你可以尝试不同的值并观察分割结果，根据需要进行调整。

sound.dBFS表示音频文件的分贝全幅值。在这里，sound.dBFS-14表示将音频的音量降低14dBFS，作为静音的阈值。这是一种常见的做法，因为静音通常比正常音频的音量低很多。

import whisper
from pydub import AudioSegment
from pydub.silence import split_on_silence

model = whisper.load_model("large")

# 使用Whisper本地进行音频转录
def transcribe_audio_whisper(path):
    result = model.transcribe(path)
    text = result['text']
    return text

def translate_text_to_chinese(text):
    translation = openai.Completion.create(
        engine="text-davinci-003",
        prompt=f"将以下英文文本翻译成中文: '{text}'",
        max_tokens=1000,
    )

    translated_text = translation.choices[0].text.strip()
    return translated_text
    
# 将音频文件根据静音部分分割成块，并使用Whisper API进行语音识别的函数
def get_large_audio_transcription_on_silence_whisper(path, export_chunk_len):
    sound = AudioSegment.from_file(path)
    chunks = split_on_silence(sound, min_silence_len=500, silence_thresh=sound.dBFS-14, keep_silence=500)

    folder_name = "audio-chunks"
    if not os.path.isdir(folder_name):
        os.mkdir(folder_name)

    # 现在重新组合这些块，使得每个部分至少有export_chunk_len长。
    output_chunks = [chunks[0]]
    for chunk in chunks[1:]:
        if len(output_chunks[-1]) < export_chunk_len:
            output_chunks[-1] += chunk
        else:
            # 如果最后一个输出块的长度超过目标长度， 我们可以开始一个新的块
            output_chunks.append(chunk)

    whole_text = ""
    for i, audio_chunk in enumerate(output_chunks, start=1):
        chunk_filename = os.path.join(folder_name, f"chunk{i}.mp3")
        audio_chunk.export(chunk_filename, format="mp3")

        try:
            text = transcribe_audio_whisper(chunk_filename)
        except Exception as e:
            print("Error:", str(e))
        else:
            text = f"{text.capitalize()}. "
            print(chunk_filename, ":", text)
            whole_text += text

    return whole_text

path="01-beginner_python_developer.mp3"
export_chunk_len = 90 * 1000

audio_text = get_large_audio_transcription_on_silence_whisper(path, export_chunk_len)
print("\nAudio Full text:", audio_text)

chinese_audio_translation = translate_text_to_chinese(audio_text)
print("\nAudio Translate text:", chinese_audio_translation)

输出结果：

100%|█████████████████████████████████████| 2.87G/2.87G [00:59<00:00, 52.2MiB/s]
audio-chunks/chunk1.mp3 :  hello, and welcome to the world's best python bootcamp. my name is angela, i'm a senior developer and the lead instructor at the appbury, london's highest rated programming bootcamp. to date, i've taught over half a million students in person and online, and i'm so excited to be your instructor on this course. as a student on this course, you're going to get access to over 56 hours of hd video content which contains step-by-step tutorials, interactive coding exercises, quizzes, and more. the course is structured around the 100 days of code challenge, so you can look forward to 100 days of lovingly crafted content that is going to cover every aspect of python programming, from web development to data science. it's the only course you need to become a professional python developer. every day on the course, you're going to use what you've learnt to build a new project. you'll build a bot that texts you in the morning if it will rain that day, so you never forget your umbrella again. you'll build classic arcade games like snake and pong to impress your friends by challenging them to a game that you built. you'll learn to make sense of complex data and create beautiful visualizations to impress your colleagues at work. you'll create a program that automatically sends happy birthday emails to your friends and family.. 
audio-chunks/chunk2.mp3 :  never forget mom's birthday again. you'll work on projects that clone real-world startups. cheap flight club? check. build your own blog? check. twitter bot? check. and there are so many more projects waiting to be discovered by you. 100 projects in total. so if you're somebody who wants to get a job as a python developer, then this is perfect for building up your portfolio to show off at your next interview. now this course assumes absolutely no prior programming experience. so if you're somebody who's never coded before, i'll be with you every step of the way as i take you from programming fundamentals through to more intermediate and advanced programming concepts. you're going to learn python from scratch. now if you're an advanced developer on the other hand, then take a look at the curriculum and start at the level that suits you best. from beginner to professional, every level is covered in the course. got school? working a full-time job? have to look after kids? i know you're busy. i've timed each day of the course to take less than two hours to complete so you can fit the course around your life. this course has exactly the same curriculum as our in-person programming bootcamp. so instead of spending thousands of dollars and taking time off work, you'll get access to exactly the same curriculum with years of design and testing behind it to ensure that you don't just know what to do, but know how to use it.. 
audio-chunks/chunk3.mp3 :  but also why you're doing it. now don't just take my word for it. check out what my past students had to say about my courses. so what are you still waiting for? find out why over half a million students have rated my course five stars and see what you can do by mastering python.. 

Audio Full text:  hello, and welcome to the world's best python bootcamp. my name is angela, i'm a senior developer and the lead instructor at the appbury, london's highest rated programming bootcamp. to date, i've taught over half a million students in person and online, and i'm so excited to be your instructor on this course. as a student on this course, you're going to get access to over 56 hours of hd video content which contains step-by-step tutorials, interactive coding exercises, quizzes, and more. the course is structured around the 100 days of code challenge, so you can look forward to 100 days of lovingly crafted content that is going to cover every aspect of python programming, from web development to data science. it's the only course you need to become a professional python developer. every day on the course, you're going to use what you've learnt to build a new project. you'll build a bot that texts you in the morning if it will rain that day, so you never forget your umbrella again. you'll build classic arcade games like snake and pong to impress your friends by challenging them to a game that you built. you'll learn to make sense of complex data and create beautiful visualizations to impress your colleagues at work. you'll create a program that automatically sends happy birthday emails to your friends and family..  never forget mom's birthday again. you'll work on projects that clone real-world startups. cheap flight club? check. build your own blog? check. twitter bot? check. and there are so many more projects waiting to be discovered by you. 100 projects in total. so if you're somebody who wants to get a job as a python developer, then this is perfect for building up your portfolio to show off at your next interview. now this course assumes absolutely no prior programming experience. so if you're somebody who's never coded before, i'll be with you every step of the way as i take you from programming fundamentals through to more intermediate and advanced programming concepts. you're going to learn python from scratch. now if you're an advanced developer on the other hand, then take a look at the curriculum and start at the level that suits you best. from beginner to professional, every level is covered in the course. got school? working a full-time job? have to look after kids? i know you're busy. i've timed each day of the course to take less than two hours to complete so you can fit the course around your life. this course has exactly the same curriculum as our in-person programming bootcamp. so instead of spending thousands of dollars and taking time off work, you'll get access to exactly the same curriculum with years of design and testing behind it to ensure that you don't just know what to do, but know how to use it..  but also why you're doing it. now don't just take my word for it. check out what my past students had to say about my courses. so what are you still waiting for? find out why over half a million students have rated my course five stars and see what you can do by mastering python.. 

Audio Translate text: 您好，欢迎来到世界上最好的Python引导班。我叫安吉拉，我是一位资深开发人员，也是伦敦最受欢迎的编程引导班——Appbury的首席讲师。到目前为止，我已在线上和线下教授了50多万的学生，我非常激动能成为您在本课程中的讲师。作为本课程的学生，您将获得超过56小时的HD视频内容，包含逐步教程、交互式编码练习、小测验等等。该课程围绕“100天代码挑战”而结构，因此您可以期待精心精心构思出的100天内容，涵盖Python编程的各个方面，从Web开发到数据科学。这是您成为专业Python开发者所需的唯一课程。在本课程中，每天您都将使用所学知识来构建新项目。您将构建一个如果隔天要下雨就发送短信的机器人，这样您就不会忘记带伞了。您将构建经典街机游戏，如Snake和Pong，让朋友为您自己构建的游戏而感到惊讶。您将学习如何解释复杂数据，并创建漂亮的可视化以给工作中的同事留下深刻的印象。您将创建一个自动给朋友和家人发送生日祝福的程序，再也不用担心把妈妈的生日忘记了。您还将开发类似于真实世界中的创业公司的项目，如廉价航班俱乐部？ 建立自己的博客？ Twitter机器人？总共有100个项目等着您去发现。因此，如果您想要成为一名Python开发者，那么这正是构建

这里演示了一个视频文件，按每90秒一个segment进行分割，最后调用OpenAI的接口进行翻译，因为设置了max_token限制，加上OpenAI本身的token有限制，所以你可以选择按segment进行翻译后合并，也可以最后统一来进行翻译。这里为了隔离，我暂时选择的是独立处理文本翻译。

3.5、转录翻译

首选设置你的 OPENAI_API_KEY 来设置你的KEY

import os
os.environ['OPENAI_API_KEY'] = "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"

下面演示了对于大文本翻译，采取了文本切片的方案，同时基于Python的多线程并发解决翻译效率问题。

import openai
from concurrent.futures import ThreadPoolExecutor

openai.api_key = os.getenv("OPENAI_API_KEY")
# 定义要翻译的大文本
text = audio_text

# 将文本分割成较小的段落或句子
segments = []
segment_size = 800  # 每个段落的最大长度（以token为单位）

for i in range(0, len(text), segment_size):
    segment = text[i:i+segment_size]
    segments.append(segment)

# 使用线程池进行并发请求
executor = ThreadPoolExecutor(max_workers=5)  # 根据需要调整并发请求数量

def translate_text_to_chinese(text):
    translation = openai.Completion.create(
        engine="text-davinci-003",
        prompt=f"将以下英文文本翻译成中文: '{text}'",
        max_tokens=1000,
    )

    translated_text = translation.choices[0].text.strip()
    return translated_text

# 提交并发请求
translated_segments = list(executor.map(translate_text_to_chinese, segments))

# 合并翻译结果
translated_text = ' '.join(translated_segments)

print(translated_text)

在这个例子中，我们使用了concurrent.futures.ThreadPoolExecutor来实现并发请求。我们将每个段落的翻译任务作为一个函数translate_segment提交给线程池进行并发执行。通过调整max_workers参数，可以控制并发请求数量。这样可以并行处理多个请求，提高效率。

注意：在使用并发请求时，请确保你的OpenAI API帐户具有足够的配额以支持并发请求。请参考OpenAI API文档了解有关配额和限制的详细信息。

通过批量翻译和并发请求这两种优化方法，可以加快处理大文本的速度，并提高代码的效率和性能。根据具体需求和环境，可以选择适合的优化策略。

输出结果：

你好，欢迎来到世界上最好的Python强化培训班。我是安吉拉，一位资深开发人员，也是位于伦敦最受欢迎的编程强化培训班Appbury的主讲教师。到目前为止，我曾在线上和线下教学超过50万学生，我非常高兴成为你们这次课程的主讲教师。 作为本门课程的学生，你将获得超过56小时的HD视频内容，其中包含逐步教程，交互式编码练习，测验等等。 本课程围绕100天代码挑战展开，因此你可以期待100天体贴入微的内容，涵盖Python编程的方方面面，从网页开发到数据科学等。 这是唯一一门帮助你成为专业Python开发人员所需要的课程。每天，你都会受益匪浅。 在这门课程上，你将用已学到的知识来构建一个新项目，你将建造一个智能机器人，如果那天将要下雨，它将在早上给你发短信提醒你，这样你永远不会忘记带伞了。你还将建造经典的街机游戏，比如贪吃蛇和乒乓球等，让你的朋友受到你的邀请一起玩你自己建造的游戏去挑战他们。你将学习如何处理复杂的数据，创建漂亮的可视化界面以给你的同事们留下深刻的印象。你将建造一个程序，自动给你的朋友和家人发送生日祝贺邮件--再也不用担心忘记妈妈的生日。你会参与一些项目来克隆现实世界中的创业公司，例如廉价航空俱乐部，撰写自己的博客，搭建Twitter机器人等等，还有许多有待发现的项目，一共有100个项目。所以，如果你想要掌握全新技能，让你的知识革新，那么就加入我们吧！ 如果你是想成为一名Python开发者的人，那么这课程非常适合用来建设你的作品集，展示在下次面试中。这门课程完全不需要预先的编程经验，所以如果你是从未编码过的人，我会指导你掌握从基础编程到中级和高级编程概念的每一步。你将从零学习Python。如果你已经是一名高级开发者，那么可以查看课程大纲，找到最适合你的水平开始学习。从初学者到专业人士，每个水平都在这个课程中都有涵盖。还要上学？还要全职工作？还要照顾小孩？我知道你是很忙的，我为每一天的课程安排了不超过2小时的时间。 这门课程可以让你围绕自己的生活安排完成，它的课程跟我们现场编程军训营的一样，所以你既省去了上千美元的花费，也不需要请假上课，你可以获得完全相同的课程，这门课程经过多年的设计和测试，保证你不仅知道该做什么，更知道如何去使用，而且还知道为什么要做这项任务。现在不要只相信我的话，看看我过去的学生如何评价我的课程。所以你还在等什么？为什么超过50万学生评价我的课程5星级，让你通过掌握Python来实现自己的收获吧。

四、总结

今天我们主要是基于前面我们介绍的Whipser语音转录中对于长语音的分割方案进行优化。我们在将长音频分片进行转录时，我们完全按照精确时间进行切割，但实际上断句并不是发生在每个毫秒上。因此，在转录过程中可能会出现效果不理想的情况，尤其是在录音开头和结尾部分可能出现不完整句子或错误遗漏。

今天主要针对长音频文件，我们提供了两种分片切割方案。第一种方案已经在之前的文章中介绍过，今天我们重点介绍第二种方案，并结合GPT模型对转录文本进行翻译。

除了以上两种自行实现的针对开源Whisper模型的方案，还有一些成熟的商用解决方案可供选择。以下是两款产品推荐，它们提供了可视化流程配置的方式来集成LLMs应用。

通过这些优化思路和商业产品推荐，我们可以更好地实现长语音分割和转录翻译的需求。无论是选择自己实现还是使用商业解决方案，都能提升我们在语音转录和处理领域的效率和质量。

你可能感兴趣的:(AI应用实战,音视频,gpt)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十一题互联网打工人no1 C语言程序设计每日一练 c语言
打印如下图案:#includeintmain(){inti,j;charch='A';for(i=1;i<5;i++,ch++){for(j=0;j<5-i;j++){printf("");//控制空格输出}for(j=1;j<2*i;j++)//条件j<2*i{printf("%c",ch);//控制字符输出}printf("\n");}return0;}
每日一题——第八十二题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将一个控制台输入的字符串中的所有元音字母复制到另一字符串中#include#include#include#include#defineMAX_INPUT1024boolisVowel(charp);intmain(){charinput[MAX_INPUT];charoutput[MAX_INPUT];printf("请输入一串字符串：\n");fgets(input,sizeof(inp
每日一题——第八十三题互联网打工人no1 C语言程序设计每日一练 c语言
题目：将输入的整形数字输出,输出1990，输出"1990"#include#defineMAX_INPUT1024intmain(){intarrr_num[MAX_INPUT];intnum,i=0;printf("请输入一个数字：");scanf_s("%d",&num);while(num!=0){arrr_num[i++]=num%10;num/=10;}printf("\"");for(
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
腾讯云技术深度探索：构建高效云原生微服务架构我的运维人生云原生架构腾讯云运维开发技术共享
腾讯云技术深度探索：构建高效云原生微服务架构在当今快速发展的技术环境中，云原生技术已成为企业数字化转型的关键驱动力。腾讯云作为行业领先的云服务提供商，不断推出创新的产品和技术，助力企业构建高效、可扩展的云原生微服务架构。本文将深入探讨腾讯云在微服务领域的最新进展，并通过一个实际案例展示如何在腾讯云平台上构建云原生应用。腾讯云微服务架构概览腾讯云微服务架构基于云原生理念，旨在帮助企业快速实现应用的容
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
如何部分格式化提示模板:LangChain中的高级技巧 nseejrukjhad langchain java 服务器 python
标题:如何部分格式化提示模板:LangChain中的高级技巧内容:如何部分格式化提示模板:LangChain中的高级技巧引言在使用大型语言模型(LLM)时,提示工程是一个关键环节。LangChain提供了强大的提示模板功能,让我们能更灵活地构建和管理提示。本文将介绍LangChain中一个高级特性-部分格式化提示模板,这个技巧可以让你的提示管理更加高效和灵活。什么是部分格式化提示模板?部分格式化提
在一台Ubuntu计算机上构建Hyperledger Fabric网络落叶无声9 区块链超级账本 Hyperledger fabric 区块链 ubuntu 构建 hyperledger fabric
在一台Ubuntu计算机上构建HyperledgerFabric网络Hyperledgerfabric是一个开源的区块链应用程序平台，为开发基于区块链的应用程序提供了一个起点。当我们提到HyperledgerFabric网络时，我们指的是使用HyperledgerFabric的正在运行的系统。即使只使用最少数量的组件，部署Fabric网络也不是一件容易的事。Fabric社区创建了一个名为Cello
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi