是Yu欸

16CODEIPPROMPT：顶会ICML’23 从GitHub到AI，探索代码生成的侵权风险与缓解策略的最新进展：训练数据`有限制性许可；模型微调+动态Token过滤【网安AIGC专题11.8】

CODEIPPROMPT: Intellectual Property Infringement Assessment of Code Language Models

写在最前面
一些思考
- 论文方向：知识产权侵权
- 课堂讨论：代码侵权
论文名片
关键发现
背景
- 研究动机
- 研究问题
- 开源许可证分类
框架设计
- 整体流程
- Prompt生成
- 剽窃评估
实验评估
- 评估指标
- - Expected Maximum (EM)
  - Empirical Probability (EP)
- 实验设置
- 侵权情况评估结果
- 影响因素分析——Generation
- 影响因素分析——编程语言
- 影响因素分析——训练数据
实验现象的根本原因分析
- 分析对象
- 训练数据集调研结果——License分布
- 训练数据集调研结果——数据集中重叠的限制性代码
- 训练数据集调研结果——隐性包含的许可限制代码
- 根本原因
- 可能的缓解策略
- 缓解策略测试结果
局限思考
- 潜在的解决方法

写在最前面

在人工智能和自然语言处理迅速发展的领域中，代码语言模型已成为技术互动的基石。它们能够基于提示生成代码，从而彻底改变了我们与技术的互动方式。然而，这一进步带来了一个关键问题：知识产权侵犯。
在本篇博客中，我们将深入探讨在ICML '23上展示的一项开创性研究，探索大型语言模型在代码生成中侵犯知识产权的程度。

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。

姬煜同学@WillJi3：分享了CODEIPPROMPT: Intellectual Property Infringement Assessment of Code Language Models《CODEIPPROMPT:代码语言模型的知识产权侵权评估》
分享时的PPT简洁大方，重点突出
论文：https://dl.acm.org/doi/10.5555/3618408.3620098

该论文发表于机器学习领域的顶会ICML ’23（International Conference on Machine Learning）
ICML与其他几个会议如NeurIPS（神经信息处理系统会议）和CVPR（计算机视觉和模式识别会议）一起，被广泛认为是人工智能和机器学习领域最具影响力和声望的会议之一。
ICML专注于机器学习的最新理论、算法和应用。

一些思考

在我们拥抱大型语言模型在代码生成中带来的进步的同时，解决伴随而来的知识产权挑战变得至关重要。
这项研究不仅突出了这些挑战的程度，还为未来研究和开发更加道德和合规的AI系统打开了新的途径。

论文方向：知识产权侵权

课堂讨论：代码侵权

侵权的标准：没有相应的法律法规
相似度是为了找到侵权的一个判断标准

在不影响性能的情况下，代码变形后，监测不出来
所以，不能仅根据代码相似度来判断侵权

论文名片

研究背景： 随着大型语言模型（LMs）的最新进展，它们在合成编程代码方面的能力得到了提升。然而，这也引发了关于知识产权（IP）侵权的担忧。尽管这一问题的重要性，但目前研究较少。

研究目的： 本文旨在通过提出CODEIPPROMPT平台来弥补这一研究空白。该平台用于自动评估代码语言模型可能复制许可程序的程度。

主要组成： CODEIPPROMPT包括两个关键组件：从受许可的代码数据库中构建的提示，以激发LMs生成侵犯IP的代码，以及用于评估代码LMs的IP侵权程度的测量工具。

评估活动： 对现有的开源代码LMs和商业产品进行了广泛评估，揭示了所有这些模型中普遍存在的IP侵权问题。

根本原因： 发现根本原因是训练语料库中受限制许可证内容的比例较大，这既是出于有意包含，也是由于现实世界中许可证实践的不一致所导致。

缓解策略： 探索了包括微调和动态令牌过滤在内的潜在缓解策略。

研究贡献： 我们的研究为评估现有代码生成平台的IP侵权问题提供了一个测试平台，并强调了需要更好的缓解策略。

关键发现

许可分类： 该研究根据许可级别将流行的开源许可证分类，从公共领域到强制性共享许可。
框架设计与评估： 在各种模型上评估CODEIPPROMPT框架，包括GPT-4和ChatGPT。结果显示，大多数模型都会生成侵权代码，商业模型如Copilot和Codex的侵权得分相对较低。
影响因素： 该研究分析了编程语言和训练数据等因素如何影响侵权率。由于Python在训练数据集中的普遍存在，它显示出更高的侵权得分。
根本原因分析： 一个重大发现是，大型模型的训练数据集包含大量受版权保护的代码，导致无意的知识产权侵犯。

背景

研究动机

大语言模型的最新进展为人工智能和自然语言处理带来了革命性的变化，大模型能够根据Prompts的要求自动生成代码

核心问题是：大模型会在不遵守相关许可证的情况下生成与现有程序相似甚至相同的代码

在用户不知情或未被告知的情况下使用了大模型自动生成的代码，可能会侵犯开源项目的代码知识产权，造成法律风险

微软、Github和OpenAI共同诉讼案等情况突显了这个问题的紧迫性：因为它允许Copilot在不遵守许可条款的情况下复制许可代码（Butterick, 2022）// 在不知情的情况下无意中侵犯原创作品

研究问题

该研究解决的关键问题是：如何自动评估大型模型在侵犯受版权保护的开源许可证代码方面的程度？

CODEIPPROMPT框架的开发，是首个自动化测试大型代码模型侵权情况的框架。

构建Prompt
从被许可证保护的开源代码中提取函数签名和注释 -> 构建Prompt
侵权评估
使用代码剽窃相似性分数 -> 衡量侵权程度

目标：通过大模型代码生成，揭示代码产权保护的前景

开源许可证分类

主流开源许可证可以根据许可条款所要求的许可程度进行分类。

Copyleft是由自由软件运动发展而来的概念，是一种开源许可方式，它授予用户复制、修改或分发软件的权利

框架设计

整体流程

CODEIPPROMPT框架包括
从受许可的开源代码中提取函数签名和注释来构建提示。
然后使用代码抄袭相似性分数来衡量侵权程度。

开源仓库需具备以下特征：

函数名称合理，函数注释规范
代表真实世界中开源项目的许可证使用情况
全面覆盖不同编程语言和license

CODEIPPROMPT从Github中收集了采用34种不同license的开源项目，共计4,075,553个

Prompt生成

一种基于函数签名的Prompt

Prompt的构造来源：
代码注释 -> 反映了程序功能
函数签名 -> 反映了程序语法

Prompt的构造方法：
正则表达式匹配

Prompt的生成对象：
被copyleft和Permisive许可保护的源文件

剽窃评估

现阶段代码侵权需要由法官的经验判断，CODEIPPROMPT提出了基于代码相似性分数进行剽窃评估

实验评估

评估指标

Expected Maximum (EM)

由1K个bootstrapped样本的最大得分的平均值计算的期望最大相似度
EM评分衡量生成代码与已有代码最相似的情况【剽窃程度】

Empirical Probability (EP)

在样本中至少生成一次评分为> 0.5的代码的平均概率
EP评分反映了模型生成侵权代码的频率【剽窃概率】

实验设置

10个待测模型：
GPT-4
ChatGPT
Copilot
Codex
CodeT5-large
CodeT5-ntp-py
CodeParrot-110M
CodeParrot-1.5B
CodeGen-350M
CodeGen-2.7B
其他设置：
每个Prompt在每个模型上进行50 generations

侵权情况评估结果

随着越来越多的用户使用GPT进行代码生成，采取措施解决代码侵权问题成为当务之急！

Finding 1：大多数模型会在50 generations内生成侵权代码，且概率较高
Finding 2：商用软件Copilot和Codex实现了相对更低的EM和EP（可能因为其在更大的语料库训练）
Finding 3：
CodeT5-large的相似分数最低（人工检查发现其生成的代码大多是错误的）
CodeT5-large-ntp-py就显示了更高的EM和EP（因为其采用了额外的python项目对CodeT5-large进行了微调）
Finding 4：
GPT-4和ChatGPT虽然是针对自然语言，但表现和商用代码大模型(Copilot,Codex)近似
因为其训练数据包含了800万个网页，其中就包含被license保护的代码网页
用户的输入被额外纳入模型训练的机制进一步强化了该问题

影响因素分析——Generation

这两个模型可以在generation 100内生成高度相似的代码，其概率为p > 0.9

EM和EP都随着n的增大而增大，因为更多的试验会生成更多代码

当n非常小或非常大时，会非常困难或很容易遇到抄袭现有代码，因此下文的研究均保持generation为50

影响因素分析——编程语言

不同编程语言的侵权情况差异不大
Python的EM和EP较高
- Codex和Copilot这两种商业产品都声称最擅长Python的代码生成
- 其他开源模型的训练集中Python程序的占比较大

影响因素分析——训练数据

预想：一些Prompt会从训练数据中的源代码获得，这种Prompt生成的代码重复性会更高
实验：构建了每个模型训练数据以外的Prompt，即过滤掉该模型训练数据的Prompt进行实验

来自过滤数据集的Prompt也产生了相对较高的分数，尽管它们没有用于训练
模型规模并没有显著影响代码的复制能力
例如，CodeGen和CodeParrot框架下的两个模型，模型规模相差约10x，但结果相似

实验现象的根本原因分析

分析对象

训练数据集调研结果——License分布

所有训练集中都包含了有限制性许可的源代码

训练数据集调研结果——数据集中重叠的限制性代码

不同训练数据集包含了大量共享的限制性代码
重叠数据大部分是Permissive许可，也有很大一部分是Copyleft许可

因此，必须仔细考虑数据的许可组成，以确保遵守许可并保护知识产权

训练数据集调研结果——隐性包含的许可限制代码

现存问题：

弱许可证的代码仓库中可能隐性包含了强许可证保护的代码

调研内容：

根据四个数据集构建了一个无重叠的代码数据库
抽样检查代码是否来自更严格许可证保护的开源项目

调研结果：
发现了353个违规行为，占抽样数量的0.1%

268个库是从强copyleft许可代码派生出来的，但它们并没有在强copyleft下获得许可
14个库是从Permisive许可代码派生出来的，但它们在不需要任何限制的公共许可下发布
可能有很多项目的部分代码来自许可限制性仓库，而没有提供适当的许可或属性

根本原因

为什么代码大模型生成的代码存在侵权的现象？

代码大模型的训练数据集中包含了大量受版权保护的源代码仓库
侵权的训练数据在常用训练集中非常普遍，甚至重复出现
由于开发不规范，很多弱保护的代码仓库中存在强保护的代码片段，甚至其本身就派生自更强保护的代码仓库

可能的缓解策略

该研究建议使用公共数据对模型进行微调以减少侵权，并引入动态令牌过滤方法。然而，这些策略并不能完全解决问题，并可能影响代码生成性能。

微调模型：进一步用公共数据调优模型使得大模型更倾向于生成限制较少的代码

动态Token过滤：每次只解码k个token，并使用CODEIPPROMPT框架评估相似性
如果分数高于0.5，则回滚一个token并从其余选项中进行选择

缓解策略测试结果

两种策略在降低代码的可重复性方面都是有用的

基于Fine-tune的方式降低重复性的表现并不明显
基于动态过滤的方式虽然有效缓解了代码生成的侵权现象，但是代码生成的效果变差

这两种方法都不能完全解决问题，而且可能会以降低代码生成性能为代价

局限思考

潜在的解决方法

如从训练数据集中移除限制性代码，并探索更智能的模型架构，以平衡代码质量与知识产权保护。

通过删除限制性代码缓解侵权

简单删除训练数据集中强copyleft保护的仓库不一定有效（文件粒度和函数粒度存在侵权）需要更细粒度的数据清洗

通过可控的代码生成缓解侵权（优化动态过滤策略）

平衡代码生成质量和减缓侵权

通过启用更智能的模型缓解侵权

目前即使是最先进的模型似乎也只是简单地复制了以前学到的信息
因此，从知识产权保护的角度探索改进的模型体系结构可能是一个有价值的未来工作方向

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
【LeetCode 热题 100】24. 两两交换链表中的节点——（解法一）迭代+哨兵 xumistore LeetCode leetcode 链表算法 java
Problem:24.两两交换链表中的节点题目：给你一个链表，两两交换其中相邻的节点，并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题（即，只能进行节点交换）。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个经典的链表操作问题：两两交换链表中的节点(SwapNodesinPairs)。问题要求将链表中每两个相邻的节点进行交换
基于定制开发开源AI智能名片S2B2C商城小程序的社群游戏定制策略研究说私域人工智能小程序游戏
摘要：本文聚焦社群游戏定制领域，深入探讨以社群文化和用户偏好为导向的定制策略。通过分析互动游戏活动、社群文化塑造等关键要素，结合定制开发开源AI智能名片S2B2C商城小程序的技术特性，提出针对性游戏定制方案。研究旨在提升社群用户参与度与游戏体验，为社群游戏发展提供理论支持与实践指导。关键词：社群游戏定制；定制开发开源AI智能名片S2B2C商城小程序；社群文化；用户偏好一、引言在数字化社交蓬勃发展的
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
深入剖析OpenJDK 18 GA源码：Java平台最新发展想法臃肿
本文还有配套的精品资源，点击获取简介：OpenJDK18GA作为Java开发的关键里程碑，提供了诸多新特性和改进。本文章深入探讨了OpenJDK18GA源码，揭示其内部机制，帮助开发者更好地理解和利用这个版本。文章还涵盖了PatternMatching、SealedClasses、Records、JEP395、JEP406和JEP407等特性，以及HotSpot虚拟机、编译器、垃圾收集器、内存模型
Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
基于开源AI智能名片链动2+1模式与S2B2C商城小程序的渠道选择策略研究说私域人工智能小程序
摘要：在数字化商业环境下，品牌与产品的渠道选择对其市场推广和运营成功至关重要。本文聚焦于如何依据自身品牌和产品特性，结合开源AI智能名片链动2+1模式与S2B2C商城小程序，运用科学的渠道选择方法，慎重挑选1-2个适宜平台，集中资源发力并取得成绩后再拓展其他渠道。通过理论分析与案例研究，探讨该策略的有效性和可行性，为企业渠道布局提供参考。关键词：渠道选择；开源AI智能名片；链动2+1模式；S2B2
深入解析 TCP 连接状态与进程挂起、恢复与关闭誰能久伴不乏 tcp/ip 网络服务器
文章目录深入解析TCP连接状态与进程挂起、恢复与关闭一、TCP连接的各种状态1.**`LISTEN`**（监听）2.**`SYN_SENT`**（SYN已发送）3.**`SYN_RECEIVED`**（SYN已接收）4.**`ESTABLISHED`**（已建立）5.**`FIN_WAIT_1`**（关闭等待1）6.**`FIN_WAIT_2`**（关闭等待2）7.**`CLOSE_WAIT`**
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
配音助手：自媒体神器，内置海量音色的语音，支持多主播配音阿幸软件杂货间媒体
软件介绍内置文字转语音，提供多个主播音色，男声、女声、小孩、方言。支持的场景也是比较多，比如：广告促销、有声读物、广播配音、影视配音、Ai配音等。这个软件是免费的，只不过需要通过手机号码登录就可以使用全部功能了。软件下载夸克下载
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
npm proxy setting kjndppl [Node.js JavaScript npm https proxy password
清理npmconfigdeletehttp-proxynpmconfigdeletehttps-proxy具体设置步骤如下：1.执行npmconfig后，将看到下一行提示信息npmconfigls-ltoshowalldefaults.2.执行npmconfigls-l后，在一大长串的settign中找出userconfig项(大概位于倒数第4项)[b]userconfig[/b]="C:\\Us
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
kube-scheduler 抢占机制分享放大价值 kubernetes源码分析 kubernetes kube-scheduler 抢占
当pod调度失败后，会在PostFilter扩展点执行抢占流程，下面分析相关的代码实现抢占接口//PodNominatorabstractsoperationstomaintainnominatedPods.typePodNominatorinterface{//将pod加入抢占成功的node中AddNominatedPod(pod*PodInfo,nodeNamestring)//将pod从no
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR