个推技术

词向量Word Embedding原理及生成方法

前言

Word Embedding是整个自然语言处理（NLP）中最常用的技术点之一，广泛应用于企业的建模实践中。我们使用Word Embedding能够将自然文本语言映射为计算机语言，然后输入到神经网络模型中学习和计算。如何更深入地理解以及快速上手生成Word Embedding呢？本文对Word Embedding原理和生成方法进行了讲解。

一、Word Embedding初探

什么是Word Embedding

一句话概述，Word Embedding即词向量，是一种函数映射关系。我们知道，在机器学习中，特征都是以数值的形式进行传递的。同样的，在NLP中，文本特征也需要被映射成数值向量。例如，我们将单词“你好”进行Word Embedding后，可以把其映射成一个5维向量：你好 ——> (0.1, 0.5, 0.3, 0.2, 0.2)。

词向量的映射过程

一般来说，我们采用“词 ——> 向量空间1 ——> 向量空间2”的映射过程实现文本单词向量化。整个映射过程可以分为两步：

1、词 ——> 向量空间1

该步骤解决把一个词转换成vector（数值向量）的问题。例如，将文本单词转换成One-Hot向量。

2、向量空间1 ——> 向量空间2

该步骤解决vector的优化问题，即在已经有了一个vector的情况下，寻求更好的办法优化它。

二、使用One-Hot和SVD求Word Embedding方法

One-Hot（词——>向量空间1）

One-Hot是目前最常见的用于提取文本特征的方法之一。本文使用One-Hot完成映射过程的第一步，即词——>向量空间1。

我们将语料库中的每一个词都作为一个特征列，如果语料库中有V个词，则有V个特征列，例如：

在这一映射过程中，One-Hot存在以下缺点：1）容易产生稀疏特征；2）容易引发维度爆炸；3）使得词间失去语义关系。

例如，按照常识，旅店（hotel）和汽车旅店（motel）间应该是具备某种相似性的，但是我们的映射结果却表明他们的向量积为0。旅店（hotel）和汽车旅店（motel）之间的相似性等于其和猫（cat）之间的相似性，这显然是不合理的。

改进方向：

1）尝试将词向量映射到一个更低维的空间；

2）同时保持词向量在该低维空间中具备语义相似性，如此，越相关的词，它们的向量在这个低维空间里就能靠得越近。

SVD（向量空间1——>向量空间2）

1、如何表示出词和词间的关系

SVD，即奇异值分解（Singular Value Decomposition），是在机器学习领域广泛应用的算法，它不仅可以用于降维算法中的特征分解，也广泛应用于推荐系统，以及自然语言处理等领域，是很多机器学习算法的基石。本文使用SVD来解决vector的优化问题。

我们首先构造了一个亲和矩阵（affinity matrix），先保证在不降维的情况下，能够反映出词和词间的关系。构造亲和矩阵的方式有很多种，这里列举较常见的两种方式。

✦方式一

假设你有N篇文章，一共有M个去重词，则可以构造亲和矩阵如下：

其中每一个值表示单词在某篇文章中的出现次数。这个矩阵可以反映词的一些性质。比如一个词是“播种”，那么它可能在“农学”类的文章里出现得多一些；一个词是“电影”，那么它可能在“艺术”类的文章中出现得多一些。

✦方式二

假设我们有M个去重单词，则可构造M*M的矩阵，其中每个值表示相应的两个单词在一篇文章里共同出现的次数，例如：

2、对亲和矩阵进行分解

有了亲和矩阵，就可以对其进行SVD分解，这个目的就是进行降维了，结果如下：

我们把原亲和矩阵X（左边）分解成了右边的三部分，右边的三个部分从左到右可以这么理解：

✦U矩阵：从旧的高维向量空间到低维向量空间的一种转换关系；

✦ σ矩阵：方差矩阵。每一列表示低维空间中每一个坐标轴的信息蕴含量。方差越大，说明在该坐标轴上数据波动显著，则信息蕴含量越丰富。在降维时，我们首先考虑保留方差最大的若干个坐标轴；

✦ V矩阵：每个词向量的新表示方式。在和前两个矩阵相乘后，得到最终的词向量表示方式。

此时，右边的矩阵依然是V维的，还没有实现降维。因此，正如前文所说，我们取top k大的方差列，将U，σ和V三个矩阵按照方差从大到小的顺序排列好，这样就能得到最终的降维后的结果了：

3、SVD缺点

1）亲和矩阵的维度可能经常变，因为总有新的单词加进来，每加进来一次就要重新做SVD分解，因此这个方法不太通用；2）亲和矩阵可能很稀疏，因为很多单词并不会成对出现。

改进思路：

1）在降低稀疏性方面，可以不仅仅关注和一个单词有上下文关系的那些词；2）对于一个模型从没有见过一个单词，则考虑从上下文关系中猜到它的信息，以增加通用性。

沿着这两个思路，我们可以考虑引入CBOW和Skip-Gram，来求word embedding。

三、CBOW和Skip-Gram求Word Embedding

CBOW的全称是continuous bag of words（连续词袋模型），其本质也是通过context word（背景词）来预测一个单词是否是中心词（center word）。Skip-Gram算法则是在给定中心词（center word）的情况下，预测一个单词是否是它的上下文（context）。

本文主题是embedding，这里我们提到预测中心词和上下文的最终目的还是通过中心词和上下文，去训练得到单词语义上的关系，同时把降维做了，这样就可以得到最终想要的embedding了。

CBOW

思路：

假设已知一个center word和一串context

可尝试训练一个矩阵V，它的作用是把单词映射到新的向量空间中去（这就是我们想要的embedding！）

同时还可训练一个矩阵U，它的作用是把embedding后的向量映射到概率空间，计算一个词是center word的概率

训练过程：

过程详述：

（1）假设X的C次方是中间词，且context的长度为m，那么context样本可以表示成

其中每一个元素都是一个One-Hot vector。

（2）对于这些One-Hot变量，我们希望可以用Word Embedding将它映射到一个更低维的空间。这里要补充介绍一下，Word Embedding是一种function，映射到更低维的空间是为了降低稀疏性，并保持词中的语义关系。

（3）取得embedding后输入 vector的平均值。之所以要取平均值，是因为这些单词都具有上下文联系，为了训练方便，我们可以用一个更紧凑的方法表示它们。

（4）这样，我们就实现了一个文本在低维空间中的平均embedding。

接下来，我们需要训练一个参数矩阵，对这个平均embedding进行计算，从而输出平均embedding中每一个词是中心词的概率。

CBOW一条龙训练过程回顾

softmax训练打分参数矩阵

交叉熵：

skip-gram

skip-gram 已知中心词，预测context。此处不再赘述。

总结

本文对Word Embedding原理和生成方法进行了讲解，对Word Embedding生成过程中的相关问题进行了解答，希望能帮助读者提升Word Embedding的实践效率。

如今，机器学习快速发展，并应用到众多行业场景。作为一家数据智能企业，个推在大规模机器学习和自然语言处理领域持续探索，也将Word Embedding应用到标签建模等方面。目前，个推已经构建起覆盖数千种标签的立体画像体系，为移动互联网、品牌营销、公共服务等领域的客户开展用户洞察、人口分析、数据化运营等持续提供助力。

后续个推还将继续分享在算法建模、机器学习等领域的干货内容，请保持关注哦。

你可能感兴趣的:(自然语言处理,算法,机器学习,自然语言处理,算法,人工智能,机器学习)

AI在电商平台商品描述生成中的应用 AI天才研究院计算 AI大模型企业级应用开发实战大数据AI人工智能 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI在电商平台商品描述生成中的应用关键词：人工智能、电商平台、商品描述、自然语言处理、机器学习、深度学习摘要：本文深入探讨了人工智能在电商平台商品描述生成中的应用。首先，我们回顾了人工智能的概述和电商平台的发展背景。随后，分析了商品描述在电商平台中的重要性以及存在的问题。接下来，我们重点介绍了AI在商品描述生成中的应用技术，包括自然语言处理、机器学习和深度学习等。文章还通过实战案例展示了AI商品描
SpringAI基于API对大语言模型调用 _沉浮_ AI 语言模型人工智能 springAI
引言随着人工智能技术的迅猛发展，大型语言模型（LLM）在各个领域的应用越来越广泛。SpringAI作为一个旨在简化AI集成的框架，为开发者提供了高效、便捷的工具来连接和调用这些大模型。本文将详细探讨如何使用SpringAI整合通义千问等大语言模型，并通过实例演示这一过程，最后提供一些扩展建议。一、SpringAI简介SpringAI是一个专为AI工程设计的应用框架，旨在将Spring生态系统设计原
从日程安排到区间合并：探索合并区间问题｜LeetCode 56 合并区间忍者算法_ leetcode 算法职场和发展面试跳槽
LeetCode56合并区间点此看全部题解LeetCode必刷100题：一份来自面试官的算法地图（题解持续更新中）更多干货，请关注公众号【忍者算法】，回复【刷题清单】获取完整题解目录～生活中的算法想象你是一位活动策划师，桌上摆着许多便利贴，每张写着不同的活动时间段：9:00-11:00的晨会、10:30-12:00的培训、14:00-16:00的项目汇报、15:00-17:00的团队建设…有些活动
使用 PyTorch 实现逻辑回归：从数据到模型保存与加载弥树子 pytorch 逻辑回归人工智能
在机器学习中，逻辑回归是一种经典的分类算法，广泛应用于二分类问题。本文将通过一个简单的示例，展示如何使用PyTorch框架实现逻辑回归模型，从数据准备到模型训练、保存和加载，最后进行预测。1.数据准备逻辑回归的核心是通过学习数据中的特征与标签之间的关系来进行分类。在本示例中，我们手动创建了一个简单的二维数据集，包含两类数据点。第一类数据点的标签为0，第二类数据点的标签为1。class1_point
golang 的 gc垃圾回收机制 dearlin2024 golang 开发语言后端
文章目录一、常见的垃圾回收算法？1.1引用计数法1.2分代收集1.3三色标记法二、三色标记步骤2.1初始化图例2.2GC开始，遍历root，将直接可达的标记为灰色图例2.3遍历灰色列表，将直接可达的标记为灰色，自身标记为黑色2.4重复上述步骤，直到标记完所有对象2.5将标记为白色的对象进行垃圾回收（GC完成）三、混合写屏障机制四、完整的gc流程五、gc执行的时机，什么时候触发gc总结一、常见的垃圾
【Python】已解决：（cmd进入Python环境报错）No Python at ‘C:\Users…\Python\Python39\python.exe’ 屿小夏 python linux 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
【机器学习】自定义数据集使用tensorflow框架实现逻辑回归并保存模型，然后保存模型后再加载模型进行预测加德霍克 tensorflow 逻辑回归人工智能 python 作业
一、使用tensorflow框架实现逻辑回归1.数据部分：首先自定义了一个简单的数据集，特征X是100个随机样本，每个样本一个特征，目标值y基于线性关系并添加了噪声。tensorflow框架不需要numpy数组转换为相应的张量，可以直接在模型中使用数据集。2.模型定义部分：方案1：model=tf.keras.Sequential([tf.keras.layers.Dense(1,input_sh
ERROR: Could not install packages due to an OSError: [Errno 2] No such file or directory解决方案爱编程的喵喵 Python基础课程 python pip OSError 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ERROR:Couldnotinst
安装flash-attn出现RuntimeError current installed version g++ (4.8.5) is less than mininum version解决方案爱编程的喵喵 Python基础课程 python flash-attn g++RuntimeError
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。本文主要介绍了安装flash-attn出现RuntimeErrorcurrentinstalledversiong++(4.8.5)islessthanmininumversion解决方案
【llm对话系统】RL强化学习的技术演进与RLHF kakaZhui 人工智能 chatgpt llama
一、强化学习基础知识强化学习(ReinforcementLearning,RL)是一种机器学习方法，它通过智能体(Agent)与环境(Environment)的交互来学习如何行动以最大化累积奖励(Reward)。1.核心概念:智能体(Agent):做出决策并采取行动的学习者。环境(Environment):智能体所处的外部世界，对智能体的行动做出反应。状态(State,S):对环境当前情况的描述。
碰一碰发视频怎么做的？操作流程详深度解析 hy14762_ 人工智能用户运营流量运营新媒体运营
NFC碰一碰发视频，是一种结合了NFC技术、短视频矩阵及AI智能算法的创新宣传方式。此方式旨在为商家提供一种高效且便捷的AI打卡手段，通过这种新型的互动体验，用户能够享受高效打卡新奇感受。商家需开通并登录碰一碰发视频服务后台，设置信息、创建短视频库、文案库、话题库、图片库等。一般像餐饮就建议拍摄门头、菜品、环境、员工工作场景等，并上传至素材库。具体流程包括前期准备和触发发布两部分：前期准备需要创建
8610 顺序查找软工在逃男大学生 SCAU_OJ_DS 算法数据结构 c++c语言
SCAU数据结构OJ第五章文章目录8610顺序查找8610顺序查找Description编写Search_Seq函数，实现在一个无序表ST中采用顺序查找算法查找值为key的元素的算法.输入格式第一行:元素个数n第二行：依次输入n个元素的值第三行：输入要查找的关键字key的值输出格式输出分两种情形：1.如果key值存在，则输出其在表中的位置x(表位置从1开始),格式为Theelementpositi
神经网络及其架构和模型的关系爱吃瓜的猹z 大模型神经网络架构人工智能
模型、架构、神经网络之间的关系可以理解为不同层次上的概念，它们分别涵盖了机器学习系统的不同方面。具体来说：1.神经网络神经网络是一种模型类型，基于生物神经系统的启发，用于模拟人脑的学习过程。它由**多个神经元（节点）**和连接权重组成，这些神经元组织成不同的层，通过输入数据进行学习和预测。神经网络的特点：基本组成单位：神经网络的基本单位是“神经元”（或节点），每个神经元接收输入，进行加权和激活，然
【Python知行篇】代码的曼妙乐章：探索数据与逻辑的和谐之舞 hope kc python 开发语言
Python学习指南Python是一种功能强大且易于学习的编程语言，广泛应用于数据分析、Web开发、机器学习等多个领域。本文将详细介绍如何学习Python，并涵盖从基础语法到高级应用的多个方面。每个部分都有代码示例，以帮助读者更好地理解并实践所学内容。目录Python基础面向对象编程数据结构与算法Python标准库数据分析和可视化Web开发基础机器学习初步Python优化技巧总结Python基础学
9.6 解锁 AI 潜力：GPT Builder 的强大能力与无限可能少林码僧 AI大模型应用实战专栏人工智能 gpt
解锁AI潜力：GPTBuilder的强大能力与无限可能引言：轻松打造智能应用的革命性工具在人工智能的浪潮中，GPTBuilder作为一款强大且易用的开发工具，让构建AI驱动的智能应用变得前所未有的简单。无论你是开发者、企业家，还是对技术一知半解的创作者，GPTBuilder都能帮助你快速将创意变为现实。从自动化客户支持到内容生成，从数据分析到智能助手，GPTBuilder提供了丰富的功能和灵活的设
算法种常见的混沌映射是什么搏博算法算法人工智能机器学习启发式算法策略模式
混沌映射是指在某些非线性系统中，通过简单的数学模型生成的复杂动态行为。一、定义与特征1.定义混沌映射是描述非线性系统中，通过简单规则产生的复杂、不可预测的行为。这些系统对初始条件非常敏感，即使是微小的初始差异也会导致系统结果的巨大不同，这种现象称为“混沌”。2.特征（1）非线性：系统行为不是简单的线性关系。（1）对初值的敏感依赖性：也称为“蝴蝶效应”，即微小的初始条件变化会导致长期行为的巨大差异。
AUTOSAR从入门到精通-汽车SOA架构格图素书微服务架构云原生
目录前言几个高频面试题目SOA架构如何提升车载系统的灵活性1.模块化设计，实现功能解耦2.支持动态服务组合3.简化系统升级和维护4.支持跨平台兼容性5.提升用户体验算法原理SOA架构的起源SOA架构的发展历程什么是SOA架构？SOA架构的特点SOA设计原则服务构件与传统构件汽车SOA开发流程4.1需求分析4.2起草软件和系统架构4.3开发阶段车载SOA架构原理SOA车载跨系统通信SOA车载跨系统通
【TVM教程】为 Mobile GPU 自动调优卷积网络
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：LianminZheng,EddieYan针对特定设备的自动调优对于获得最佳性能至关重要。本文介绍如何调优整个卷积网络。TVM中MobileGPU的算子实现是以template形式编写的。该template有许多可调参数（tile因子
【力扣算法题】贪心芦草般算法题库算法 leetcode
目录简单中等困难简单860.柠檬水找零-力扣（LeetCode）674.最长连续递增序列-力扣（LeetCode）121.买卖股票的最佳时机-力扣（LeetCode）1005.K次取反后最大化的数组和-力扣（LeetCode）2418.按身高排序-力扣（LeetCode）409.最长回文串-力扣（LeetCode）942.增减字符串匹配-力扣（LeetCode）455.分发饼干-力扣（LeetCo
Spring AI 更新：支持OpenAI的结构化输出，增强对JSON响应的支持 java后端
就在昨晚，SpringAI发了个比较重要的更新。由于最近OpenAI推出了结构化输出的功能，可确保AI生成的响应严格遵守预定义的JSON模式。此功能显着提高了人工智能生成内容在现实应用中的可靠性和可用性。SpringAI紧随其后，现在也可以对OpenAI的结构化输出完美支持了。下图展示了本次扩展的实现结构，如果对于当前实现还不够满意，需要扩展的可以根据此图来着手理解分析进行下一步扩展工作。使用样例
非凸科技招聘来啦！技术岗及非技术岗由你选！欢迎大家加入！招聘
公司介绍：非凸科技成立于2018年，是国内领先的智能算法和交易系统服务公司，专注于智能算法交易领域的研究和开发。公司特点：投研团队来自华尔街顶级资管公司BlackRock等，以及多位来自腾讯、字节跳动的顶尖工程师；在职员工100+，投研和技术团队占总人数比例75%，多位成员是ACM/ICPCWorldFinal选手；公司司正基于Rust生态，结合机器学习、深度学习等新兴技术，打造高效率、低延迟、高
实现一个安全且高效的图片上传接口：使用ASP.NET Core和SHA256哈希黄同学real C#后端开发 .net 安全 asp.net 哈希算法
实现一个安全且高效的图片上传接口：使用ASP.NETCore和SHA256哈希在现代Web应用程序中，图片上传功能是常见的需求之一。无论是用户头像、产品图片还是文档附件，确保文件上传的安全性和效率至关重要。本文将详细介绍如何使用ASP.NETCore构建一个安全且高效的图片上传接口，并介绍如何利用SHA256哈希算法避免重复文件存储。项目背景我们的目标是创建一个图片上传接口，支持以下特性：支持多种
Crawl4AI：用几行代码打造强大的网页爬虫海豹工匠爬虫
Crawl4AI：用几行代码打造强大的网页爬虫在人工智能和大数据时代，数据的获取和处理变得尤为重要。尤其是在大型语言模型（LLM）的研究和应用中，如何高效地抓取和整理网络数据成为了一个关键的挑战。为了解决这一问题，一个名为Crawl4AI的开源网页爬虫工具应运而生，它专为LLM优化，提供了一种简单易用且功能强大的数据抓取解决方案。什么是Crawl4AI？Crawl4AI是一个基于LLM的开源网页爬
transformer.js（一）：这个前端大模型运行框架的可运行环境、使用方式、代码示例以及适合与不适合的场景余生H 前端的AI工具书前端 transformer javascript hugginface webml web大模型
随着大模型的广泛应用，越来越多的开发者希望在前端直接运行机器学习模型，从而减少对后端的依赖，并提升用户体验。Transformer.js是一个专为前端环境设计的框架，它支持运行基于Transformer架构的深度学习模型，尤其是像BERT、GPT等广泛应用于自然语言处理（NLP）的模型。本文将全面解析Transformer.js的运行环境、使用方式、代码示例，以及其能够完成的功能与目前的限制，帮助
第05章 06 VTK标量算法中的Contouring算法捕鲸叉 VTK编程学习算法 VTK 信息可视化
VTK标量算法中的Contouring算法，并描述MarchCube和MarchSquare等算法思想，分别给出C++示例代码Contouring算法是一种在可视化技术中广泛使用的算法，主要用于从三维标量场中提取等值面（isosurface）。这些等值面表示的是标量场中所有具有相同值的位置的集合。等值面提取是医学成像、气象学、地质学等领域中非常重要的一个处理技术，可以帮助人们更好地理解和分析三维数
Python magenta库：一款人工智能生成音乐与艺术的创新工具程序员喵哥 python 人工智能开发语言
更多Python学习内容：ipengtao.com随着人工智能在创意领域的不断进步，音乐和艺术生成正成为一种新的可能性。Magenta是由Google推出的一个开源项目，它结合了深度学习与艺术创作，为开发者提供了一系列强大的工具，帮助他们创作音乐、绘画等艺术作品。基于TensorFlow，Magenta不仅适用于研究人员，也适合开发者和艺术家，提供了易于上手的API和丰富的模型。安装在使用Mage
常见字符串相关题目我要学编程(ಥ_ಥ) 优选算法专题 java 算法 leetcode
找往期文章包括但不限于本期文章中不懂的知识点：个人主页：我要学编程(ಥ_ಥ)-CSDN博客所属专栏：优选算法专题目录14.最长公共前缀5.最长回文子串67.二进制求和43.字符串相乘14.最长公共前缀题目：编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀，返回空字符串""。示例1：输入：strs=["flower","flow","flight"]输出："fl"示例2：输入：str
Crawl4AI 人工智能自动采集数据葡萄爱人工智能 python 大数据
文章目录1使用Crawl的步骤2AI智能体应用实例3结语Crawl是一款免费的开源工具，利用AI技术简化网络爬取和数据提取，提高信息收集与分析的效率。它智能识别网页内容，并将数据转换为易于处理的格式，功能全面且操作简便。定位：开源AI工具Crawl，简化数据爬取和分析，助力高效提取网站定价信息。1使用Crawl的步骤步骤1：安装与设置pipinstall“crawl4ai@git+https://
常用的排序算法的时间复杂度跟着杰哥学嵌入式算法数据结构
以下是常见排序算法的时间复杂度对比表，包含了最优、平均和最坏情况下的时间复杂度：排序算法最优时间复杂度平均时间复杂度最坏时间复杂度空间复杂度稳定性冒泡排序O(n)O(n²)O(n²)O(1)稳定选择排序O(n²)O(n²)O(n²)O(1)不稳定插入排序O(n)O(n²)O(n²)O(1)稳定归并排序O(nlogn)O(nlogn)O(nlogn)O(n)稳定快速排序O(nlogn)O(nlogn
深度学习探索：ChatGPT数据分析精髓 & 梯度下降优化方法深度剖析网罗开发 AI 大模型人工智能深度学习 chatgpt 数据分析
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他