stay_foolish12

主题模型综述：短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入词嵌入特性、语言模型加持

原文链接：https://www.zhihu.com/question/34801598/answer/765580727

主题模型当然有用咯，谁用谁知道！这次我来展示下它的7个“变种”(短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入词嵌入特性、语言模型加持)：

Biterm Topic Model
Multi-Grain Topic Model
Topic Modeling with Minimal Domain Knowledge
Author-Topic Model
Dynamic Topic Models
Embedded Topic Model /LDA2VEC
Topically-Driven-Language-Model

（1）短文本主题建模的利器 ---Biterm Topic Model

从原理上说，BTM是一个非常适合于短文本的topic model，同时，作者说它在长文本上表现也不逊色于LDA。
BTM模型首先抽取biterm词对。抽取的方法是：去掉低频和stopword；对于短文本（如tweets或百度知道等），取一个doc中的任意两个词对；对于长文本，需要两个词在一定的距离之内，这个窗长一般取到30~60效果较好.然后通过biterm对文档集合进行建模.

LDA的问题是稀疏性。LDA中每个文档对应一个theta，每个词对应一个z。对于短文本，由于词少，z-->theta这一步的统计可能不具备统计意义。因为每个文本单独对应于theta，所以增加文本数量不能克服这种短文本带来的缺陷。

传统的解决之道有两个。1.是将多个短文本聚合成一个长文本。比如LDA-U将一个user的多个发言聚合在一起减少稀疏影响。但这种做法与应用相关，需要有外部信息来辅助找到聚合的单位。2.是利用一个长文档文本集作为辅助数据，将长文本的一些信息先以某种形式抽取反应到先验中，从而间接地提供给短文本。看似很美好，问题在于，与transfer learning类似，这个知识能不能传还两说，得先找到一个总体主题分布类似的长文档集。

总体来说,LDA并不适用于短文本，LDA-U略好，但是基于user的聚合受限于应用和领域知识。

mixture of unigram在这里表现比LDA系列更好，原因是它对于所有文档用同一个theta，克服了短文本稀疏性问题。这个模型的问题是，它假设了整个文档对应于一个z，这比较粗糙和strong了，会导致一个topic类内距离很大，因为对于长文本，较远的段落之间可能语义差异很大了。在长文本以及K较大的时候，这个模型效果会比较差，但在短文本上，这个缺陷倒是不那么明显，因此效果好于LDA系列

最后是BTM模型。可以认为BTM综合了上述二者的优点。BTM跟mix一样，利用了整个文本集合来估计一个theta，解决了稀疏问题（我们通常有海量数据）。放宽了mix中对整个doc必须同属于一个z的约束（相当于从整doc放松到了窗口长度类的两个词），加强了LDA中每个词对应于一个Z的假设（BTM中约束了窗长内的两个词组成一个biterm对应于一个z）。这个假设很接近于人类认知，因为我们知道，通常在较短的一段文本内，topic变化不大。

说一句题外话，前几天听了一个知识图谱的讲座。他们也是用一个共现词对来排歧作为LDA的补充。比如李娜+青藏高原这个词对，可以很大程度上将李娜和其他人（比如另一个做音乐的李娜，无法被LDA所区分）区分开来。unigram是一个极端，一大堆词是另一个极端了。BTM相当于是这种思路在TM系列模型中的一个探索。从另一个角度，2gram或许也可以替换term作为LDA的单元，而BTM的尝试是将连续的2gram放开，允许中间有一个窗长。总的来说，这是一个相当有意思的思路，而且非常nature。

原文：https://blog.csdn.net/windows2/article/details/16812363

（2）多主题文本建模的利器 --- Multi-Grain Topic Model

考虑这样一个应用场景，有关于联想、戴尔、苹果三台笔记本电脑的若干评论数据，Multi-Grain Topic Model（细粒度的主题模型）基于全局和局部信息，既发现了宏观上的大主题，比如评论对应的品牌 --- 联想、戴尔、苹果；微观上的小主题，苹果电脑对应的性能话题、联想电脑对应的性价比话题等，二者相互补充，比LDA返回的信息量要大很多。

几款电子产品的Multi Grain Topic Model分析

（3）掺入少许先验知识的主题模型---Topic Modeling with Minimal Domain Knowledge

Topic Modeling with Minimal Domain Knowledge（加入少许先验知识的主题模型）通过关联解释（Correlation Explanation ）进行主题建模会产生丰富的主题，这些主题可以最大限度地提供一组文本数据的信息。这种方法优化了稀疏二进制数据（Sparse Binary Data）的Correlation Explanation框架，允许对大型语料库进行主题建模。此外，该方法支持分层主题建模（Hierarchical Topic Modeling），提供一种整合领域知识的机制（Integrating Domain Knowledge） ---通过锚定词汇（Anchor Words）和信息瓶颈（The Information Bottleneck）来实现。这种半监督的锚定（Semi-Supervised Anchoring）是灵活的，允许用户提升进主题表示的效果 --- 通过添加指定主题的锚定词汇来得到解释性较高的主题。

与LDA（隐狄利克雷模型）不同，CorEx主题模型及其分层和半监督扩展不会对文档的生成方式做出任何假设。但是，它们仍然可以在各种指标中找到具有一致性和有意义的主题。一篇TACL论文对LDA的无监督和半监督变体进行了详细比较：

Gallagher，Ryan J.，Kyle Reing，David Kale和Greg Ver Steeg，《Anchored Correlation Explanation: Topic Modeling with Minimal Domain Knowledge》，2017

此项目可用于任何稀疏且二进制的数据集（Any Sparse Binary Dataset）。原则上，0 ~ 1范围内的连续值也可以用作输入，但是其效果未得到很好的测试。

以下以50,000条汽车评论数据为例，展示该模型的核心代码和结果：

#词汇表
words = list(np.asarray(text_pred.get_feature_names()))

#加入锚定词汇，分别是汽车油耗、外观、噪音和空间这四个先验主题关键词列表
anchor_words = [[‘油耗’,‘省油’],
[‘外观’,‘外形’,‘颜值’,‘线条’,‘前脸’,‘时尚’,‘造型’,‘流畅’],
[‘噪音’,‘胎噪’,‘噪音控制’,‘隔音’],
[‘空间’,‘座位’,‘拥挤’]]

训练带入先验知识的主题模型

topic_model = tp.Coret(
n_hidden=20 ,
max_iter=100000,
verbose=0,
count=‘fraction’,
seed=2019

topic_model.fit(X_pro , #输入为稀疏词汇表示
words=words,
anchors = anchor_words,
anchor_strength=10 #锚定强度，数值越大，主题模型训练的结果受锚定词汇的影响就越大
)

从训练好的主题模型中看看某类结果：

topic_model.get_topics(topic=1, n_words=50)

[(‘外观’, 0.4301756671083077),
(‘颜值’, 0.10011823545089653),
(‘外形’, 0.06618560083637216),
(‘时尚’, 0.054193038069410004),
(‘前脸’, 0.04076140897169324),
(‘线条’, 0.03466495921583512),
(‘造型’, 0.03414006949798674),
(‘外观设计’, 0.01699050254486039),
(‘流畅’, 0.015337625168866267),
(‘动感’, 0.013126344098356961),
(‘运动感’, 0.009363907127811736),
(‘审美’, 0.008732302601110832),
(‘流线型’, 0.006803817188302315),
(‘流线’, 0.005895597474292352),
(‘修长’, 0.005593062618077139),
(‘大气’, 0.0429432014991769),
(‘漂亮’, 0.02758077948725461),
(‘好看’, 0.026179714467314867),
(‘霸气’, 0.019231105222624518),
(‘车身’, 0.011562041254648874),
(‘帅气’, 0.010466043602329844),
(‘年轻’, 0.009713247431314121),
(‘耐看’, 0.005438103102823669),
(‘侧面’, 0.005305290826161348),
(‘硬朗’, 0.0038887516195419613),
(‘优美’, 0.0029589904380173705),
(‘拉风’, 0.002908911717486192),
(‘担当’, 0.0023775974040011207),
(‘年轻化’, 0.0018363016664206797),
(‘前卫’, 0.001832502305643267),
(‘颜控’, 0.0015342721148661927),
(‘美观’, 0.0014017725126286868),
(‘外貌协会’, 0.0012673785507941234),
(‘始于’, 0.0012147432527814328),
(‘最喜欢的’, 0.0010902856328509434),
(‘大嘴’, 0.0010611885609235778),
(‘非常时尚’, 0.0009028912355990731),
(‘时尚运动’, 0.0008869927507607518),
(‘霸气十足’, 0.0008189071364794647),
(‘霸气侧漏’, 0.0008159337276194864),
(‘我很喜欢’, 0.0007621695922389888),
(‘高大’, 0.0007571559888997631),
(‘征服’, 0.0007147440291617015),
(‘很喜欢’, 0.0006925125995887599),
(‘运动时尚’, 0.0006689225076177874),
(‘耐看型’, 0.0005580945500139648),
(‘正义’, 0.0005483286604124153),
(‘威武霸气’, 0.0005316584992590537),
(‘改款’, 0.0005285499612510017),
(‘小巧’, 0.0005192749777102133)]

再看看整体的效果：

topics = topic_model.get_topics(n_words=30)

for topic_n,topic in enumerate(topics):
words,mis = zip(*topic)
topic_str = str(topic_n)+’: ‘+’,’.join(words)
print(topic_str)

0: 油耗,省油,平均,市区,百公里,综合,经济,上下班,磨合期,接受,油价,一公里,堵车,百公里油耗,惊喜,省钱,最低,节省,油钱,毛钱,费油,七个,油表,拥堵,国道,下降,成本,想象,郊区,预期
1: 外观,颜值,外形,时尚,前脸,线条,造型,外观设计,流畅,动感,运动感,审美,流线型,流线,修长,大气,漂亮,好看,霸气,车身,帅气,年轻,耐看,侧面,硬朗,优美,拉风,担当,年轻化,前卫
2: 隔音,噪音,胎噪,噪音控制,效果,听不到,风噪,安静,降噪,关上,很安静,听不见,隔绝,两个世界,外界,窗户,杂音,车外,静谧,nvh,车隔音,隔音棉,抑制,什么声音,密封,噪声,开窗,超棒,地步,静音性
3: 空间,拥挤,座位,后排,宽敞,后备箱,乘坐,内部,储物,车内,前排,腿部,身高,超大,头部,够用,轴距,二郎腿,充足,利用率,压抑,宽松,宽裕,三个人,个子,充裕,成年人,拉货,前后排,绰绰有余
4: 代步,问题,生活,用车,容易,天气,工具,平常,不好,享受,下雨,下班,车里,车真,过车,gl8,回老家,跑跑,外面,不多,放松,上车,没出,毛病,起码,没事,下车,开开,外出,第二天
5: 满意,车子,喜欢,车最,适合,家用,就是他,部分,类型,面子,和动力,家庭,莫过于,最最,探界者,需求,我喜欢的,三点,卡罗拉,说到,对我来说,说到最,喜欢的,商务,无非,普拉多,女生,霸道,女孩子,比较适合
6: 座椅,舒服,音响,放倒,调节,舒适,包裹,皮质,bose,视野,包裹性,开阔,地板,真皮,音质,位置,中央,舒适度,音乐,柔软,坐上,玻璃,长途,腰部,纯平,支撑,一键,主驾驶,坐姿,扶手
7: 吸引,符合,颜色,红色,年轻人,白色,第一眼,回头率,魂动,气质,犀利,黑色,深深,个性,不失,低调,外表,张扬,稳重,车漆,骚气,优雅,眼看,眼球,看脸,美式,轿跑,大街,口味,独特
8: 非常,不错,同级,优势,启辰,无论是,d60,空间表现,总体,优点,别车,一体,水平,感觉特别,真心,配合,均匀,体现,整个车,稍微,值得一提的,提升,空间感觉,人马,发挥,程度,实用性,缺点,车做,组合
9: 价格,性价比,价位,优惠,车型,品牌,级别,合资,便宜,实惠,合资车,国产车,预算,国产,同等,力度,合适,大众,迈锐宝,中华,看过,销售,十万,落地,划算,哈弗,值得,裸车,车中,亲民
10: 动力,发动机,超车,加速,变速箱,油门,强劲,起步,提速,推背感,涡轮,平顺,充沛,换挡,速度,给油,增压,高速,输出,随叫随到,排量,很快,声音,一脚,顿挫感,舍得,马力,自然吸气,顿挫,自吸
11: led,格栅,进气,大灯,晚上,尾灯,日间行车灯,车灯,镀铬,日行灯,炯炯有神,前大灯,转向灯,远近,亮度,灯光,视觉,眼睛,车顶,流水,有神,大眼睛,装饰,协调,点亮,夜间,光源,眼大,白天,冲击力
12: 操控,底盘,驾驶,精准,转向,扎实,灵活,转弯,轻松,行驶,性能,方向,上手,操控性,乐趣,指向,路面,调教,悬挂,通过性,颠簸,轻盈,平稳,过程,地盘,虚位,体验,调校,路况,弯道
13: 功能,配置,自动,巡航,实用,倒车影像,钥匙,全景,后视镜,电动,导航,胎压监测,天窗,空调,一键启动,大屏,影像,齐全,中控,自适应,加热,启动,雷达,启停,定速,倒车,定速巡航,多功能,手机,语音
14: 内饰,设计,做工,风格,用料,精致,整体,豪华,车头,上档次,十足,简洁,科技感,大方,腰线,给人,高端,饱满,中控台,尾部,搭配,车尾,档次,简约,细节,整车,轮毂,气息,充满,圆润
15: 马自达,阿特兹,宝马,创驰蓝天,蓝天,凯美瑞,新款,老款,跑车,奥迪,奔驰,凯迪拉克,君威,有点,昂克赛拉,传统,完美,全新,日系车,cx5,东瀛,形容,雅阁,设计师,设计理念,惊艳,改变,钢丝,称号,打动
16: 朋友,选择,时间,suv,试驾,当初,提车,选车,老婆,一眼,回家,家里,cx4,一段,身边,看中,轿车,大家,推荐,网上,同事,打算,差不多,纠结,相中,媳妇,看上,上班,好多,印象
17: 孩子,一家人,出行,自驾游,接送,小孩,出门,家人,周末,出去玩,老人,出游,游玩,全家,行李,旅行,大人,旅游,出去旅游,睡觉,安全座椅,物品,宝宝,排空,行李箱,休息,家里人,购物,排放,搬家
18: #NUMBER,公里,担心,不用,显示,抬头,开车,以内,时速,宝骏,体重,来回,双离合,手自一体,小时,实际,爱信,加油,保持,里程,数据,一千,全程,一万,车速,正常,死角,老家,一趟,自动挡
19: 系统,方向盘,斑马,手感,仪表盘,液晶,安全性,操作,保养,电子,新手,质量,刹车,保障,放心,材料,省心,清晰,行车,按键,仪表,费用,保证,后期,耐用,助力,品质,软质,碰撞,材质

（4）揭示不同作者写作主题分布的主题模型 — Author-Topic Model

ATM模型（author-topic model）也是“概率主题模型”家族的一员，是LDA主题模型（Latent Dirichlet Allocation ）的拓展，它能对某个语料库中作者的写作主题进行分析，找出某个作家的写作主题倾向，以及找到具有同样写作倾向的作家，它是一种新颖的主题探索方式。

笔者之前分析过“人人都是产品经理”上作家的写作主题，分析某些牛X作家喜欢写哪方面的文章（比如“产品运营”、“数据分析”、“新媒体运营”等）写作了啥，主题相似度的作者有哪些。

首先，先从文本中“析出”若干主题，经过探索，10个主题的区分度正好。根据各个主题下的主题词特征，笔者将这10个主题归纳为：“行业动态”、“电商运营”、“商业模式”、“产品运营”、“社交媒体”、“互金产品”、“数据运营”、“用户研究”、“产品设计”和“新媒体运营”。

所有作者涉及的主题

同时，在数据处理的过程中，模型建立了作者（author）、主题（topic）及文档（document）之间的映射关联关系，以dict的形式保存数据。

建立每个作者的文章隶属关系字典（每个数值ID代表一篇文章）

鄙喵的写作主题分布

鄙喵写过的若干文章（局部）

运营大神张亮的写作主题分布

跟张亮大神写作主题类似的作家

（5）分析话题热点变迁的主题模型 — Dynamic Topic Models

蕴含时间因素的主题，尽管它包含的关键词会随着时间的变化而产生相应的变化，但它如构成要素不断更新换代的“忒修斯之船（The Ship of Theseus）”一般，即使同一主题下的开端和末尾中的主题词没有一个是相同的，但还是原先的主题，保留有相同的语境。（By having a time-base delement to topics, context is preserved while key-words may change.）

针对某个话题随时间的变迁情况（This implements topics that change over time）。鄙喵运用的模型是DTM模型（Dynamic Topic Models ），它是“概率主题模型”家族的一员，用于对语料库中主题演变进行建模。

还是针对人人都是产品经理上的文章数据，先从“产品运营&数据分析”中“解析”出如下6个子话题，它们是“运营”、“商业模式”、“流量运营&数据分析”、“品牌营销&数据分析”、“电商运营”和“内容运营”，如下表所示：

从人人都是产品经理文本数据中解析出的若干主题

针对Topic2，也就是“流量运营&数据分析”在2012.05~2017.07间的话题变迁情况感兴趣，于是将这6年间出现的主题词重新整合，制成下面的热力图：

Topic2（“流量运营&amp;amp;amp;amp;amp;数据分析”）在2012.05~2017.07间的话题变迁情况

上图中纵轴是主题词，横轴是年份，颜色由浅入深代表数值的由小到大。从中可以明显的看出，“流量运营&数据分析”子话题下的“数据”、“数据分析”、“运营”和“业务”在该话题中始终处于“核心地位”，保持较高且稳定的word_prob值。而“渠道”、“游戏”、“互金”在近3年的word_prob值有了较大的提升，说明社区的作者在近期比较关注这3个主题词所代表的领域，间接表明它们在互联网中的话题热度呈现上升趋势。

（6）与词嵌入融合的主题模型 — Embedded Topic Model

主题模型的主要功能之一就在于分析大量文档以学习其中有意义的词汇模式和语义内涵。但现有的主题模型都存在一个问题 — 在处理巨量且存在许多长尾词、低频词的情况下，现有的很多主题模型都无法学习到具有可解释性、便于人们理解的主题。为此，嵌入式主题模型（ETM，Embedded Topic Model ）应运而生，这是一种将传统主题模型与词嵌入（Word Embeddings）“嫁接”在一起的文档生成模型。特别地，它使用分类分布（Categorical Distribution）对每个词汇进行建模，其自然参数是词嵌入及其嵌入的指定主题（Assigned Topic）之间的内积。

“纽约时报”语料库的180万篇文章中来自不同文档模型的七个最常用主题的前五个单词，词汇量为212,237，K = 300（个主题）

由此，即使是在用于海量词汇表且存在稀有词、长尾词的情况下，ETM仍然能发现可解释的主题。在相关作者的论文中，发明者还表示它在主题质量和预测性能方面优于现有的主题模型，例如LDA。

（7）理解自然语言的利器—LDA2VEC

lda2vec模型试图将word2vec和LDA中的最佳部分混合到一个框架中。 word2vec在捕捉词汇之间的词法关系方面能力很强，但是生成的向量在很大程度上无法解释，并且很难表征文档。而另一方面，LDA可以被很好地被理解，但是不能像word2vec这样对本局部词汇关系进行建模。此时LDA2VEC应运而生，该模型可以构建词汇和文档主题，使其可解释。

与LDA相比，lda2vec还包含更多的上下文语境和语义特征。 LDA表明词汇是由文档向量所生成的；但是文本数据中可能会有各种影响主题的“边信息”。例如，某个客户在某个特定时间、某个特定区域中写了关于某个特定item ID的评论。在这种情况下，lda2vec会提供所有的item（例如，从衬衫中分离牛仔裤），时间（冬季与夏季），地区（沙漠与沿海）和客户（运动与职业装）的主题。

(8)Topically-Driven-Language-Model

本文作者Jey Han Lau, Timothy Baldwin and Trevor Cohn (2017))创造性的将LDA主题模型和语言模型融合在了一起，可以通过语言模型生成的语句来解释主题，将其中的语言模型换成时下流行且强大的GPT2，并结合PPLM(Plug and Play Language Models: a Simple Approach to Controlled Text Generation)绝对是大杀器，但是速度贼慢。。。。

感兴趣的可以去读原文《Topically Driven Neural Language Model》

下面是关于新冠肺炎疫情的若干新闻的模型分析结果片段：

Epoch =12001 TRAIN 77864/77864: tm ppl = 46573.947; lm ppl = 507.707; word/sec = 9449.5\nVALID 77864/77864: tm ppl = 40674.441; lm ppl = 350.481; word/sec = 16706.0\n Topics ====== Topic 0 [ 10.51 ] : [培训_机构, 上课, 课程, 家长, 培训行业, 授课, 高三, 寒暑假, 招生, 教育培训, 教培, 开课, 退费, 转线, 留学, 面试, 教师, 辅导机构, 课时费, 推迟_开学]

Topic 1 [ 8.38 ] :[婚礼, 婚庆, 摄影师, 摄影, 下岗, 物料, 新人, 工作室, 拍摄, 行业_从业者, 布置, 取消_婚礼, 摄像, 主持人, 婚礼_延期, 婚礼_取消, 婚纱, 婚期, 改期, 道具]

Topic 2 [ 7.81 ] : [gdp, 第三产业, 亿元, 一季度, 增速, 第二产业, 百分点, gdp_增速, 中国_gdp, 增长率, 万亿元, 同比, 第一产业, 经济_增速, 高于, gdp_增长, 一季度]

Topic 3 [ 10.70 ] :[超级传播者, 广东, 扩散, 超级, 预防, 传染性, 耽误, 传人, 症状, 发病, 病毒传播, 宿主, 证据, 不幸, 社交, 毒王, 已有, 院士, 传染给, 传播者, 轻微, 定义]

Topic 4 [ 10.75 ] : [世界卫生组织, 公共, 后果, who, 观察, 列为_疫区, 证明, 大国, 认定, 警惕, 事后, 列入, 人群_密集, 交通工具, 突发事件, 视为_疫区, 负面, 各国, 定性]

Topic 5 [ 6.87 ] : [草莓, 一斤, 农民, 大棚, 果农, 成熟, 夏天, 路边, 产地, 草莓_大棚, 请假, 丹东, 柿子, 草莓_价格, 辽宁, 能卖, 季节, 地里, 辛辛苦苦, 忙活, 大棚_草莓]

Topic 6 [ 10.56 ] : [票房, 春节_票房, 大年初一_票房, 影片, 收获, 撤档, 唐探, 电影票, 姜子牙, 暑期, 夺冠, 熊出没, 粉丝, 热门, 观众, 退出, 老实, 囧妈, 院线, 系列, 徐峥]

Topic 7 [ 10.26 ] : [战争, 香港, 恢复正常, 到来, 提醒, 病情, 蔓延, 教育局, 态势, 终止, 教育部, 预案, 各项, 社会秩序, 一律, 课外辅导, 认知, 中东, 机构_停课, 摧毁_房价]

Topic 8 [ 8.71 ] : [高考, 大学, 教育_行业, 注定, 分数线, 毕业, 高校, 就业, 春季, 考研, 考试, 春招, 毕业生, 合适, 延迟_开学, 应届, 秋招, 应届生, 考生, 复试, 申请, 难度]

…

Random Generated Sentences ========================== Temperature = 1.2

Topic 8 : 新冠肺疫情逐步好转，许多省份提出将优先安排初3高三返校

Topic 4 : WHO:无证据显示病毒会在夏季消失,欧洲疫情扩散

Topic 3 : 国际在线，外媒分析:病毒“超级传播者”对疫情影响为何如此重大?

Topic 6 : 多国家纷纷叫停电影,海外疫情影响不容乐观

Topic 7 :

…

PS:主题模型就是一把大杀器，用的好不好全看个人，跟它自身没啥关系~

我之前写的几篇文章，上面的部分示例出自这里:

苏格兰折耳喵：文本挖掘从小白到精通（三）—主题模型和文本数据转换 zhuanlan.zhihu.com

主题模型综述：短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入词嵌入特性、语言模型加持_第2张图片

苏格兰折耳喵：文本挖掘从小白到精通（四）—主题模型的主题数确定和可视化 zhuanlan.zhihu.com 苏格兰折耳喵：文本挖掘从小白到精通（十）— 不需设定聚类数的Single-pass zhuanlan.zhihu.com

主题模型综述：短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入词嵌入特性、语言模型加持_第3张图片

苏格兰折耳喵：【Social listening实操】作为一个合格的“增长黑客”，你还得重视外部数据的分析！ zhuanlan.zhihu.com

主题模型综述：短文本、细粒度、加入先验知识、作者写作偏好、主题内涵随时间的变迁、融入词嵌入特性、语言模型加持_第4张图片

【CODE】LDA2vec ：当LDA遇上word2vec

以上。

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
FlagEmbedding 吉小雨 python库 python
FlagEmbedding教程FlagEmbedding是一个用于生成文本嵌入（textembeddings）的库，适合处理自然语言处理（NLP）中的各种任务。嵌入（embeddings）是将文本表示为连续向量，能够捕捉语义上的相似性，常用于文本分类、聚类、信息检索等场景。官方文档链接：FlagEmbedding官方GitHub一、FlagEmbedding库概述1.1什么是FlagEmbeddi
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
Humanize 项目教程尤嫒冰
Humanize项目教程humanizeAJSlibraryforaddinga“humantouch”todata.项目地址:https://gitcode.com/gh_mirrors/humani/humanize项目介绍Humanize是一个开源项目，旨在将机器生成的文本转换为更加自然、人性化的文本。该项目通过先进的算法和自然语言处理技术，使得AI生成的内容更加贴近人类的表达方式，从而提高
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式 m0_57781768 语言模型 json 人工智能
深度解析：如何使用输出解析器将大型语言模型（LLM）的响应解析为结构化JSON格式在现代自然语言处理（NLP）的应用中，大型语言模型（LLM）已经成为了重要的工具。这些模型能够生成丰富的自然语言文本，适用于各种应用场景。然而，在某些应用中，开发者不仅仅需要生成文本，还需要将这些生成的文本转换为结构化的数据格式，例如JSON。这种结构化的数据格式在数据传输、存储以及进一步处理时具有显著优势。本文将深
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性 aehrutktrjk 人工智能 easyui 前端 python
使用最大边际相关性(MMR)选择示例：提高AI模型的多样性和相关性引言在机器学习和自然语言处理领域，选择合适的训练示例对模型性能至关重要。最大边际相关性(MaximalMarginalRelevance,MMR)是一种优秀的示例选择方法，它不仅考虑了示例与输入的相关性，还注重保持所选示例之间的多样性。本文将深入探讨如何使用MMR来选择示例，以提高AI模型的性能和泛化能力。什么是最大边际相关性(MM
使用LangChain和OpenAI实现高效文本标注 aehrutktrjk langchain python
使用LangChain和OpenAI实现高效文本标注引言在自然语言处理(NLP)领域，文本标注是一项重要且常见的任务。它涉及为文本分配标签，如情感、语言、风格等。本文将介绍如何使用LangChain和OpenAI的API来实现高效的文本标注系统。我们将探讨如何设置环境、定义标注模式，以及如何使用OpenAI的模型来执行标注任务。环境准备首先，我们需要安装必要的库并设置API密钥：%pipinsta
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
英伟达（NVIDIA）B200架构解读 weixin_41205263 芯际争霸 GPGPU架构 gpu算力人工智能硬件架构
H100芯片是一款高性能AI芯片，其中的TransformerEngine是专门用于加速Transformer模型计算的核心部件。Transformer模型是一种自然语言处理（NLP）模型，广泛应用于机器翻译、文本生成等任务。TransformerEngine的电路设计原理主要包括以下几个方面：
使用LangChain与Together AI模型交互：深入探讨和实践指南 llzwxh888 langchain 人工智能交互 python
使用LangChain与TogetherAI模型交互：深入探讨和实践指南1.引言在人工智能和自然语言处理领域，TogetherAI已经成为一个强大的平台，提供了对50多个领先开源模型的访问。本文将深入探讨如何使用LangChain与TogetherAI模型进行交互，为开发者提供实用的知识和见解，同时解决可能遇到的常见问题。2.TogetherAI简介TogetherAI是一个强大的API平台，允许
OpenLM: 一个灵活的开源大语言模型接口工具 llzwxh888 语言模型人工智能自然语言处理 python
OpenLM:一个灵活的开源大语言模型接口工具引言在人工智能和自然语言处理快速发展的今天，大语言模型(LLM)已经成为许多应用的核心。然而，不同的LLM提供商往往有着各自的API和使用方式，这给开发者带来了一定的挑战。本文将介绍OpenLM，这是一个零依赖、兼容OpenAIAPI的LLM提供者接口，它可以直接通过HTTP调用不同的推理端点。我们将深入探讨OpenLM的特性、使用方法，以及如何将其与
使用中专API实现AI模型调用与部署 llzwxh888 人工智能 easyui 前端 python
在AI技术领域，如何调用和部署大语言模型（LLM）是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip，实现对OpenAI大模型的调用与部署，并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展，大语言模型在自然语言处理任务中的表现尤为突出。然而，由于国内访问海外API存在一定限制，本文将使用中专API地址来解决这一问题，并展示如何在本地环境中配
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
基于人工智能的智能语音助手人工智能发烧友人工智能
语音助手的自然语言处理模块是语音助手系统的关键组成部分。通过这个模块，系统能够识别用户的意图并做出相应的回应。我们可以使用NLP技术来解析文本输入，并将其转换为系统可以理解的命令或指令。在本项目中，我们将结合语音识别、自然语言处理和语音合成技术，构建一个功能简化的语音助手。一、项目背景与需求分析1.1项目目标本项目旨在创建一个语音助手系统，它可以：1.语音识别：从用户的语音输入中提取文本信息。2.
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
安装jina，并使用jina的向量化和重排序的功能 MonkeyKing.sun milvus numpy
为了在Python的FastAPI项目中使用Jina进行向量化和重排序，您需要按照以下步骤安装和使用Jina。1.安装Jina首先，确保您已经安装了Jina。可以使用pip来安装。pipinstalljina如果需要特定的功能模块，例如自然语言处理相关的向量化模型，可以通过JinaHub获取。pipinstalljina[hub]2.在FastAPI项目中集成Jina接下来，我们将Jina集成到F
Matlab,Python,Java,C++的比较 Codefengfeng python java c++
Matlabmatlab是一个大型计算机，擅长矩阵计算与科学计算，适合构建模型；然而，编译软件的运行效率低，不适合大型软件开发。Pythonpython的优势是简单，入门快。适合做数据挖掘、数据分析、机器学习、人工智能、自然语言处理、爬虫、批量文件处理等，此外，Python开源免费，有很多的库，开发环境开发社区都比较友好；不过，Python是动态型的语言，需要更多的测试，并且错误仅仅是在运行的时候
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts