智谱AI-算法实习生(知识图谱方向)实习面试记录

岗位描述

智谱AI-算法实习生(知识图谱方向)实习面试记录_第1张图片
没错和我的经历可以说是match得不能再match了,但是还是挂了hh。

面试内容

给我面试的是唐杰老师的博士生,方向是社交网络数据挖掘,知识图谱。不cue名了,态度很友好的
,很赞。

date:6.28

Q1

自我介绍

Q2

问如果在需要load预训练大模型的时候,出现了一些网络的错误导致无法load,你有什么解决方法。

当时有点紧张,不知道该答什么,在问我一些关于网络的实际问题???后来才想起来会不会就是想让我答把模型参数download下来用就行。

Q3

讲一下我自己的项目。

讲了篇参与的EI论文。还有一个我的毕业论文。都是知识图谱、推荐系统方向的。

以及论文的idea和其它baseline model相比好在哪里。这里我说的还是非常详细的,属于是把当前task历史使用过的方法都介绍了一遍。

Q4

防止过拟合的方法。

当时答的batch norm、以及dropout。(以及脑子冒泡答了个sigmoid,和梯度搞混了)后来想起来最简单的早停没说。还把dropout需要注意的train和test 的区别说了一下,虽然pytorch不需要吧。

Q5

一组python代码,问我输出的什么

a = []
b = []
for i in range(10):
	a.append(i)
	c = a
	b.append(c)
print(b) 

主要考察的是深拷贝和浅拷贝的问题,答稀烂了。深拷贝和浅拷贝的概念弄反了,太久没看这方面的了。

Q6

接触过语言模型吗,bert、transformer之类的。

这个还好最近在研的东西有用到bert,所以还是比较了解的。但是没深问。

Q7

给了我一组万级数据,里面是一些期刊会议的名称以及其它信息,让我对某个给定的会议名称作为query,在万级数据中寻找和它最相近的一组名称。不需要排序,不需要考虑语义,就是简单的字符串比较,你能想到什么方法。

当时没怎么理解这个题,以为让我手撸word2vec之类的神经网络,后来说不用考虑语义,就是字符串。当时说了个On的方法,通过统计词频来进行len(query word)次数的筛选,筛选剩下的就是相似度最相近的。

然后她让我想一个Olgn的方法,我就想不出来了,憋死到最后说了个寻找一个优秀的函数哈希字符串然后二分查找,然后问我怎么hash…最后问我知道倒排索引吗,这个我确实没有了解过,看来还是得学一下搜索推荐的面试题。问题太多了。

Q8

你现在是准备读研吗

Q9

你现在是跟着哪个老师做的,现在还在跟着**老师科研吗

说来惭愧,好好学吧。

你可能感兴趣的:(实习,人工智能,算法,知识图谱,面试)