1、提供一个由于训练数据中的结构或风格不同,导致熊分类器在生产环境中表现不佳的例子
答:有很多情况下,熊的分类模型可能会失败,特别是如果这些案例没有在训练数据中体现出来,比如:熊被挡住了部门,夜间图像被传递到模型中低分辨率图像被传递到模型中,熊离摄像机很远,熊训练数据集对一种特征(例如颜色)有很大的偏差
2、目前的text model有哪些不足?
答:文本模型可以生成与上下文相关的文本(如回复或模仿作者风格)。然而,文本模型仍然难以获得正确的响应。给定事实信息(例如知识库),仍然很难利用这些信息生成真实正确响应的信息,尽管文本看起来非常有说服力。这可能非常危险,因为外行可能无法评估生成文本的事实准确性
3、text model可能产生哪些负面的社会影响?
答:模型强化了培训数据中的偏见(如性别偏见、种族偏见),并造成了有偏见输出的恶性循环。传播错误信息、制造舆论。
4、在模型可能会出错,而这些错误可能是有害的情况下,除了自动化流程之外,还有什么好的选择?
答:人类专家可以对模型的预测进行审查,以评估结果并确定下一步的最佳方案。在将机器学习应用于医学诊断时尤其如此。例如,在CT扫描中识别中风的机器学习模型可以提醒高优先级的病例进行快速复查,而其他病例仍会发送给放射科医生进行复查。或者其他模型也可以增强医疗专业人员的能力,降低风险,但仍然提高工作流程的效率。例如,深度学习模型可以为放射科医生或病理学家提供有用的帮助
5、深度学习特别擅长什么样的数据表格?
答:深度学习擅长于分析包含自然语言或高基数的分类列(包含大量离散选择,如邮政编码)的表格数据
6、直接在推荐系统中使用深度学习模型的主要缺点是什么?
答:推荐系统的机器学习方法通常只告诉用户可能喜欢什么产品,而不是对用户有用的推荐。例如,如果用户熟悉同一作者的其他书籍,那么即使用户购买了该作者的书,推荐这些产品也无济于事。或者,推荐用户可能已经购买的产品。
7、动力传动系统方法的步骤是什么
8、如何将动力传动系统的方法步骤映射到推荐系统?
答:推荐引擎的目标是通过向客户推荐没有推荐就不会购买的商品,从而使客户感到惊讶和高兴,从而推动额外的销售。杠杆是建议的排名。必须收集新的数据,以产生能够带来新销售的建议。这将需要进行许多随机实验,以便收集有关广泛的客户建议的数据。这是很少有公司采取的一个步骤;但是没有它,您就没有根据您的真正目标优化推荐所需的信息(更多销售!)
9、使用你自己收集的数据,创建一个图像识别模型,并部署到web中
10、DataLoaders是什么?
答:DataLoaders类是将数据传递给fastai模型的类。它本质上是一个类,用于存储所需的Dataloader对象(通常用于训练集和验证集)。
11、哪四件事是我们要告诉fastai来创建DataLoaders的?
答:(1)使用什么类型的数据。(2)如何获取数据列表。(3)如何获取这些数据列表对应标签。(4)如何创建验证集。
12、DataBlock中的splitter参数是做什么的?
答:用来划分验证集的
13、如何确保随机分割总是给出相同的验证集?
答:splitter=RandomSplitter(valid_pct=0.2,seed=42)
,seed相同,即可分割出相同的验证集
14、哪些字母常用来表示自变量和因变量?
答:x是自变量,y是因变量.
15、裁剪、填充和挤压调整大小的方法之间有什么区别?你什么时候可以选择其中一个?
答:裁剪只取图像的一部分、填充即填充空白空间、挤压把图像变小。
16、什么是数据增强?为什么需要它?
答:数据扩充指的是对我们输入的数据进行随机变化,使它们看起来不同,但不至于改变数据的含义。例如翻转、旋转、透视扭曲、亮度变化等。数据增强有助于模型更好地理解对象的基本概念以及感兴趣的对象如何在图像中表示。因此,数据扩充使机器学习模型泛化能力更强。当标记数据的速度慢且成本高昂时,这一点尤为重要。
17、item_tfms和batch_tfms的区别是什么?
答:item_tfms are transformations applied to a single data sample x on the CPU. Resize() is a common transform because the mini-batch of input images to a cnn must have the same dimensions. Assuming the images are RGB with 3 channels, then Resize() as item_tfms will make sure the images have the same width and height.
batch_tfms are applied to batched data samples (aka individual samples that have been collated into a mini-batch) on the GPU. They are faster and more efficient than item_tfms. A good example of these are the ones provided by aug_transforms(). Inside are several batch-level augmentations that help many models.
18、什么是混淆矩阵?
答:混淆矩阵是对正确标签所做预测的表示。矩阵的行表示实际的标签,而列表示预测。因此,对角线元素中的图像数量表示正确分类的图像数量,而非对角线元素表示错误分类的图像。混淆矩阵提供了关于模型运行情况以及模型可能混淆的类的有用信息
19、export方法保存什么?
答:export既保存了结构,也保存了神经网络结构的训练参数。它还保存了如何定义DataLoaders。
20、当我们用一个模型来预测,而不是训练时,它叫什么?
答:inference(推论)
21、IPython widget是什么?
答:IPython widget是JavaScript和Python的组合功能,允许我们直接在Jupyter笔记本中构建GUI组件并与之交互。一个例子是upload按钮,它可以用Python函数创建widgets.FileUpload().
22、什么时候用CPU进行部署?GPU何时会更好?
答:gpu最适合并行执行相同的工作。如果你一次只分析一个数据片段(比如一个图像或一个句子),那么CPU可能会更具成本效益,尤其是CPU服务器相对于GPU服务器的市场竞争更加激烈。如果一次将用户响应收集到批处理中,并对批处理执行推理,则可以使用gpu。这可能需要用户等待模型预测。此外,当涉及到GPU推理时,还有许多其他的复杂性,比如内存管理和批处理的排队。
23、将应用程序部署到服务器而不是部署到客户端(或边缘)设备(如电话或PC)上有什么缺点?
答:应用程序需要网络连接,在提交输入和返回结果时会有额外的网络延迟时间。此外,将私有数据发送到网络服务器可能会导致安全问题。
24、在实践中推出熊市预警系统时可能出现的三个问题有哪些?
答:使用视频数据而不是图像、处理夜间图像而这些图像可能不会出现在训练集中、识别在网上发布的照片中很难看到熊的位置
25、什么是域外数据?
答:模型看到的数据(训练集),跟现实的数据不一样
26、什么是领域转移?
27、部署程序的三个步骤?
答:第一步完全手动、第二步在小范围内使用该模型并收集问题、第三步扩大范围