100 个 NLP 面试问题
对于技术磨练中,其中一项很酷的技能培训是提问。不知道答案并没有多大的错;错就错在不谷歌这些疑问。本篇就是在面试之前,您将此文档复制给自己,做一个系统的模拟实战。
TF-IDF 和 ML ;
从头开始编写 TF-IDF。
什么是TF-IDF中的归一化?
为什么在我们这个时代需要了解TF-IDF,如何在复杂的模型中使用它?
解释朴素贝叶斯的工作原理。你可以用它来做什么?
SVM 如何容易出现过拟合?
解释文本预处理的可能方法(词形还原和词干提取)。您知道哪些算法,在什么情况下会使用它们?
你知道哪些文本相似度指标?
解释余弦相似度和余弦距离的区别。以下哪个值可以是负数?你会如何使用它们?
用简单的语言解释精确度和回忆力,如果没有 F1 分数,你会看什么?
在什么情况下,你会观察到特异性的变化?
你什么时候会看宏观指标,什么时候看微观指标?为什么存在加权指标?
什么是困惑?我们可以用什么来考虑它?
什么是 BLEU 指标?
解释不同类型的ROUGE指标之间的区别?
BLUE和ROUGE有什么区别?
解释Word2Vec是如何学习的?什么是损失函数?什么是最大化?
您知道哪些获取嵌入的方法?什么时候会更好?
静态嵌入和上下文嵌入有什么区别?
你知道的两种主要架构是什么,哪一种学得更快?
Glove、ELMO、FastText 和 Word2Vec 有什么区别?
什么是负抽样,为什么需要负抽样?您还知道 Word2Vec 的哪些其他技巧,以及如何应用它们?
什么是密集嵌入和稀疏嵌入?请举例说明。
为什么嵌入的维度很重要?
在短文本数据上训练Word2Vec时会出现什么问题,如何处理?
一个简单的 1 层 RNN 有多少个训练参数?
RNN训练是如何进行的?
RNN存在哪些问题?
您知道哪些类型的 RNN 网络?解释 GRU 和 LSTM 之间的区别?
我们可以在这样的网络中调整哪些参数?(堆垛,层数)
什么是RNN的消失梯度?你如何解决这个问题?
为什么要在 NLP 中使用卷积神经网络,如何使用它?你怎么能在注意力范式中比较CNN?
注意力和变压器架构 (15题)
32.你如何计算注意力?(补充:它被提议用于什么任务,为什么?
注意力的复杂性?将其与 RNN 的复杂性进行比较。
比较 RNN 和注意力。在什么情况下你会使用注意力,什么时候 RNN?
从头开始写注意力。
解释注意中的掩饰。
自注意力矩阵的维度是多少?
BERT和GPT在注意力计算方面有什么区别?
变压器中嵌入层的尺寸是多少?
为什么嵌入被称为上下文?它是如何工作的?
变压器中使用什么,层规范或批量规范,为什么?
为什么变压器有PreNorm和PostNorm?
解释软注意力和硬注意力(局部/全局)之间的区别?
解释多头注意力。
您还知道哪些其他类型的注意力机制?这些修改的目的是什么?
随着人头数量的增加,自我注意力如何变得更加复杂?
为什么 BERT 在很大程度上落后于 RoBERTa ,你能从 RoBERTa 中学到什么?
什么是 T5 和 BART 型号?它们有何不同?
什么是与任务无关的模型?请举例说明。
通过比较 BERT、GPT 和 T5 来解释 transformer 模型。
BERT、GPT等在模型知识方面存在哪些主要问题?如何解决这个问题?
类似解码器的 GPT 在训练和推理过程中是如何工作的?有何不同?
解释变压器模型中头部和层之间的区别。
为什么在变压器模型的嵌入中丢失了有关位置的信息?
解释位置嵌入的方法及其优缺点。
为什么我们不能简单地添加一个带有标记索引的嵌入?
我们为什么不训练位置嵌入?
什么是相对和绝对位置编码?
详细解释旋转位置嵌入的工作原理。
因果语言建模是如何工作的?
我们什么时候使用预训练模型?
如何从头开始训练变压器?解释一下你的管道,在什么情况下你会这样做?
除了 BERT 和 GPT 之外,您还知道哪些模型可用于各种预训练任务?
您知道哪些类型的分词器?比较它们。
你能扩展一个分词器吗?如果是,在什么情况下你会这样做?你什么时候会重新训练一个分词器?添加新代币时需要做什么?
普通代币与特殊代币有何不同?
为什么变压器中不使用词形还原?为什么我们需要代币?
如何训练分词器?用 WordPiece 和 BPE 的例子来解释。
CLS向量占据什么位置?为什么?
BERT 中使用了什么分词器,GPT 中使用了哪个分词器?
解释现代分词器如何处理词汇表外的单词?
分词器词汇大小有什么影响?在新培训的情况下,您将如何选择它?
什么是阶级失衡?如何识别它?说出解决此问题的所有方法。
在推理过程中可以使用 dropout 吗,为什么?
Adam 优化器和 AdamW 有什么区别?
消耗的资源如何随着梯度积累而变化?
如何优化训练期间的资源消耗?
你知道哪些分布式训练方法?
什么是文本增强?说出您知道的所有方法。
为什么填充物的使用频率较低?取而代之的是做什么?
解释热身是如何工作的。
解释渐变裁剪的概念?
教师强迫如何工作,请举例说明?
为什么以及如何使用跳过连接?
什么是适配器?我们可以在哪里以及如何使用它们?
解释度量学习的概念。你知道什么方法?
softmax中的温度控制什么?你会设置什么值?
解释生成中的采样类型?top-k、top-p、细胞核采样?
波束搜索的复杂性是什么,它是如何工作的?
什么是句子嵌入?您可以通过哪些方式获得它?
LoRA是如何工作的?您将如何选择参数?想象一下,我们想要微调一个大型语言模型,将 LORA 与小 R 一起应用,但该模型仍然不适合内存。还能做些什么?
prefix tuning , p-tuning 和 prompt tuning 和有什么不一样?
解释缩放定律。
解释LLM训练的所有阶段。我们可以从哪些阶段弃权,在什么情况下?
RAG是如何工作的?它与小镜头 KNN 有何不同?
你知道什么量化方法?我们可以微调量化模型吗?
如何防止 LLM 中的灾难性遗忘?
讲解KV缓存、分组查询注意力和多查询注意力的工作原理。
解释 MixTral 背后的技术,它的优缺点是什么?
你好吗?事情进展如何?
如果你觉得这些信息有帮助,并想以其他方式感谢我。
更多【面试-100 个 NLP 面试问题】相关视频教程:www.yxfzedu.com