1.假设你为10000个单词学习词嵌入,为了捕获全部范围的单词的变化以及意义,那么词嵌入向量应该是10000维的。
【 】 正确
【★】 错误
2.什么是t-SNE?
【★】 一种非线性降维算法。
【 】 一种能够解决词向量上的类比的线性变换。
【 】 一种用于学习词嵌入的监督学习算法。
【 】 一个开源序列模型库。
3.假设你下载了一个已经在一个很大的文本语料库上训练过的词嵌入的数据,然后你要用这个词嵌入来训练RNN并用于识别一段文字中的情感,判断这段文字的内容是否表达了“快乐”。
那么即使“欣喜若狂”这个词没有出现在你的小训练集中,你的RNN也会认为“我欣喜若狂”应该被贴上y=1y = 1y=1的标签。
【★】 正确
【 】 错误
4.对于词嵌入而言,下面哪一个(些)方程是成立的?
【★】 eboy−egirl≈ebrother−esistere_{boy} - e_{girl} ≈ e_{brother} - e_{sister}eboy−egirl≈ebrother−esister
【 】 eboy−egirl≈esister−ebrothere_{boy} - e_{girl} ≈ e_{sister} - e_{brother}eboy−egirl≈esister−ebrother
【★】 eboy−ebrother≈egirl−esistere_{boy} - e_{brother} ≈ e_{girl} - e_{sister}eboy−ebrother≈egirl−esister
【 】 eboy−ebrother≈esister−egirle_{boy} - e_{brother} ≈ e_{sister} - e_{girl}eboy−ebrother≈esister−egirl
5.设EEE为嵌入矩阵,e1234e_{1234}e1234 对应的是词“1234”的独热向量,为了获得1234的词嵌入,为什么不直接在Python中使用代码 E∗e1234E∗e_{1234}E∗e1234 呢?
【★】 因为这个操作是在浪费计算资源。
【 】 因为正确的计算方式是ET∗e1234E^T ∗ e_{1234}ET∗e1234。
【 】 因为它没有办法处理未知的单词()。
【 】 以上全都不对,因为直接调用E∗e1234E∗e_{1234}E∗e1234是最好的方案。
6.在学习词嵌入时,我们创建了一个预测P(target∣context)P(target \mid context)P(target∣context)的任务,如果这个预测做的不是很好那也是没有关系的,因为这个任务更重要的是学习了一组有用的嵌入词。
【★】 正确
【 】 错误
7.在word2vec算法中,你要预测P(t∣c)P(t \mid c)P(t∣c),其中 ttt 是目标词(target word),ccc 是语境词(context word)。你应当在训练集中怎样选择 ttt 与 ccc 呢?
【★】 ccc 与 ttt 应当在附近词中。
【 】 ccc 是在 ttt 前面的一个词。
【 】 ccc 是 ttt 之前句子中所有单词的序列。
【 】 ccc 是 ttt 之前句子中几个单词的序列。
8.假设你有1000个单词词汇,并且正在学习500维的词嵌入,word2vec模型使用下面的softmax函数:
P(t∣c)=eθtTec∑t′=110000eθt′TecP(t \mid c)=\frac{e^{\theta_t^Te_c}}{\sum_{t′=1}^{10000} e^{\theta_{t′}^T e_c}}P(t∣c)=∑t′=110000eθt′TeceθtTec
以下说法中哪一个(些)是正确的?
【★】 θt\theta_tθt 与 ece_cec 都是500维的向量。
【 】 θt\theta_tθt 与 ece_cec 都是10000维的向量。
【★】 θt\theta_tθt 与 ece_cec 都是通过Adam或梯度下降等优化算法进行训练的。
【 】 训练之后,θt\theta_tθt 应该非常接近ece_cec,因为 ttt 和 ccc 是一个词。
9.假设你有10000个单词词汇,并且正在学习500维的词嵌入,GloVe模型最小化了这个目标:
min∑i=110,000∑j=110,000f(Xij)(θiTej+bi+b′j−logXij)2\min \sum^{10,000}_{i=1}\sum^{10,000}_{j=1}f(X_{ij})(\theta^T_ie_j+b_i+b′_j−logX_{ij})^2mini=1∑10,000j=1∑10,000f(Xij)(θiTej+bi+b′j−logXij)2
以下说法中哪一个(些)是正确的?
【 】 θi\theta_iθi 与 eje_jej 应当初始化为0。
【★】 θi\theta_iθi 与 eje_jej 应当使用随机数进行初始化。
【★】 XijX_{ij}Xij 是单词i在j中出现的次数。
【★】 加权函数 f(.)f(.)f(.) 必须满足 f(0)=0f(0)=0f(0)=0。
The weighting function helps prevent learning only from extremely common word pairs. It is not necessary that it satisfies this function.
加权函数有助于防止仅从非常常见的单词对中学习,它不必满足这个函数。
10.你已经在文本数据集m1m_1m1上训练了词嵌入,现在准备将它用于一个语言任务中,对于这个任务,你有一个单独标记的数据集m2m_2m2,请记住,使用词嵌入是一种迁移学习的形式,在这种情况下,你认为词嵌入会有帮助吗?
【★】 m1>>m2m_1\gt \gt m_2m1>>m2
【 】 m1<<m2m_1 \lt \lt m_2m1<<m2