#AI001. LMCC大模型青少年组模拟题【客观题】
LMCC大模型青少年组模拟题【客观题】
- 按照语言模型的发展历程,以下四代模型的正确时间顺序是: {{ select(1) }}
- 统计语言模型→预训练语言模型→神经网络语言模型→大语言模型
- 统计语言模型→神经网络语言模型→预训练语言模型→大语言模型
- 神经网络语言模型→统计语言模型→预训练语言模型→大语言模型
- 预训练语言模型→统计语言模型→神经网络语言模型→大语言模型
- 关于大语言模型的代表性模型,以下哪项描述最准确? {{ select(2) }}
- BERT、GPT 等基于 Transformer 的预训练模型通常被视为大语言模型
- Transformer 架构模型参数量必然很小,不可能成为大语言模型
- 卷积神经网络是大语言模型的唯一形式
- 线性回归模型由于结构简单,是大语言模型的典型代表
- 当前意义上的 “大语言模型” 最显著的特征不包括以下哪一项? {{ select(3) }}
- 模型参数量巨大,但仅在特定领域的小规模数据上训练
- 展现出强大的涌现能力,如推理、编程和创造性写作
- 基于 “下一个词预测” 等自监督目标在海量互联网文本上训练
- 具有强大的上下文学习能力,无需梯度更新即可根据提示完成新任务
- 关于大语言模型的优势与局限性,以下描述正确的是? {{ select(4) }}
- 大语言模型在创造性任务上表现优异,但可能存在事实性错误
- 大语言模型完全不会产生偏见内容
- 大语言模型在所有任务上都优于人类专家
- 大语言模型不需要大量训练数据即可达到最佳效果
- 关于监督学习和无监督学习的区别,以下说法正确的是: {{ select(5) }}
- 监督学习不需要训练数据,无监督学习需要大量标注数据
- 监督学习使用标注数据学习,无监督学习从无标签数据中发现模式
- 无监督学习只能处理数值型数据,监督学习可以处理任何类型数据
- 无监督学习的模型性能总是优于监督学习
- 在大语言模型的训练中,监督学习 (Supervised Learning) 的主要特征是什么? {{ select(6) }}
- 使用未标记数据进行训练
- 使用标记数据进行训练
- 不需要训练数据
- 仅使用测试数据进行学习
- 在掩码语言模型预训练中,核心任务 “掩码预测” 的主要目的是什么? {{ select(7) }}
- 学习语言的深层双向上下文表征
- 评估模型最终的分类准确率
- 专门优化模型的文本生成流畅度
- 减少模型训练所需的计算资源
- 在预训练技术中,下一个词元预测任务 (Next Token Prediction) 主要基于以下哪种核心思想? {{ select(8) }}
- 根据前文词元序列预测下一个可能出现的词元
- 随机遮盖输入序列中的部分词元并进行重构
- 同时预测输入序列中所有位置的词元
- 将输入序列转换为图像特征进行识别
- 关于大语言模型的训练流程,以下哪项分阶段描述最准确? {{ select(9) }}
- 数据收集与预处理→大规模预训练→指令微调与对齐
- 在线推理→实时部署→用户体验评估
- 需求分析→产品设计→市场推广
- 只进行一次预训练即可,无需其他阶段
- Transformer 架构中,使大语言模型能够有效处理长距离依赖关系的关键组件是: {{ select(10) }}
- 前馈神经网络
- 层归一化
- 自注意力机制
- 残差连接
- 在 Transformer 的自注意力机制中,关于 Query、Key 和 Value 的来源,以下哪一项描述是最准确的? {{ select(11) }}
- Query、Key 和 Value 是由三个完全不同的、随机初始化的参数矩阵生成的,与输入序列无关
- Key 和 Value 是输入序列的嵌入向量本身,而 Query 是目标序列的嵌入向量本身
- Query 来自编码器的最终隐藏状态,而 Key 和 Value 来自解码器的输入序列
- Query、Key 和 Value 是由同一个输入向量通过三个不同的线性变换层 (权重矩阵) 投影得到的
- 关于自注意力机制,以下哪项描述是正确的? {{ select(12) }}
- 只能处理序列中的单个元素
- 查询 (Query)、键 (Key)、值 (Value) 通常来自同一输入序列
- 不需要计算注意力权重
- 只能用于图像处理任务
- 目前主流的生成式大语言模型 (如 GPT 系列) 的核心架构通常基于: {{ select(13) }}
- 编码器模型
- 编码器 - 解码器模型
- 解码器模型
- 卷积神经网络模型
- 关于基于 Transformer 的三种主流模型架构 (Encoder-only、Decoder-only、Encoder–Decoder),以下描述正确的是: {{ select(14) }}
- Encoder–Decoder 架构仅适用于机器翻译任务
- Decoder-only 架构通过因果掩码使每个位置只能关注自身及之前的内容
- Encoder-only 架构不包含自注意力机制
- 三种架构的参数量在相同任务下始终一致
- 指令微调的主要目的是什么? {{ select(15) }}
- 让模型从零开始学习海量无标注数据中的通用知识
- 增强模型理解和遵循人类指令或意图的能力,并改善其输出风格
- 大幅降低模型的基础参数量,以提高推理速度
- 专门用于修复模型在预训练阶段产生的事实性错误
- 指令微调 (Instruction Tuning) 的核心目标是: {{ select(16) }}
- 从零开始训练一个全新的语言模型
- 提高模型理解和遵循人类指令的能力
- 减少模型的参数量以降低推理成本
- 消除预训练数据中的所有偏见
- 用于指令微调的数据通常具有什么典型特征? {{ select(17) }}
- 大规模、无标注的原始网页文本
- 由 (指令 / 问题,期望输出) 配对组成的监督数据集
- 纯粹的代码仓库和编程语言片段
- 未经处理的原始音频和图像数据
- 在筛选高质量指令数据时,以下哪项标准最能有效识别低质量数据? {{ select(18) }}
- 指令长度超过 20 个字符
- 回答内容与指令语义不匹配
- 使用英文书写的指令
- 指令中包含数字符号
- 小明和小华在学习大语言模型时,尝试让它写太空探险的故事。小明的提示词是:“写一个关于太空探险的故事。” 小华的提示词是:“请你扮演一位经验丰富的科幻小说家,为中学生写一个大约 500 字的短篇故事。故事的主角是一位名叫‘星尘’的年轻宇航员,他在探索一颗未知行星时,意外发现了一个古老外星文明的遗迹。故事风格要紧张刺激,结局要留下悬念。” 结果小华生成的故事比小明更好。从提示词工程的角度分析,为什么小华能获得远比小明更好的结果? {{ select(19) }}
- 因为小华提问时,大语言模型的知识库恰好更新了与 “外星文明” 相关的数据,所以能写出更具体的内容
- 因为小华的提示词更长、更复杂,根据提示工程原理,投入的文字量与生成质量成正比,只要提示词足够长,效果就会更好
- 因为小华的提示词为模型设定了明确的角色、目标受众和具体约束,有效地引导了模型的思维链,使其在庞大的可能性空间中聚焦于一个高质量的输出方向
- 因为大语言模型具有真正的创造力和情感理解能力,小华的提示词中 “紧张刺激” 和 “悬念” 等词语激发了它的创作灵感
- 在以下场景中,哪项最适合应用提示学习方法? {{ select(20) }}
- 需要从零开始训练一个全新的深度学习模型
- 希望利用现有预训练模型完成特定文本分类任务
- 处理大规模结构化数据的统计分析
- 进行复杂的数学公式推导计算
- 关于 AI 智能体的角色配置文件设置,下列哪个说法是最准确的? {{ select(21) }}
- 角色配置文件的主要作用是限制智能体的知识量,防止它回答超出范围的问题
- 角色配置文件设置一旦完成就无法改变,智能体将严格按照初始设定运行
- 角色配置文件是定义智能体核心身份、行为准则和对话风格的关键,通常通过初始系统指令实现
- 角色配置文件的功能与用户每次对话的提问内容作用相同,都是为智能体提供临时信息
- 大模型 “人类对齐” 的核心目标是使得模型的行为: {{ select(22) }}
- 在所有的数学计算上达到零误差
- 无限接近地在所有任务上超越人类专家水平
- 符合人类的价值观、意图,并做到安全、有帮助
- 其内部神经网络的计算过程对人类完全透明可解释
- 除了无害性、有用性和诚实性,人类对齐还可能包含哪些重要标准? {{ select(23) }}
- 语言表达的准确性和文化适应性
- 符合特定社会背景下的道德规范
- 尊重用户隐私和数据安全
- 其它所有选项
- 大语言模型中存在的社会偏见,其主要根源最可能是: {{ select(24) }}
- 模型训练时使用的 GPU 硬件存在设计缺陷
- 模型 Transformer 架构中的注意力机制算法存在固有偏差
- 模型从预训练数据中学习了现实世界中存在的社会偏见
- 模型在指令微调阶段,工程师有意注入了有偏见的指令
- 下列哪个项是大语言模型产生偏见的主要来源? {{ select(25) }}
- 训练数据中特定群体的样本数量不足
- 模型算法的计算速度过快
- 硬件设备的存储容量限制
- 用户界面的设计不够美观
- 为了保障社会群体的 “公平安全”,避免模型输出产生歧视性内容,最关键的缓解方法是在哪个阶段介入? {{ select(26) }}
- 仅在模型推理部署后,通过实时过滤敏感词来屏蔽有害输出
- 主要依靠扩大模型规模,期望其自动学习并消除偏见
- 在模型预训练和微调阶段,系统性地清洗数据和引入公平性约束
- 完全依赖第三方评测机构在发布前进行一次性的偏见评估
- 关于模型评测中的公平性问题,以下哪项描述最准确? {{ select(27) }}
- 公平性仅涉及算法设计的数学公平
- 评测数据集的选择不会影响公平性评估
- 公平性要求模型在不同群体间表现一致
- 公平性问题只存在于监督学习模型中
- 关于 “贪心搜索” 和 “束搜索” 这两种解码策略,以下哪种说法是最准确的? {{ select(28) }}
- 贪心搜索因为每次都选最好的,所以总能生成最完美、最富有创造力的句子
- 束搜索需要同时考虑多条路径,计算起来更复杂,但它更有可能找到一个整体上更通顺、更合理的句子
- 束搜索的速度通常比贪心搜索更快,因为它是并行的
- 这两种策略没有本质区别,无论用哪一种,AI 生成的句子质量都完全一样
- 关于贪心搜索 (Greedy Search) 和束搜索 (Beam Search) 这两种解码策略,以下描述正确的是: {{ select(29) }}
- 贪心搜索在每一步选择概率最高的词元,计算效率高但可能错过全局最优解
- 束搜索的束宽 (Beam Width) 越大,生成结果一定越好
- 贪心搜索等同于束宽为 0 的束搜索
- 束搜索的计算复杂度与贪心搜索完全相同
- 大语言模型在解决一道复杂的数学应用题时,生成了一段非常长的思考过程,其中包含了将问题分解为多个子步骤、对每个步骤进行详细解释、并逐步推导出中间结果。这种推理模式的主要优势是什么? {{ select(30) }}
- 能够确保最终答案的正确性,避免计算错误
- 通过展示详尽的思维过程,提高了解题逻辑的可解释性和可靠性
- 显著减少了模型处理问题所需的总时间和计算资源
- 主要目的是为了生成更多的文本内容,使回答看起来更丰富
- 基于强化学习的推理能力优化方法面临的主要挑战是什么? {{ select(31) }}
- 模型会因此完全丧失其原有的语言生成能力
- 推理路径的搜索空间巨大,导致训练不稳定和效率低下
- 强化学习会使模型的词汇量急剧减少
- 该方法只能应用于数学推理,无法泛化到其他领域
- 关于 DeepSeek-R1 的特点,以下哪项描述最准确? {{ select(32) }}
- DeepSeek-R1 专注于强化推理能力,结合强化学习与思维链生成策略
- DeepSeek-R1 是 2010 年发布的图像分类模型,仅支持离线部署
- DeepSeek-R1 完全不开源,无法进行任何微调或评估
- DeepSeek-R1 仅用于传统统计语言建模,未引入自注意力机制
- 关于语言模型的困惑度,以下描述正确的是: {{ select(33) }}
- 困惑度越低,说明模型对测试数据的预测越不确定,性能越差
- 困惑度是模型在训练集上的准确率直接转换而来的指标
- 困惑度反映模型对一组文本的平均预测不确定性,值越低表示模型性能越好
- 困惑度与模型的训练步数无关,只与模型架构有关
- 以下哪一项是精确率 (Precision) 的计算公式?注:TP (True Positive,真阳性)、FP (False Positive,假阳性)、TN (True Negative,真阴性)、FN (False Negative,假阴性); {{ select(34) }}
- TP/(TP + FP)
- TP/(TP + FN)
- (TP + TN)/(TP + TN + FP + FN)
- (TP + FP)/(TP + TN + FP + FN)
- 在评估一个代码生成智能体时,我们常使用 Pass@K 指标。假设我们有一个包含 n = 100 个编程问题的测试集。对于每个问题,让智能体独立生成 k = 5 个不同的代码解决方案。如果对于某个问题,生成的 5 个方案中有任意一个能够通过单元测试,该问题就被视为 “已解决”。最终,在 100 个问题中,有 60 个问题被成功解决。根据上述描述,以下关于 Pass@K 的计算和解释,哪一项是正确的? {{ select(35) }}
- 这里 K = 5,Pass@5 = (60/100)*100% = 60%。这表示随机抽取一个生成方案,其通过测试的概率是 60%
- 这里 K = 5,Pass@5 = (60/100)*100% = 60%。这表示通过生成 5 个方案,智能体成功解决其中 60% 问题的能力
- 这里 K = 100,Pass@100 = (60/100)*100% = 60%。这表示智能体解决了测试集中 60% 的问题
- 这里 K = 5 但正确的计算方式应为 Pass@5 = (60/(100*5))*100% = 12%。这表示所有生成方案的总通过率
- 关于模型泛化能力的理论保证,以下哪项描述最准确? {{ select(36) }}
- 训练误差越小泛化能力一定越强
- 模型复杂度与泛化能力呈正比关系
- 充足的数据量与合适的模型复杂度有助于提升泛化能力
- 测试集精度完全代表模型在实际应用中的表现
- 关于过拟合 (Overfitting) 现象,以下描述正确的是? {{ select(37) }}
- 模型在训练集和测试集上表现都很好
- 模型过于简单,无法捕捉数据特征
- 模型在训练集上表现很好,但在测试集上表现差
- 模型参数数量过少导致性能下降
- 关于批量大小 (Batch Size) 对模型训练的影响,以下说法错误的是: {{ select(38) }}
- 较大的批量大小可以提高训练的并行效率
- 较小的批量大小通常使梯度估计更加准确
- 批量大小的选择需要在训练速度和模型性能之间权衡
- 过大的批量大小可能导致模型泛化能力下降
- 下列哪一项不属于测试时间拓展 (Test Time Scaling,TTS) 技术? {{ select(39) }}
- 对单个测试样本进行多种变换 (如翻转、裁剪),并将所有变换版本的预测结果进行集成
- 在模型推理时,仍然随机丢弃部分神经元,进行多次前向传播并将结果平均,以模拟集成效果提升健壮性
- 为每个测试样本定义一个辅助任务 (如旋转图片预测),利用该样本对模型进行一步梯度下降微调,再完成主任务预测
- 在一个大型源数据集上预训练模型,然后在一个较小的目标数据集上对模型的所有权重进行微调
- 下列哪一项通常不属于对大语言模型进行系统评测的核心内容? {{ select(40) }}
- 模型训练所用 GPU 集群的实时功耗与散热效率
- 模型在问答、摘要、代码生成等任务上的准确率与流畅度
- 模型输出是否存在社会偏见、歧视性内容等安全性问题
- 模型在数学推理、常识推理等复杂任务上的泛化能力