看世界|关键词未死,只是换了叙事:AI时代的学术发现新范式



在生成式人工智能(generative AI, GenAI)重塑信息获取方式的今天,出现了一种“关键词已死”的论调。然而,现实情况究竟如何? 2026年初,全球领先的学术出版和技术解决方案服务提供商KnowledgeWorks Global Ltd.(KGL)的产品管理副总裁Hong Zhou博士与Simma.io的高级产品经理Hiba Bishtawi共同发表的文章《关键词并未消失——但检索不再仅仅是检索》(Keywords Are Not Dead — But Discovery Is No Longer Just Search)给出了更为冷静且务实的答案:关键词没有消亡,它是AI驱动发现的隐形基石,我们正迈向一个“自然语言交互”与“精确关键词检索”共存的混合时代。对于出版商、图书馆员及研究人员而言,理解这一结构性转变,不仅是技术升级的需要,更是确保高价值内容在AI代理时代不被“隐形”的战略关键。以下是对该文主要内容的编译。
研究人员的信息检索方式正在经历又一次的变革——这一次,这种转变更像是结构性的而非渐进式的。几十年来,信息检索始终围绕关键词展开:依赖精心挑选的术语、布尔操作符(Boolean operator)①,以及日益复杂的相关性排序。如今,GenAI系统的出现催生了一种全新的交互模式:研究人员不再局限于追问“如何检索”,而是直接提出“我想知道什么”,并期待系统能够自动解决剩余的所有问题。这一转变给出版商、图书馆及工具服务商带来了一系列现实挑战。这些问题并非纯理论探讨,而是切实影响着平台投资决策、元数据策略、界面设计、许可模式乃至成效评估标准。随着越来越多的检索行为通过AI媒介而非直接在出版商平台上进行,了解不同方法的优劣变得至关重要:关键词检索是否正在走向过时?自然语言查询在何种场景下优于传统方法,又在哪种情况下可能失效?当前AI驱动的检索工具究竟具有哪些优势,以及我们期望它们最终能够实现哪些突破?为探索上述问题,文章对四款广泛使用的AI赋能研究发现工具——Elicit、Typeset.io(SciSpace)、Consensus及Scite.ai——进行了对比分析,考察其在不同类型的研究查询与检索场景中的表现。研究显示,关键词检索不会被完全取代,未来的学术发现更可能走向一种混合模式,即精准检索与AI驱动的综合解析并存,尽管二者在实践中仍需进一步磨合。
① 布尔操作符是用于连接布尔表达式的基本逻辑运算符,通过AND、OR、NOT等类型构建完整布尔表达式,在检索引擎语法、程序设计和数据库查询中被广泛应用,其运算符包含符号型(如“&”/“|”/“!”)和条件逻辑型(如“&&”/“||”),执行逻辑与、或、非及异或运算。
/从精确控制到混合检索/为什么关键词不会消失?

关于“关键词消失”的预测,往往低估了其在研究工作流程中根深蒂固的地位。现代关键词检索的语义化程度早已今非昔比。当用户输入“附近最好的意大利餐厅”时,系统不仅仅是进行字符串的匹配,还会解读用户的意图、位置和偏好。在学术领域也是如此:得益于受控词表(controlled vocabularies)、元数据增强(metadata enrichment)和语义索引(semantic indexing)等技术,关键词检索多年来一直在持续进化。更为关键的是,关键词仍能解决许多当前AI系统难以处理的问题。在涉及错误代码、产品编号、技术规格以及需要精确短语匹配等某些特定的应用场景中,准确性仍然至关重要。律师、分析师、学者等专业研究人员依然高度依赖精确的布尔逻辑来构建全面且可复现的查询(例如,检索“气候变化”OR“全球变暖”②,或“机器学习”AND“医疗保健”NOT“图像处理”③)。这种能力并非仅是使用习惯,而是确保透明度、召回控制(recall control)④与方法严谨性的关键工具。此外,还有一个不容忽视的现实的考量:基于关键词的索引在计算上仍然高效,且在规模化应用中成本更低。相比之下,纯粹的语义检索或基于词嵌入的检索往往资源消耗大且不透明,难以在大型生产系统中进行调试与优化。因此,目前大多数大型检索平台普遍采用混合模式,在后台综合运用词汇匹配、语义理解和行为信号。关键词并未消失,而是逐渐演变为一种基础设施——即便用户通过自然语言界面进行交互,它仍在“幕后”发挥着作用。在许多系统中,自然语言查询在检索前就会被自动分解为加权关键词、实体和词嵌入。界面或许看起来像对话,但检索机制仍然深深植根于词汇逻辑。因此,真正的问题并非“关键词是否会消亡”,而在于,用户在需要时,是否仍能有效调用精确的检索词,以及,AI驱动工具能在多大程度上智能地辅助这套基础设施。
② 检索包含任意一个术语的文献,目的是扩大范围。③ 检索同时包含前两个术语,但排除包含后一个术语的文献,目的是在特定交叉领域内进行精确聚焦。④ 指研究人员对检索结果覆盖范围的主动控制。使用OR可以扩大召回范围,使用AND和NOT则可以缩小范围,排除无关信息,提高精确性。

/四款AI研究助手测评/智能检索的优势与局限

以下四款检索工具,代表了当前AI辅助研究的不同设计理念与应用侧重:
● Elicit(Ought)专注于文献综述,通过语义检索和结构化提取技术,支持跨学术数据库的深度检索。 ● Typeset.io(SciSpace)定位为通用型研究助手,可实现对庞大科学文献库的阅读、写作和分析等的一站式服务。 ● Consensus
旨在直接解答研究问题,综合同行评审的研究发现,尤其强调实证性结论。 ● Scite.ai通过引用分析检索,能够识别论文间的引用关系(支持、反驳或提及)。 ● Scite.ai通过引用分析检索,能够识别论文间的引用关系(支持、反驳或提及)。尽管这些工具仍处于快速发展阶段,但它们为我们提供了一个有效的视角,展现了当前AI赋能型工具在设计上的权衡取舍。本次测评主要从三个层面考察了上述工具的性能:1)出版物层面:查询已知文章或特定论文;2)图书馆层面:在特定馆藏或主题语料库中进行检索;3)全局层面:对工具全部内容库进行开放式检索。查询被分为六种常见的研究场景:数学方程式与科学公式、化学化合物检索、基于图像或图表的检索、隐性或语境化问题(如新兴趋势)、直接的事实判断或是非题、研究分析和文献计量学问题。每个查询均使用Claude和ChatGPT作为独立的评估工具,从准确性、完整性、相关性三个维度进行评估。虽然使用AI模型作为评估工具难免会带入自身偏差,但采用双系统交叉验证有助于减少单一模型的盲点,并能清晰地呈现哪些答案始终稳健有效或系统性无效。本次测评的目标并非对工具进行简单的竞争性排名,而是希望揭示各类工具在不同场景下的结构性优势与局限,并通过对分数的标准化处理来比较不同工具和查询类型。虽然没有完美的评估框架,但这种方法有助于发现一致的模式,而不是个别成功或失败的案例。
/ 传统检索的优势:精确性与可控性 /
研究结果清楚地表明,传统关键词检索在精确度方面仍然更胜一筹。对于已知条目的检索,如特定标题、短语、DOI编号或化学式,基于关键词的检索系统依然表现更好。此外,按作者、年份、期刊或文献类型进行的元数据过滤,目前仍是AI驱动型工具的弱项。化学结构查询尤其具有挑战性。在没有上下文描述的情况下,仅凭分子式或IUPAC名称在AI系统中进行全局检索,往往得到不完整或不一致的结果。同样,基于图像的检索功能目前也不受支持。除非图表和示意图在文本中被明确描述,否则AI工具很难识别其内容。对于经验丰富的研究人员而言,最令人担忧的或许是控制权的丧失。在传统系统中,效果不佳的检索通常可通过调试来改进:例如调整术语、限制字段或优化逻辑。而在AI驱动的系统中,问题更难追溯。用户常常无法判断结果的遗漏是由于数据覆盖不全、提示词理解偏差,还是系统本身的检索缺陷。这种不透明性不仅改变了用户的检索习惯,也影响了他们对结果的信任程度。传统的布尔运算符和引号检索常被忽略或误解,这对习惯于构建精准、可复现查询的用户而言,无疑是一种重大倒退。
/ AI工具的优势:语义理解与综合效率 /
与此同时,AI驱动的检索工具也展现出显著的优势。对于需要理解语义的自然语言问题,如“可再生能源领域有哪些最新突破?”,这类工具的优势尤为突出。AI系统尤其擅长文献总结、主题识别以及跨多篇论文的证据整合。在四种测试工具中,Elicit在事实性查询和文献检索方面表现突出,尤其擅长处理对话式的复杂指令。Typeset.io在多数测试类别中表现稳定,是一款可靠的通用研究助手。Consensus在处理实证与统计类问题时表现优异,通常能提供清晰、有依据且附引证的答案。Scite.ai则通过独特的引文上下文分析,帮助用户评估引用的内容与引用的方式。简而言之,当任务涉及解释、综合或构建意义时,AI工具优势明显,而这正是传统关键词检索的弱项。这类工具减轻了用户浏览大量摘要的认知负担,帮助研究者在不熟悉的文献中快速定位核心信息,并降低了跨学科探索的门槛。对于早期研究或需要快速了解某一领域的概况而言,这意味着效率的显著提升。
/ 共同的局限性 /
尽管前景广阔,但这些工具也存在一些明显的共性局限。所有工具都难以支持以图像为中心的检索,在精确短语匹配和技术准确性上都存在不足。此外,这些工具普遍存在一定的不透明性,使用户难以理解特定结果返回的底层逻辑。这些并非小问题。在学术研究环境中,信任、可重复性和可解释性至关重要。对于探索性发现而言,一个能够提供看似合理但不精确结果的系统或许可以接受,但在系统性综述或监管工作等需要更严谨结论的应用场景中,这种模糊性是不可接受的。

/“关键词检索+AI”/迈向分层协作的混合检索新时代

未来,我们并非简单地从关键词检索“转向”AI,而是进入了“关键词检索+AI”深度融合的新阶段。检索过程正在演变为一种分层协作的模式:顶层为对话式界面,底层是检索引擎,而评估机制作为平行系统贯穿检索全程,实时监控并优化检索质量。面对这一现实,我们必须认识到,没有任何一种单一的交互模型能够完美地满足所有研究需求。灵活性(而非替代性)才是未来高效检索的关键特征。最有效的检索环境将是融合以下要素的混合系统:用于探索性发现和知识综合的自然语言界面;用于精确检索与结果验证的关键词和元数据控制;以及帮助用户评估结果可信度与覆盖范围的透明化信号。与此同时,检索本身也在从“对话式检索”转向“任务完成”。研究人员越来越期望系统不仅提供信息,更能辅助生成参考文献、提取数据、比较研究方法或撰写提纲。从这个意义上讲,对话仅是入口,完成任务才是最终目标。这一变革不仅限于工具本身,更深刻影响了评估标准。随着发现过程越来越依赖AI,点击量、下载量等传统指标已不再足够。AI检索频率、引用曝光率(citation surfacing)、幻觉率(hallucination rate)⑤以及工作流程影响力等新的指标正变得越来越重要。对出版商与图书馆而言,挑战在于其信息不仅要易于被发现,还要能够被AI高效检索和利用。这要求内容具备结构化摘要、一致的章节标签、高质量的参考文献、持久的标识符以及清晰的许可标识,从而确保机器能够合法地使用。若内容无法被AI系统可靠识别、溯源或利用,即使学术价值再高,也可能面临被边缘化的风险。因此,丰富的元数据、清晰的结构、规范的本体框架及机器可读的版权信息,正成为AI驱动的工作流程中内容可见性的先决条件。如今,令人不安的问题不再是“人类能否找到这些内容?”,而是“AI代理能否发现并使用这些内容?”。在由代理主导的检索经济中,对机器“不可见”的内容,越来越意味着对人类也“不可见”。回顾检索技术的演进历程,从纸质索引到在线数据库、网络检索,再到如今的自主检索,历史的赢家往往不是宣称某种单一范式获胜的人,而是那些能够深刻理解各类方法的优势与局限,并设计出能让研究人员在精确性与综合性之间灵活转换系统的构建者。
⑤ 幻觉率指生成式AI模型输出错误或虚假信息的比例‌,是评估大语言模型可靠性的关键指标。
【END】



分类