在人工智能快速发展的今天,AI、Transformer、RAG、Agent 等术语频繁出现在我们的视野中。这些概念不仅影响着技术发展方向,更与我们的日常生活息息相关。然而,大多数解释要么过于技术性难以理解,要么过于简单无法真正掌握其精髓。
本文旨在用通俗易懂的语言,为读者梳理这些核心概念的来龙去脉。从 1956 年人工智能概念的提出,到当下 ChatGPT 等大语言模型的蓬勃发展,我们将沿着技术演进的时间线,帮助读者建立起对 AI 技术体系的整体认知框架,让这些看似深奥的概念变得触手可及。
什么是人工智能?
1956 年夏天,计算机科学家约翰·麦卡锡(John McCarthy)首次提出"人工智能"(AI
)这个概念。
人工智能(AI
)指的是:通过软件和硬件,来完成通常需要人类智能才能完成的任务。它的研究对象,就是在机器上模拟人类智能。
什么是机器学习?
早期,人工智能研究分成两个阵营。
第一个阵营是规则式(rule-based
)方法,又称专家系统(expert systems
),指的是人类写好一系列逻辑规则,来教导计算机如何思考。
可想而知,对于复杂的、大规模的现实问题,很难写出完备的、明确的规则。所以,这种方法的进展一直很有限。
第二个阵营就是机器学习(machine learning
),指的是没有预置的规则,只是把材料提供给计算机,让机器通过自我学习,自己发现规则,给出结果。
什么是神经网络?
神经网络(neural network
)是机器学习的一种主要形式。
神经网络就是在机器上模拟人脑的结构,构建类似生物神经元的计算网络来处理信息。
一个计算节点就是一个神经元,大量的计算节点组成网络,进行协同计算。
神经网络需要极大的算力,以及海量的训练材料。以前,这是难以做到的,所以 20 世纪 70 年代开始,就陷入了停滞,长期没有进展。
什么是深度学习?
深度学习(deep learning
)是神经网络的一种实现方法,在 20 世纪 80 年代由杰弗里·辛顿提出。它让神经网络研究重新复活。
深度学习是一种让多层神经元可以进行有效计算的方法,大大提高了神经网络的性能。"深度学习"这个名字,就是比喻多层神经元的自主学习过程。
多层神经元包括一个输入层和一个输出层,它们之间有很多中间层(又称隐藏层)。以前,计算机算力有限,只能支撑一两个中间层,深度学习使得我们可以构建成千上万个中间层的网络,具有极大的"深度"。
Transformer 是什么?
早些年,深度学习用到的方法是卷积神经网络(CNN
)和循环神经网络(RNN
)。
2017 年,谷歌的研究人员发明了一种新的深度学习处理方法,叫做 Transformer
(转换器)。
Transformer 不同于以前的方法,不再一个个处理输入的单词,而是一次性处理整个输入,对每个词分配不同的权重。
这种方法直接导致了 2022 年 ChatGPT 和后来无数生成式 AI 模型的诞生,是神经网络和深度学习目前的主流方法。
由于基于 Transformer 的模型需要一次性处理整个输入,所以都有"上下文大小"这个指标,指的是一次可以处理的最大输入。
比如,GPT-4 Turbo 的上下文是 128k 个 Token,相当于一次性读取超过 300 页的文本。上下文越大,模型能够考虑的信息就越多,生成的回答也就越相关和连贯,相应地,所需要的算力也就越多。
什么是 RAG?
RAG(Retrieval Augmented Generation
检索增强生成)是一种让 AI 模型变得更"博学"的方法。想象你在写一篇论文,除了用自己的知识,还会去查阅参考资料。RAG 就是给 AI 配备了一个"资料库"和"检索系统"。
当 AI 需要回答问题时,会先从资料库中检索相关信息,再结合这些信息来生成答案。这样做有几个好处:
- 可以获取最新信息,克服模型训练数据落后的问题;
- 能提供更准确的回答,因为有具体的参考依据;
- 可以处理特定领域的专业问题,比如公司内部知识;
什么是 AI Agent?
AI Agent(智能代理)可以理解为一个能自主完成任务的 AI 助手。它不只是简单地回答问题,而是能够:
- 理解用户的长期目标;
- 制定实现目标的计划;
- 自主选择合适的工具;
- 执行必要的操作;
- 根据执行结果调整计划;
打个比方:
- 普通的 AI 模型就像一个知识渊博的顾问,你问什么答什么
- AI Agent 则像一个能干的助理,你交代一个目标,它就能规划步骤并付诸行动
比如你说"帮我订一张下周去北京的机票",它会自动查询航班信息、比较价格、考虑你的日程安排,最后完成订票。
这两项技术代表了 AI 发展的重要方向:
- RAG 让 AI 变得更懂更准;
- Agent 让 AI 变得更能干更自主;
这些技术正在快速发展,未来可能会让 AI 助手变得更像我们的"得力助手",而不仅仅是一个问答工具。