大型语言模型：它们是什么以及它们如何工作

如今，“法学硕士”或“大型语言模型”一词被更频繁地提及。大多数人都知道他们与人工智能有关，但仅此而已。

当今许多强大的人工智能系统——从 OpenAI 的 ChatGPT 到谷歌的 BERT——都基于大型语言模型，顺便说一句，这也是它们力量的源泉。但这些法学硕士与之前的其他人工智能技术有何不同？

顾名思义，大型语言模型非常大。它们是接受过大量数据训练的人工智能系统，这使得它们在处理人类语言方面非常高效。这篇文章解释了如何做。

什么是大型语言模型？

大型语言模型是一种经过训练可以识别、复制、预测和操作文本或其他内容的人工智能系统。现代大型语言模型由具有数十亿或更多参数的人工智能神经网络组成，通常使用 PB 级数据进行训练。

大型语言模型可以像人类一样理解很多事情，尽管不是所有事情。然而，与大多数人类不同的是，大型语言模型可以对几乎所有事物拥有更广泛的知识，使其看起来像一个 无所不知的计算机。

由于互联网上的大量数字信息、计算成本的降低以及 CPU 和 GPU 并行处理器计算能力的提高，今天的大型语言模型成为可能。

大型语言模型如何工作？

从表面上看，大型语言模型例如 ChatGPT 很容易使用。您所要做的就是输入一些文本，它就会回复您 – 从问题到所有类型的请求。

然而，在表面之下，还需要做更多的工作才能产生大型语言模型所闻名的看似毫不费力的结果。例如，首先必须创建、训练和微调系统以生成 ChatGPT 结果类型。

因此，这里快速浏览一下使大型语言模型成为可能的不同过程。

设计：一个大型语言模型的设计将决定它如何工作、采用哪种算法和训练方法，以及整个训练和维护的时间和成本。
变压器：大多数大型语言模型都是使用 Transformer 深度学习模型构建的。 Transformer 很有帮助，因为它们具有自我关注机制，使它们更具上下文感知能力，因此与旧模型相比，需要更少的训练时间。
预训练和数据：从维基百科到大型数据库和其他独特的数据源，训练大型语言模型所使用的数据的数量和质量将决定其输出能力。预训练为大型语言模型提供了理解书面文本、语言、上下文等所需的基本信息。大多数法学硕士预训练都是在半监督或自监督学习模式下使用未标记的数据完成的。
微调：LLM 的预训练阶段之后，下一步通常是针对特定领域的微调，将其变成更有用的工具，用于特定目的，例如聊天、商业研究、代码完成等。这是开发 GitHub Copilot 和 OpenAI 的 ChatGPT 等工具的阶段。

大型语言模型和软件工具

大语言模型还可以通过插件和API集成连接到其他软件系统或平台。这使得法学硕士能够影响现实世界的活动，例如检查时间、执行算术、浏览网页以及通过 Zapier 等平台与网络应用程序交互。

这是一个目前正在发展的领域，潜力巨大。例如，您所要做的就是给出指示，法学硕士可以为您在网络上查找内容、进行预订、关注突发新闻主题、进行购物等等。

法学硕士术语和标签

开发大型语言模型没有特定的方法，因此开发人员小组最终会使用不同的模型，使用略有不同的方法来实现相似的目标。这种情况催生了不同的标签，因为它们试图描述每种模型的工作原理。以下是其中一些术语及其含义。

零样本模型：预先训练的大型语言模型，能够进行超出其基本训练集的分类，并给出相当准确的结果供一般使用。
微调模型：特定领域模型。
多模式模型：能够理解并生成文本以外的媒体类型，例如图像。
GPT：生成式预训练变压器。
T5：文本到文本传输转换器。
BART：双向和自回归变压器。
BERT：来自 Transformer 的双向编码器表示。
罗伯塔：稳健优化的 BERT 方法。
CTRL：条件变压器语言模型。
骆驼：大型语言模型元人工智能。
图灵 NLG：自然语言生成。
拉曼达：对话应用程序的语言模型。
ELECTRA：高效学习能够准确分类令牌替换的编码器。

大语言模型的应用

大型语言模型可以有效地应用于商业、开发和研究的许多领域。真正的好处是在微调之后出现的，这完全取决于模型的设计目的。以下是它们的许多应用领域。

语言翻译：大型语言模型在多种语言上表现良好。他们可以将简单的句子翻译成计算机代码，甚至可以一次性翻译出多种人类语言翻译。
内容生成：从文本生成到图像等等，法学硕士可以有利地用于生成各种内容，包括产品描述、营销内容、公司电子邮件，甚至法律文档。
虚拟助手：法学硕士对人类语言的良好理解使他们成为理想的虚拟助手。他们可以接受人类语言作为命令，并用它来编写内容、执行在线操作、开展研究等等。
聊天与对话：正如流行的 ChatGPT 模型所证明的那样，他们也是很棒的聊天伙伴。
问题回答：大型语言模型在训练过程中吸收大量信息，这使得它们能够回答大多数常识性问题。
内容摘要：他们还可以将大量文本内容总结为较短的形式。 Transformer 模型在这方面非常擅长。
财务分析： BloombergGPT 就是一个很好的例子。
代码生成：借助由针对编程进行微调的大型语言模型提供支持的副驾驶，计算机程序员的效率变得更高。
转录服务：法学硕士可以轻松地进行文本到语音和语音到文本的转录。
重写内容： 要么是同一种语言，要么是不同的风格。
情感分析：法学硕士可用于有效地推断人类交流中嵌入的情感。通过研究客户的营销团队可以有效地应用这一点。
信息检索：他们对人类语言的良好理解使法学硕士成为现代搜索引擎的重要组成部分。
相关资讯：从交互式学习工具到更智能、个性化的辅导和评分系统，法学硕士在教育领域的潜在应用是巨大的。

大型语言模型的好处

尽管大型语言模型开发带来了许多挑战，但它的好处很多并且值得。以下是主要的。

对语言的丰富理解：法学硕士可以理解并回应您的语言，就像您在与另一个人交谈一样。这使得它们作为人类和计算机世界之间的接口特别有价值。
创造力：生成式预训练 Transformer 已经证明了其生成令人印象深刻的文本输出（例如通过 ChatGPT 和图像）的能力，例如稳定扩散.
多功能：零样本模型是一种多功能工具，可用于需要不同环境和应用程序的许多任务和项目。
微调能力：任何组织都可以采用预先训练的模型并对其进行微调，以处理其工作流程中的任务和流程。这包括融入组织的文化和道德，如品牌、口号和方法。

面临的挑战

大型语言模型带来了许多挑战，这使得它们成为大多数资金雄厚的公司的领域。以下是开发人员在获得法学硕士学位时面临的主要问题。

开发与维护成本：大型语言模型的开发和维护成本都很高。
规模和复杂性：这个名字说明了一切。大型语言模型庞大且复杂。您需要一支优秀的团队来建立和管理一个团队。
偏见和不准确：考虑到它们所经历的无监督学习的规模，大型语言模型在学习时可能会包含很多偏见和不准确之处。

流行的大型语言模型列表

S / N	名称	年	开发商	语料库大小	参数	执照
1.	GPT-4	2023	OpenAI	不明	〜1万亿	公共API
2.	盘古-Σ	2023	华为	329亿个代币	1万亿	所有权
3.	MT-NLG	2021	微软/英伟达	338亿个代币	530十亿	受限
4.	开启助理	2023	莱翁	1.5万亿代币	17十亿	阿帕奇2.0
5.	彭博GPT	2023	彭博有限责任公司	700+十亿代币	50十亿	所有权
6.	骆驼	2023	元	1.4万亿	65十亿	受限
7.	卡拉狄加	2022	元	106亿个代币	120十亿	抄送
8.	大脑-GPT	2023	大脑	–	13十亿	阿帕奇2.0
9.	布卢姆	2022	哈金菲斯公司	350亿个代币	175十亿	负责任的AI
10.	GPT-新	2021	艾柳特人工智能	825 GB	2.7十亿	麻省理工学院简介
11.	鹘	2023	信息产业部	1万亿代币	40十亿	阿帕奇2.0
12.	魅力	2021	谷歌	1.6万亿代币	1.2万亿	所有权
13.	GPT-3	2020	OpenAI	300亿个代币	175十亿	公共API
14.	BERT	2018	谷歌	3.3十亿	340千万	阿帕奇
15.	Alexa™	2022	Amazon	1.3万亿	20十亿	公共API
16.	亚LM	2022	Yandex的	1.7结核病	100十亿	阿帕奇2.0

开源法学硕士

许多流行的大型语言模型都是开源项目，尽管它们的复杂性和巨大的成本使得许多开发人员无法采用它们。但是，您仍然可以在开发人员的基础设施上运行经过训练的模型用于研究目的或生产。有些是免费的，而另一些则是负担得起的。这里是一个不错的清单。

顶级法学硕士资源列表

以下是网络顶级资源的列表，用于了解和跟上大型语言模型和人工智能行业的一切。

OpenAI：ChatGPT、GPT-4 和 Dall-E 的开发者
抱脸：提供从自然语言处理 (NLP) 到大型语言模型等人工智能相关内容的热门网站
Google AI博客：提供来自 Google 研究团队的信息、研究更新、研究和文章。
GitHub上：流行的代码托管平台，拥有大量开源项目及其代码。
Nvidia公司：并行计算硬件制造商
ACL 选集：拥有 80 万多篇自然语言处理和计算语言学论文的大型平台。
纽里普斯：神经信息处理系统会议。
M中号：博客平台，拥有来自不同专家和研究人员的大量人工智能和机器学习博客。
的arXiv：主要科学存储库，包含所有类型的研究论文，包括人工智能和大型语言模型。

常见问题

以下是有关大型语言模型的一些常见问题。

大型语言模型中的参数是什么？

参数是可以在模型训练期间调整的任何变量，以帮助将输入数据转换为正确的输出。人工智能拥有的参数越多，它的通用性和功能就越强大。换句话说，人工智能模型的能力是由其参数数量决定的。

语料库是什么意思？

语料库只是指训练人工智能模型时使用的所有数据。

培训和预培训是什么意思？

机器学习中的人工智能训练是指为人工智能模型提供结构化数据，并使用监督或无监督学习（无论是否有人类监督者）来教授其含义的过程。另一方面，预训练是指已经训练好的大型语言模型，准备进行微调或特定训练。

LLM 的注意力机制是什么？

注意力用于理解任何信息的上下文，例如当模型遇到可能具有多种含义的单词时。它可以通过关注上下文来推断出确切的含义。

LLM中的参数和token有什么区别？

参数是用于通过在训练期间调整来定义模型行为的数值。另一方面，标记是含义的单位，例如单词、前缀、数字、标点符号等。

结论

总结对大型语言模型及其含义的探索，您会同意它们正在改变世界并且将继续存在。

虽然您的组织的技术能力决定您是否可以参加这里，但您的企业始终可以利用生成式人工智能由大型语言模型提供。