现在有这么多选择,哪个 LLM 提供最好的回应?
大型语言模型 (LLM) 具有各种形状和大小,将以您认为合适的任何方式为您提供帮助。但哪个最好?我们对来自 Alphabet、OpenAI 和 Meta 的主要 AI 进行了测试。
关于 AI 聊天机器人你需要知道的
几十年来,通用人工智能一直是计算机科学家的目标,人工智能作为科幻作家和电影制作人的支柱的时间更长。
AGI 展现出类似于人类认知能力的智能,而图灵测试——测试机器表现出与人类无法区分的智能行为的能力——自首次提出以来的七十年里几乎没有受到挑战。
最近超大规模计算、大量资金以及开放互联网上免费提供的惊人信息量的融合使科技巨头能够训练能够预测下一个单词部分(或令牌)的模型。
在撰写本文时,Google 的 Bard和OpenAI 的 ChatGPT都可供您通过其 Web 界面使用和测试。
Meta 的语言模型 LLaMa 在 Web 上不可用,但您可以轻松地在您自己的硬件上下载和运行 LLaMa,然后通过命令行使用它,或者在您自己的机器上运行 Dalai——具有用户友好界面的几个应用程序之一.
出于测试目的,我们将运行斯坦福大学的 Alpaca 7B 模型(LLaMa 的改编版本)并将其与 Bard 和 ChatGPT 进行对比。
以下比较和测试并不意味着详尽无遗,而是为您提供关键点和功能的指示。
哪个是最容易使用的大型语言模型?
Bard 和 ChatGPT 都需要一个帐户才能使用该服务。Google 和 OpenAI 帐户都可以轻松免费创建,您可以立即开始提问。
但是,要在本地运行 LLaMa,您需要具备一些专业知识或能够按照教程进行操作。您还需要大量的存储空间。
哪个是最私密的大型语言模型?
Bard 和 ChatGPT 都有广泛的隐私政策,谷歌在其文件中反复强调你“不应在你的 Bard 对话中包含可用于识别你或其他人身份的信息”。
默认情况下,Google 会根据您的 IP 地址、您的反馈和使用信息收集您的对话和您的大致位置。此信息最多会在您的 Google 帐户中存储 18 个月。尽管您可以暂停保存您的 Bard 活动,但您应该意识到“为了帮助提高质量和改进我们的产品,人工审阅者会阅读、注释和处理您的 Bard 对话。”
使用 Bard 还需遵守标准的Google 隐私政策。
OpenAI 的隐私政策大体相似,并收集 IP 地址和使用数据。与谷歌的限时保留相比,OpenAI 将“仅在我们为您提供服务所需的时间内或出于其他合法商业目的(例如解决争议、安全和保障原因,或遵守履行我们的法律义务。”
相比之下,您自己机器上的本地模型不需要帐户或与任何人共享用户数据。
哪个大型语言模型LLM 拥有最好的常识?
为了测试哪个大型语言模型LLM 拥有最好的常识,我们问了三个问题。
第一个问题,“哪个国旗有五个面?” 只有 Bard 才正确回答,他将尼泊尔国旗确定为有五个面。
ChatGPT 自信地宣称,“没有五边形的国旗。国旗通常是长方形或正方形,具有独特的颜色、图案和符号”。
我们当地的模特很接近,说“印度国旗有五个面,设计于 1916 年,代表印度的独立运动。” 虽然这面旗帜确实存在并且有五个面,但它是印度地方自治运动的旗帜——而不是国旗。
我们的模型都无法回答豌豆形物体的正确术语是“豌豆形”,ChatGPT 甚至暗示豌豆具有“完美圆形和对称的三维几何形状”。
所有三个聊天机器人都正确地将 Franco Malerba 识别为意大利宇航员和欧洲议会议员,Bard 给出的答案与 Malerba 的维基百科条目的一段措辞相同。
哪个 大型语言模型LLM 适合技术指导?
当您遇到技术问题时,您可能会想求助于聊天机器人。虽然技术在不断进步,但有些事情仍然是一样的。BS 1363 电插头自 1947 年以来一直在英国、爱尔兰和许多其他国家/地区使用。我们询问语言模型如何正确连接它。
连接到插头的电缆有火线(棕色)、地线(黄色/绿色)和零线(蓝色)。这些必须连接到插头外壳内的正确端子。
我们的 Dalai 实施正确地将插头识别为“英式”,然后偏离路线,而是为旧的圆针 BS 546 插头和旧的接线颜色提供说明。
ChatGPT 稍微有用一些。它正确地标记了接线颜色并提供了材料清单和一组八个说明。ChatGPT 还建议将棕色线插入标有“L”的端子,将蓝色线插入“N”端子,将黄色线插入“E”。如果标有 BS1363 端子,这将是正确的,但事实并非如此。
Bard 确定了电线的正确颜色,并指示我们将它们连接到火线、零线和接地端子。它没有给出如何识别这些的说明。
在我们看来。没有一个聊天机器人给出的说明足以帮助某人正确连接 BS 1363 电源插头。一个简洁而正确的回答是,“左边是蓝色,右边是棕色。”
哪个大型语言模型LLM更适合写代码?
Python 是一种非常有用的编程语言,可以在大多数现代平台上运行。我们指导我们的模型使用 Python 并“构建一个基本的计算器程序,可以执行加法、减法、乘法和除法等算术运算。它应该接受用户输入并显示结果。” 这是初学者最好的编程项目之一。
虽然 Bard 和 ChatGPT 都立即返回了可用且经过全面注释的代码,我们能够对其进行测试和验证,但我们本地模型中的任何代码都无法运行。
哪个大型语言模型LLM 讲的笑话最好笑?
幽默是做人的基本要素之一,当然也是区分人和机器的最佳方式之一。对于我们的每个模型,我们都给出了简单的提示:“创造一个原创且有趣的笑话。”
对各地的喜剧演员和整个人类来说幸运的是,没有一个模型能够产生原创笑话。
巴德推出经典,“稻草人为什么获奖?他在他的领域很出色”。
我们的本地实施和 ChatGPT 都提出了值得抱怨的问题,“为什么科学家不相信原子?因为它们构成了一切!”
一个衍生但原始的笑话是,“大型语言模型如何像原子?它们都构成了东西!”
伙计们,你们先在这里阅读。
没有完美的聊天机器人
我们发现,尽管这三种大型语言模型各有优缺点,但它们都不能用专业知识代替人类的真正专业知识。
虽然 Bard 和 ChatGPT 都能更好地回答我们的编码问题并且非常易于使用,但在本地运行大型语言模型意味着您无需担心隐私或审查制度。
如果您想创造出色的 AI 艺术而不用担心有人偷看,那么在您的本地机器上运行艺术 AI 模型也很容易。
原创文章,作者:网贝WebBay,如若转载,请注明出处:https://www.webbay.cn/bard-vs-chatgpt-vs-offline-alpaca-which-is-the-best-llm