大模型是指具有非常大的参数数量的人工神经网络模型。在深度学习领域,大模型通常是指具有数亿到数万亿参数的模型。这些模型通常需要在大规模数据集上进行训练,并且需要使用大量的计算资源进行优化和调整。
大模型通常用于解决复杂的自然语言处理、计算机视觉和语音识别等任务。这些任务通常需要处理大量的输入数据,并从中提取复杂的特征和模式。通过使用大模型,深度学习算法可以更好地处理这些任务,提高模型的准确性和性能。
大模型的训练和调整需要大量的计算资源,包括高性能计算机、图形处理器(Graphics Processing Unit,GPU)和云计算资源等。为了训练和优化大模型,研究人员和企业通常需要投入巨大的资源和资金。
1.2.1 大模型带来的变革
人工智能正处于从“能用”到“好用”的应用落地阶段,但仍处于落地初期,主要面临场景需求碎片化、人力研发和应用计算成本高,以及长尾场景数据较少导致模型训练精度不够、模型算法从实验室场景到真实场景差距大等行业问题。而大模型的出现在增加模型通用性、降低训练研发成本等方面降低了人工智能落地应用的门槛。
近10年来,通过“深度学习+大算力”获得训练模型,已经成为实现人工智能的主流技术途径。由于深度学习、数据和算力这3个要素都已具备,因此全球掀起了“大炼模型”的热潮,也催生了一大批人工智能公司。
然而,在深度学习技术出现的近10年里,模型基本上都是针对特定的应用场景进行训练的,即小模型属于传统的定制化、作坊式的模型开发方式。传统人工智能模型需要完成从研发到应用的全方位流程,包括需求定义、数据收集、模型算法设计、训练调优、应用部署和运营维护等阶段组成的整套流程。这意味着除了需要优秀的产品经理准确定义需求外,还需要人工智能研发人员扎实的专业知识和协同合作能力才能完成大量复杂的工作。
在传统模型中,研发阶段为了满足各种场景的需求,人工智能研发人员需要设计个性定制化的、专用的神经网络模型。模型设计过程需要研究人员对网络结构和场景任务有足够的专业知识,并承担设计网络结构的试错成本和时间成本。
一种降低专业人员设计门槛的思路是通过网络结构自动搜索技术路线,但这种方案需要很高的算力,不同的场景需要大量机器自动搜索最优模型,时间成本仍然很高。一个项目往往需要专家团队在现场待上几个月才能完成。通常,为了满足目标要求,数据收集和模型训练评估需要多次迭代,从而导致高昂的人力成本。
但是,这种通过“一模一景”的车间模式开发出来的模型,并不适用于垂直行业场景的很多任务。例如,在无人驾驶汽车的全景感知领域,往往需要多行人跟踪、场景语义分割、视野目标检测等多个模型协同工作;与目标检测和分割相同的应用,在医学影像领域训练的皮肤癌检测和人工智能模型分割不能直接应用于监控景点中的行人车辆检测和场景分割。模型无法重复使用和积累,这也导致了人工智能落地的高门槛、高成本和低效率。
大模型是从庞大、多类型的场景数据中学习,总结出不同场景、不同业务的通用能力,学习出一种特征和规律,成为具有泛化能力的模型库。在基于大模型开发应用或应对新的业务场景时可以对大模型进行适配,比如对某些下游任务进行小规模标注数据二次训练,或者无须自定义任务即可完成多个应用场景,实现通用智能能力。因此,利用大模型的通用能力,可以有效应对多样化、碎片化的人工智能应用需求,为实现大规模人工智能落地应用提供可能。
大模型正在作为一种新型的算法和工具,成为整个人工智能技术新的制高点和新型的基础设施。可以说大模型是一种变革性的技术,它可以显著地提升人工智能模型在应用中的性能表现,将人工智能的算法开发过程由传统的烟囱式开发模式转向集中式建模,解决人工智能应用落地过程中的场景碎片化、模型结构和模型训练需求零散化的痛点。
1.2.2 最强的中文大模型——清华大学ChatGLM介绍
本书在写作时,应用最为广泛和知名度最高的大模型是ChatGLM,这是由清华大学自主研发,基于GLM(General Language Model)架构的一种最新型、最为强大的深度学习大模型。
ChatGLM 使用了最先进的深度学习前沿技术,经过约1TB标识符的中英双语训练,辅以监督微调、特定任务指令(Prompt)训练、人类反馈强化学习等技术的加持,针对中文问答和对话进行了优化。而其中开源的ChatGLM-6B具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存),并且已经能生成相当符合人类偏好的回答。
ChatGLM是目前最先进的自然语言处理技术之一,具有强大的智能问答、对话生成和文本生成能力。在ChatGLM中,用户可以输入自然语言文本,ChatGLM会自动理解其含义并作出相应的回应。
ChatGLM采用了GLM系列的生成模型架构,该架构是在GLM原有基础上进行改进的,是目前最大的语言模型之一。这使得ChatGLM能够处理更复杂的自然语言问题,并生成更加流畅自然的对话。
ChatGLM能够处理多种类型的自然语言任务。它可以回答问题、生成文本、翻译语言、推理和推断等。因此,它可以应用于许多不同的领域,包括客户服务、在线教育、金融和医疗保健等。
ChatGLM的问答能力非常强大。它可以回答各种各样的问题,无论是简单的还是复杂的。它可以处理人类语言中的模糊性和歧义,甚至可以理解非正式的对话和口语。此外,ChatGLM还可以从大量的语言数据中进行学习和自我更新,从而不断提高其回答问题的准确性和可靠性。
除了问答能力外,ChatGLM还具有出色的对话生成能力。当与ChatGLM进行对话时,用户可以感受到与真人进行对话的感觉。ChatGLM可以根据上下文理解问题,并根据其对话历史和语言数据生成自然的回答。它还能够生成有趣的故事和文章,帮助用户创造更加生动的语言体验。
ChatGLM的另一个重要特点是其翻译能力。ChatGLM可以将一种语言翻译成另一种语言,从而帮助用户克服跨语言交流的障碍。由于ChatGLM能够理解自然语言的含义,因此它可以生成更加准确和自然的翻译结果。
ChatGLM还可以进行推理和推断。它可以理解和应用逻辑和常识,从而帮助用户解决一些需要推理和推断的问题。例如,当给ChatGLM提供一组信息时,它可以从中推断出一些隐藏的规律和关系。
本文节选自《从零开始大模型开发与微调:基于PyTorch与ChatGLM》。