1.1 ChatGPT
chatGPT:chat人机聊天引擎,GPT是Generative Pre-trained Transformer算法(一种自然语言算法模型)的简称。 ChatGPT是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型並通过强化学习进行训练。
ChatGPT目前仍以文字方式互动,而除了可以透过人类自然对话方式进行交互,还可以用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务,如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本,在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还具有编写和调试计算机程序的能力。 在推广的期间中,所有人可以免费注册,并在登入后后免费使用 ChatGPT 实现与 AI 机器人对话。ChatGPT于2022年11月发布后,OpenAI估值已涨至290亿美元。上线两个月后,用户数量达到1亿(增速最快的应用)。
ChatGPT搅动中国金融市场:股市形成ChatGPT概念,相关个股暴涨30%-40%.
1.2 训练
ChatGPT 使用监督学习和强化学习在 GPT-3.5 之上进行了微调。
ChatGPT使用基于人类反馈的强化学习进行训练,这种方法通过人类干预以增强机器学习的效果,从而获得更为逼真的结果。其使用基于GPT-3.5架构的语言模型。在训练过程中,人类训练师扮演着用户与人工智能助手的角色。模型在Microsoft Azure的超级计算机上训练,并通过近端策略优化算法(proximal policy optimization)进行微调。这种策略优化算法比信任域策略优化(tru