稿子

那么我想就接着 ChatGPT 这个话题，来讲一讲现代的深度学习他的一些原理是什么，通过简单学习这些原理，我
们可以解开包括 chatgpt 在内的各种人工智能模型的神秘面纱。如果以后再出现诸如 chatgpt 这样的爆款 AI，我们
就可以举一反三。想要理解 chatGPT 的原理，我们必须要弄懂一个概念，就是神经网络。相信大家在看到 AI 相关
的内容时，一定都或多或少听过神经网络，人工神经网络之类的概念。那么神经网络到底是个什么东西呢？我们
先从人工智能的定义看起。这是一个大概的定义。
也就是说，我们希望计算机可以做我们人类做的事情，诸如推理，认知，思考之类的能力。那么我们人类是怎么
习得这些能力的呢？这里我用辨别猫狗来作为一个例子，我们是怎么区分猫是猫，狗是狗的。在我们还不认识猫
狗的时候，当我们看到一只猫或狗的时候，我们可以观察他的特征：哇，这个小动物有大大的眼睛，粉粉的鼻子，
长长的胡须，叫声是喵喵的。。。这个动物是个什么呢？这个时候，大人告诉我们：这就是猫呀！对与狗也如此。
或者，当我们认错猫和狗时，大人们也会及时地纠正我们。渐渐地，我们也就认得了猫和狗。这是我们人类地一
个学习过程。
好，现在再回想一下我们人类，是否可以用一个数学概念来表示？当我们认得猫，狗之后，每当我们看到猫时，
如果有人问这时什么动物，我们就会回答说猫。再广一点，你问一个什么问题，我就会给一个回应。你给我个工
作，我就去完成。
没错，我们人类就是一个函数的集合。我们的大脑就是一个一直在学习的函数。通过听觉视觉触觉等等来接受输
入，通过动作，说话，写字等等来输出。
神经网络就是一个全局函数逼近器。他的数学结构非常简单。每个神经元就是一个实数。这个实数是通过对链接
到他的神经元做加权求和得到的。比如这个节点就是。。当然我们为了保证非线性化在这里加了一个激活函数，
就是说如果算出来小于 0，就是 0，大于零保留。我们称这个权重和偏置为可学习得参数。神经网络具体得学习过
程是什么呢？这里我们还拿猫狗来举例。这里得输入就是我们之前提到得特征，当然在这里需要是数字化得表达，
比如说眼睛得距离，最长胡须得长度等等。之后我们初始化这里得所有得参数，就好像现在连猫和狗是什么都没
见过。然后就开始学习数据集。比如来了个什么动物，特征输入进去，最后得到这两个输出。然后我们通过一个
sigmoid 函数将它映射到 0 和 1 之间。这样我们就可以说这个是猫得概论，这个是狗得概率。这个时候妈妈告诉你
这个小动物是猫，所以说猫的概率理应是 1，狗得概率理应是 0. 所以这之间产生了一个误差。好，那么现在我们
通过一个叫反向传播得方法，调整一下之前所有得参数，使得最后得结果可以好那么一点点。就像这样通过对大
量数据集得学习，如果这个误差趋于收敛到一个比较小的值，那么这个神经网络的学习可以说是完成了。
是不是非常简单粗暴？
那么深度学习其实就是基于神经网络的机器学习方法。
好，那我们数一下这个神经网络里有多少参数。32 个，通过这么少个参数，我们就可以得到一个二分类器：一个
简单的人工智能应用。
Ok，接下来我们就可以很好地理解生成试人工智能。对于计算机视觉来说，一个最经典的模型叫做生成对抗网络。
我们可以看一个典型的应用，生成 fake 人脸。

那么神经网络这么生成图片呢？其实非常简单，图片可以很简单的表示为一个矩阵，因为 rgb 构成图片嘛. 所以说
这边神经网络的输出可以弄成 32*32*3 的一个大小就可以生成图片了。但是至于他是怎么学习的我们就不深入了。
包括有自然语言处理的生成式 AI，当然最火的就是 gpt。还有多模态模型。
下面我们主要讲一下 GPT。他的全称是生成式的预训练的。。。那是什么，就是预训练的 Transformor 里的
Decoder。我们可以把它看作一种神经网络的结构。像之前我们讲的叫全连接神经网络，当然他有不同的结构。所
以 GPT 就是由多个 decoder 神经网络组成的一个庞大的神经网络，然后用大型语料库进行训练。（拿一个文章举
个例子是怎么训练的） 13‘
所以说，你们觉得这个神经网络里有多少参数呢？大家可以猜猜看。
之前我们说 32 个参数可以实现一个简单的二分类器。那么多少个参数可以学习到一个你问什么我答什么的这样一
个模型呢。
1250 亿个参数。我们可以看一下他的文章。
他训练所用的语料库也可以说是囊括了这个世界上所有的有点价值的文本。
其实这个就是个结构非常简单的，大力出奇迹的这么个模型。
当然他的训练时间也非常之长，花费之高。
当然他也有他的局限性。第一个就是我们可以说他有了推理的能力，但是对于一些非常具体的任务，他的表现就
是不是那么好了。举个例子。如果我们问他 1+9 等于几，他不是去把他算出来，而是可能通过 1+1=2，1+2=3 之类
的式子推理出来的。因此，他在一些特定的数学问题上可能表现不好。比如我问了一个求隐函数一阶导数或者二
阶导数的问题，他有时就不会算对。第二个局限性就是和大多数深度学习模型一样，他是不可解释的，说白了就
是玄学，他就能表现得这么出色。就是人们在训练之前是不知道他会有什么样得特性的，训练完成后就发现，哇，
这么惊艳。
最后我想就国际竞争的角度聊聊。因为现代 AI 已经逐步演化为算力的竞争，所以美帝就对我国禁运英伟达的这些
GPU，包括最近甚至消费级的 RTX4090 也上了禁运名单，可见美帝对我们 AI 发展的打压。
好，接下来我们来看一下这类生成式大语言模型在使用上有什么技巧。因为这类模型训练完参数就不会变了，这
时每个输入只对应一个唯一的输出。所以我们要尽量让我们的输入变得丰富，精确，让模型可以更好地去捕捉我
们的描述。
在这举个例子，让模型变成一位老师。
在这要提醒以下每次他的输入包含这个对话之前的所有信息，所以如果像开始一个新的任务，最好新建一个对话。

稿子

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

稿子

Uploaded by

Copyright:

Available Formats

那么我想就接着 ChatGPT 这个话题，来讲一讲现代的深度学习他的一些原理是什么，通过简单学习这些原理，我

们可以解开包括 chatgpt 在内的各种人工智能模型的神秘面纱。如果以后再出现诸如 chatgpt 这样的爆款 AI，我们

就可以举一反三。想要理解 chatGPT 的原理，我们必须要弄懂一个概念，就是神经网络。相信大家在看到 AI 相关

就是说如果算出来小于 0，就是 0，大于零保留。我们称这个权重和偏置为可学习得参数。神经网络具体得学习过

sigmoid 函数将它映射到 0 和 1 之间。这样我们就可以说这个是猫得概论，这个是狗得概率。这个时候妈妈告诉你

这个小动物是猫，所以说猫的概率理应是 1，狗得概率理应是 0. 所以这之间产生了一个误差。好，那么现在我们

我们可以看一个典型的应用，生成 fake 人脸。

这边神经网络的输出可以弄成 32323 的一个大小就可以生成图片了。但是至于他是怎么学习的我们就不深入了。

包括有自然语言处理的生成式 AI，当然最火的就是 gpt。还有多模态模型。

下面我们主要讲一下 GPT。他的全称是生成式的预训练的。。。那是什么，就是预训练的 Transformor 里的

以 GPT 就是由多个 decoder 神经网络组成的一个庞大的神经网络，然后用大型语料库进行训练。（拿一个文章举

是不是那么好了。举个例子。如果我们问他 1+9 等于几，他不是去把他算出来，而是可能通过 1+1=2，1+2=3 之类

GPU，包括最近甚至消费级的 RTX4090 也上了禁运名单，可见美帝对我们 AI 发展的打压。

You might also like