深度学习，你在干嘛？

计算机与安全理论

发布日期: 2023-04-16

更新日期: 2024-07-23

文章字数: 508

阅读时长: 1 分

FROM. 李宏毅老师的网上教程。

一、人生意义：找函数罢了

深度学习找一个函数$y=f(x)$。其中$x$和$y$可以是数值、序列、自然语言、图片视频音频等等。
深度学习用来回归（给一个$x$得一个$y$）、分类、创作……

二、干活的准则：损失函数

MAE：$e=|y-\widehat{y}|$；MSE：$e=(y-\widehat{y})^2$。
损失Loss为$L=\frac{1}{n}\sum_{n}e_n$。

三、谁来指引我干活：梯度下降

函数在某点的梯度是一个向量，它的方向与取得最大方向导数的方向一致，它的模为方向导数的最大值。
所以沿梯度方向，损失函数Loss咵咵咵降得最快，能尽早降到导数值是0的点，也就找到了损失函数的极小值点。
每次算完梯度$\nabla$后，$w(n+1)=w(n)-\eta\frac{dLoss}{dw(n)}$，超参$\eta$是学习率。
$\theta(n+1)=argmin_{\theta}(L)$。

四、计算机怎么算梯度：反向传播

网络从前往后搭，梯度从后往前算。
（具体而言就是算链式法则求导，理解起来不难，但不想写了，写到现在都0:25了，开摆！）

五、刻画函数：激活函数

Sigmoid：$y=c\frac{1}{1+e^{-(b+wx)}}$，用一些Sigmoid的线性组合可以组成各式各样的函数；
ReLU：$y=c max(0,b+wx)$，用一些ReLU的线性组合可以组成各式各样的函数。

六、神经元在工作

$y=b+\sum_{i}c_i sigmoid(b_i+\sum_{j}w_{ij}x_j)$，
即，$y=b_{0}+C^T\sigma(b+wx)$。

七、内存装不下

batch：每次读入一个batch，然后根据这一个batch的数据往梯度下降的方向来调整网络中的各种参数，使得损失函数的值尽可能小。
太小的batch会导致计算时间过长，太大的batch会导致准确率不高。
epoch：跑完所有batch是一轮epoch。

八、搭建深度学习神经网络

堆更多的隐藏层，小心过拟合哈。

计算机与安全理论

评论

上一篇

高考导数题合辑

高考导数题合辑

【整活篇】北京卷高考导数大题汇编合辑

2023-08-04 Cardioid

高中数学题库

下一篇

Ubuntu安装BCC指南

Ubuntu安装BCC指南

基于eBPF的BCC安装教程

2023-02-23 Cardioid

计算机与安全技术