分类目录归档：深度学习

动手学习深度学习系列笔记——实战Kaggle竞赛：CIFAR-10

370 views

CIFAR-10

1.目录

CIFAR-10

首先，导入竞赛所需要的包和模块：

import collections
import math
import os
import shutil
import pandas as pd
import torch
import torchvision
from torch import nn
from d2l import torch as d2l

2.1 下载数据集：

#@save
d

动手学习深度学习系列笔记——微调

396 views

微调

微调
- 背景
- 步骤
- 总结

背景

很多时候，例如我们想对家具进行分类，但是往往在努力收集数据得到的数据集也比较小假如我们想识别图片中不同类型的椅子，然后向用户推荐购买链接。一种可能的方法是首先识别100把普通椅子，为每把椅子拍摄1000张不同角度的图像，然后在收集的图像数据集上训练一个分类模型。尽管这个椅子数据集可能大于Fashion-MNIST数据集，但实例数量仍然不到ImageNet中的十分之一。适合ImageNet的复杂模型可能会在这个椅子数据集上过拟合。此外，由于训练样本数量有限，训练模型的准确性可能无法满足实际要求。为了避免这种情况，我们可以有两种方法：
- 显然的想

动手学习深度学习系列笔记——数据增广

449 views

36 数据增广

目录

1. 使用增强数据训练
2. 增强手段
3. 总结
4. QA

数据增广不仅用于处理图片，也可用于文本和语音，这里只涉及到图片。

1. 使用增强数据训练

采集数据得到的训练场景与实际部署场景不同是常见的问题，这种变化有时会显著影响模型表现。在训练集中尽可能模拟部署时可能遇到的场景对模型的泛化性十分重要。

数据增强是指在一个已有数据集上操作使其有更多的多样性。对语音来说可以加入不同的背景噪音，对图片而言可以改变其颜色，形状等。

一般来说不会先将数据集做增广后存下来再用于训练；而是直接在线生成，从原始数据中读图片

动手学习深度学习系列笔记——分布式训练

490 views

35-分布式训练

本节目录

1.分布式计算
2. GPU机器架构
- 2.1 样例：计算一个小批量
- 2.2 总结
3. 关于性能
4. 实践时的建议
5. 总结

1.分布式计算

本质上来说和之前讲的单机多卡并行没有区别。二者之间的区别是分布式计算是通过网络把数据从一台机器搬到另一台机器

2. GPU机器架构

总的来说，gpu到gpu的通讯是很快的，gpu到cpu慢一点。机器到机器更慢。因而总体性能的关键就是尽量在本地做通讯而少在机器之间做通讯

2.1 样例：计算一个小批量

每个worker从参数服务器那里获取模

动手学习深度学习系列笔记——单机多卡并行

232 views

单机多卡并行

一台机器可以安装多个GPU（一般为1-16个），在训练和预测时可以将一个小批量计算切分到多个GPU上来达到加速目的，常用的切分方案有数据并行，模型并行，通道并行。

数据并行

将小批量的数据分为n块，每个GPU拿到完整的参数，对这一块的数据进行前向传播与反向传播，计算梯度。

数据并行通常性能比模型并行更好，因为对数据进行划分使得各个GPU的计算内容更加均匀。

数据并行的大致流程

主要分为五部

1：每个GPU读取一个数据块（灰色部分）
2：每个GPU读取当前模型的参数（橙色部分）
3：每个GPU计算自己拿到数据块的梯度（绿色部分）
4：GPU将计算得到的梯度传给内存（CPU）（绿

动手学习深度学习系列笔记——深度学习硬件

330 views

32-深度学习硬件

目录

32-深度学习硬件
本节我们介绍除了 GPU CPU 之外更多的芯片
引入：手机内部的芯片有很多——GPU CPU ISP WIFI……

1.DSP:数字信号处理

为数字信号处理算法设计：点积、卷积、FFT
低功耗，高性能
- 比移动GPU快5倍，功耗更低
VLIW：very long instruction word
- 频率低，核少，但是一条指令可以进行上百次的累加，便于重复
缺点：编程和调试困难，编译器良莠不齐（做的人少，工具不是很好用）

2.可编程阵列（F

动手学习深度学习系列笔记——CPU和GPU

330 views

CPU和GPU

本节目录：

CPU和GPU

1.1 提升CPU利用率一：

在计算a+b之前，需要准备数据
主内存->L3->L2->L1->寄存器
- L1访问延时：0.5ms
- L2访问延时：7ns（14XL1）
- 主内存访问延

动手学习深度学习系列笔记——残差网络resnet

408 views

目录

- 残差网络（ResNet）

残差网络（ResNet）

随着我们设计越来越深的网络，深刻理解“新添加的层如何提升神经网络的性能”变得至关重要。更重要的是设计网络的能力，在ResNet这种网络中，添加层会使网络更具表现力

函数类

假设有一类特定的神经网络架构F，它包括学习速率和其他超参数设置。对于所有f∈F，存在一些参数集（例如权重和偏置），这些参数可以通过在合适的数据集上进行训练而获得。现在假设f∗是我们真正想要找到的函数，如果是f∗∈F，那我们可以轻而易举的训练得到它，但通常我们不会那么幸运。相反，我们将尝试

动手学习深度学习系列笔记——批量归一化

303 views

批量归一化

训练深层网络时的问题
批量归一化
形式化表达
批量归一化层
吴恩达老师深度学习课程中的批量归一化

批量归一化

深层神经网络的训练，尤其是使网络在较短时间内收敛是十分困难的，批量归一化[batch normalization]是一种流行且有效的技术，能加速深层网络的收敛速度，目前仍被广泛使用。

训练深层网络时的问题

深度神经网络在训练时会遇到一些问题：

收敛速度慢：
- 由于训练时先正向传播后反向传播，且每层的梯度一般较小，若网络较深，则反向传播时会出现类似于梯度消失的现象，导致距离数据更近的层梯度较小，收敛慢，而距离输出更

动手学习深度学习系列笔记——GooLeNet

302 views

GooLeNet

目录

GooLeNet
目录
含并行连结的网络
Inception块
GooLeNet模型
总结

含并行连结的网络

GoogLeNet吸收了NiN中串联网络的思想，并在此基础上做了改进。我们往往不确定到底选取什么样的层效果更好，到底是3X3卷积层还是5X5的卷积层，诸如此类的问题是GooLeNet选择了另一种思路“小学生才做选择，我全都要”，这也使得GooLeNet成为了第一个模型中超过1000个层的模型。

Inception块

在GoogLeNet中，基本的卷积块被称为Inception块（Inception block）

Inception块由四条并行路径