人定勝天
迈向极低位大语言模型——1bit量化 迈向极低位大语言模型——1bit量化
直接越过2bit这一量化级别,对LLM大语言模型进行1bit量化尝试!
2024-03-12
适用于大规模Transformers的8bit矩阵乘法——LLM.int8() 适用于大规模Transformers的8bit矩阵乘法——LLM.int8()
摘要 作者设计了一种方法——通过在Transformers的前馈和注意力投影层中实现8位整数(Int8)矩阵乘法来减少运行大型语言模型(LLM)所需的GPU内存。 We develop a procedure for Int8 matri
2024-02-16
LSQ的Pytorch代码实现 LSQ的Pytorch代码实现
加载配置文件 script_dir = Path.cwd() # 获取当前工作目录的路径:d:/..../lsq-net-master args = util.get_config(default_file = script_dir / '
2024-01-04
PyTorch实战:残差网络(ResNet) PyTorch实战:残差网络(ResNet)
残差网络(ResNet) 让我们先思考一个问题:对神经网络模型添加新的层,充分训练后的模型是否只可能更有效地降低训练误差? 理论上,原模型解的空间只是新模型解的空间的子空间。 也就是说,如果我们能将新添加的层训练成恒等映射 $f(x)=x$
2023-12-15
PyTorch实战:各种模型的简洁实现 PyTorch实战:各种模型的简洁实现
线性回归的初始实现 %matplotlib inline import matplotlib_inline import torch from IPython import display from matplotlib import py
2023-12-08
《深度学习图解》搭建深度学习框架 《深度学习图解》搭建深度学习框架
深度学习框架正是为了缓解这种代码复杂性而诞生。尤其是,如果你想在CPU上训练神经网络(这种硬件会带来10-100倍加速),深度学习框架可以显著减少代码复杂度(减少错误并加速开发),同时提高运行性能。 框架如何简化你的代码呢? 它让你不必写你
2023-12-05
《深度学习图解》关于边与角的神经学习 《深度学习图解》关于边与角的神经学习
在多个位置复用权重 如果需要在多个位置检测相同的特征,请使用相同的权重。 过拟合的产生通常是由于当前网络参数的数量多于学习特定数据集所需要的参数数量——这种情况下,网络有足够多的参数,以至于它可以记住训练训练集中的每一个细节,而不是对高层次
2023-12-04
《深度学习图解》激活函数 《深度学习图解》激活函数
什么是激活函数 它是在预测时应用于一层神经元的函数。 因为我们一直在使用一个名为relu的激活函数(如下图所示),relu函数具有将所有负数变为0的效果: 简单来说:激活函数指的是任何可以接受一个数字并返回另一个数字的函数。 要使一个
2023-12-02
《深度学习图解》正则化和批处理 《深度学习图解》正则化和批处理
使用在MNIST上的三层网络 import sys, numpy as np from keras.datasets import mnist (x_train, y_train), (x_test, y_test) = mnist.lo
2023-11-30
《深度学习图解》反向传播 《深度学习图解》反向传播
反向传播 交通信号灯问题 神经网络如何学习整个数据集? 可以通过解读交通信号灯的含义来知道什么时候过马路是安全的。但是我们只能观察每种灯光组合和周围的人通行或止步的相关性来进行判断: 准备数据 如何训练一个监督神经网络? 可以交给它两个数
2023-11-28
《深度学习图解》梯度下降 《深度学习图解》梯度下降
比较 本章中,我们只介绍一种简单的测量误差的方法:均方误差。 “比较”这一步会让你知道自己的模型错了多少,但这还不足以让它真正学会,因为只是“比较”它不会告诉你为什么错了,在什么方向产生了失误,应该做什么来纠正错误。它只能给出表示“严重失误
2023-11-27
《深度学习图解》基本概念与前向传播 《深度学习图解》基本概念与前向传播
基本概念 什么是深度学习? 深度学习是机器学习方法的一个子集。深度学习是机器学习的一个子集,机器学习是一个专门研究和开发能够学习的机器的领域(有时候最终目标是获得通用人工智能)。 深度学习在业内,深度学习被用于解决多个领域的实际任务,如计算
2023-11-26
1 / 2