电商| 物流| 科技| 创业| 经商| 运营| 科普| 财经| 文娱| AI| 物联| 品牌| 会议| 政策| 时尚| 健康| 家居| 金融| 农业| 汽车| 房产| 百科| 生活| 游戏| 管理| 快讯
 
首页 » 资讯 » 科技 » 如何从NumPy直接创建RNN?

如何从NumPy直接创建RNN?

放大字体  缩小字体 时间:2020-10-24 12:00    热度:182
使用成熟的Tensorflow、PyTorch框架去实现递归神经网络(RNN),已经极大降低了技术的使用门槛。但是,对于初学者,这还是远远不。。。

使用成熟的Tensorflow、PyTorch框架去实现递归神经网络(RNN),已经极大降低了技术的使用门槛。

但是,对于初学者,这还是远远不够的。知其然,更需知其所以然。

要避免低级错误,打好理论基础,然后使用RNN去解决更多实际的问题的话。

那么,有一个有趣的问题可以思考一下:

不使用Tensorflow等框架,只有Numpy的话,你该如何构建RNN?

没有头绪也不用担心。这里便有一项教程:使用Numpy从头构建用于NLP领域的RNN。

可以带你行进一遍RNN的构建流程。

初始化参数

与传统的神经网络不同,RNN具有3个权重参数,即:

输入权重(input weights),内部状态权重(internal state weights)和输出权重(output weights)

首先用随机数值初始化上述三个参数。

之后,将词嵌入维度(word_embedding dimension)和输出维度(output dimension)分别初始化为100和80。

输出维度是词汇表中存在的唯一词向量的总数。

hidden_dim = 100         output_dim = 80 # this is the total unique words in the vocabulary  input_weights = np.random.uniform(0, 1, (hidden_dim,hidden_dim))  internal_state_weights = np.random.uniform(0,1, (hidden_dim, hidden_dim))  output_weights = np.random.uniform(0,1, (output_dim,hidden_dim)) 

变量prev_memory指的是internal_state(这些是先前序列的内存)。

其他参数也给予了初始化数值。

input_weight梯度,internal_state_weight梯度和output_weight梯度分别命名为dU,dW和dV。

变量bptt_truncate表示网络在反向传播时必须回溯的时间戳数,这样做是为了克服梯度消失的问题。

prev_memory =  np.zeros((hidden_dim,1))  learning_rate = 0.0001      nepoch = 25                 T = 4   # length of sequence  bptt_truncate = 2   dU = np.zeros(input_weights.shape)  dV = np.zeros(output_weights.shape)  dW = np.zeros(internal_state_weights.shape) 

前向传播

输出和输入向量

例如有一句话为:I like to play.,则假设在词汇表中:

I被映射到索引2,like对应索引45,to对应索引10、**对应索引64而标点符号.** 对应索引1。

为了展示从输入到输出的情况,我们先随机初始化每个单词的词嵌入。

input_string = [2,45,10,65]  embeddings = [] # this is the sentence embedding list that contains the embeddings for each word  for i in range(0,T):      x = np.random.randn(hidden_dim,1)      embeddings.append(x) 

输入已经完成,接下来需要考虑输出。

在本项目中,RNN单元接受输入后,输出的是下一个最可能出现的单词。

用于训练RNN,在给定第t+1个词作为输出的时候将第t个词作为输入,例如:在RNN单元输出字为“like”的时候给定的输入字为“I”.

现在输入是嵌入向量的形式,而计算损失函数(Loss)所需的输出格式是独热编码(One-Hot)矢量。

这是对输入字符串中除第一个单词以外的每个单词进行的操作,因为该神经网络学习只学习的是一个示例句子,而初始输入是该句子的第一个单词。

RNN的黑箱计算

现在有了权重参数,也知道输入和输出,于是可以开始前向传播的计算。

训练神经网络需要以下计算:

其中:

U代表输入权重、W代表内部状态权重,V代表输出权重。

输入权重乘以input(x),内部状态权重乘以前一层的激活(prev_memory)。

层与层之间使用的激活函数用的是tanh。

def tanh_activation(Z):       return (np.exp(Z)-np.exp(-Z))/(np.exp(Z)-np.exp(-Z)) # this is the tanh function can also be written as np.tanh(Z)  def softmax_activation(Z):          e_x = np.exp(Z - np.max(Z))  # this is the code for softmax function           return e_x / e_x.sum(axis=0)    def Rnn_forward(input_embedding, input_weights, internal_state_weights, prev_memory,output_weights):      forward_params = []      W_frd = np.dot(internal_state_weights,prev_memory)      U_frd = np.dot(input_weights,input_embedding)      sum_s = W_frd + U_frd      ht_activated = tanh_activation(sum_s)     yt_unactivated = np.asarray(np.dot(output_weights,  tanh_activation(sum_s)))      yt_activated = softmax_activation(yt_unactivated)      forward_params.append([W_frd,U_frd,sum_s,yt_unactivated])      return ht_activated,yt_activated,forward_params 

计算损失函数

之后损失函数使用的是交叉熵损失函数,由下式给出:

def calculate_loss(output_mapper,predicted_output):      total_loss = 0      layer_loss = []      for y,y_ in zip(output_mapper.values(),predicted_output): # this for loop calculation is for the first equation, where loss for each time-stamp is calculated          loss = -sum(y[i]*np.log2(y_[i]) for i in range(len(y)))          lossloss = loss/ float(len(y))          layer_loss.append(loss)       for i in range(len(layer_loss)): #this the total loss calculated for all the time-stamps considered together.           total_losstotal_loss  = total_loss + layer_loss[i]      return total_loss/float(len(predicted_output)) 

最重要的是,我们需要在上面的代码中看到第5行。

正如所知,ground_truth output(y)的形式是[0,0,….,1,…0]和predicted_output(y^hat)是[0.34,0.03,……,0.45]的形式,我们需要损失是单个值来从它推断总损失。

为此,使用sum函数来获得特定时间戳下y和y^hat向量中每个值的误差之和。

total_loss是整个模型(包括所有时间戳)的损失。

反向传播

反向传播的链式法则:

如上图所示:

Cost代表误差,它表示的是y^hat到y的差值。

由于Cost是的函数输出,因此激活a所反映的变化由dCost/da表示。

实际上,这意味着从激活节点的角度来看这个变化(误差)值。

类似地,a相对于z的变化表示为da/dz,z相对于w的变化表示为dw/dz。

最终,我们关心的是权重的变化(误差)有多大。

而由于权重与Cost之间没有直接关系,因此期间各个相对的变化值可以直接相乘(如上式所示)。

RNN的反向传播

由于RNN中存在三个权重,因此我们需要三个梯度。input_weights(dLoss / dU),internal_state_weights(dLoss / dW)和output_weights(dLoss / dV)的梯度。

这三个梯度的链可以表示如下:

所述dLoss/dy_unactivated代码如下:

def delta_cross_entropy(predicted_output,original_t_output):      li = []      grad = predicted_output      for i,l in enumerate(original_t_output): #check if the value in the index is 1 or not, if yes then take the same index value from the predicted_ouput list and subtract 1 from it.          if l == 1:      #grad = np.asarray(np.concatenate( grad, axis=0 ))              grad[i] -= 1      return grad 

计算两个梯度函数,一个是multiplication_backward,另一个是additional_backward。

在multiplication_backward的情况下,返回2个参数,一个是相对于权重的梯度(dLoss / dV),另一个是链梯度(chain gradient),该链梯度将成为计算另一个权重梯度的链的一部分。

在addition_backward的情况下,在计算导数时,加法函数(ht_unactivated)中各个组件的导数为1。例如:dh_unactivated / dU_frd=1(h_unactivated = U_frd + W_frd),且dU_frd / dU_frd的导数为1。

所以,计算梯度只需要这两个函数。multiplication_backward函数用于包含向量点积的方程,addition_backward用于包含两个向量相加的方程。

def multiplication_backward(weights,x,dz):      gradient_weight = np.array(np.dot(np.asmatrix(dz),np.transpose(np.asmatrix(x))))      chain_gradient = np.dot(np.transpose(weights),dz)      return gradient_weight,chain_gradient  def add_backward(x1,x2,dz):    # this function is for calculating the derivative of ht_unactivated function      dx1 = dz * np.ones_like(x1)      dx2 = dz * np.ones_like(x2)      return dx1,dx2  def tanh_activation_backward(x,top_diff):      output = np.tanh(x)      return (1.0 - np.square(output)) * top_diff 

至此,已经分析并理解了RNN的反向传播,目前它是在单个时间戳上实现它的功能,之后可以将其用于计算所有时间戳上的梯度。

如下面的代码所示,forward_params_t是一个列表,其中包含特定时间步长的网络的前向参数。

变量ds是至关重要的部分,因为此行代码考虑了先前时间戳的隐藏状态,这将有助于提取在反向传播时所需的信息。

def single_backprop(X,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s):# inlide all the param values for all the data thats there     W_frd = forward_params_t[0][0]       U_frd = forward_params_t[0][1]      ht_unactivated = forward_params_t[0][2]      yt_unactivated = forward_params_t[0][3]      dV,dsv = multiplication_backward(output_weights,ht_activated,dLo)      ds = np.add(dsv,diff_s) # used for truncation of memory       dadd = tanh_activation_backward(ht_unactivated, ds)      dmulw,dmulu = add_backward(U_frd,W_frd,dadd)      dW, dprev_s = multiplication_backward(internal_state_weights, prev_s ,dmulw)      dU, dx = multiplication_backward(input_weights, X, dmulu) #input weights      return (dprev_s, dU, dW, dV) 

对于RNN,由于存在梯度消失的问题,所以采用的是截断的反向传播,而不是使用原始的。

在此技术中,当前单元将只查看k个时间戳,而不是只看一次时间戳,其中k表示要回溯的先前单元的数量。

def rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights):      T = 4      # we start the backprop from the first timestamp.       for t in range(4):          prev_s_t = np.zeros((hidden_dim,1)) #required as the first timestamp does not have a previous memory,           diff_s = np.zeros((hidden_dim,1)) # this is used for the truncating purpose of restoring a previous information from the before level          predictions = memory["yt" + str(t)]          ht_activated = memory["ht" + str(t)]          forward_params_t = memory["params"+ str(t)]           dLo = delta_cross_entropy(predictions,output_t[t]) #the loss derivative for that particular timestamp          dprev_s, dU_t, dW_t, dV_t = single_backprop(embeddings[t],input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,diff_s,prev_s_t)          prev_s_t = ht_activated          prev = t-1          dLo = np.zeros((output_dim,1)) #here the loss deriative is turned to 0 as we do not require it for the turncated information.          # the following code is for the trunated bptt and its for each time-stamp.           for i in range(t-1,max(-1,t-bptt_truncate),-1):              forward_params_t = memory["params" + str(i)]              ht_activated = memory["ht" + str(i)]              prev_s_i = np.zeros((hidden_dim,1)) if i == 0 else memory["ht" + str(prev)]              dprev_s, dU_i, dW_i, dV_i = single_backprop(embeddings[t] ,input_weights,internal_state_weights,output_weights,ht_activated,dLo,forward_params_t,dprev_s,prev_s_i)             dU_t += dU_i #adding the previous gradients on lookback to the current time sequence               dW_t += dW_i          dV += dV_t           dU += dU_t          dW += dW_t      return (dU, dW, dV) 

权重更新

一旦使用反向传播计算了梯度,则更新权重势在必行,而这些是通过批量梯度下降法

def gd_step(learning_rate, dU,dW,dV, input_weights, internal_state_weights,output_weights ):      input_weights -= learning_rate* dU      internal_state_weights -= learning_rate * dW      output_weights -=learning_rate * dV      return input_weights,internal_state_weights,output_weights 

训练序列

完成了上述所有步骤,就可以开始训练神经网络了。

用于训练的学习率是静态的,还可以使用逐步衰减等更改学习率的动态方法。

def train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.001, nepoch=100, evaluate_loss_after=2):      losses = []      for epoch in range(nepoch):          if(epoch % evaluate_loss_after == 0):                  output_string,memory = full_forward_prop(T, embeddings ,input_weights,internal_state_weights,prev_memory,output_weights)                  loss = calculate_loss(output_mapper, output_string)                  losses.append(loss)                  time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')                  print("%s: Loss after  epoch=%d: %f" % (time,epoch, loss))                  sys.stdout.flush()          dU,dW,dV = rnn_backprop(embeddings,memory,output_t,dU,dV,dW,bptt_truncate,input_weights,output_weights,internal_state_weights)          input_weights,internal_state_weights,output_weights= sgd_step(learning_rate,dU,dW,dV,input_weights,internal_state_weights,output_weights)      return losses   losses = train(T, embeddings,output_t,output_mapper,input_weights,internal_state_weights,output_weights,dU,dW,dV,prev_memory,learning_rate=0.0001, nepoch=10, evaluate_loss_after=2) 

恭喜你!你现在已经实现从头建立递归神经网络了!

那么,是时候了,继续向LSTM和GRU等的高级架构前进吧。

 

关于如何从NumPy直接创建RNN?的要点介绍,希望对大家了解如何从NumPy直接创建RNN?有所帮助,如有侵权,联系我们37442552@qq.com。
 
你可能感兴趣:
 
芬兰政府指责微软对诺基亚始乱终弃 承诺一个都

2016-05-28

本周早些时候,微软宣称它将会裁减1850个工作岗位,其中有1350个工作位于芬兰。人们认为微软裁员之举预示着该公司新手机开发工作的终结。据外电报道,芬兰政…

三星最新发布的C5酷似iPhone 6 售价只有后者一半
三星最新发布的C5酷似iPhone 6 售价只有后者一

2016-05-28 三星 C5

三星最新发布的C5酷似iPhone 6 售价只有后者一半;三星周四在中国市场发布的最新款智能手机C5酷似苹果iPhone 6和6S。

苹果下架腾讯全系产品只是虚惊一场 淘宝、京东

2016-05-29 苹果 腾讯 APP

苹果下架腾讯全系产品只是虚惊一场 淘宝、京东等APP也未能幸免;苹果下架腾讯全系产品,搜索出现大面积瘫痪,淘宝、京东等APP也未能幸免。据了解,腾讯也曾因…

华为为何要在此时向三星发起专利战?背后的原因究竟是什么?
华为为何要在此时向三星发起专利战?背后的原因

2016-05-29 华为 三星 专利

华为为何要在此时向三星发起专利战?背后的原因究竟是什么?作为中国企业的华为,其在专利,尤其是与通信相关的专利的申请和积累在全球均名列前茅。而华为之…

2016中国互联网大会时间地点主题 互联网大会有何亮点?
2016中国互联网大会时间地点主题 互联网大会有

2016-06-02 2016 中国 互联网 大会

 由中国互联网协会主办的2016(第十五届)中国互联网大会将于6月21-23日在北京国际会议中心举行。本届大会主题为“繁荣网络经济 建设网络强国”。

Facebook周四下架了突发新闻通知应用Notify
Facebook周四下架了突发新闻通知应用Notify

2016-06-04 Facebook Notify

Facebook周四下架了突发新闻通知应用Notify;Facebook发言人在发给科技博客The Verge的声明中表示,Notify采用的技术将集成到Messenger中,所以内容发布商可…

阿里回应被SEC问询 马云:那并不代表公司有问题

2016-06-04

近期,阿里巴巴接受美国证券交易委员会问询,16年来日本软银集团首度出售手中阿里股份,阿里股价震荡,相关消息持续引发关注。2

iphone7上市时间确定 国行或5288元起售

2016-06-04

根据国外网站PC-Tablet的报导称,苹果仍将下一代iPhone的发布时刻定在今年9月份,至于详细日期则为美国当地时刻9月9日或9月16日

印度最大手机厂商明年来华抢市场 有戏吗?

2016-06-04

Micromax联合创始人维卡斯贾因(VikasJain)当天在香港举办的一场科技大会上表明,公司的目标是在2020年前变成按销量核算的全球第

索尼Xperia X系列终于要来了6月8日携手周杰伦发

2016-06-04

索尼的手机一直以来都是以拍照以及颜值闻名的,在今年的MWC2016大会上,索尼曾经发布了一款Xperia X系列产品中的Xperia XPerform

 
热点图文
三星最新发布的C5酷似iPhone 6 售价只有后者一半

三星最新发布的C5酷似iPhone 6 售价只有后者一半

华为为何要在此时向三星发起专利战?背后的原因究竟是什么?

华为为何要在此时向三星发起专利战?背后的原因究竟是什么?

2016中国互联网大会时间地点主题 互联网大会有何亮点?

2016中国互联网大会时间地点主题 互联网大会有何亮点?

Facebook周四下架了突发新闻通知应用Notify

Facebook周四下架了突发新闻通知应用Notify

戴尔确认出售软件业务:4年净赔16亿美元

戴尔确认出售软件业务:4年净赔16亿美元

沉迷于成人VR的日本年轻人  年轻男女都拒绝恋爱(图)

沉迷于成人VR的日本年轻人 年轻男女都拒绝恋爱(图)

今日头条母公司字节跳动科创板上市成功几率多大?

今日头条母公司字节跳动科创板上市成功几率多大?

余承东回应:华为开发自有系统 以防美国科技巨头不授权现有系统

余承东回应:华为开发自有系统 以防美国科技巨头不授权现有系统

 
经商宝 — 经商创业营销推广电子商务门户 网站地图 | 关于我们 | 特惠服务 | 人才招聘 | 联系我们 | 法律声明