TensorFlow:记住下一批的LSTM状态(有状态LSTM)
lstm
python
recurrent-neural-network
tensorflow
10
0

给定训练有素的LSTM模型,我想对单个时间步执行推断,即在下面的示例中seq_length = 1 。在每个时间步之后,需要记住下一个“批”的内部LSTM(内存和隐藏)状态。对于推论的开始,内部LSTM状态init_c, init_h在给定输入的情况下进行计算。然后将它们存储在传递给LSTM的LSTMStateTuple对象中。在训练期间,此状态会在每个时间步更新。但是,为了进行推断,我希望state在批次之间保存,即,仅需要在最开始时计算初始状态,然后在每个“批次”(n = 1)之后保存LSTM状态。

我发现了这个与StackOverflow相关的问题: Tensorflow,在RNN中保存状态的最佳方法吗? 。但是,这仅在state_is_tuple=False ,但是TensorFlow很快将弃用此行为(请参见rnn_cell.py )。 Keras似乎有一个很好的包装器,可以使有状态的 LSTM成为可能,但是我不知道在TensorFlow中实现这一目标的最佳方法。 TensorFlow GitHub上的这个问题也与我的问题有关: https : //github.com/tensorflow/tensorflow/issues/2838

有人建议建立有状态的LSTM模型吗?

inputs  = tf.placeholder(tf.float32, shape=[None, seq_length, 84, 84], name="inputs")
targets = tf.placeholder(tf.float32, shape=[None, seq_length], name="targets")

num_lstm_layers = 2

with tf.variable_scope("LSTM") as scope:

    lstm_cell  = tf.nn.rnn_cell.LSTMCell(512, initializer=initializer, state_is_tuple=True)
    self.lstm  = tf.nn.rnn_cell.MultiRNNCell([lstm_cell] * num_lstm_layers, state_is_tuple=True)

    init_c = # compute initial LSTM memory state using contents in placeholder 'inputs'
    init_h = # compute initial LSTM hidden state using contents in placeholder 'inputs'
    self.state = [tf.nn.rnn_cell.LSTMStateTuple(init_c, init_h)] * num_lstm_layers

    outputs = []

    for step in range(seq_length):

        if step != 0:
            scope.reuse_variables()

        # CNN features, as input for LSTM
        x_t = # ... 

        # LSTM step through time
        output, self.state = self.lstm(x_t, self.state)
        outputs.append(output)
参考资料:
Stack Overflow
收藏
评论
共 2 个回答
高赞 时间 活跃

我发现在占位符中保存所有层的整个状态是最容易的。

init_state = np.zeros((num_layers, 2, batch_size, state_size))

...

state_placeholder = tf.placeholder(tf.float32, [num_layers, 2, batch_size, state_size])

然后解压缩它并创建一个LSTMStateTuples元组,然后再使用本机tensorflow RNN Api。

l = tf.unpack(state_placeholder, axis=0)
rnn_tuple_state = tuple(
[tf.nn.rnn_cell.LSTMStateTuple(l[idx][0], l[idx][1])
 for idx in range(num_layers)]
)

RNN传入API:

cell = tf.nn.rnn_cell.LSTMCell(state_size, state_is_tuple=True)
cell = tf.nn.rnn_cell.MultiRNNCell([cell]*num_layers, state_is_tuple=True)
outputs, state = tf.nn.dynamic_rnn(cell, x_input_batch, initial_state=rnn_tuple_state)

state -那么变量将被feeded下一批作为占位符。

收藏
评论

Tensorflow,在RNN中保存状态的最佳方法?实际上是我最初的问题。下面的代码是我使用状态元组的方式。

with tf.variable_scope('decoder') as scope:
    rnn_cell = tf.nn.rnn_cell.MultiRNNCell \
    ([
        tf.nn.rnn_cell.LSTMCell(512, num_proj = 256, state_is_tuple = True),
        tf.nn.rnn_cell.LSTMCell(512, num_proj = WORD_VEC_SIZE, state_is_tuple = True)
    ], state_is_tuple = True)

    state = [[tf.zeros((BATCH_SIZE, sz)) for sz in sz_outer] for sz_outer in rnn_cell.state_size]

    for t in range(TIME_STEPS):
        if t:
            last = y_[t - 1] if TRAINING else y[t - 1]
        else:
            last = tf.zeros((BATCH_SIZE, WORD_VEC_SIZE))

        y[t] = tf.concat(1, (y[t], last))
        y[t], state = rnn_cell(y[t], state)

        scope.reuse_variables()

而不是使用tf.nn.rnn_cell.LSTMStateTuple我只是创建一个工作正常的列表列表。在此示例中,我没有保存状态。但是,您可以很容易地使状态由变量决定,而只需使用assign保存值即可。

收藏
评论
新手导航
  • 社区规范
  • 提出问题
  • 进行投票
  • 个人资料
  • 优化问题
  • 回答问题

关于我们

常见问题

内容许可

联系我们

@2020 AskGo
京ICP备20001863号