Week 3 programming c2

ROSHAN_SHAJI_JOHN · June 26, 2023, 3:30pm

The tests is passed but i am getting the following error

how to correct this ?

TMosh · June 26, 2023, 8:31pm

Your compute_loss function has a defect.

ROSHAN_SHAJI_JOHN · June 27, 2023, 5:40am

import time
from collections import deque, namedtuple

import gym
import numpy as np
import PIL.Image
import tensorflow as tf
import utils
experience = namedtuple(“Experience”, field_names=[“state”, “action”, “reward”, “next_state”, “done”])
from pyvirtualdisplay import Display
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.losses import MSE
from tensorflow.keras.optimizers import Adam
num_episodes=2000
temp=-1
q_network = Sequential([
Input(shape=state_size),
Dense(units=64, activation=‘relu’),
Dense(units=64, activation=‘relu’),
Dense(units=num_actions, activation=‘linear’),
])

Create the target Q^-Network

target_q_network = Sequential([
Input(shape=state_size),
Dense(units=64, activation=‘relu’),
Dense(units=64, activation=‘relu’),
Dense(units=num_actions, activation=‘linear’),
])

def compute_loss(experiences, gamma, q_network, target_q_network):
global temp
# Unpack the mini-batch of experience tuples
states, actions, rewards, next_states, done_vals = experiences

# Compute max Q^(s,a)
max_qsa = tf.reduce_max(target_q_network(next_states), axis=-1)

# Set y = R if episode terminates, otherwise set y = R + γ max Q^(s,a).
if temp == num_episodes :
    y_targets = rewards
else:
    y_targets = rewards + (gamma * max_qsa *(1 - done_vals))
    temp=temp+1

# Get the q_values
q_values = q_network(states)
q_values = tf.gather_nd(q_values, tf.stack([tf.range(q_values.shape[0]),
                                            tf.cast(actions, tf.int32)], axis=1))

# Calculate the loss
loss = MSE(y_targets, q_values)
return loss

can someone tell me where is my mistake

TMosh · June 28, 2023, 6:39am

Please don’t post your code on the forum.

Sorry, i cannot review your code at this time.

Topic		Replies	Views
C3_W3_Assignment1 Unsupervised Learning, Recommenders, Reinforcement week-module-3	3	567	December 4, 2022
Test_compute_loss fails in my assignement Unsupervised Learning, Recommenders, Reinforcement week-module-3	4	519	March 10, 2023
Deep Q-Learning Algorithm with Experience Replay Unsupervised Learning, Recommenders, Reinforcement week-module-3	1	520	November 6, 2022
C3_W3_A1_Assignment Unsupervised Learning, Recommenders, Reinforcement week-module-3	3	609	August 23, 2022
Calcuting Y_targets in DQL in Reinforcement learning practice lab Unsupervised Learning, Recommenders, Reinforcement week-module-3	6	536	November 26, 2022

Week 3 programming c2

Create the target Q^-Network

Related topics