Q-Learning

In [1]:

Copied!





import os

from behavior_generation_lecture_python.mdp.mdp import (
    GridMDP,
    derive_policy,
    q_learning,
    GRID_MDP_DICT,
    HIGHWAY_MDP_DICT,
    LC_RIGHT_ACTION,
    STAY_IN_LANE_ACTION,
)
from behavior_generation_lecture_python.utils.grid_plotting import (
    make_plot_grid_step_function,
    make_plot_policy_step_function,
)
import os

from behavior_generation_lecture_python.mdp.mdp import (
    GridMDP,
    derive_policy,
    q_learning,
    GRID_MDP_DICT,
    HIGHWAY_MDP_DICT,
    LC_RIGHT_ACTION,
    STAY_IN_LANE_ACTION,
)
from behavior_generation_lecture_python.utils.grid_plotting import (
    make_plot_grid_step_function,
    make_plot_policy_step_function,
)

TOY EXAMPLE¶

In [2]:

Copied!

grid_mdp = GridMDP(**GRID_MDP_DICT)
grid_mdp = GridMDP(**GRID_MDP_DICT)

In [3]:

Copied!

computed_utility_history = q_learning(
    mdp=grid_mdp, alpha=0.1, epsilon=0.1, iterations=10000, return_history=True
)
computed_utility_history = q_learning(
    mdp=grid_mdp, alpha=0.1, epsilon=0.1, iterations=10000, return_history=True
)

In [4]:

Copied!





%matplotlib inline
plot_grid_step = make_plot_grid_step_function(
    columns=4, rows=3, U_over_time=computed_utility_history
)
%matplotlib inline
plot_grid_step = make_plot_grid_step_function(
    columns=4, rows=3, U_over_time=computed_utility_history
)

In [5]:

Copied!





interactive_widgets = not os.getenv("CI") == "true"  # non-interative in CI
if interactive_widgets:
    import ipywidgets
    from IPython.display import display

    iteration_slider = ipywidgets.IntSlider(
        min=0, max=len(computed_utility_history) - 1, step=1, value=0
    )
    w = ipywidgets.interactive(plot_grid_step, iteration=iteration_slider)
    display(w)
else:
    plot_grid_step(1000)
interactive_widgets = not os.getenv("CI") == "true"  # non-interative in CI
if interactive_widgets:
    import ipywidgets
    from IPython.display import display

    iteration_slider = ipywidgets.IntSlider(
        min=0, max=len(computed_utility_history) - 1, step=1, value=0
    )
    w = ipywidgets.interactive(plot_grid_step, iteration=iteration_slider)
    display(w)
else:
    plot_grid_step(1000)

No description has been provided for this image

HIGHWAY EXAMPLE¶

In [6]:

Copied!





if False:
    # we will change this to true later on, to see the effect
    HIGHWAY_MDP_DICT["transition_probabilities_per_action"][LC_RIGHT_ACTION] = [
        (0.4, LC_RIGHT_ACTION),
        (0.6, STAY_IN_LANE_ACTION),
    ]
if False:
    # we will change this to true later on, to see the effect
    HIGHWAY_MDP_DICT["transition_probabilities_per_action"][LC_RIGHT_ACTION] = [
        (0.4, LC_RIGHT_ACTION),
        (0.6, STAY_IN_LANE_ACTION),
    ]

In [7]:

Copied!

highway_mdp = GridMDP(**HIGHWAY_MDP_DICT)
highway_mdp = GridMDP(**HIGHWAY_MDP_DICT)

In [8]:

Copied!

utility_history_highway = q_learning(
    mdp=highway_mdp, alpha=0.1, epsilon=0.1, iterations=10000, return_history=True
)
utility_history_highway = q_learning(
    mdp=highway_mdp, alpha=0.1, epsilon=0.1, iterations=10000, return_history=True
)

In [9]:

Copied!

plot_grid_step_highway = make_plot_grid_step_function(
    columns=10, rows=4, U_over_time=utility_history_highway
)
plot_grid_step_highway = make_plot_grid_step_function(
    columns=10, rows=4, U_over_time=utility_history_highway
)

In [10]:

Copied!





if interactive_widgets:
    iteration_slider = ipywidgets.IntSlider(
        min=0, max=len(utility_history_highway) - 1, step=1, value=0
    )
    w = ipywidgets.interactive(plot_grid_step_highway, iteration=iteration_slider)
    display(w)
else:
    plot_grid_step_highway(1000)
if interactive_widgets:
    iteration_slider = ipywidgets.IntSlider(
        min=0, max=len(utility_history_highway) - 1, step=1, value=0
    )
    w = ipywidgets.interactive(plot_grid_step_highway, iteration=iteration_slider)
    display(w)
else:
    plot_grid_step_highway(1000)

In [11]:

Copied!

policy_array = [
    derive_policy(highway_mdp, utility) for utility in utility_history_highway
]
policy_array = [
    derive_policy(highway_mdp, utility) for utility in utility_history_highway
]

In [12]:

Copied!

plot_policy_step_highway = make_plot_policy_step_function(
    columns=10, rows=4, policy_over_time=policy_array
)
plot_policy_step_highway = make_plot_policy_step_function(
    columns=10, rows=4, policy_over_time=policy_array
)

In [13]:

Copied!





if interactive_widgets:
    iteration_slider = ipywidgets.IntSlider(
        min=0, max=len(utility_history_highway) - 1, step=1, value=0
    )
    w = ipywidgets.interactive(plot_policy_step_highway, iteration=iteration_slider)
    display(w)
else:
    plot_policy_step_highway(1000)
if interactive_widgets:
    iteration_slider = ipywidgets.IntSlider(
        min=0, max=len(utility_history_highway) - 1, step=1, value=0
    )
    w = ipywidgets.interactive(plot_policy_step_highway, iteration=iteration_slider)
    display(w)
else:
    plot_policy_step_highway(1000)