Definition

A learning Policy is called GLIE (Greedy in Limit with Infinite Exploration) if it satisfies:

All state-action pairs are explored infinitely many times $\forall s \in S, a \in A (S), lim_{k \to \infty} n (s, a) = \infty$ where $n (s, a)$ is incremental count of a $(s, a)$ .
The learning policy converges to a greedy policy. $lim_{k \to \infty} π_{k} (a ∣ s) = 1$ where $a = a^{'} argmax Q_{k} (s, a^{'})$

My Knowledge Base