N個のデータ $t_1$, $t_2$, $\cdots$, $t_N$ があり、 これを $x$ の $M$ 次多項式で近似する問題を考える。
$\displaystyle f(x) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M \quad\quad\quad (2.1) $$M+1$個のパラメータ $w_0$, $w_1$, $\cdots$, $w_M$ をうまく決定して $E_D$ が最小になるようにしたい。
$\displaystyle E_D = \frac{1}{2} \sum^N_{n=1} (f(x_n) - t_n)^2 \quad\quad\quad (2.3)$(2.3)に(2.1)を代入する。
$\displaystyle E_D = \frac{1}{2} \sum^N_{n=1} (\sum^M_{m=0} w_m x_n^m - t_n)^2 \quad\quad\quad (2.4)$(2.4) を $w_m (m=0, \cdots, M)$ の関数とみなして、最小にする係数を決定する。 偏微分の値が 0 になればよい。
$\displaystyle \begin{equation} \frac{\partial E}{\partial w_m} = 0 \quad\quad\quad (m=0, \cdots, M) \quad\quad\quad (2.5)\\ これは \boldsymbol{w} = (w_0, \cdots, w_M)^T とおいて \nabla E_D(\boldsymbol{w}) = \boldsymbol{0} \quad\quad\quad (2.6) と同じ。 \end{equation}$(2.5)に(2.4)を代入して