Função de custo de computação para uma rede neural

Question 1

Eu estou em semana de 5 de Andrew Ng Máquina do Curso de Aprendizagem no Coursera. Eu estou trabalhando através da atribuição de programação em Matlab para esta semana, e optei por usar um loop for implementação para calcular o custo de J. Aqui é a minha função.

function [J grad] = nnCostFunction(nn_params, ...
                                   input_layer_size, ...
                                   hidden_layer_size, ...
                                   num_labels, ...
                                   X, y, lambda)
%NNCOSTFUNCTION Implements the neural network cost function for a two layer
%neural network which performs classification
%   [J grad] = NNCOSTFUNCTON(nn_params, hidden_layer_size, num_labels, ...
%   X, y, lambda) computes the cost and gradient of the neural network. The
%   parameters for the neural network are "unrolled" into the vector
%   nn_params and need to be converted back into the weight matrices. 

% Reshape nn_params back into the parameters Theta1 and Theta2, the weight matrices
% for our 2 layer neural network

Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), ...
                 hidden_layer_size, (input_layer_size + 1));

Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), ...
                 num_labels, (hidden_layer_size + 1));


% Setup some useful variables
m = size(X, 1);

% add bias to X to create 5000x401 matrix
X = [ones(m, 1) X];
         
% You need to return the following variables correctly 
J = 0;
Theta1_grad = zeros(size(Theta1));
Theta2_grad = zeros(size(Theta2));


% initialize summing terms used in cost expression
sum_i = 0.0;

% loop through each sample to calculate the cost
for i = 1:m

    % logical vector output for 1 example
    y_i = zeros(num_labels, 1);
    class = y(m);
    y_i(class) = 1;
    
    % first layer just equals features in one example 1x401
    a1 = X(i, :);
    
    % compute z2, a 25x1 vector
    z2 = Theta1*a1';
    
    % compute activation of z2
    a2 = sigmoid(z2);
    
    % add bias to a2 to create a 26x1 vector
    a2 = [1; a2];
    
    % compute z3, a 10x1 vector
    z3 = Theta2*a2;
    
    %compute activation of z3. returns output vector of size 10x1
    a3 = sigmoid(z3);
    h = a3;
    
    % loop through each class k to sum cost over each class
    for k = 1:num_labels        
        
        % sum_i returns cost summed over each class
        sum_i = sum_i + ((-1*y_i(k) * log(h(k))) - ((1 - y_i(k)) * log(1 - h(k))));
        
    end
        
end

J = sum_i/m;

Eu entendo que um vetorizados implementaion de que isso seria mais fácil, mas eu não entendo por que essa implementação é errado. Quando num_labels = 10, a função de saídas J = 8.47, mas o custo esperado é 0.287629. Eu calculado J a partir desta fórmula. Eu sou mal-entendido a computação? Meu entendimento é que cada exemplo de formação do custo para cada uma das 10 classes são calculados, em seguida, o custo para todas as 10 classes para cada exemplo são somados juntos. É que incorreta? Ou será que eu não implementar isso no meu código corretamente? Obrigado antecipadamente.

Question 2

o problema é na fórmula que está a implementação de

esta expressão ((-1*y_i(k) * log(h(k))) - ((1 - y_i(k)) * log(1 - h(k)))); representar a perda em caso de classificação binária porque você simplesmente tem 2 classes por isso

y_i is 0 so (1 - yi) = 1
y_i is 1 so (1 - yi) = 0

então, basicamente você levar em conta apenas o destino de classe de probabilidade.

como sempre no caso de 10 rótulos como você menciona (y_i) ou (1 - yi) não é necessário de um deles para ser 0 e o outro ser de 1

você deve corrigir a perda de função implementação, de forma que você só leva em conta a probabilidade da classe de destino só que nem todas as outras classes.

Question 3

O meu problema é com a indexação. Em vez de dizer class = y(m) ele deve ser class = y(i) desde i é o índice e m é de 5000 a partir do número de linhas em que os dados de treinamento.

husam alsayed · Answer 1 · 2021-11-22T23:54:56

o problema é na fórmula que está a implementação de

esta expressão ((-1*y_i(k) * log(h(k))) - ((1 - y_i(k)) * log(1 - h(k)))); representar a perda em caso de classificação binária porque você simplesmente tem 2 classes por isso

y_i is 0 so (1 - yi) = 1
y_i is 1 so (1 - yi) = 0

então, basicamente você levar em conta apenas o destino de classe de probabilidade.

como sempre no caso de 10 rótulos como você menciona (y_i) ou (1 - yi) não é necessário de um deles para ser 0 e o outro ser de 1

você deve corrigir a perda de função implementação, de forma que você só leva em conta a probabilidade da classe de destino só que nem todas as outras classes.

tdy · Answer 2 · 2021-11-23T03:53:01

O meu problema é com a indexação. Em vez de dizer class = y(m) ele deve ser class = y(i) desde i é o índice e m é de 5000 a partir do número de linhas em que os dados de treinamento.

Função de custo de computação para uma rede neural

Pergunta

Em outros idiomas

Esta página está em outros idiomas

Popular nesta categoria

Perguntas populares nesta categoria