Novo NN s. A CNN pode ser treinado para detectar um único objeto em uma imagem. No entanto, o que se qualquer imagem em um conjunto de dados pode conter qualquer n # de objetos. Isto não representa um problema para CNNs como a saída densa camada deve ser de um tamanho fixo? Como você resolveria esse problema?
Por exemplo: Vamos dizer que eu aleatoriamente amostrados 2 imagens neste conjunto. Imagem 1 tem 2 objetos e imagem 2 tem 5 objetos. O y rótulo para img1 deverá conter a caixa delimitadora coordenadas para 2 objetos; y rótulo para img2 deve conter as coordenadas para 5 objetos -- muito maior do y do vetor de img1.
Uma solução possível? :
Eu teria de encontrar a imagem com o maior número de objetos (designar este valor como M). Vamos também dizer que um objeto tem 4 coordenadas. Se M = 5, eu precisaria de um vetor y de 20. Se uma imagem tem 1 objeto, o y do vetor deve conter de 4 valores diferentes de zero E 16 de zero valores. Os 4 valores de zero representam as coordenadas e os 16 valores zero representam as coordenadas dos outros objetos não-existentes.