El costo estadístico del relleno cero en redes neuronales convolucionales (CNN)

¿Qué es el relleno cero?

El relleno cero es una técnica utilizada en redes neuronales convolucionales donde se agregan píxeles adicionales con un valía de cero en torno a de los bordes de una imagen. Esto permite que los núcleos convolucionales se deslicen sobre los píxeles del borde y ayuda a controlar cuánto se reducen las dimensiones espaciales del planisferio de características a posteriori de la convolución. El relleno se usa comúnmente para preservar el tamaño del planisferio de características y permitir arquitecturas de red más profundas.

El problema oculto del relleno cero

Desde una perspectiva estadística y de procesamiento de señales, el relleno con ceros no es una operación frío. Inyectar ceros en los límites de la imagen introduce discontinuidades artificiales que no existen en los datos originales. Estas transiciones bruscas actúan como bordes fuertes, lo que hace que los filtros convolucionales respondan al relleno en circunstancia de al contenido significativo de la imagen. Como resultado, el maniquí aprende estadísticas diferentes en los bordes que en el centro, rompiendo sutilmente la equivarianza de traducción y sesgando las activaciones de características cerca de los bordes de la imagen.

Cómo el relleno cero altera las activaciones de funciones

Configurando las dependencias

pip install numpy matplotlib pillow scipy

import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
from scipy.ndimage import correlate
from scipy.signal import convolve2d

Importando la imagen

img = Image.open('/content/Gemini_Generated_Image_dtrwyedtrwyedtrw.png').convert('L') # Load as Grayscale
img_array = np.array(img) / 255.0               # Normalize to (0, 1)

plt.imshow(img, cmap="gray")
plt.title("Diferente Image (No Padding)")
plt.axis("off")
plt.show()

En el código antecedente, primero cargamos la imagen desde el disco usando PILA y convertirlo explícitamente a escalera de grisesya que es más comprensible razonar sobre el estudio de convolución y detección de bordes en un solo canal de intensidad. Luego, la imagen se convierte en una matriz NumPy y se normaliza al rango (0,1)(0, 1)(0,1) para que los títulos de píxeles representen magnitudes de señal significativas en circunstancia de intensidades de bytes sin formato. Para este prueba, utilizamos una imagen de un camaleón generado usando Nano Cambur 3favorito porque es un objeto efectivo con textura colocado interiormente del entorno, lo que hace que cualquier respuesta robusto en los bordes de la imagen sea claramente atribuible al relleno en circunstancia de a los verdaderos bordes visuales.

Rellenar la imagen con ceros

pad_width = 50
padded_img = np.pad(img_array, pad_width, mode="constant", constant_values=0)

plt.imshow(padded_img, cmap="gray")
plt.title("Zero-Padded Image")
plt.axis("off")
plt.show()

En este paso, aplicamos relleno cero a la imagen agregando un borde de satisfecho fijo en torno a de todos los lados usando la función de relleno de NumPy. El parámetro mode=’constant’ con valores_constantes=0 llena explícitamente la región rellena con ceros, rodeando efectivamente la imagen diferente con un entorno desfavorable. Esta operación no agrega nueva información visual; en cambio, introduce una marcada discontinuidad de intensidad en el remate entre los píxeles reales y los píxeles acolchados.

Aplicar un kernel de detección de bordes

edge_kernel = np.array(((-1, -1, -1),
                        (-1,  8, -1),
                        (-1, -1, -1)))

# Convolve both images
edges_original = correlate(img_array, edge_kernel)
edges_padded = correlate(padded_img, edge_kernel)

Aquí, utilizamos un núcleo de detección de bordes simple de estilo laplaciano, que está diseñado para contestar fuertemente a cambios repentinos de intensidad y señales de adhesión frecuencia, como los bordes. Aplicamos el mismo núcleo tanto a la imagen diferente como a la imagen rellena con ceros mediante correlación. Transmitido que el filtro permanece sin cambios, cualquier diferencia en la salida puede atribuirse solamente al relleno. Las fuertes respuestas de los bordes cerca de los bordes de la imagen rellenada no son causadas por características de la imagen efectivo, sino por los límites artificiales de valía cero introducidos mediante el relleno de ceros.

Visualización de artefactos de relleno y cambio de distribución

fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# Show Padded Image
axes(0, 0).imshow(padded_img, cmap='gray')
axes(0, 0).set_title("Zero-Padded Imagen(Industrial 'Frame' added)")

# Show Filter Response (The Step Function Problem)
axes(0, 1).imshow(edges_padded, cmap='magma')
axes(0, 1).set_title("Filter Activationsn(Extreme firing at the industrial border)")

# Show Distribution Shift
axes(1, 0).hist(img_array.ravel(), bins=50, color="blue", alpha=0.6, label="Diferente")
axes(1, 0).set_title("Diferente Pixel Distribution")
axes(1, 0).set_xlabel("Intensity")

axes(1, 1).hist(padded_img.ravel(), bins=50, color="red", alpha=0.6, label="Padded")
axes(1, 1).set_title("Padded Pixel Distributionn(Massive spike at 0.0)")
axes(1, 1).set_xlabel("Intensity")

plt.tight_layout()
plt.show()

En el en lo alto a la izquierdala imagen rellena con ceros muestra un entorno desfavorable uniforme junto en torno a de la imagen del camaleón diferente. Este entorno no proviene de los datos en sí: es una construcción industrial introducida solamente por conveniencia arquitectónica. En el en lo alto a la derechala respuesta del filtro de borde revela la consecuencia: a pesar de que no hay bordes semánticos reales en el remate de la imagen, el filtro dispara fuertemente a lo desprendido del borde acolchado. Esto sucede porque la transición de los títulos de píxeles reales a cero crea una función de paso imprevisto, que los detectores de bordes están diseñados explícitamente para amplificar.

El fila inferior pone de relieve la cuestión estadística más profunda. El histograma de la imagen diferente muestra una distribución suave y natural de las intensidades de los píxeles. Por el contrario, la distribución de la imagen acolchada muestra un pico masivo con una intensidad de 0,0, que representa los píxeles inyectados de valía cero. Este pico indica un claro cambio en la distribución introducido solamente por el relleno.

Conclusión

El relleno cero puede parecer una sufragio arquitectónica inofensiva, pero silenciosamente inyecta suposiciones sólidas en los datos. Al colocar ceros adjunto a los títulos de píxeles reales, se crean funciones escalonadas artificiales que los filtros convolucionales interpretan como bordes significativos. Con el tiempo, el maniquí comienza a asociar fronteras con patrones específicos, introduciendo un sesgo espacial y rompiendo la promesa central de la equivarianza de traducción.

Más importante aún, el relleno cero altera la distribución estadística en los límites de la imagen, lo que hace que los píxeles del borde sigan un régimen de activación diferente al de los píxeles interiores. Desde la perspectiva del procesamiento de señales, esto no es un detalle beocio sino una distorsión estructural.

Para los sistemas de punto de producción, a menudo se prefieren estrategias de relleno como la consejo o la replicación, ya que preservan la continuidad estadística en los límites y evitan que el maniquí aprenda artefactos que nunca existieron en los datos originales.

Soy investido en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.