Tipos de redes

Asociadores de patrones o memorias heteroasociativas

Redes competitivas o mapas de auto-organización

Modelos de satisfacción de demanda o de adaptación probabilística

Otras redes asociativas de pesos fijos

Asociadores de patrones o memorias heteroasociativas

Son redes de dos o más capas cuyo objetivo es asociar, generalmente a través de un proceso de aprendizaje supervisado, pares de estímulos o ítems distintos, llamados patrón de entrada y patrón de salida. Se trata de conseguir que la presentación de un patrón de entrada provoque la recuperación del patrón de salida con el que fue asociado durante el aprendizaje.

Podemos comparar un heteroasociador con los modelos de regresión estadística, los cuales tratan de hallar la relación entre una serie de variables, llamadas predictores y criterio, a partir de una serie de datos conocidos. De esta manera podemos predecir la variable criterio a partir de las variables usadas como predictores. Por ejemplo, podemos hallar una función que nos relacione la estatura, el sexo, la edad (predictores) y la complexión, con el peso(criterio), mediante un ajuste por mínimos cuadrados, y usar la estimación del peso a partir de las otras variables como un indicador del peso ideal.

Peso = a + b * Estatura + c * Sexo + d * Edad + e * Complexión

Esto se puede lograr igualmente con una red neuronal; presentando como patrones de entrada la estatura, la edad y el sexo de varios sujetos de peso apropiado, y como patrones de salida el peso de esos sujetos. Una vez asocie edad, sexo y estatura de cada sujeto con su peso, podremos usarla para estimar el peso de nuevos sujetos a partir de su estatura, sexo y edad, gracias a su capacidad de generalización.

La diferencia fundamental entre un asociador de patrones y un modelo de regresión está en que el primero es capaz de representar relaciones mucho más complejas que un modelo de regresión, y en la forma en que aprende (inductivamente) y representa dichas relaciones (distribuidas por toda la red), además de que va a poseer las cualidades generales de las redes neuronales (generalización, tolerancia al ruido, etc.)

El primer asociador de patrones conocido es el Perceptrón (Rosemblat,1962), una red lineal no recurrente compuesta por una capa de fotoreceptores, una capa de asociadores aleatoriamente conectados, llamados demonios, y una capa de salida compuesta por una sola unidad, denominada perceptrón. Era capaz de asociar patrones de entrada formados por variables continuas, con una variable de salida discreta binaria: 0/1, dado que el perceptrón aplica una función de umbral. Si la respuesta de la red es la correcta las conexiones existentes entre los demonios y el perceptrón no se modifican, cosa que sí ocurre en caso contrario. Aunque puede parecer que este modelo tiene varias capas, técnicamente es una arquitectura de dos capas, ya que sólo hay una capa de conexiones modificables. El Perceptrón se mostró bastante limitado en cuanto a su capacidad de representar funciones (pe la función XOR) linealmente inseparables (Wassermann,1989). Son necesarias más capas de conexiones modificables para representar funciones complejas y relaciones no lineales.


Ilustración 8: Modelo de Perceptrón (Rosemblatt, 1962)

Posteriormente surgieron el algoritmo de retropropagación y la regla delta generalizada.. En la actualidad es posible asociar, casi sin restricciones, cualquier patrón de entrada con cualquier patrón de salida, independientemente de sus características.

Cabe distinguir entre redes o memorias autoasoaciativas y memorias heteroasociativas. Como su nombre indica, las primeras asocian patrones consigo mismo, de manera que son útiles para recuperar o reconstruir patrones incompletos o distorsionados. Cualquier asociador de patrones sirve como memoria autoasociativa, es tan sencillo como utilizar como patrones deseados los mismos patrones que se quiere aprender. Sin embargo, se han desarrollado autoasociadores específicos que no sirven para asociar patrones distintos y utilizan otro tipo de algoritmos de aprendizaje y de arquitecturas de interconexión, como las redes recurrentes retroactivas.

Después veremos una descripción detallada del algoritmo de retropropagación y varias versiones de la regla delta generalizada, comentaremos las críticas y las algunas extensiones que tratan de aumentar la velocidad de convergencia.

Las redes basadas en la decisión y las de aproximación/optimización entrarían en este grupo, los primeros perceptrones son redes del primer tipo, mientras que las redes de retropropagación son del segundo

Redes competitivas o mapas de auto-organización

Son redes uni o multicapa cuyo común denominador es postular algún tipo de competición entre unidades con el fin de conseguir que una de ellas quede activada y el resto no. Esto se consigue mediante aprendizaje no supervisado, presentando algún patrón de entrada y seleccionando la unidad cuyo patrón de pesos incidentes se parezca más al patrón de entrada, reforzando dichas conexiones y debilitando las de las unidades perdedoras.

La competición entre unidades se puede conseguir simulando una característica neurofisiológica del córtex cerebral llamada inhibición lateral. Esto se logra postulando la existencia de conexiones inhibitorias intracapa y conexiones excitatorias intercapa, de tal manera que la presentación de un patrón de entrada tenderá a producir la activación de una única unidad y la inhibición del resto.

Al final se consigue que cada unidad responda frente a un determinado patrón de entrada, y, por generalización, que cada unidad responda frente a patrones de entrada similares, de manera que los pesos aferentes de esa unidad converjan en el centro del grupo de patrones con características similares.

 

Ilustración 9:Aprendizaje competitivo y clasificación de patrones

Es usual que haya una capa de neuronas de entrada y una capa de salida. Se usan tantas entradas como dimensiones tenga el espacio vectorial de los patrones de entrada (espacio real o binario), y tantas salidas como clases o categorías se quieren utilizar para clasificar los patrones de entrada, de manera que cada nodo de salida representa una categoría.

Además de las conexiones hacia delante, con función excitatoria, se usa una red intracapa, inhibidora, simulando el fenómeno neurológico de la inhibición lateral, de ahí que se la denomina capa lateral. La red hacia delante implementa una regla de excitación de aprendizaje de Hebb. Esta regla, como ya sabemos, refuerza las conexiones entre los pares de unidades entra-salida que se activan simultáneamente. La red lateral es intrínsecamente inhibidora, realiza la labor de seleccionar al ganador, normalmente mediante un método de aprendizaje competitivo, como el "winner-take-all" (el ganador lo toma todo, la unidad con mayor valor de activación toma el valor máximo (pe. 1) y el resto el mínimo (0)). El esquema de winner-take-all se implementa mediante una red (digital o analógica) MAXNET.

Las redes competitivas se usan típicamente como clasificadores de patrones, ya que cada unidad responde frente a grupos de patrones con características similares. Para estimar el grado de semejanza de los patrones se utilizan distancias o medidas de similaridad, siendo la más común la distancia euclídea.

  1. Producto interno


  2. Distancia Euclídea con Pesos

Podemos comparar estas redes con los métodos estadísticos de análisis de clusters, que agrupan los datos en grupos con características similares.

La principal crítica a estos modelos es que no poseen una de las características generales de las redes neuronales: la información no se halla distribuida entre todas las conexiones, la destrucción de una sola unidad provocaría la pérdida de la información relativa a todo un grupo o categoría de patrones. Para solventar este problema se han desarrollado los códigos demográficos, que representan cada categoría o grupo de patrones mediante un conjunto de unidades próximas entre sí, en vez de mediante una sola unidad.

Como ejemplo de redes competitivas podemos citar las redes de Kohonen (Kohonen,1988) y las arquitecturas ART (Adaptative Resonance Theory, Grossberg, 1987)

  1. Reglas de aprendizaje competitivo básico

    Como ya hemos comentado se suele utilizar la regla de Hebb para la red de propagación (las conexiones entre-capas) y regla "winner-take-all" (WTA) para la red lateral.

    Bajo este esquema se utilizan unidades de entrada y salida binarios, tantos nodos de salida como grupos de características similares (categorías) se quieran utilizar. Cuando y sólo cuando la entrada i-ésima y la salida j-ésima están activadas se actualizan los pesos. Una regla posible es la siguiente:

    donde g es una pequeña constante, nk es el número de unidades de entradas activas del patrón k, xi = 1 si la señal de entrada es alta para el patrón k-ésimo y en otro caso xi = 0.

  2. Reglas de entrenamiento basadas en pesos normalizados
  3. i gana con el estímulo k, j pierde con el estímulo k

    Con el fin de asegurar un ambiente de competición equitativo, las sumas de todos los pesos que van a dar a las neuronas deben estar normalizados, asegurando

    c) Reglas de aprendizaje para "Leaky Learning" (aprendizaje débil)

    Con el fin de preveer la existencia de neuronas que no aprenden en su totalidad, se usa el aprendizaje débil. Puesto que una neurona sólo aprende si gana en algún momento, es posible que una unidad no gane nunca, y por lo tanto no aprende nada. Una forma de solucionar este problema es que todos los pesos de la red intervengan en el entrenamiento con distintos niveles de aprendizaje.


    i gana con el estímulo k, j pierde con el estímulo k

    En esta regla el parámetro g1 es unas ordenes de magnitud más pequeño que xi(k)=0. Por lo tanto, las unidades que pierden en la competición sufren un aprendizaje menor que las neuronas ganadoras. Este cambio tiene la propiedad de que las unidades perdedoras se van desplazando hacia la región donde yace el estímulo actual, donde empiezan a capturar algunas unidades (empiezan a ganar).

Modelos de satisfacción de demanda o de adaptación probabilística

Son asíncronas, es decir, que cada unidad se actualiza o no durante un ciclo de procesamiento según cierta probabilidad.

Son redes cuyo objetivo principal es alcanzar soluciones (cuasi) óptimas a problemas que exigen tomar en consideración un gran número de demandas simultáneas. Para ello parten de un estado dinámico o inestable y tratan de alcanzar un estado estable mediante un proceso de relajación, estado en el que la mayoría de las demandas sean satisfechas simultáneamente. Para evaluar el estado de la red se suele definir una "función de energía", de manera que el proceso de relajación consiste en la disminución del "estado energético" de la red.

Como máximos exponentes de este tipo están las redes de Hopfield (Hopfield, 1982) y las máquinas de Boltzman (Hinton y Sejnowski,1986), ambas ejemplos de memorias autoasociativas recurrentes, también denominadas redes retroasociativas. Las redes autoasociativas aprenden a reconstruir patrones de entrada, son útiles cuando tenemos información incompleta o distorsionada, para tratar de reproducir la información original.

Las principales características de las memorias retroasociativas son las siguientes:

Más adelante se incluye un apartado dedicado a las redes de Hopfield.

Otras redes asociativas de pesos fijos

Además de las redes de adaptación probabilística hay otros tipos de redes que no requieren modificar los pesos de las conexiones. Se trata de memorias asociativas, utilizadas fundamentalmente para filtrar señales distorsionadas o incompletas y recuperar los patrones originales libres de ruido, como las memorias pro-asociativas y las redes de Hamming.

Asociadores de patrones Mapas de auto-organización Modelos de satisfacción de demanda Otras redes asociativas de pesos fijos

Perceptrones

Redes de retropropagación

Redes de Kohonen

Arquitecturas ART

Redes de Hopfield

Máquinas de Boltzmann

Memorias proasociativas

Redes de Hamming

Tabla 1 Clasificación de las redes neuronales artificiales