Estabilidade e XOR
O objetivo deste artigo não é uma análise rigorosa de como um processo de ou exclusivo pode ser executado, mas sim aproximar uma análise que, semelhante ao caso real, promove situações interessantes.
Um ou exclusivo (XOR) tem a característica de tomar duas entradas binárias e retornar uma saída da seguinte forma:
___________________________
entrada1| entrada2| saída|
0 | 0 | 0 |
0 | 1 | 1 |
1 | 0 | 1 |
1 | 1 | 0 |
¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨¨
Quando tratamos o problema do ponto de vista das redes neurais, é interessante notar que o espaço de entrada fornece padrões que não são linearmente separáveis. Assim, uma análise não linear parece lícita.
Para tanto, vou fazer algumas suposições não muito rigorosas, mas com resultados interessantes. Suponho inicialmente que há um desvio pequeno dos valores 0 e 1, uma pequena perturbação. Proponho uma frase XOR que será retroalimentada na tentativa de eliminar os desvios (isso dará o caráter não linear). Os valores verdade serão tomados sempre no intervalo [0,1]. Considere a seguinte proposição:
Se Ana e Bartolomeu estão simultaneamente na minha presença ou simultaneamente ausentes, eu vou embora. Do contrário, quando apenas um ou outro está na minha presença, eu fico.
Seja ficar representado por 1 e a ausência ou o ato de ir embora representados por 0. Usarei as letras A e B para representar Ana e Bartolomeu e a letra E para representar a mim.
A função lógica AND posso representar por: (A AND B) -> A*B
A função lógica XOR posso representar por: (A XOR B) -> A+B - 2*A*B
Assim, a frase pode ser reescrita como:
E=(E AND A) XOR (E AND B)
E=(E*A)+(E*B) - 2*[(E*A)*(E*B)]
E=E*(A+B) - 2*A*B*E*E
E=E*(A+B - 2*A*B*E)
Se nem Ana nem Bartolomeu estão, vale:
E=E*(0 - 0) = 0; e vou embora.
Se ou Ana ou Bartolomeu está:
E=E*(1 - 0) = E; se estou, fico, se não estou, não apareço.
Este é um centro estável, ou seja, é insensível às perturbações. Perturbações pequenas continuam pequenas.
A situação de interesse ocorre quando A e B estão na minha presença:
E=E*(2 - 2*E) = 2*E*(1 - E)
Descobrimos os pontos fixos se fizermos:
E(novo) = E(antigo) =
E
E = 2*E - 2*E*E
E - 2*E*E = 0
E*(1 - 2*E) = 0
Temos duas raízes, E = 0 e E = 1/2. Para analisar a estabilidade destes pontos, vamos expandir a equação em série de Taylor ao redor dos mesmos e abandonar os termos de ordem superior, como dita o processo de linearização.

Assim, a perturbação irá aumentar ou diminuir com as iterações (instabilidade ou estabilidade) dependendo da derivada de F ser maior ou menor que 1, em módulo.
Desta forma:

Analisando termos de ordem superior, chegamos à conclusão de que este raciocínio vale para perturbações inferiores a 1/2. Isso exclui os pontos 0 e 1 exatamente, como era de se esperar.
O que é surpreendente é o fato de que a solução esperada do problema é instável (E=0) e aparece uma solução não esperada, fortemente estável. É claro que apesar da derivada em E=1/2 ser 0, a convergência não é imediata, devido aos termos de ordem superior que não podem ser ignorados.
Mas o que significa E=1/2?
E=0 significa não ficar, E=1 significa ficar. Se tomarmos a negação padrão para lógicas com vários valores de verdade, ficamos com ~a=(1-a). Podemos perceber daí (~ é o símbolo para negação) que 1/2 é justamente o valor que quando negado, resulta nele mesmo, o que sugere uma indecisão. Não se pode determinar se ficamos ou saímos. E é estável.
Processos cognitivos são muitas ordens de grandeza mais complexos que um XOR, então é lícito que nos perguntemos: se num processo simples e determinístico como este já se exibe um comportamento inesperado, não seriam nossas emoções simplesmente amontoados de operações determinísticas (ou quase, devido à natureza do ruído), que se superpõem?
Qual é a verdadeira natureza das emoções? Penso que este experimento (tente implementar a retroalimentação num programa computacional, se puder - não esqueça de adicionar ruído) indica que somos seres puramente lógicos, mas infinitamente complexos.
O Gás de Bits
O que é uma memória RAM? Como podemos criar um modelo para tratá-la do ponto de vista físico? Vamos examinar estas questões mais de perto.
Podemos considerar que uma “memória” é um conjunto de “caixinhas” onde podemos conceber dois estados, zero e um. Assim, uma informação guardada em uma memória é um dos possíveis microestados do sistema. Raciocinando desta forma, podemos notar que a maneira mais natural de tratar o tópico é o ponto de vista da Física Estatística. Comecemos com o formalismo microcanônico e passemos após ao canônico, para ver o que ganhamos.
No formalismo microcanônico, temos um sistema com número de partículas fixo, volume fixo e energia fixa (o sistema é isolado). Até aí tudo bem, mas agora faremos suposições não tão verossímeis, mas com resultados interessantes. Vamos admitir que todos os estados microscópicos acessíveis em um sistema fechado em equilíbrio são equiprováveis. Então devemos supor nosso sistema em equilíbrio termodinâmico. Devemos supor ainda que nossa memória seja grande o suficiente para que possamos tomar o limite termodinâmico.
Estas suposições estão longe de ser realistas, mas são úteis aos nossos propósitos. Podemos então tomar a definição de entropia estatística de Boltzmann:S=k.lnW
Onde S é a entropia, k é a constante de Boltzmann e W é o número de microestados acessíveis ao sistema. Para um sistema de n bits, devemos ter um número de microestados igual a 2n . Assim, a entropia associada ao sistema é:S=k.n.ln(2) Esta é uma forma simplista de lidar com a entropia do sistema, mas nos será útil mais tarde. No formalismo canônico, temos o sistema em banho térmico, podendo a energia flutuar. Tomemos uma abordagem diferente. Considere um sistema formado por m réplicas da nossa memória, tal que as probabilidades pr do sistema estar no microestado r sejam as mesmas em todas as cópias, sendo m um número grande. Então o número de sistemas no estado r é dado por: mr=m.pr Se mj destes sistemas está no estado j, então o peso estatístico Wm desta montagem é:

Segue da definição de entropia que:
Sm=k.ln WmSubstituindo e usando a fórmula de Stirling ( ln(m!)=m ln(m) – m ):

Então, a entropia está associada a uma probabilidade do sistema estar num dado microestado. Esta forma é conhecida como entropia de Shannon e se reduz à primeira forma no formalismo microcanônico (pois a probabilidade p é 1/W e há W estados acessíveis ao sistema).
O que ocorre de modificarmos irreversivelmente um bit? Pelas nossas contas, deve haver um acréscimo na entropia do sistema de DS=k.ln2. Isso significa que a informação guardada ali está associada a uma energia:
E=kT.ln2
onde T é a temperatura do sistema (o que já poderia se esperar, uma vez que um bit de informação está associado a um grau de liberdade do sistema e portanto a uma energia da ordem de kT).
Informação e energia são conceitos relacionados, portanto. Porém desta análise segue que modificar reversivelmente um bit não consome necessariamente energia. Desta forma, uma computação pode ser efetuada com gasto mínimo se for executada de forma reversível. É interessante notar que as portas lógicas de computadores clássicos podem ser escritas em termos da porta universal NAND, que é irreversível. Para notar isso basta verificar que a partir de um resultado NAND, não podemos inferir sempre quais foram os bits que o originaram. Nossos computadores gastam tanta energia porque fazem computação de forma irreversível.
Porém, para fazer computação reversível com portas lógicas clássicas devemos manter bits auxiliares, pois destruir bits é uma operação irreversível, consumindo um espaço que talvez seja proibitivo. É uma questão de se ponderar o que é mais caro, memória física ou energia.
Talvez o mais interessante desta análise seja a constatação de que maximizar a entropia significa maximizar a informação apreendida pelo sistema, de tal forma que podemos utilizar métodos da Física Estatística para recuperar informação degenerada através da eliminação de redundâncias em sistemas de uma maneira que não conseguiríamos com outros métodos. Há ainda o fato de que portas lógicas de computadores quânticos são unitárias, portanto reversíveis, ficando o gasto de energia em tais sistemas apenas restrito às correções de erro (eliminação de ruído).
Tudo isso já é velho. Como tantas outras coisas que vocês verão aqui. Só escrevi isto porque acho importante levantar estas questões e discutí-las.
Até a próxima.