Resolvi escrever comparando os modelos de Markov e o Bayesiano, pois no meu processo de aprendizagem escrever amadurece as ideias aprendidas. Minha intenção não é falar o que é cada modelo, mas apenas falar sobre as diferenças entre os modelos.
Gostaria de começar com a seguinte frase,que talvez tenha sentido ao final da leitura desse artigo:
" Modelos gráficos são um casamento entre teoria da probabilidade e modelos gráficos. Eles fornecem uma ferramenta natural para lidar com dois problemas que ocorrem na matemática aplicada e engenharia -- incerteza e complexidade -- e em particular desempenham de modo crescente um papel importante no projeto e análise de algoritmos de machine learning. A ideia fundamental do modelo gráfico é a noção de modularidade -- um sistema complexo é construído pela combinação de partes simples. A teoria da probabilidade fornece pistas por meio de quais partes são combinadas, assegurando um sistema consistente, e fornecendo maneiras de modelar dados. A modelagem gráfica fornece tanto para uma interface intituitiva para o ser humano (a interação dos conjuntos de variáveis) , bem como uma estruturada de dados usada para projetar de forma eficiente algoritmos." (Kevin Murphy, 1998)
Gostaria de começar com a seguinte frase,que talvez tenha sentido ao final da leitura desse artigo:
" Modelos gráficos são um casamento entre teoria da probabilidade e modelos gráficos. Eles fornecem uma ferramenta natural para lidar com dois problemas que ocorrem na matemática aplicada e engenharia -- incerteza e complexidade -- e em particular desempenham de modo crescente um papel importante no projeto e análise de algoritmos de machine learning. A ideia fundamental do modelo gráfico é a noção de modularidade -- um sistema complexo é construído pela combinação de partes simples. A teoria da probabilidade fornece pistas por meio de quais partes são combinadas, assegurando um sistema consistente, e fornecendo maneiras de modelar dados. A modelagem gráfica fornece tanto para uma interface intituitiva para o ser humano (a interação dos conjuntos de variáveis) , bem como uma estruturada de dados usada para projetar de forma eficiente algoritmos." (Kevin Murphy, 1998)
Modelos gráficos probabilísticos são grafos cujos nós representam variáveis aleatórias, e os vértices (a falta) representam hipóteses de independência condicional. Assim, fornecem um representação compacta das distribuições das probabilidades conjuntas(joint). Modelos gráficos não dirigidos cíclicos, chamados de rede de Markov, tem uma definição de independência: dois (conjuntos de) nós A e B são condicionalmente independentes dado um terceiro conjunto C, se todos os caminhos entre os nós em A e B são separados pelos nó C. Em contrate, modelos de grafos dirigidos também chamados de Bayesianos , tem uma noção mais complicada de independêcia, na qual leva em conta a direção dos vértices.
Embora modelos dirigidos tem uma noção mais complicada de indepêndencia que os modelos não dirigidos, os modelos dirigidos levam vantagens sobre o outro modelo. A mais importante é que um pode considerar um vértice de A para B como indicativo de que A causou B ( conceito de causalidade). Isso pode ser usado como um guia para construir grafos estruturados. Além disso, modelos dirigidos podem codificar relações determinísticas, e são mais facéis de aprender (ajustar dados).
Para um modelo dirigido, podemos especificar a distribuição condicional das probabilidades para cada nó, conforme Figura 1. Se as variáveis são discretas, isso pode ser representado em tabelas, com a lista de probablidade que cada nó e a combinação de possibilidades. Vamos considerar o seguinte exemplo, na qual todos os nós são binários, ou seja, temos dois valores possíveis: V (verdadeiro) e F (Falso).

Figura 1
A relação de indepência condicional é codificada na rede bayesiana e indica o seguinte: o nó é independente de seus ancentrais se seu pai é determinado.
Pela regra da probabilidade , então a probabilidade conjunta de todos nós no grafo acima é:
P(C, S, R, W) = P(C) * P(S|C) * P(R|C,S) * P(W|C,S,R)
Usando regra de indepêndencia condicional podemos reescrever como:
P(C, S, R, W) = P(C) * P(S|C) * P(R|C) * P(W|S,R)
A tarefa mais comum usando em redes bayesianas é inferência probabilística. Por exemplo, supomos que observamos o fato que a grama está molhada. Há duas possibilidades: ou choveu ou irrigador disparou. Qual é mais provável? Nós podemos usar a regra de Bayes para calcular as probabilidades:
P(irrigadoraAutomático = V/ gramaMolhada=V) = 0.2781/0.6471 = 0.430
P(choveu = V/gramaMolhada=V) = 0.4581/0.6471 =0.708
Assim é mais provável que a grama esteja molhada por causa da chuva. Com o modelo de Markov não é possível realizar esse tipo de inferência , pois o modelo é sem memória. O objetivo do modelo é: "dado o presente o futuro é independe do passado." Markov adiciona uma nova camada ao modelo que é não observável.
Figura 2
Agora podemos observar apenas os y's, que são relacionados aos não observáveis x's. Por exemplo, Se você está cego e não pode observar o céu ou sentir a chuva cair,os y's são " a grama está molhada em um especifico dia.", e os x's são "Está chovendo em um específico dia".
O processo de decisão Markoviano são fundamentalmente diferentes, porque envolve "controle". Você, o agente, tem poder de influenciar o sistemas. Por exemplo, Você está decidindo se liga o irrigador em determinado dia. Cada dia, você se baseia no estado do mundo observável. Então, você só pode ligar o irrigador se você observar se a grama está seca. Não permite ligar o irrigador baseado no estado da grama de ontem.
O processo de decisão Markoviano são fundamentalmente diferentes, porque envolve "controle". Você, o agente, tem poder de influenciar o sistemas. Por exemplo, Você está decidindo se liga o irrigador em determinado dia. Cada dia, você se baseia no estado do mundo observável. Então, você só pode ligar o irrigador se você observar se a grama está seca. Não permite ligar o irrigador baseado no estado da grama de ontem.
A seguir uma tabela relacionando as diferenças:
Esse artigo foi baseado no artigo: A Brief Introduction to Graphical Models and Bayesian Networks
Sugiro a leitura dos seguintes textos:
1) http://setosa.io/blog/2014/07/26/markov-chains/
2)Artigo An Introduction to Conditional Random Fields By Charles Sutton and Andrew McCallum Contents