sexta-feira, 6 de novembro de 2015

Entropia e Ganho de Informação

    Hoje iremos falar sobre dois assuntos muito importantes dentro do Aprendizado de Máquina (Machine Learning), Entropia e Ganho de Informação. Antes de começarmos a ver como eles funcionam, precisamos primeiramente entender qual a funcionalidade de cada uma deles:


Entropia: A entropia da informação, no caso do aprendizado de máquina, visto que ela pode e é usada em outras áreas, mede a impureza de um determinado conjunto de dados. Em outras palavras mede a dificuldade que se tem para saber qual a classificação de cada registro dentro do meu conjunto de dados. O valor da entropia da informação varia de 0 até 1.


    Este seria o gráfico da entropia para uma base de dados em que a classificação é binária, ou seja possui apenas dois valores possíveis. O valor da coluna da esquerda, eixo Y, é o resultado da entropia do conjunto de dados, e o valor da linha de baixo, eixo X, é a probabilidade de uma das classes ocorrer no conjunto de dados.
    Vale a pena notar que apesar do exemplo ter apenas dois possíveis valores para a classificação do conjunto de dados, a entropia pode ser calculada para qualquer quantidade de valores.

Ganho de Informação: O ganho de informação ao contrário da entropia mede a pureza de um determinado conjunto de dados, essa definição nada mais é do que a eficácia do atributo testado ao tentar classificar a base de dados.
    Uma maneira de entender o ganho de informação é imaginando um atributo chamado Temperatura, e vamos imaginar que esse atributo pode assumir três valores "Alta", "Normal" e "Baixa". O que o cálculo do ganho da informação faz é nos dizer o quanto esse atributo sozinho consegue ajudar a classificar a minha base de dados.
   

    Nos próximos post iremos ver em detalhes cada uma dessas duas equações e iremos fazer um passo a passo do cálculo.

Nenhum comentário :

Postar um comentário