Hoje iremos falar sobre dois assuntos muito importantes dentro do
Aprendizado de Máquina (Machine
Learning), Entropia e Ganho de Informação. Antes de
começarmos a ver como eles funcionam, precisamos primeiramente entender
qual a funcionalidade de cada uma deles:
Entropia: A
entropia da informação, no caso do aprendizado de máquina, visto que
ela pode e é usada em outras áreas, mede a impureza de um determinado
conjunto de dados. Em outras palavras mede a dificuldade que se tem
para saber qual a classificação de cada registro dentro do meu conjunto
de dados. O valor da entropia da informação varia de 0 até 1.
Este seria o
gráfico da entropia para uma base de dados em que a classificação é
binária, ou seja possui apenas dois valores possíveis. O valor da
coluna da esquerda, eixo Y, é o resultado da entropia do conjunto de
dados, e o valor da linha de baixo, eixo X, é a probabilidade de uma
das classes ocorrer no conjunto de dados.
Vale a pena notar que apesar do exemplo ter apenas dois possíveis valores para a classificação do conjunto de dados, a entropia pode ser calculada para qualquer quantidade de valores.
Vale a pena notar que apesar do exemplo ter apenas dois possíveis valores para a classificação do conjunto de dados, a entropia pode ser calculada para qualquer quantidade de valores.
Ganho de Informação:
O ganho de informação ao contrário da entropia mede a pureza de um
determinado conjunto de dados, essa definição nada mais é do que a
eficácia do atributo testado ao tentar classificar a base de dados.
Uma maneira de entender o ganho de informação é imaginando um atributo chamado Temperatura, e vamos imaginar que esse atributo pode assumir três valores "Alta", "Normal" e "Baixa". O que o cálculo do ganho da informação faz é nos dizer o quanto esse atributo sozinho consegue ajudar a classificar a minha base de dados.
Nos próximos post iremos ver em detalhes cada uma dessas duas equações e iremos fazer um passo a passo do cálculo.
Uma maneira de entender o ganho de informação é imaginando um atributo chamado Temperatura, e vamos imaginar que esse atributo pode assumir três valores "Alta", "Normal" e "Baixa". O que o cálculo do ganho da informação faz é nos dizer o quanto esse atributo sozinho consegue ajudar a classificar a minha base de dados.
Nos próximos post iremos ver em detalhes cada uma dessas duas equações e iremos fazer um passo a passo do cálculo.
Nenhum comentário :
Postar um comentário