Continuando o último post sobre as equações utilizadas no algoritmo ID3, podemos agora que conhecemos o que cada uma das
equações se propõe a fazer, começar a conhecê-las
melhor, vamos iniciar pela entropia, pois ela é a base do
cálculo do ganho de informação e, portanto, essencial para que possamos
avançar. O primeiro passo é conhecermos a fórmula da entropia:

Sempre quando temos uma equação que não conhecemos o primeiro passo é
descobrir o que cada um dos símbolos significa:
Basta seguir o exemplo acima e você irá conseguir calcular a entropia de qualquer conjunto de dados ou de qualquer atributo.
No próximo post iremos ver como é possível calcular o ganho de informação de um conjunto, iremos conhecer a fórmula e fazer também um passo a passo detalhado para que todos possam entender e conseguir aplicar a seus problemas ou até mesmo implementar uma solução.
= Representa o conjunto de dados que queremos calcular a entropia.
= É a quantidade de possíveis valores, que os registros presentes no conjunto a ser calculado podem assumir, no atributo que classifica a base de dados.
= É a probabilidade, de cada um dos possíveis valores que o atributo que classifica a base de dados, aparecer no conjunto em que será calculada a entropia.
= Esse símbolo representa um somatório, que é uma operação matemática que soma os valores informados a ela n vezes.
= É a variável de inicialização, imagine que essa variável funcione como a primeira parte de um for.
= Esse símbolo representa um logaritmo na base dois.
- Considere o seguinte conjunto de dados:
- Temos agora a equação:
= Portanto temos que quando o valor de
for igual a um
será igual a probabilidade de um registro com o atributo "Aproveitar" conter o valor "Sim".
= Nesse caso temos que quando o valor de
for igual a dois
será igual a probabilidade de um registro com o atributo "Aproveitar" conter o valor "Não".
- Esse processo se repetiria, caso o atributo tivesse um
número maior de valores possíveis, até que o valor de
chegasse ao número de valores.
- Agora que sabemos o significado de
podemos expandir o somatório da seguinte forma:
-
- Sabemos pela tabela apresentada anteriormente que a quantidade de total de registro é de 4.
- Podemos observar que a quantidade de registros que a classificação é "Sim" são 3.
- Portanto a quantidade de registros com a classificação "Não" é de 1.
-
Após esse cálculo podemos novamente substituir alguns termos na equação
da entropia, nossa equação ficará da seguinte forma:
- Próximo passo é resolvermos o logaritmo:
- E agora que temos apenas operações básicas podemos calcular
o resultado final:

Devemos primeiro identificar qual o atributo que classifica a minha
base de dados, no caso do exemplo acima é o atributo "Aproveitar". A
segunda etapa é verificar quais valores o atributo classificatório da
base de dados pode assumir, para esse exemplo "Sim" ou "Não".
Apenas com esses dois passos já conseguimos saber o valor de uma das variáveis da equação
,
o valor atribuído
será 2, pois esse é o número de valores que o atributo
"Aproveitar" pode assumir.
Apenas com esses dois passos já conseguimos saber o valor de uma das variáveis da equação

Basta seguir o exemplo acima e você irá conseguir calcular a entropia de qualquer conjunto de dados ou de qualquer atributo.
No próximo post iremos ver como é possível calcular o ganho de informação de um conjunto, iremos conhecer a fórmula e fazer também um passo a passo detalhado para que todos possam entender e conseguir aplicar a seus problemas ou até mesmo implementar uma solução.
Nenhum comentário :
Postar um comentário