Saturday, February 14, 2009

Algunas comentarios en el Algoritmo del Vecino K más cercano

El algoritmo del vecino K más cercano es un algoritmo muy eficaz que es usado en muchos problemas prácticos.
Aun cuando existan ejemplos de entrenamiento que tengan ruido,este algoritmo resulta ser bastante robusto . Además puede ser bastante effectivo si se le da un conjutno de entrenamiento lo suficientemente grande. Esto tiene sentido, si recordamos que este algoritmo clasifica a un elemento X dependiendo de como es la clasificación que poseen la mayoría de los vecinos cercanos, por ende se puede suavizar el impacto de un ejemplo de entrenamiento que tenga ruido.

Una cierto "prejuicio" que se tiene en este algoritmo, es que se asume que la clasificación de un elemento x, será muy similar a la clasificación elegida para otros elementos que están cercanos a x.

Ahora bien, otra cosa interesante que hay que considerar de este algoritmo, es que la distancia entre elementos se calcula con base en todos los atributos que poseen. Aunque puede surgir aquí un pequeño inconveniente, ya que, ¿Qué sucedería, si de los 20 atributos solamente 2 son relevantes para la clasificación?
En este caso, es claro que se podrían tener dos elementos cuyos 2 relevantes atributos sean iguales, mas por los demás atributos que poseen,podrían estos elementos estar muy separados entre si. Lo cual haría que este algoritmo fuera bastante "engañoso". Lo que determinaría la distancia entre vecinos, serían los numerosos atributos irrelevantes que los elementos poseen. A esto, se le suele llamar, La maldición de la dimensionalidad!


Un modo para solucionar esto es:
Cuando se está calculando la distancia en la que están dos objetos, se deberá dar un peso differente a cada atributo, esto es, darle prioridad a los atributos de interés, la multiplicación de una constante grande por los atributos de interés, y la multiplicación de una constante pequeña por los atributos menos relevantes, hace esto posible.

No comments: