Ahora: Esperando a los Reyes Magos en el polideportivo de la UNAV.


Generador automático de tags

Estoy probando TagCloud para generar de forma automática etiquetas de los contenidos de eCuaderno a partir de la fuente RSS de posts completos.

Imprimir este post Imprimir este post   





10 comentarios

#1 F Polo el 5 Jul 2005 a las 10:5

Una herramienta precisa en este terreno, supondría cerrar el bucle de la categorización automática, que se ha iniciado con el uso de tags en diversos buscadores.
En del.icio.us se recomiendan tags (que es algo similar, con un último componente humano, quizá necesario y al mismo tiempo fuente de error o de falta de homogeneidad en el criterio).

Por mi experiencia en este terreno, sé que no es fácil conseguir que un robot “categorice” o “etiquete” un texto con la relevancia suficiente para que la utilidad sea alta. Lo más parecido son máquinas que aprenden a categorizar en un proceso previo donde una persona (con un criterio necesariamente subjetivo) enseña al robot.

#2 jlori el 5 Jul 2005 a las 10:5

Queda un largo camino por recorrer en esta materia, y es un asunto clave. Es cierto que, de momento, las herramientas son bastante rústicas.

#3 Enrique Dans el 5 Jul 2005 a las 11:5

Es interesante, lo había visto en algún sitio, y llevo tiempo buscando una herramienta así. Pero el hecho de que no reconozca los acentos y que no entienda el sentido de las palabras (no deduce preposiciones, artículos, pronombres, partículas comunes, formas verbales ni nada de nada) hace que el conseguir una lista de tags razonablemente buena se convierta en una tarea ímproba, porque todo eso hay que definirlo a nivel de lista de stop words, lo que me parece infumablemente pesado… Si alguien tiene una buena lista de stop words con todo lo común y me la pasa, estaría encantado, la verdad. Yo me acabo de hacer una con lo que se me ha ido ocurriendo, pero el resultado sigue sin convencerme mucho…

#4 cumic el 5 Jul 2005 a las 12:5

Con un sidebar tan largo como el tuyo, creo que es indispensable que pongas otra columna para descargar tanto contenido. Es un consejo ;)

#5 Ruben el 5 Jul 2005 a las 13:5

El problema Enrique es que en español no hay nada hecho (al menos que yo sepa), hay que hacerlo.
En inglés tienes muchos, yo suelo utilizar la lista de stopwords que tienen en SE World:
http://www.searchengineworld.com/spy/stopwords.htm

#6 Internet Política el 5 Jul 2005 a las 13:5

Mi etiqueta-nube

A través de eCuaderno me enteré de este servicio y lo acabo de añadir a un lado de esta bitácora, debajo del archivo por categorías. A través del RSS, TagCloud descubre los términos más utilizados en el weblog y hace…

#7 Pablo Martínez-Almeida el 5 Jul 2005 a las 15:5

Idea (posiblemente ingenua) que me viene a la cabeza: ¿Y no se podría hacer (la lista de ’stop words’) mediante un wiki o similar?

#8 aly el 7 Jul 2005 a las 02:7

Mmm, interesante Jose Luis, yo tengo un plugin para generarlas en WP pero es manual, este sistema me parece bueno con la restricción de que se come los acentos y las eñes.
Por cierto seas bienvenido a México voy a tratar de hacerme un espacio e ir a la conferencia. :)

#9 F Polo el 8 Jul 2005 a las 10:8

Rubén, aunque en español esté todo un poco más en mantillas, hay más cosas hechas de las que parecen.
Una lista de stop words en español:
http://mat.uls.cl/CMSdev/15/602457.html

También existen muchas taxonomías de libre uso en la Red. Pero las taxonomías creo que no sirven aquí.

El problema es que aún con las stop words, las etiquetas generadas no son relevantes (un x%). Porque la relevancia es un concepto asociado a la mente humana, no a la de un robot.

Por ahora, creo que la “etiquetización” manual sigue siendo mejor.

#10 Sonia el 8 Jul 2005 a las 18:8

Pues con Serendipity, que acabo de hacer mi web de alumnos tiene un plugin de tags bastante apañadito y que estoy empezando a usar. Es manual,va guardando etiquetas y resulta muy cómodo de usar.

Saludos.

Escribir un comentario



Entradas (posiblemente) relacionadas