Estos tipos de algoritmos se denominan con esas siglas debido a su nombre Term Frecuency – Inverse Document Frecuency, lo que en español significa Frecuencia de Términos – Frecuencia Inversa de Términos. Es un sistema que se aplica en las bibliotecas digitales cuando realizan evaluaciones de texto o recuperación de información. Suele estar muy relacionado a la estrategia de contenidos de marketing digital debido a que es tomado en cuenta por los buscadores para posicionar.
Este sistema también es capaz de mostrar el porcentaje de palabras clave que es utilizado en un documento digital, de forma que puede ser determinante para evaluar si un sitio web es de valor para el usuario.
¿Qué es TF?
La frecuencia de términos se define precisamente como la cantidad de veces que se repite una keyword en el texto. La finalidad de este sistema es evaluar todos los posibles textos que puedan ser de ayuda para el usuario cuando hace una búsqueda en Internet, descartar los que no tienen un porcentaje adecuado y enumerar los que sí.
De esta forma, se puede decir que se trata de una tecnología muy avanzada, capaz de interpretar búsquedas más complejas para ofrecer una mejor experiencia al usuario. Es importante saber que el algoritmo se obtiene dividiendo el número que se repite la palabra clave en un texto entre el total de palabras.
¿Qué es IDF?
Por otro lado, la frecuencia inversa del documento es un conjunto matemático que determina el valor de un documento para disminuir el total de palabras clave utilizadas en el total de documentos existentes en un sitio web.
Este sistema fue creado para responder mejor a las búsquedas complejas. Por ejemplo, un usuario puede usar estas palabras clave al hacer una búsqueda en Google «Qué es el marketing digital», sin embargo, las palabras «qué», «es» y «el» suelen repetirse muchas veces en el texto, más de las deseadas.
Pero al utilizar la fórmula del algoritmo, las palabras clave más relevantes, es decir, «marketing» y «digital», son evaluadas según la cantidad de veces que se repiten en todos los documentos, para hacer un equilibrio entre esas palabras más utilizadas y las menos utilizadas. Para hacer esto, el algoritmo divide la cantidad de documentos en el sitio web, entre el total de documentos existentes con esas KW.