viernes, 12 de febrero de 2010

INDIZACIÓN

Elaboración de índices ò estructura a los documentos, representación alterna a partir de las palabras clave ordenadas. En los SRI, permiten realizar operaciones de búsqueda, comparar documentos.

  • Archivos Invertidos: Mecanismo para identificar términos y palabras clave posición de caracteres-palabras, indexar una colección.

- Ocurrencias: Lista de apariciones de cada palabra.

  • Proceso de Marcado: Se realiza mediante una herramienta de Corpus Textual, es el Análisis lingüístico del conjunto de palabras clave del documento ej: TENK-TEXT, que contiene un icono Wordlisted, encargado de determinar el numero de veces en que se repite cada palabra.

- Concordancia: Análisis estadístico de las palabras antes y después de los términos (antecesor y predecesor)
- Palabras Vacías: No dicen nada ej.: lo, las, es, un… etc.
- Lematización: clasificación y eliminación de plurales, así facilitar la recuperación de la información.

lunes, 8 de febrero de 2010

ITEMS IMPORTANTES



  • Documento Estructurado: Limita sus componentes, estructura y campos.

  • Documento No estructurado: No tiene nivel de estructura, ni orden.

  • Documento semi estructurado: No tiene nivel de cumplimiento no posee certeza.
- Descriptor: Palabras normalizadas (Semánticas)

- Encabezamiento de Materia: Significado de las Palabras (Sintácticas)

- Palabras Clave: Extraer palabras de un texto expresadas por un lenguaje coloquial-natural ubicadas por la máquina.

- Etiqueta: Conjunto de las palabras que provienen de un texto, Lenguaje natural.

  • GEL – XML: Lenguaje estándar q soporta el intercambio de información “normalizar documentos” interconectados constantemente. Ej: codificación Word y Bloc de notas.