Subscríbase al boletin de noticias de OpenKM para estar informado

Sumarización de documentos

Ana CanteliEscrito por Ana Canteli el 14 de septiembre de 2018

Sin reparar en ello, gran parte de la información que leemos hoy en día son resúmenes de documentos. Titulares, actas de reunión, sinopsis de películas y series, editoriales de libros, pronósticos meteorológicos, boletines de prensa…. Además hay que tener en cuenta el impacto de las nuevas tecnologías en la producción y distribución de información. Pensemos sólo en internet; la cantidad de información en forma de documentos, imágenes, audios, vídeos que se produce día a día y que crece de forma exponencial. No es posible analizarla en su totalidad, de ahí que resulte especialmente interesante determinar cómo hacer un buen resumen de documentos, para utilizar esa información de forma adecuada y tomar buenas decisiones.

En gestión documental electrónica se utiliza la sumarización, que es un proceso que supone reducir un documento - más o menos largo - o un grupo de documentos, en un conjunto de palabras o párrafos que transmiten la idea principal del documento.

La norma internacional ISO 214:1976, traducida por AENOR como norma UNE 50-103-90 “Preparación de Resúmenes” nos indica que un resumen de documentos es la presentación abreviada y precisa de un documento, sin interpretación ni crítica y sin mención expresa del autor del resumen. Podemos resumir un texto, la imagen de una fotografía, un vídeo, audios, información en línea o hipertextos, un expediente o una serie documental.

Redactar un resumen es fácil. Lo difícil es redactar un buen resumen, por lo que lo importante es la calidad del resumen; que lo hará más o menos útil en un sistema de gestión documental. Por ejemplo, un resumen de texto propagandístico no aportará muchos conceptos principales para indizar, aunque haya sido un buen reclamo.

Las características de un buen resumen deberían ser las siguientes:

  • Brevedad: Se deben omitir datos preliminares o temas de conocimiento común.

  • Pertinencia: El resumen debe adecuarse al mensaje principal del documento, sin obviar o interpretar los datos.

  • Claridad y coherencia: Debe contener frases completas, dotadas de coherencia lineal y global.

  • Profundidad: Será diferente en función del tipo de resumen o de los diversos niveles de detalle que se persigan.

  • Consistencia lingüística: Un resumen de texto debe adaptarse a las pautas lingüísticas en uso y tiene que tener en cuenta las reglas morfológicas y sintácticas propias del idioma.

  • Proximidad cronológica: entre la edición del documento original y el resumen. El tiempo transcurrido entre la publicación del original y el resumen no debe ser excesivo, especialmente en ámbitos científicos y técnicos.

Además, el resumen de texto tiene otras utilidades: difundir la información, determinar la pertinencia, evitar la lectura del texto completo en documentos secundarios y ayudar a la búsqueda automatizada,  tal como dice la norma UNE 50-103-90:

  • Ayuda a determinar la congruencia: un resumen bien elaborado, capacita a los lectores para identificar de forma rápida y precisa el contenido de un documento y decidir si hay que leerlo en su totalidad.

  • Evita la lectura completa del texto en documentos. Un resumen bien elaborado, proporciona información suficiente sobre temas secundarios. Ahorra tiempo al usuario.

  • Ayuda en la búsqueda automatizada. Los resúmenes automatizados incorporados en los catálogos o directorios son muy útiles para:

    • Extraer términos de indización del texto, es decir, indizar a partir del resumen.

    • Hacer búsquedas de palabras clave que no se encuentran en el título.

Una de las soluciones aportadas por el procesamiento natural del lenguaje -  que es un campo de las ciencias de la computación, inteligencia artificial y lingüística, que estudia la interacción entre los ordenadores y el lenguaje humano - han sido los programas de resumen automático de texto, que actúan sobre textos, imágenes, páginas webs o correos electrónicos.

Los resúmenes multidocumento automatizados incorporados en los catálogos documentales, son muy útiles para mejorar técnicas de resumen: extraer términos de indización del texto, para búsquedas de palabras clave fuera del título, para servir de control bibliométrico y ayudar a la difusión a través de los servicios de alerta. El resumen es útil en dos fases: en los procesos de selección y adquisición que se da en la primera fase de recogida de documentación;  y de integración de la misma en el sistema de gestión documental y en la fase de salida, donde es un excelente instrumento de recuperación; por ejemplo a través del motor de búsqueda.

Los resúmenes pueden ser redactados por el autor del documento, un especialista en la materia, la editorial, un documentalista o un programa informático ( resumen automático de texto ); si bien en los entornos empresariales lo ideal sería contar con una o dos personas especializadas en la categorización, indización y sumarización, para que así la catalogación del repositorio documental sea uniforme.

La sumarización se puede decir que es un conjunto de diversos procesos y técnicas de resumen sobre un texto, entre los que se encuentran:

  • La selección de lo que es importante.

  • La omisión de lo que no lo es.

  • Generalización de lo particular a lo específico.

  • Identificación de estructuras generales o globales.

Existen dos enfoques principales a la hora de llevar a cabo el proceso de sumarización. El enfoque extractivo, donde se trabaja mediante métodos extractivos es decir, la selección de subconjuntos de palabras existentes, frases u oraciones del texto original para llegar a formar el resumen. Y el enfoque abstractivo, donde se construye una representación semántica interna y posteriormente se usan métodos abstractivos de generación y procesamiento natural del lenguaje, para crear un resumen que es cercano a lo que un humano podría generar. Además, dentro de la literatura destacan dos tipos particulares de sumarización, las cuales son usadas a menudo: la extracción de frases clave, cuyo objetivo es seleccionar palabras o frases individuales para etiquetar un documento. Y la sumarización de documentos -resumen multidocumento -, donde la meta es seleccionar oraciones enteras para crear un pequeño párrafo de resumen.

Por otro lado, encontramos distintos tipos de resúmenes, los cuales dependen del enfoque del programa de sumarización para realizar la misma. Destacan los resúmenes por relevancia de consultas -query relevant summaries- y los resúmenes de multidocumentos (generados por multi-document summarization).

Por ejemplo: imaginémonos que tenemos un software de resumen que contiene un algoritmo que extrae palabras clave de un texto. El documento puede contener a modo de etiquetas palabras clave destacadas, pero esto no suele ser lo habitual. Para seleccionar qué palabras son lo suficientemente importantes para considerarlas palabras clave, podemos contar con un tesauro - un diccionario controlado de términos - los cuales si aparecen en el texto, serán considerados términos clave, que formarán parte del resumen. Para mejorar el rendimiento del procesamiento natural del lenguaje, se trabajará no sólo con diccionarios de términos, sino también de sinónimos. Se puede trabajar con algoritmos que utilicen otro tipo de lógica para detectar las palabras clave; por ejemplo el número de veces que aparece un término; cuántas más veces se repita, más significativa será esa palabra respecto del resto de términos que contiene el texto. Otra lógica complementaria y aplicable para promover el aprendizaje profundo, podría ser la posición de ese término dentro del texto; si aparece en el primer párrafo, esa condición la hace palabra clave.

Los algoritmos pueden tener en cuenta, como medio de aprendizaje automático, a parte de la frecuencia y posición de las palabras clave, la relación con otros términos; es decir las aplicaciones de resumen automático de texto pueden trabajar sobre unigramas ( una sóla palabra ) brigramas ( 2 palabras ) trigramas ( 3 palabras ), lo que puede dar lugar a una selección más coherente de palabras clave relevantes, para la confección de un resumen; ya que se considera que las palabras que están más cerca unas de otras están relacionadas de forma significativa y se “recomiendan” mutuamente . Se pueden añadir condiciones suplementarias de aprendizaje automático; por ejemplo si la frase clave que contiene 3 palabras -trigrama- empieza por una palabra cuya primera letra está en mayúsculas, etc.

La sumarización de textos forma parte del aprendizaje automático y de la minería de datos. Cuando se prepara un algoritmo para que reconozca un patrón - machine learning -, ese esquema puede resultar también en un inconveniente. Si por ejemplo preparamos el algoritmo para la detección de frases clave de 3 palabras, obviará aquellas frases compuestas por 4 o más elementos, aunque sean relevantes.

Los sistemas y aplicaciones de sumarización hacen que la obtención de resúmenes se convierta en un proceso más rápido,- pueden procesar más documentos que un humano, por lo tanto son más productivos y más baratos - si bien la calidad de los resultados no es la óptima-. Los mejores procesos de sumarización de momento, no son los automáticos si no manuales - en los que una persona lee el documento y gracias a sus conocimientos, tanto lingüísticos como temáticos, realiza un resumen del contenido del documento - pero sí que se puede contar con el apoyo de aplicaciones que ayudan a realizar tareas de sumarización automática. El aprendizaje supervisado en la herramienta de resumen automático de texto, permite introducir modelos como ejemplos que muestran al sistema las técnicas de resumen más adecuadas, de modo que compara sus resultados, con los modelos. El supervisor, descarta las palabras clave incorrectas y el algoritmo de resumen va aprendiendo. Esto es en síntesis, el KEA (Keyword Extraction Algorithm) disponible en el sistema de gestión documental de OpenKM; donde se puede ejecutar manual o automáticamente.

Contacto

CAPTCHA ImageRefresh Image

Consultas generales

Open Document Management System S.L.

OpenKM en 5 minutos!