Extracción inteligente de contenido de documentos

Catálogo de algoritmos y sistemas de Inteligencia Artificial del Sector Público de la CAE

Descripción

El algoritmo extrae de los documentos datos que son necesarios para la verificación del cumplimiento de requisitos de las solicitudes de ayudas para la rehabilitación de viviendas. Utiliza Deep Learning con Transformers (BERT y LayoutLM) de LayoutLM.

Organismo:

Vivienda y Agenda Urbana - Dirección de Planificación y Procesos Operativos de Vivienda.

Responsable:

Mario Yoldi Domínguez.

Contacto:

Datos de contacto.

Organismo o entidad responsable a nivel técnico:

EJIE - Soporte al Negocio.

Dominio:

Vivienda.

Estado del algoritmo o sistema:

Productivo.

Fecha de implantación:

2022

Socio/empresa proveedora:

Inetum / Vicomtech.

Más información

Con qué datos se está entrenando el sistema algorítmico y qué datos se procesan cuando está en uso.

Título del conjunto de datos	URL (si es pública)	Propósito de utilizar los datos en el modelo
Documentación relacionada con la rehabilitación de viviendas: presupuestos, honorario, escrituras, licencias, certificado, actas, facturas.	No disponible públicamente.	Extraer de los documentos datos que son necesarios para la verificación del cumplimiento de requisitos de las solicitudes de ayudas para la rehabilitación de viviendas.

Se explica de qué forma el sistema procesa automáticamente los datos de entrada para generar los resultados del modelo.

Tecnología utilizada:

La librería LayoutLMv3 fue desarrollada por un equipo de investigadores de Microsoft, incluyendo a Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei y Ming Zhou12.

Tipo de algoritmo:

Algoritmos de deep learning utilizados para la comprensión y procesamiento de documentos

Descripción del algoritmo:

LayoutLM es una tecnología de deep learning que utiliza transformadores para la comprensión de imágenes de documentos. BERT (Bidirectional Encoder Representations from Transformers) es otro modelo de transformadores que se utiliza ampliamente en el
procesamiento del lenguaje natural (NLP). La librería LayoutLMv3 fue desarrollada por un equipo de investigadores de Microsoft, incluyendo a Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei y Ming Zhou12.

Código fuente y auditoría independiente:

Self-supervised pre-training techniques have achieved remarkable progress in Document AI

Se explica, si procede, si ha sido necesario implantar alguna medida para promover la igualdad y la no discriminación por motivos de edad, origen, nacionalidad, idioma, religión, creencia, opinión, actividad política, etc.

No procede porque no se utilizan datos de sesgo que puedan introducir prejuicios o desigualdades en los algoritmos de IA.

Se explica de qué forma las personas están al tanto o controlan el sistema, asegurándose de que no produzca efectos adversos o no deseados.

El sistema no tiene ningún grado de autonomía en la toma de decisiones porque la validación de los requisitos de las solicitudes se realiza por personas, y el sistema muestra la parte del documento de donde se ha extraído cada dato, para que puedan comprobar que es correcto.

Riesgos conocidos asociados con el sistema y los métodos utilizados para mitigarlos.

Entendemos que no hay riesgos asociados con el sistema y los métodos utilizados al ser procesos sin autonomía propia para la toma de decisiones sino de apoyo a los técnicos en dichas tareas. La validación de los requisitos de las solicitudes se realiza por personas de forma manual, y el sistema muestra la parte del documento de donde se ha extraído cada dato, para que puedan comprobar que es correcto.

Fecha de última modificación: 04/02/2025

Gobernanza de los datos

Descripción

Más información