Departamento de Gobernanza, Administración Digital y Autogobierno

Extracción inteligente de contenido de documentos

Descripción

El algoritmo extrae de los documentos datos que son necesarios para la verificación del cumplimiento de requisitos de las solicitudes de ayudas para la rehabilitación de viviendas. Utiliza Deep Learning con Transformers (BERT y LayoutLM) de LayoutLM.
Organismo:
Vivienda y Agenda Urbana - Dirección de Planificación y Procesos Operativos de Vivienda.
Responsable:
Mario Yoldi Domínguez.
Contacto:
Datos de contacto.
Organismo o entidad responsable a nivel técnico:
EJIE - Soporte al Negocio.
Dominio:
Vivienda.
Estado del algoritmo o sistema:
Productivo.
Fecha de implantación:
2022
Socio/empresa proveedora:
Inetum / Vicomtech.

Más información

Con qué datos se está entrenando el sistema algorítmico y qué datos se procesan cuando está en uso.

Título del conjunto de datos URL (si es pública) Propósito de utilizar los datos en el modelo
Documentación relacionada con la rehabilitación de viviendas: presupuestos, honorario, escrituras, licencias, certificado, actas, facturas. No disponible públicamente. Extraer de los documentos datos que son necesarios para la verificación del cumplimiento de requisitos de las solicitudes de ayudas para la rehabilitación de viviendas.

Se explica de qué forma el sistema procesa automáticamente los datos de entrada para generar los resultados del modelo.

Tecnología utilizada:
La librería LayoutLMv3 (abre en nueva ventana) fue desarrollada por un equipo de investigadores de Microsoft, incluyendo a Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei y Ming Zhou12.
Tipo de algoritmo:
Algoritmos de deep learning utilizados para la comprensión y procesamiento de documentos
Descripción del algoritmo:
LayoutLM (abre en nueva ventana) es una tecnología de deep learning que utiliza transformadores para la comprensión de imágenes de documentos. BERT (Bidirectional Encoder Representations from Transformers) es otro modelo de transformadores que se utiliza ampliamente en el
procesamiento del lenguaje natural (NLP). La librería LayoutLMv3 fue desarrollada por un equipo de investigadores de Microsoft, incluyendo a Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei y Ming Zhou12.
Código fuente y auditoría independiente:
Self-supervised pre-training techniques have achieved remarkable progress in Document AI

Se explica, si procede, si ha sido necesario implantar alguna medida para promover la igualdad y la no discriminación por motivos de edad, origen, nacionalidad, idioma, religión, creencia, opinión, actividad política, etc.

No procede porque no se utilizan datos de sesgo que puedan introducir prejuicios o desigualdades en los algoritmos de IA.

Se explica de qué forma las personas están al tanto o controlan el sistema, asegurándose de que no produzca efectos adversos o no deseados.

El sistema no tiene ningún grado de autonomía en la toma de decisiones porque la validación de los requisitos de las solicitudes se realiza por personas, y el sistema muestra la parte del documento de donde se ha extraído cada dato, para que puedan comprobar que es correcto.

Riesgos conocidos asociados con el sistema y los métodos utilizados para mitigarlos.

Entendemos que no hay riesgos asociados con el sistema y los métodos utilizados al ser procesos sin autonomía propia para la toma de decisiones sino de apoyo a los técnicos en dichas tareas. La validación de los requisitos de las solicitudes se realiza por personas de forma manual, y el sistema muestra la parte del documento de donde se ha extraído cada dato, para que puedan comprobar que es correcto.

Fecha de última modificación: