1. Introducción
A continuación se recoge información sobre las tareas de recopilación y limpieza de datos realizados para preparar los datos que se usaron en el workshop “Visualizar datos abiertos” que se impartió dentro de las jornadas “Datos abiertos y ciudadanía” celebradas en noviembre de 2019 en Tabakalera.
El objetivo es aprender a localizar, descargar, preparar y visualizar datos disponibles en plataformas de datos abiertos.
A fin de crear un ejemplo lo más real posible, vamos a trabajar con una serie de indicadores turísticos desarrollados por la Dirección General de Mercado Interior, Industria, Emprendimiento y Pymes de la Comisión Europea, disponibles en “El Sistema Europeo de Indicadores Turísticos. Herramienta del ETIS para la gestión de destinos sostenibles” (ISBN: 978-92-79-55232-8).
- “El ETIS contiene 43 indicadores básicos y un conjunto de indicadores complementarios” (p.13)
- “Los indicadores básicos recopilan la información fundamental, clave o inicial que un destino necesita para comprender, supervisar y gestionar su rendimiento.” (p. 22)
- “El ETIS incluye, por tanto, la oportunidad de analizar indicadores complementarios que se añaden a la información básica proporcionada y permiten a los destinos adaptar el sistema para que dé respuesta a sus necesidades específicas o a su categoría de destino —por ejemplo, montaña, destino urbano, costero, islas o zonas urbanas—, así como adoptar planteamientos coordinados y dimensiones macrorregionales o transnacionales.” (p.22)
Algunos de estos indicadores los ofrecen directamente instituciones como Eustat (por ejemplo el “B.1.1 Número de pernoctaciones turísticas por mes” o el “B.2.1 Duración media de la estancia de los turistas (noches)”), a través de la “Encuesta de establecimientos turísticos receptores” (ver ficha metodológica).
Sin embargo, hay otros indicadores que no podemos recoger directamente de una única tabla de Eustat, pero que podremos calcular si combinamos esos datos con los datos provenientes de otras tablas y/o fuentes. Por ejemplo, en la “Sección C: Impacto social y cultural” podemos encontrar estos dos indicadores (entre otros).
- C.1 Impacto social/comunitario
- Indicador básico C.1.1
Número de turistas o visitantes por 100 habitantes
- Indicador complementario C.1.3
Número de camas disponibles en los establecimientos de alojamiento comercial por cada 100 habitantes
Si atendemos a la definición original de los indicadores disponible en el documento de la Universidad de Surrey (2013), “European Tourism Indicator System For Sustainable Destinations. Detailed Indicator Reference Sheets”, encontramos la forma de calcular estos dos indicadores:
- C.1.1: "Total number of tourists* average length of stay/total residents*365/100".
- C.1.3: (C.1.1.2 en el documento de 2013): “Total number of visitor beds in commercial accommodation ÷ total number of residents * 100 = Number of available beds per 100 residents”.
Para cálcular estos indicadores necesitamos, por tanto, los siguientes datos:
- Número de turistas
- Estancia media
- Número de habitantes
- Número de camas disponibles en los establecimientos de alojamiento comercial
Además, para poder realizar un estudio lo más detallado posible nos interesa tener en cuenta al menos otros dos aspectos complementarios (que no vienen dados en el cálculo de los indicadores, pero podremos utilizar para realizar análisis a distintos niveles de agregación):
- Ámbito geográfico: a qué municipio, comarca, provincia… se refieren los datos.
- Ámbito temporal: a qué periodo hacen referencia los datos.
1.1 Fuentes de datos
Vamos a obtener los datos de dos fuentes principales:
- Eustat (Euskal Estatistika Erakundea).
- Open Data Euskadi (datos abiertos del Gobierno Vasco).
Puede ser que en algunos casos encontremos datos similares en fuentes distintas; si nos encontramos en esta tesitura, debemos comparar las características de cada fuente de datos (variables disponibles, metodología de recopilación, actualización de los datos…) para decidir cuál de las fuentes utilizar.
A continuación describimos algunos de los conjuntos de datos que podemos encontrar en estas fuentes y que podremos usar para calcular los indicadores turísticos mencionados en el punto anterior.
1.1.1 Eustat
Para saber qué fuentes de datos de Eustat utilizar, conviene echar un vistazo a las definiciones de las variables:
- Entradas: Número de personas que se registran en el establecimiento durante el periodo de referencia. Las entradas se clasifican según el lugar de residencia.
- Pernoctaciones: Se entiende por pernoctación, o plaza ocupada, cada noche que un viajero se aloja en el establecimiento. Al igual que en las entradas de viajeros, las pernoctaciones se desglosan según el lugar de residencia.
- Plazas ofertadas: Camas ofertadas, con independencia de que hayan sido o no utilizadas en el periodo de referencia por el establecimiento. Expresa la capacidad de alojamiento del establecimiento y equivale al número de camas fijas de que disponen, no incluyendo las supletorias.
- Por mes: Es la suma de las plazas diarias en el periodo de referencia
- Por día: Resultado de dividir las plazas ofertadas en el periodo de referencia entre los días del citado periodo.
Para calcular el indicador C.1.1 necesitamos el número de turistas y la estancia media. Sin embargo, la variable Pernoctaciones ya tiene en cuenta que una misma persona pase más de una noche, así que usaremos esta variable.
1.1.1.1 Pernoctaciones
- Entradas, pernoctaciones y grados de ocupación en establecimientos hoteleros de la C.A. de Euskadi por zona geográfica, categoría (agregada), día de la semana y mes (definición de “zona geográfica”; ). Realizaremos la siguiente consulta:
Variable
: en este caso seleccionaremos Pernoctaciones, ya que este valor responde al cálculoTotal number of tourists* average length of stay
.Zona geográfica
: seleccionamos las zonas geográficas de la CAPV (son las que están antecedidas por dos guiones --).categoría
: Total (no necesitamos separar)día de la semana
: Total (no necesitamos separar)periodo
: seleccionamos todas las opciones
Sobre el ámbito geográfico de los datos, la variable zona geográfica
nos permite obtener datos a nivel de zona geográfica, territorio histórico o comunidad; la zona geográfica
es una división establecida para analizar el turismo en Euskadi:
- Agrupación de municipios de un territorio histórico de la C.A. de Euskadi con características comunes y de interés turístico que sirve para clasificar el destino de los viajeros de los datos estadísticos obtenidos en esta encuesta.
Sin embargo, esta división no se utiliza en otros estudios del Eustat, por lo que necesitaremos alguna forma de poder añadir esta variable en aquellos conjuntos de datos que no cuentan de ella. Para ello, usaremos el documento que contiene el listado de los municipios que conforman cada zona geográfica.
Hacemos la misma consulta para las series “Entradas, pernoctaciones y grados de ocupación en alojamientos rurales de la C.A. de Euskadi por zona geográfica, día de la semana y mes”.
En el caso de los apartamentos turísticos, la serie de datos Entradas, pernoctaciones y grados de ocupación en apartamentos de la C.A. de Euskadi por territorio histórico, día de la semana y mes es algo diferente a las anteriores ya que a) está a gregada a nivel de territorio histórico y b) solo dispone de datos desde 2016. Podemos decidir no incluir estos datos o incluirlos cuando sea posible; en ambos casos, deberemos indicar esta circunstancia para que el usuario pueda interpretar correctamente los datos.
1.1.1.2 Plazas ofertadas
Las plazas ofertadas también están separadas en distintas tablas (si queremos obtener el nivel de detalle zona geográfica
):
- Establecimientos hoteleros abiertos en la C.A. de Euskadi, habitaciones ofertadas por día, plazas ofertadas y personal por zona geográfica, categoría (agregada) y mes
- Alojamientos rurales abiertos en la C.A. de Euskadi, habitaciones, plazas ofertadas por día, y personal por zona geográfica y mes
- Apartamentos turísticos abiertos en la C.A. de Euskadi, plazas ofertadas y personal por territorio histórico y mes (tenemos las mismas limitaciones que hemos mencionado al hablar de las pernoctaciones en apartamentos turísticos).
1.1.1.3 Población
En este caso, la consulta es más simple, ya podemos recoger los datos de una única tabla:
- Población de la C.A. de Euskadi por ámbitos territoriales, unidad, grandes grupos de edad cumplida, sexo y periodo: obtendremos los datos para los municipios de la CAPV, unidad
personas
(para obtener valores absolutos); no nos hace falta desagregar las variablesgrandes grupos de edad cumplida
ysexo
, por lo que seleccionamos la opciónTotal
en ambos casos; y enperiodo
, seleccionamos los valores de 2011 a 2019 (los datos de entradas de turistas del punto anterior están disponibles a partir de 2011).
1.1.2 Open Data Euskadi
En el portal de Open Data Euskadi disponemos de datos adicionales que pueden enriquecer nuestro análisis
- Alojamientos turísticos de Euskadi (actualización diaria desde 25/03/2010): el conjunto de datos ofrece detalle de cada alojamiento turístico de Euskadi a nivel individual, por lo que disponemos, entre otras cosas, del municipio en el que se encuentra cada alojamiento. Este nivel de agregación es más interesante que el de Eustat, pero a nivel temporal no dispone de series históricas, sólo disponemos de la lista de alojamientos existentes en el momento en el que realizamos la consulta.
Si quisieramos mantener este nivel de detalle, deberíamos encargarnos de descargar una copia cada mes y crear un archivo que fuera acumulando los datos con las transformaciones necesarias para poder cruzar estos datos con los de Eustat.
- Indicadores municipales de sostenibilidad: Plazas de alojamiento turístico (‰ habitantes) (anual desde 12/07/2018): se trata del segundo indicador ya calculado, pero con algunas observaciones:
- El cálculo es por 1000 habitantes, no por 100 (como se define en ETSI).
- Los datos son anuales, pero sólo tenemos los datos de 2017 para la última década.
- No están a nivel de zona geográfica, pero como están a nivel de municipio podemos pasar al otro nivel sin problema.
A pesar de que el indicador ya está calculado, no vamos a usar esta fuente de datos ya que únicamente cuenta con valores para el año 2017 y están agregados a nivel de año.
- Límites Administrativos del País Vasco (Fecha de actualización 04/02/2014): archivos espaciales para poder visualizar los datos en forma de mapa.
2. Nivel de agregación de los datos
Los datos que hemos recogido tienen campos comunes pero con diversos niveles de agregación. Los distintos niveles de agregación pueden afectar a los cálculos que hagamos más adelante en Tableau Desktop, por lo que conviene tener muy claro cuáles son dichos niveles de agregación:
Fuente de datos | Ámbito espacial | Ámbito temporal |
Pernoctaciones y plazas (EUSTAT) | Zona geográfica | Año y mes |
Población (EUSTAT) | Municipio | Año |
Limites administrativos (Open Data Euskadi) | Municipio | NC |
Alojamientos (Open Data Euskadi) | Municipio | NC |
- La “zona geográfica” es una variable que se utilizan en la Encuesta de Turismo Receptivo, pero no en otros estudios de Eustat, donde los municipios se agrupan por comarcas. Dado que las comarcas y las zonas geográficas no concuerdan, tal y como se ha mencionado anteriormente tendremos que utilizar el archivo
zonas_geo_hoteles_c.xls
, que lista las asignaciones de municipios por zonas geográficas, a modo de archivo intermedio. Estas son las diferencias principales entre comarcas y zonas geográficas: - Parte de los municipios
Urola Kosta
yDeba Behea
están en la zona deGipuzkoa Kosta
, mientras que otra parte están enGipuzkoa interior
. - Donostia forma parte de la comarca de
Donostialdea
, pero es una zona geográfica independiente. - Algunos municipios y zonas de Gipuzkoa no aparecen en la zonificación geográfica:
Bidania-Goiatz
: se asigna a Gipuzkoa interiorEnirio-Aralar
: se asigna a Gipuzkoa interiorGipuzkoa eta Arabako Partzuergo Nagusia
: se asigna a Gipuzkoa interiorGipuzkoako Partzuergo Txikia
: se asigna a Gipuzkoa interiorIsla de los Faisanes
: se asigna a Gipuzkoa Kosta
- Algunos municipios del archivo de zonas geográficas no aparecen o son distintos en el archivo de municipios:
Bidegoian
no apareceEzkio-Itsaso
aparecen como dos municipios independientes.
- Para calcular los indicadores con los que vamos a trabajar necesitamos el número de habitantes, pero este conjunto de datos sólo ofrece datos anuales, y no mensuales. Esto no significa que no podamos trabajar a nivel de mes: tendremos que indicar a Tableau que reutilice la cifra anual en todos los meses.
- En el caso del archivo con los mapas de los municipios, tendremos que añadirles la zona geográfica para poder utilizarlos con los datos de pernoctaciones y plazas.
3. Resumen del flujo de limpieza de datos
Esta sección recoge un resumen de los pasos principales que debemos dar para preparar los datos.
1.Descargar los archivos en formato Excel.
NOTA: parece que la herramienta de Eustat tiene algún problema con la codificación de caracteres, ya que si se descargan los datos en formato *.csv
los editores de texto no detectan correctamente la configuración de caracteres. De hecho, también hemos tenido problemas al abrir con Excel los datos descargados en formato *.xlsx
; sin embargo, hemos podido abrirlos correctamente con LibreOffice.
2.Abrir los archivos con LibreOffice, descombinar celdas y eliminar las filas y columnas que no necesitamos.
Paso inicial: hay que eliminar las celdas combinadas (y replicar su contenido a las celdas originales)
Archivo etrm_03h.xlsx abierto con LibreOffice
Los datos que necesitamos aparecen marcados en rojo. Todo lo demás tiene que desaparecer.
Archivo con los datos necesarios. El resto de las transformaciones necesarias las realizaremos en Tableau Prep
3.Añadir los archivos a Tableau Prep.
4. Pivotar los anuales/mensuales.
Ejemplo de paso Añadir tabla dinámica
5. Normalizar los nombres de municipios en todas las fuentes de datos para poder combinarlas después.
Al obtener datos de fuentes distintas, es muy habitual que aunque recojan una misma variable no esté codificada de la misma forma. En el caso de los nombres de municipios, hemos detectado las siguientes diferencias. Cuando nos encontremos con este tipo de diferencias, tendremos que optar por una forma concreta y corregirla allí donde no coincida.
zonas geográficas (Eustat) | Alojamientos (Open Data Euskadi) | poblacion (Eustat) | Forma final |
---|---|---|---|
Alegría-Dulantzi | Alegría-Dulantzi;Alegría-Dulantzi | Alegría-Dulantzi | |
Antzuola | Antzuola;Antzuola | Antzuola | |
Arrazua-Ubarrundia | Arratzua-Ubarrundia | Arratzua-Ubarrundia | |
Bidegoian | Bidania-Goiatz | Bidania-Goiatz | Bidania-Goiatz |
Donostia-San Sebastián | Donostia / San Sebastián | Donostia / San Sebastián | Donostia / San Sebastián |
Donostia / San Sebastián;Donostia / San Sebastián | Donostia / San Sebastián | ||
Erriberagoitia/Ribera Alta Ribera Alta | Erriberagoitia/Ribera Alta | Erriberagoitia/Ribera Alta | Erriberagoitia/Ribera Alta |
Harana/Valle de Arana | Harana/Valle de Arana;Harana/Valle de Arana | Harana/Valle de Arana | |
Leintz-Gatzaga | Leintz Gatzaga | Leintz-Gatzaga | |
Moreda de Alava / Moreda Araba | Moreda de Álava/Moreda Araba | ||
Munitibar-Arbatzegi Gerrikaitz- | Munitibar-Arbatzegi Gerrikaitz | Munitibar-Arbatzegi | Munitibar-Arbatzegi Gerrikaitz |
Ribera Baja/Erribera Beitia | Erriberabeitia | ||
Salvatierra/Agurain | Agurain/Salvatierra | Agurain/Salvatierra | Agurain/Salvatierra |
Sopelana | Sopela | Sopela | Sopela |
Soraluze-Placencia de las Armas | Soraluze/Placencia de las Armas | Soraluze-Placencia de las Armas | |
Villabuena de Alava/Eskuernaga | Villabuena de Álava/Eskuernaga | Villabuena de Álava/Eskuernaga | Villabuena de Álava/Eskuernaga |
Aizarnazabal;Aizarnazabal | Aizarnazabal | ||
Artzentales;Artzentales | Artzentales | ||
Azpeitia;Azpeitia | Azpeitia | ||
Berriz;Berriz | Berriz | ||
Bilbao;Bilbao | Bilbao | ||
Eibar;Eibar | Eibar | ||
Getaria;Getaria | Getaria | ||
Leioa;Leioa | Leioa | ||
Lezo;Lezo | Lezo | ||
Loiu;Loiu | Loiu | ||
Mendexa;Mendexa | Mendexa | ||
Meñaka;Meñaka | Meñaka | ||
Mungia;Mungia | Mungia | ||
Orio;Orio | Orio | ||
Tolosa;Tolosa | Tolosa | ||
Vitoria-Gasteiz;Vitoria-Gasteiz | Vitoria-Gasteiz | ||
Zeanuri;Zeanuri | Zeanuri | ||
Zeberio;Zeberio | Zeberio | ||
Zestoa;Zestoa | Zestoa |
6. Combinar las fuentes de datos para añadir columnas faltantes (por ejemplo, añadir la zona geográfica a los datos de población o de alojamientos).
Ejemplo de combinación de columnas, con un error en la nomenclatura de municipios
Ejemplo de combinación de columnas, con un error en la nomenclatura de municipios
7.Dependiendo de qué dos fuentes queramos combinar, puede ser necesario tener que agregar previamente una de las fuentes (por ejemplo, en el archivo con los datos de alojamientos de Open Data Euskadi tenemos que agregar los datos a nivel de zona geográfica para poder compararlos con los de Eustat).
8.Exportar los datos limpios
4. Preparación de los datos con Tableau Prep
Flujo de trabajo final
4.1 Cargar archivos
Para cargar archivos de datos a Tableau Prep tenemos que proceder de forma similar a cómo lo haríamos con Tableau Public
Recomendamos añadir los conjuntos de datos que se necesitan estrictamente para definir un flujo de transformación de datos, e ir añadiéndo más conjuntos según se necesiten.
En nuestro caso, todos los archivos con los que vamos a trabajar con archivos *.xlsx que hemos descargado de Eustat u Open Data Euskadi, y a los que ya hemos eliminado las filas y columnas innecesarias (en este ejemplo, resulta más sencillo hacerlo directamente desde la aplicación de hojas de cálculo que desde Tableau Prep).
Trabajaremos con los siguientes archivos:
etrm_01h.xlsx
yetrm_01a.xlsx
: plazas por hoteles y plazas por alojamientos turísticosetrm_03h.xlsx
yetrm_02a.xlsx
: pernoctaciones por hoteles y pernoctaciones por alojamientos turísticoszonas_geo_hoteles_c.xls
: fichero que nos permitirá añadir la zona geográfica a aquellos ficheros que carezcan de esta variable, usando el municipio como campo de unión.ep06b.xlsx
: población por municipios y añoalojamientos.xlsx
: datos obtenidos de Open Data Euskadi. Aunque no los vamos a usar para crear las visualizaciones, se muestra cómo deberían agregarse los datos de cara a cruzarlos con los de Eustat.
4.2 Unión de filas
Los archivos con los datos sobre pernoctaciones y plazas ofrecidas están divididos por tipo de alojamiento (los hemos recogido así para poder llegar a desagregar los datos a nivel de zona geográfica).
Dado que la estructura de variables es idéntica, realizamos una unión de filas para cada par de archivos.
Carga inicial de archivos y unión de filas
4.3 Pivotar años
Los archivos con información temporal no están estructurados siguiendo los principios tidy, ya que los valores de la fecha (año o año y més, dependiendo de la fuente) crean una columna cada uno de ellos. Para corregir la estructura, tenemos que pivotar los datos (la terminología de Tableau Prep puede resultar un tanto confusa en este caso, ya que a este tipo de acción le llama tabla dinámica
).
Al pivotar los datos, reduciremos una serie de columnas a dos únicas columnas:
- Los nombres de las columnas originales pasarán a ser un valor dentro de la primera columna creada
- Los valores de las celdas originales pasarán a ser un valor dentro de la segunda columna creada.
Para facilitar la transformación, podemos usar la funcionalidad Utilizar una búsqueda comodín para encontrar tablas dinámicas
, ya que en nuestro caso todas las columnas empiezan por 2v
(y solo las columnas que nos interesa pivotar cumplen esta condición).
4.4 Limpiar
4.4.1 Renombrar campos y valores
Cuando hemos unido los archivos por filas, obtenido una nueva columna que indica la procedencia de cada una de las filas de datos: Table Names
. Vamos a renombrar esa variable por un texto más descriptivo y, sobre todo, vamos a cambiar las cadenas de los valores, para que en lugar de indicar el archivo de procendencia, indiquen el tipo de alojamiento (los archivos de procendencia están separados precisamente por esa variable).
De esta forma, añadimos un paso genérico y renombramos la columna a Tipo de alojamiento
(en ambos flujos), los nombre de archivo que acaba por *h.xlsx
a Hoteles
y el que acaba por *a.xlsx
a Alojamientos rurales
.
NOTA: algunas de las tareas que vamos a mencionar pueden llevarse a cabo en distintos puntos del flujo de trabajo. Por ejemplo, podríamos hacer esta transformación después de unir estos dos flujos.
Renombramos variables y valores
4.5 Combinar columnas
4.5.1 Introduccióna join
Cuando queremos añadir variables que tenemos en una tabla a otra tabla (por ejemplo, añadir la zona geográfica
a la tabla con los datos de población) tenemos que usar una unión de columnas, conocida como join
.
Para realizar este tipo de unión, normalmente se necesitan dos variables, una en cada tabla, que contengan el mismo tipo de dato (por ejemplo, el DNI de una persona).
Sin embargo, partiendo de las dos mismas tablas el resultado de la unión depende de varios factores:
- Orden de las tablas
- Tipo de unión utilizado
- Número de veces que aparece un valor concreto en cada tabla: 0, 1 o más de una.
Teniendo en cuenta esos factores y los resultados que deseamos obtener, tendremos que configurar nuestras uniones de una forma u otra.
En los siguientes ejemplos encontramos varios casos:
- Pernoctaciones y plazas: en este caso, las dos tablas tienen prácticamente la misma estructura (mismo número y configuración de filas), tan solo hay una columna distinta. Lo que queremos en añadir la columna distinta de la segunda tabla a la primera tabla. Por tanto, tenemos varias variables que coinciden, y todos los valores se repiten varias veces. Por eso, para que al cruzar las tablas el número de filas no se dispare, tenemos que indicar varias condiciones de igualdad a la hora de combinar las tablas.
- Añadir zona geográfica a tabla con datos de población: en este caso, las estructuras de las tablas son distintas, pero tienen una variable en común: municipio. En este caso cada municipio solo puede pertenecer a una zona geográfica, y cada municipio solo aparece una vez en la tabla con las asignaciones de zonas geográficas.
Más información sobre los tipos de uniones de columna.
4.5.2 Combinar las variables pernoctaciones y plazas
En este caso la unión por columnas es algo más sencillas, ya que los dos ficheros originales tienen el mismo número de filas, y las mismas características.
Creamos una unión de columnas a partir de estos dos campos:
zona geográfica
Año-mes
Tipo de alojamiento
Si solo usaramos una variable para configurar la unión (opción que nos ofrece Prep por defecto) creariamos una estructura con más filas de las debidas, ya que ninguna de esas tres variables aparece una única vez.
Unión de columnas a partir de dos fuentes de datos con el mismo nivel de detalle
4.5.3 Combinar columnas para añadir zona geográfica
En esta sección vamos a combinar las columnas de dos fuentes que tienen distinta estructura:
- El archivo con la información sobre los municipios que forman cada zona geográfica tiene un total de 251 filas (una por municipio).
- El archivo con datos de población por municipio cuenta con 4769 filas, ya que previamente hemos pivotado el año (lo que nos da 251*19 filas, las 4769 ya mencionadas).
Lo que queremos es que a cada fila del archivo con datos de población se le añada la información sobre la zona geográfica (y, de paso, la de territorio histórico). En este caso la equivalencia es de 1 (es decir, cada municipio únicamente puede estar en una zona geográfica, y en un territorio histórico), por lo que las condiciones de unión serán algo más simples que en el punto anterior; en este caso, bastará con hacer una unión a la izquierda a partir del campo municipio
(siempre que la tabla a la izquierda sea la de datos de población, por supuesto).
Combinar columnas para añadir zona geográfica
En el ejemplo, hay algunos valores que no se han encontrado en ambas tablas. Como hemos indicado que tiene que ser una unión a la izquierda, Prep mantendrá todas las filas del archivo con datos de población, pero algunos de los municipios no tendrán asignada la zona geográfica, ya que su valor no aparece en la tabla de asignaciones de zonas geográficas.
Como ya hemos visto anteriormente, esto se debe a que los nombres de algunas de los municipios contienen erratas, que podemos limpiar antes de la unión para que todos los municipios coincidan.
Cambiar valores desde Mostrar panel de perfil
NOTA: para poder cambiar los valores, tenemos que hacerlo desde la vista Mostrar panel de perfil
; si lo intentamos desde Mostrar cuadrícula de datos
no podremos realizar ningún cambio.
4.6 Agregar datos (si fuera necesario)
En algunos casos, necesitaremos agregar los datos antes de poder combinarlos. Por ejemplo, si queremos añadir el territorio histórico a los datos de pernoctaciones y plazas, podemos usar el archivo de zonificación como puente. Sin embargo, en este archivo cada zona geográfica aparece repetida tantas veces como municipios la conformen, cuando realmente solo necesitamos una única fila por zona geográfica.
Podemos arreglar este problema agregando los datos antes de crear la unión.
Como observamos, seguimos teniendo problemas con los nombres de las zonas geográficas, que no coinciden en los dos flujos, por lo que los corregimos como ya hemos hecho con los municipios.
En el caso de los valores con esta estructura (--Bilbao
) podemos cambiarlos manualmente (si son pocos) o utilizar un campo calculado con una expresión regular que permite realizar todas las modificaciones automáticamente.
En el ejemplo se usa esta fórmula:
REGEX_REPLACE([zona geográfica], '^--','')
REGEX_REPLACE()
es una función para buscar y reemplazar en cadenas.- El primer parámetro indica en qué cadena hay que hacer la búsqueda y el reemplazo
- El segundo parámetro indica que hay que buscar dos guiones al inicio del texto (el signo ^ indica el inicio del texto).
- El tercer parámetro indica con qué texto hay que reemplazar los dos guiones. Como en este caso está vacio, equivale a borrar los dos guiones.
4.7 Exportar datos
Finalmente, no queda más que exportar los datos que ya hemos preparado para trabajar con Tableau Desktop.
Añadimos un paso de salida a cada flujo que nos interese.
Debemos indicar el formato de salida y la localización y nombre del archivo. Una vez hemos configurado la salida tenemos que ejecutar la acción (dependiendo del volumen de datos, las transformaciones que hayamos aplicado… puede llevar más o menos tiempo).
Cada vez que hagamos alguna modificación en el flujo de trabajo, o los datos originales sean actualizados, tenemos que acordarnos de volver a ejecutar la salida.
5. Documentación utilizada
- Dirección General de Mercado Interior, Industria, Emprendimiento y Pymes (Comisión Europea) (2016), “El Sistema Europeo de Indicadores Turísticos. Herramienta del ETIS para la gestión de destinos sostenibles” (ISBN: 978-92-79-55232-8)
- University of Surrey (2013): “European Tourism Indicator System For Sustainable Destinations. Detailed Indicator Reference Sheets”
Visualización de datos sobre indicadores de presión turística: cuadro de mando