Saltar al contenido principal
Power BI

Modelado frente a modelado en Power BI

Nivel: principiantes

El objetivo de este artículo es ayudarlo a comprender las diferencias entre dar forma a sus datos (usando Power Query) y modelar sus datos (usando las herramientas de modelado dentro de Power BI). Deberá hacer ambas cosas para crear un informe de Power BI sólido. Escribí este artículo por primera vez en septiembre de 2016 y ahora lo estoy actualizando para reflejar los últimos desarrollos en Power BI.

Las cuatro fases de un proyecto de BI de autoservicio

Me gusta pensar que un proyecto de BI de autoservicio tiene cuatro fases lógicas, como se muestra a continuación.

4-phases-of-self-service-bi-3333024

La imagen de arriba muestra la lógica flujo de datos desde la fuente hasta la entrega de informes finales. Si bien la imagen muestra que los datos fluyen de izquierda a derecha, la realidad es que cuando construye la solución, es probable que salte hacia adelante y hacia atrás a través de las diferentes fases de forma iterativa hasta que el trabajo esté terminado. Dos de las fases anteriores son parte del tema actual; Adquisición de datos (modelado) y Modelado de datos. Ambos son términos de BI de TI que los usuarios comerciales pueden o no haber escuchado antes.

Dar forma y modelar sus datos

La adquisición de datos mediante Power Query es donde se realiza el “modelado”, y el modelado de datos mediante el motor de Power BI Analysis Services es donde se realiza el “modelado”. Debe hacer ambas cosas para crear un buen informe de Power BI.

Definición de modelado

Dar forma es el proceso de extrayendo sus datos de la fuente, transformando los datos en la forma que necesita, y luego cargando en Power BI. Este proceso a menudo se conoce como ETL (extraer, transformar y cargar). La razón por la que me gusta la palabra dar forma es que describe claramente lo que está haciendo en este paso. El proceso de dar forma a sus datos incluye:

    • Reestructurar los datos provenientes de sus tablas de origen en tablas nuevas que cumplan con los requisitos de la base de datos de informes. La estructura de la tabla en una base de datos relacional rara vez (o nunca) es apropiada para Power BI. No caiga en la trampa de simplemente cargar lo que está en sus datos de origen.
    • Seleccionando solo las columnas y filas necesarias. Cargue todo lo que necesita y nada que no necesite. Es fácil hacer cambios más tarde si es necesario.
    • Agregar previamente los datos (si lo desea / necesita), aunque generalmente no lo recomiendo en la mayoría de los casos (siempre hay excepciones).
    • Nombrar / cambiar el nombre de las columnas y tablas para que sean fáciles de usar para empresas.
    • Cargando todo en la base de datos de Power BI (el modelo de datos).

Siempre que sea posible, es mejor hacer este trabajo de configuración dentro de las vistas en su base de datos relacional (si tiene una). Si esto no es posible por alguna razón, Power Query está ahí para hacer este trabajo por usted.

Definición de modelado

El modelado es el proceso de diseño la estructura de sus tablas de datos, edificio las relaciones entre sus tablas, y escritura medidas para extraer la información empresarial que necesita en sus informes.

El modelado de datos incluye:

  • Decidir qué datos carga y qué no carga.
  • Decidir en un esquema de tabla; ¿Es una mesa, dos mesas, muchas mesas? Siempre debe preferir un esquema en estrella si es posible.
  • Decidir qué nombres le da a las columnas y tablas
  • Decidir si sus tablas son anchas y cortas (muchas columnas) o largas y estrechas (menos columnas)
  • Unir tablas usando relaciones (cuando sea necesario)
  • Escribir la lógica empresarial en medidas para extraer el valor agregado de sus datos sin procesar.
  • Formatear correctamente las medidas y columnas para cumplir con los requisitos comerciales (por ejemplo, moneda, porcentaje, número apropiado de decimales)
  • Asignar buenos nombres comerciales a las medidas que describan con precisión lo que se está calculando.

Note arriba, que el la decisión sobre qué cargar es parte del modelado, pero el El proceso de estructurar los datos es parte de dar forma. Claramente, estos 2 conceptos están estrechamente relacionados y son mutuamente dependientes.

Quizás te interesa >>>  Funciones lógicas de Power BI DAX

Las cosas no siempre son claras

Una cosa que crea mucha confusión para los nuevos usuarios de Power BI es que hay al menos 2 formas de agregar columnas a sus datos. Puede agregar una columna usando Power Query o puede agregar una columna calculada usando DAX. Por supuesto que puede ser posible de una tercera forma; en su lugar, agregue los datos en la base de datos de origen. Independientemente del método que utilice, la decisión sobre si agregar la columna (o no), y qué debe estar en la columna, es una decisión de modelado de datos. Es discutible si el proceso de agregar realmente un columna calculada es modelar o modelar, pero lo pienso como tarea moldeadora.

Entonces, ¿cuál debo usar?

Entonces, hay 3 lugares en los que puede agregar una columna, entonces, ¿cuál debería usar? Bueno, depende de lo que estés intentando hacer. Mi consejo general sobre cómo agregar columnas a sus tablas es hacer el cambio lo más cerca posible de la fuente. Entonces, en orden de preferencia, debe:

  1. Agregue la columna en sus datos de origen (por ejemplo, su almacén de datos) con la ayuda de sus amigos de TI si es necesario.
  2. Agregue la columna usando Power Query en la carga de datos.
  3. Agregue la columna dentro de Power BI mediante una columna calculada.

Las razones de esta recomendación son las siguientes:

Si agrega la columna en la fuente, tendrá acceso a ella para sus necesidades de BI actuales, pero también para las necesidades de BI futuras y otros usuarios de BI.. Agregar la columna en la fuente proporciona la mayor reutilización, y si necesita hacer un cambio más adelante, será el menor mantenimiento. Sin embargo, la realidad es que a menudo no se puede agregar (o cambiar) en la fuente por varias razones, o al menos no se puede lograr que suceda rápidamente, por lo que a menudo esta no es una opción particularmente para el BI de autoservicio.

Si agrega la columna dentro de Power Query (o en la fuente), se cargará y comprimirá con todas las demás columnas durante la carga de datos. Esto normalmente significa una mejor compresión general de la tabla y, por lo tanto, un buen resultado para el modelo general. También mantiene todas las tareas de modelado juntas, lo que puede hacer que sea más intuitivo encontrar cosas y más fácil de mantener.

La razón más común por la que debe elegir agregar una columna calculada (usando DAX) es si necesita aprovechar partes existentes del modelo para crear los nuevos datos. Un ejemplo de Adventure Works aquí debería ayudar. Imagine que quiere clasificar a sus clientes en bandas, de ventas altas, ventas medias o ventas bajas. Necesita una nueva columna en su tabla de clientes (una decisión de modelado) para poder usar esa columna en una segmentación en uno de sus informes. Si intentara realizar esta tarea dentro de Power Query, sería bastante trabajo adicional. Tendría que calcular las ventas totales de cada cliente en Power Query, y eso requeriría que

  1. Cree una unión entre la tabla de clientes y la tabla de ventas
  2. Agregue previamente los datos de ventas de cada cliente
  3. Agrupe a los clientes en las bandas de tamaño utilizando la lógica empresarial que necesita.
  4. Agrega la columna (alta, media, baja).

El punto importante es que los elementos 1 y 2 anteriores probablemente ya existan en el modelo de datos en sí. En el caso de Adventure Works, el modelo ya tiene una tabla de clientes, una relación con la tabla de ventas y una medida que agrega las ventas. Estas características del modelo se pueden usar para agregar fácilmente la nueva columna calculada usando DAX. Entonces, en resumen, debe preferir una columna calculada cuando aprovecha la lógica de su modelo (medidas y relaciones) para que no tenga que repetir esta lógica dentro de Power Query.

Ahora, solo porque puedas, no significa que debas hacerlo. Por favor no caiga en la trampa de usar demasiadas columnas calculadas en lugar de escribir medidas. Hablo de eso aquí. Utilice columnas calculadas cuando las necesite; de ​​lo contrario, evítelas.

Envolver

Esperamos que esta explicación de la función de dar forma y modelado en Power BI le haya ayudado a aclarar algunas cosas. Si este artículo le resultó útil, es posible que desee consultar los otros artículos útiles en mi base de conocimientos aquí.

error: Atención: Contenido protegido.