Guía para Elegir un Sistema de Voz en el Centro de Distribución

Los sistemas de voz en las operaciones de un Centro de Distribución (CeDis) son un método seguro de obtener eficiencias y mayor productividad. A qué gerente operativo no le encanta la idea de dotar a cada trabajador de piso con un asesor computarizado que lo vaya guiando paso a paso, con instrucciones habladas, explicando exactamente qué hacer, a dónde ir, cuántas cajas mover, de qué producto, y a dónde llevarlas. Mientras el trabajador recorre los pasillos del CeDis, simultáneamente mantiene actualizado el sistema informático en tiempo real, sin necesidad de hacer pausas para manipular una terminal RF. Efectivamente, el trabajador aprovecha la totalidad de su tiempo en la actividad prioritaria del CeDis: el movimiento de mercancías.

El resultado es que los niveles de productividad se elevan en promedio desde 10% hasta 30% – comparado con otros sistemas automatizados-. Otros beneficios incluyen la eliminación de pagos de horas extras, y la reducción de tiempo de entrenamiento de personal nuevo, entre otros.

Bajo este escenario de beneficios operativos contundentes, ¿por qué hasta ahora no se ha aprovechado la tecnología de voz en más procesos del CeDis?

La respuesta es simple. Las soluciones legadas de tecnología de voz inhiben el uso del escáner como método de captura de códigos de barras. Sin embargo, cualquier gerente logístico sabe que los códigos de barras son la médula espinal de la operación de su WMS. Es impensable un almacén sin códigos de barras. Por eso es urgente difundir la existencia de tecnologías más modernas de voz; tecnologías que superan la obsolecencia de los sistemas legados. En un sistema moderno las tecnologías de voz, códigos de barras, y RFiD coexisten.

Este artículo explica a grandes rasgos la arquitectura de los sistemas legados, a los que llamaremos Soluciones Dedicadas, y la arquitectura de los sistemas modernos, a los que llamaremos Soluciones Multi-Modales.

Posteriormente presentaré una tabla que sintetiza ventajas y desventajas de cada arquitectura en aspectos de tiempo y costos de implementación.

Sistemas de Voz Multi-Modales

Los sistemas de voz multi-modales reutilizan la infraestructura de automatización existente en el almacén. Se denominan multi-modales porque la voz simplemente se añade a las múltiples modalidades de captura de una terminal colectora de datos, desde el tradicional lector de códigos de barras, pasando por el teclado físico y la pantalla táctil, hasta las antenas móviles RFiD. El concepto de reutilización debe entenderse no sólo en la terminal colectora de datos, sino también en el resto de los componentes de la arquitectura, especialmente en la lógica de procesos de los sistemas informáticos. Revisemos primero la arquitectura de un sistema tradicional de automatización del CeDis (WMS) basado en código de barras, ilustrado en el diagrama 1.

Diagrama 1 - Arquitectura básica de WMS

Diagrama 1 – Arquitectura tradicional de WMS

Los 3 elementos básicos ilustrados en la arquitectura WMS tradicional son:

  1. el sistema WMS (representado por simplicidad con 3 procesos únicamente),
  2. la red inalámbrica, y
  3. las terminales colectoras de datos.

En una arquitectura tradicional, la mayoría de las terminales colectoras de datos funcionan con “clientes delgados” basados en protocolos de conectividad telnet, SSH, ó HTML/TCP. La lógica de los procesos reside enteramente en el servidor del WMS. En el diagrama 1, por ejemplo, se ilustran en círculos de colores los procesos de recibo, abasto, y surtido. El proveedor del WMS es el responsable de implementar los flujos de trabajo en toda su extensión, complejidad, y variaciones requeridas. Por ejemplo, el WMS resuelve si el surtido se hace por pieza ó bultos ó tarima completa; si las mercancías se acomodan por peso o talla; si se hace cruce de anden; si se embarca por tienda o por ruta, etc.

Para ejemplificar cómo moderniza un sistema multi-modal de voz a un sistema tradicional WMS considere la figura 1. Antes de añadir voz a su terminal, el trabajador consultaba en su terminal a qué ubicación trasladarse, en este caso presentada en el renglón 2 de la pantalla negra en la esquina de la figura 1. Después confirmaba su posición mediante el escaneo de la etiqueta pegada en dicha ubicación. Finalmente confirmaba el número de piezas que había recogido de esta posición mediante el ingreso por teclado de la cantidad señalada –“27” en este caso-. El WMS resolvía las excepciones y validaciones, por ejemplo, cuando un producto no existe en la ubicación, o no en la cantidad solicitada.

Figura 1 - sistema multi-modal en CeDis

Figura 1 – sistema multi-modal en CeDis

Con un sistema de voz multi-modal, el trabajador utiliza la misma terminal colectora de datos, mejorada con software de conversion de texto-a-voz-a-texto, más un auricular. Así, en lugar de leer la ubicación del renglón 2 de la pantalla, escucha la ubicación. En lugar de leer la cantidad a surtir, la escucha. En lugar de oprimir las teclas 2, 7, y Enter, pronuncia los números. La figura 1 también ilustra la flexibilidad que otorga a los procesos utilizar un sistema multi-modal de captura de datos. Por ejemplo, el trabajador podría igualmente confirmar su posición por voz pronunciando los últimos dos o tres dígitos de la posición -“019” en la pantalla negra-, que continuar confirmando por lectura de código de barras -tal como observamos al trabajador-.

La arquitectura multi-modal permite, por lo tanto, transformar cualquier proceso basado en códigos de barras en un proceso asistido por voz. Si el tiempo y costo de implementación de voz es bajo, todos los procesos deberían ser mejorados con terminales multi-modales. Surtido es el más popular, pero el Recibo, Abasto, Inventario, y otros, no son menos importantes. En no pocas ocasiones me he topado con objeciones de gerentes logísticos de mejorar la velocidad del surtido por temor a ocasionar cuellos de botella en los procesos subsecuentes, como Preparación o Embarque.

En un sistema multi-modal de clientes ligeros como el de Wavelink, todos los flujos de trabajo del WMS pueden ser mejorados con asistencia de voz. Debido a que la lógica de los procesos ya existe en el WMS, así como todas las validaciones, excepciones, y variaciones, el sistema de voz únicamente es responsable de pronunciar con voz las instrucciones de la pantalla de la terminal -proceso conocido como “vocalizar pantallas”-. En retorno, el sistema también alimenta en el cursor los datos pronunciados por el trabajador. El nivel de complejidad del sistema de voz es mínimo. La robustez y escalabilidad de la solución es máxima, porque no es otra diferente que la del WMS.

Sistemas de Voz Dedicados

La arquitectura de un sistema de voz dedicado es una capa superpuesta a la infraestructura existente, con componentes “dedicados” exclusivamente a la operación con voz. El diagrama 2 ilustra en la derecha la infraestructura existente de una solución WMS, y en la izquierda los componentes “dedicados” a voz. Los componentes dedicados son los siguientes:

  1. Ambiente de diseño de flujos de trabajo operados con voz.
  2. Servidor transaccional (voice middleware)
  3. Conectores de datos
  4. Terminales dedicadas operadas por voz
  5. Red inalámbrica
Diagrama 2 - solución de voz dedicada

Diagrama 2 – solución de voz dedicada

A continuación describo brevemente los elementos de un sistema de voz dedicado.

Ambiente de Diseño de Flujos de trabajo operados por voz

El ambiente de diseño de flujos de trabajo permite reconstruir la lógica del proceso que será operado por voz. En el diagrama 2 el círculo verde representa la lógica de Surtido. El diseñador de la lógica del proceso debe recrear todas las excepciones y validaciones posibles que el proceso original goza en el WMS. Resulta evidente que la lógica entre el WMS y el sistema de voz termina duplicada, con un esfuerzo de desarrollo mayúsculo. Esto explica por qué, a lo largo de los años, los usuarios de los sistemas legados diseñados bajo esta arquitectura utilizan voz únicamente en un proceso. Típicamente Surtido (picking, en ingles). Esto explica también por qué la mayoría de los usuarios utiliza -incorrectamente- la expresión Voice-Picking para referirse a la tecnología de voz en el CeDis.

Servidor Transaccional

El servidor transaccional (voice middleware) es el responsable de ejecutar la lógica resultante del ambiente de diseño. El middleware interpreta los comandos de voz pronunciados por el trabajador, y ejecuta una acción puntual en el flujo de trabajo. El procesamiento de la voz en el servidor middleware permite mantener estadísticas de tiempos y errores conforme se ejecutan las tareas. En complemento al procesamiento de voz, el middleware también es el responsable de mantener y ejecutar la secuencia de instrucciones que se envían al trabajador por medio de la terminal de voz. El middleware sólo permite un número limitado de conexiones simultáneas de terminales de voz. Es necesario dimensionar cada servidor de acuerdo al número máximo de conexiones simultáneas, y añadir tantos servidores como la población total de terminales de voz lo requiera.

Conectores de datos

Los conectores de datos son esenciales para sincronizar las transacciones del middleware con el sistema WMS original. Algunos conectores de datos están pre-diseñados para actualizar directamente las bases de datos de algunos procesos selectos de sistemas WMS reconocidos; otros conectores se diseñan a la medida. En general, la idea es permitir la comunicación en dos sentidos entre las bases de datos del WMS original y el servidor de transacciones.

Terminales Dedicadas Operadas por Voz

Las terminales de voz dedicadas no ejecutan lógica de procesos. Transmiten voz, y pronuncian instrucciones. La ventaja de este diseño es que el tiempo de respuesta en la interacción entre terminal y middleware es muy rápido.

Red Inalámbrica

La red inalámbrica debe dimensionarse de acuerdo al número de terminales dedicadas que operarán de forma simultánea. La transmisión de voz por la red inalámbrica ocasiona una demanda mayor de ancho de banda disponible comparada con la requerida por los datos tipo texto que viajan por la red en soluciones multimodales.

Impacto de la Arquitectura en otros criterios de selección

En base al conocimiento de los componentes de cada arquitectura de soluciones de voz, es posible inferir las implicaciones de implementación en el resto de los criterios de selección. La tabla 1 condensa las implicaciones más relevantes de cada criterio por tipo de arquitectura.

  Sistema Multi-Modal Sistema Dedicado
Tiempo de Implementación Menor a 30 días por proceso. De 3 a 18 meses.
Costo de mantenimiento recurrente Bajo. Medido únicamente por el costo de mantenimiento del software de voz. Los componentes de red, WMS, y terminales de datos, aunque también acarrean un costo de mantenimiento, éste es erogado haya o no haya sistema de voz. Muy Alto. Todos los componentes de la solución son nuevos, por lo tanto suman al costo de mantenimiento: server, terminales, software. El costo de reparación de las terminales dedicadas es significativamente más alto, y más tardado, que el de las terminales colectoras de datos, debido a la diferente economía de escala entre ambos tipos de terminal.
Costo de expansión a nuevos procesos Bajo. Debido a que el tiempo de implementación es corto, las horas-hombre de servicios profesionales son proporcionalmente menores. Alto. Basado en el número de horas-hombre de servicios profesionales requeridos para implementar nuevos procesos.

Conclusión

La arquitectura de sistemas de voz dedicados muestra una inequívoca señal de envejecimiento. La tecnología que hace 10 años era novedosa, hoy claramente se ha estancado y no ofrece una solución escalable a niveles empresariales. La operación de una solución basada en tecnología obsoleta ocasiona altos costos de mantenimiento. Los proveedores de soluciones legadas de voz están haciendo esfuerzos visibles para migrar sus soluciones a la arquitectura multi-modal. La arquitectura de sistemas de voz multi-modal consigue eficiencias operativas a lo largo de todo el espectro de procesos del WMS, al mismo tiempo que obtiene beneficios financieros de rápido retorno de inversión, bajos costos de mantenimiento, reutilización de activos de alto valor, y extensión de la vida útil de los sistemas de misión crítica.

Escribe tus comentarios

Por favor, inicia sesión con uno de estos métodos para publicar tu comentario:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s