Scripting: Programación de Alto Nivel para el Siglo XXI

John K. Ousterhout

Tcl Developer Xchange
2593 Coast Ave.
Mountain View, CA 94043

(Este artículo aparece en la revista IEEE Computer, marzo de 1998)

Resumen
Los lenguajes de scripting como Perl y Tcl representan un estilo de programación muy diferente al de los lenguajes de programación de sistemas como C o JavaTM. Los lenguajes de scripting están diseñados para "unir" aplicaciones; utilizan enfoques sin tipos para lograr un nivel más alto de programación y un desarrollo de aplicaciones más rápido que los lenguajes de programación de sistemas. Los aumentos en la velocidad de las computadoras y los cambios en la mezcla de aplicaciones están haciendo que los lenguajes de scripting sean cada vez más importantes para las aplicaciones del futuro.

Palabras clave: marcos de componentes, programación orientada a objetos, scripting, tipado fuerte, programación de sistemas.

1 Introducción

Durante los últimos quince años ha ocurrido un cambio fundamental en la forma en que las personas escriben programas de computadora. El cambio es una transición de lenguajes de programación de sistemas como C o C++ a lenguajes de scripting como Perl o Tcl. Aunque muchas personas están participando en el cambio, pocas personas se dan cuenta de que está ocurriendo y aún menos personas saben por qué está sucediendo. Este artículo es una pieza de opinión que explica por qué los lenguajes de scripting manejarán muchas de las tareas de programación del próximo siglo mejor que los lenguajes de programación de sistemas.

Los lenguajes de scripting están diseñados para tareas diferentes a las de los lenguajes de programación de sistemas, y esto lleva a diferencias fundamentales en los lenguajes. Los lenguajes de programación de sistemas fueron diseñados para construir estructuras de datos y algoritmos desde cero, comenzando desde los elementos más primitivos de la computadora, como las palabras de memoria. En contraste, los lenguajes de scripting están diseñados para unir: asumen la existencia de un conjunto de componentes poderosos y están destinados principalmente a conectar componentes entre sí. Los lenguajes de programación de sistemas son fuertemente tipados para ayudar a manejar la complejidad, mientras que los lenguajes de scripting son sin tipos para simplificar las conexiones entre componentes y proporcionar un desarrollo rápido de aplicaciones.

Los lenguajes de scripting y los lenguajes de programación de sistemas son complementarios, y la mayoría de las plataformas informáticas importantes desde la década de 1960 han proporcionado ambos tipos de lenguajes. Los lenguajes se utilizan típicamente juntos en marcos de componentes, donde los componentes se crean con lenguajes de programación de sistemas y se unen con lenguajes de scripting. Sin embargo, varias tendencias recientes, como máquinas más rápidas, mejores lenguajes de scripting, la creciente importancia de las interfaces gráficas de usuario y las arquitecturas de componentes, y el crecimiento de Internet, han aumentado enormemente la aplicabilidad de los lenguajes de scripting. Estas tendencias continuarán durante la próxima década, con más y más aplicaciones nuevas escritas completamente en lenguajes de scripting y lenguajes de programación de sistemas utilizados principalmente para crear componentes.

2 Lenguajes de programación de sistemas

Para entender las diferencias entre los lenguajes de scripting y los lenguajes de programación de sistemas, es importante entender cómo evolucionaron los lenguajes de programación de sistemas. Los lenguajes de programación de sistemas se introdujeron como una alternativa a los lenguajes ensambladores. En los lenguajes ensambladores, prácticamente todos los aspectos de la máquina se reflejan en el programa. Cada instrucción representa una sola instrucción de máquina y los programadores deben lidiar con detalles de bajo nivel como la asignación de registros y las secuencias de llamadas a procedimientos. Como resultado, es difícil escribir y mantener programas grandes en lenguaje ensamblador.

A finales de la década de 1950 comenzaron a aparecer lenguajes de nivel superior como Lisp, Fortran y Algol. En estos lenguajes, las instrucciones ya no corresponden exactamente a las instrucciones de máquina; un compilador traduce cada instrucción en el programa fuente en una secuencia de instrucciones binarias. Con el tiempo, una serie de lenguajes de programación de sistemas evolucionaron a partir de Algol, incluyendo lenguajes como PL/1, Pascal, C, C++ y Java. Los lenguajes de programación de sistemas son menos eficientes que los lenguajes ensambladores, pero permiten que las aplicaciones se desarrollen mucho más rápidamente. Como resultado, casi han reemplazado por completo a los lenguajes ensambladores para el desarrollo de aplicaciones grandes.

Los lenguajes de programación de sistemas difieren de los lenguajes ensambladores en dos formas: son de nivel superior y están fuertemente tipados. El término "nivel superior" significa que muchos detalles se manejan automáticamente para que los programadores puedan escribir menos código para realizar el mismo trabajo. Por ejemplo:

La asignación de registros es manejada por el compilador para que los programadores no necesiten escribir código para mover información entre registros y memoria.
Las secuencias de llamadas a procedimientos se generan automáticamente: los programadores no necesitan preocuparse por mover argumentos hacia y desde la pila de llamadas.
Los programadores pueden usar palabras clave simples como while e if para estructuras de control; el compilador genera todas las instrucciones detalladas para implementar las estructuras de control.

En promedio, cada línea de código en un lenguaje de programación de sistemas se traduce en aproximadamente cinco instrucciones de máquina, en comparación con una instrucción por línea en lenguaje ensamblador (en un análisis informal de ocho archivos C escritos por cinco personas diferentes, encontré que la proporción varió de aproximadamente 3 a 7 instrucciones por línea [7]; en un estudio de numerosos lenguajes, Capers Jones encontró que para una tarea dada, los lenguajes ensambladores requieren aproximadamente de 3 a 6 veces más líneas de código que los lenguajes de programación de sistemas[3]). Los programadores pueden escribir aproximadamente el mismo número de líneas de código por año independientemente del lenguaje[1], por lo que los lenguajes de programación de sistemas permiten que las aplicaciones se escriban mucho más rápidamente que en lenguaje ensamblador.

La segunda diferencia entre el lenguaje ensamblador y los lenguajes de programación de sistemas es el tipado. Utilizo el término "tipado" para referirme al grado en que el significado de la información se especifica antes de su uso. En un lenguaje fuertemente tipado, el programador declara cómo se utilizará cada pieza de información y el lenguaje impide que la información se use de cualquier otra manera. En un lenguaje débilmente tipado no hay restricciones a priori sobre cómo se puede usar la información: el significado de la información se determina únicamente por la forma en que se utiliza, no por ninguna promesa inicial.¹

Las computadoras modernas son fundamentalmente sin tipos: cualquier palabra en memoria puede contener cualquier tipo de valor, como un entero, un número de punto flotante, un puntero o una instrucción. El significado de un valor se determina por cómo se utiliza: si el contador de programa apunta a una palabra de memoria, entonces se trata como una instrucción; si una palabra es referenciada por una instrucción de suma de enteros, entonces se trata como un entero; y así sucesivamente. La misma palabra puede usarse de diferentes maneras en diferentes momentos.

En contraste, los lenguajes de programación de sistemas de hoy en día están fuertemente tipados. Por ejemplo:

Cada variable en un lenguaje de programación de sistemas debe declararse con un tipo particular, como entero o puntero a cadena, y debe usarse de maneras que sean apropiadas para el tipo.
Los datos y el código están totalmente segregados: es difícil o imposible crear nuevo código sobre la marcha.
Las variables pueden agruparse en estructuras u objetos con subestructuras bien definidas y procedimientos o métodos para manipularlos; un objeto de un tipo no puede usarse donde se espera un objeto de un tipo diferente.

El tipado tiene varias ventajas. Primero, hace que los programas grandes sean más manejables al aclarar cómo se usan las cosas y diferenciar entre cosas que deben tratarse de manera diferente. Segundo, los compiladores pueden usar la información de tipo para detectar ciertos tipos de errores, como un intento de usar un valor de punto flotante como un puntero. Tercero, el tipado mejora el rendimiento al permitir que los compiladores generen código especializado. Por ejemplo, si un compilador sabe que una variable siempre contiene un valor entero, entonces puede generar instrucciones enteras para manipular la variable; si el compilador no conoce el tipo de una variable, entonces debe generar instrucciones adicionales para verificar el tipo de la variable en tiempo de ejecución.

Para resumir, los lenguajes de programación de sistemas están diseñados para manejar las mismas tareas que los lenguajes ensambladores, es decir, crear aplicaciones desde cero. Los lenguajes de programación de sistemas son de nivel superior y mucho más fuertemente tipados que los lenguajes ensambladores. Esto permite que las aplicaciones se creen más rápidamente y se gestionen más fácilmente con solo una ligera pérdida de rendimiento. Vea Figura 1 para una comparación gráfica del lenguaje ensamblador y varios lenguajes de programación de sistemas.

3 Lenguajes de scripting

Los lenguajes de scripting como Perl [9], Python[4], Rexx[6], Tcl[8], Visual Basic y los shells de Unix representan un estilo de programación muy diferente al de los lenguajes de programación de sistemas. Los lenguajes de scripting asumen que ya existe una colección de componentes útiles escritos en otros lenguajes. Los lenguajes de scripting no están destinados a escribir aplicaciones desde cero; están destinados principalmente a conectar componentes. Por ejemplo, Tcl y Visual Basic se pueden usar para organizar colecciones de controles de interfaz de usuario en la pantalla, y los scripts de shell de Unix se utilizan para ensamblar programas de filtro en tuberías. Los lenguajes de scripting se utilizan a menudo para extender las características de los componentes, pero rara vez se utilizan para algoritmos complejos y estructuras de datos; características como estas suelen ser proporcionadas por los componentes. Los lenguajes de scripting a veces se denominan lenguajes de pegamento o lenguajes de integración de sistemas.

Para simplificar la tarea de conectar componentes, los lenguajes de scripting tienden a ser sin tipos: todas las cosas se ven y se comportan de la misma manera para que sean intercambiables. Por ejemplo, en Tcl o Visual Basic, una variable puede contener una cadena en un momento y un entero al siguiente. El código y los datos a menudo son intercambiables, de modo que un programa puede escribir otro programa y luego ejecutarlo sobre la marcha. Los lenguajes de scripting a menudo están orientados a cadenas, ya que esto proporciona una representación uniforme para muchas cosas diferentes.

Un lenguaje sin tipos hace que sea mucho más fácil conectar componentes. No hay restricciones a priori sobre cómo se pueden usar las cosas, y todos los componentes y valores se representan de manera uniforme. Por lo tanto, cualquier componente o valor se puede usar en cualquier situación; los componentes diseñados para un propósito pueden usarse para propósitos totalmente diferentes nunca previstos por el diseñador. Por ejemplo, en los shells de Unix, todos los programas de filtro leen un flujo de bytes de una entrada y escriben una cadena de bytes en una salida; cualquier dos programas se pueden conectar juntos adjuntando la salida de un programa a la entrada del otro. El siguiente comando de shell apila tres filtros juntos para contar el número de líneas en la selección que contienen la palabra "scripting":

select | grep scripting | wc El programa select lee el texto que está actualmente seleccionado en la pantalla y lo imprime en su salida; el programa grep lee su entrada e imprime en su salida las líneas que contienen "scripting"; el programa wc cuenta el número de líneas en su entrada. Cada uno de estos programas se puede usar en numerosas otras situaciones para realizar diferentes tareas.

La naturaleza fuertemente tipada de los lenguajes de programación de sistemas desalienta la reutilización. El tipado alienta a los programadores a crear una variedad de interfaces incompatibles ("las interfaces son buenas; más interfaces son mejores"). Cada interfaz requiere objetos de tipos específicos y el compilador impide que se usen otros tipos de objetos con la interfaz, incluso si eso sería útil. Para usar un nuevo objeto con una interfaz existente, se debe escribir código de conversión para traducir entre el tipo del objeto y el tipo esperado por la interfaz. Esto a su vez requiere recompilar parte o toda la aplicación, lo que no es posible en el caso común donde la aplicación se distribuye en forma binaria.

Para ver las ventajas de un lenguaje sin tipos, considere el siguiente comando Tcl:

button .b -text Hello! -font {Times 16} -command {puts hello} Este comando crea un nuevo control de botón que muestra una cadena de texto en una fuente Times de 16 puntos e imprime un mensaje corto cuando el usuario hace clic en el control. Mezcla seis tipos diferentes de cosas en una sola declaración: un nombre de comando (button), un control de botón (.b), nombres de propiedades (-text, -font y -command), cadenas simples (Hello! y hello), un nombre de fuente (Times 16) que incluye un nombre de tipo de letra (Times) y un tamaño en puntos (16), y un script Tcl (puts hello). Tcl representa todas estas cosas de manera uniforme con cadenas. En este ejemplo, las propiedades pueden especificarse en cualquier orden y las propiedades no especificadas reciben valores predeterminados; más de 20 propiedades quedaron sin especificar en el ejemplo.

El mismo ejemplo requiere 7 líneas de código en dos métodos cuando se implementa en Java. Con C++ y Microsoft Foundation Classes, requiere aproximadamente 25 líneas de código en tres procedimientos (ver [7] para el código de estos ejemplos). Solo establecer la fuente requiere varias líneas de código en Microsoft Foundation Classes:

CFont *fontPtr = new CFont(); fontPtr->CreateFont(16, 0, 0,0,700, 0, 0, 0, ANSI_CHARSET, OUT_DEFAULT_PRECIS,CLIP_DEFAULT_PRECIS, DEFAULT_QUALITY, DEFAULT_PITCH|FF_DONTCARE, "Times New Roman"); buttonPtr->SetFont(fontPtr); Gran parte de este código es consecuencia del tipado fuerte. Para establecer la fuente de un botón, se debe invocar su método SetFont, pero este método debe recibir un puntero a un objeto CFont. Esto a su vez requiere que se declare e inicialice un nuevo objeto. Para inicializar el objeto CFont, se debe invocar su método CreateFont, pero CreateFont tiene una interfaz rígida que requiere que se especifiquen 14 argumentos diferentes. En Tcl, las características esenciales de la fuente (tipo de letra Times, tamaño 16 puntos) se pueden usar inmediatamente sin declaraciones ni conversiones. Además, Tcl permite que el comportamiento del botón se incluya directamente en el comando que crea el botón, mientras que C++ y Java requieren que se coloque en un método declarado por separado.

(En la práctica, un ejemplo trivial como este probablemente se manejaría con un entorno de desarrollo gráfico que oculta la complejidad del lenguaje subyacente: el usuario ingresa valores de propiedad en un formulario y el entorno de desarrollo genera el código. Sin embargo, en situaciones más complejas, como la asignación condicional de valores de propiedad o interfaces generadas programáticamente, el desarrollador debe escribir código en el lenguaje subyacente.)

Podría parecer que la naturaleza sin tipos de los lenguajes de scripting podría permitir que los errores pasen desapercibidos, pero en la práctica los lenguajes de scripting son tan seguros como los lenguajes de programación de sistemas. Por ejemplo, ocurrirá un error si el tamaño de fuente especificado para el ejemplo del botón anterior es una cadena no entera como xyz. La diferencia es que los lenguajes de scripting realizan su verificación de errores en el último momento posible, cuando se utiliza un valor. El tipado fuerte permite que los errores se detecten en tiempo de compilación, por lo que se evita el costo de las verificaciones en tiempo de ejecución. Sin embargo, el precio a pagar por esta eficiencia son las restricciones sobre cómo se puede usar la información: esto resulta en más código y programas menos flexibles.

Otra diferencia clave entre los lenguajes de scripting y los lenguajes de programación de sistemas es que los lenguajes de scripting suelen ser interpretados, mientras que los lenguajes de programación de sistemas suelen ser compilados. Los lenguajes interpretados proporcionan una rápida respuesta durante el desarrollo al eliminar los tiempos de compilación. Los intérpretes también hacen que las aplicaciones sean más flexibles al permitir que los usuarios programen las aplicaciones en tiempo de ejecución. Por ejemplo, muchas herramientas de síntesis y análisis para circuitos integrados incluyen un intérprete Tcl; los usuarios de los programas escriben scripts Tcl para especificar sus diseños y controlar el funcionamiento de las herramientas. Los intérpretes también permiten lograr efectos poderosos generando código sobre la marcha. Por ejemplo, un navegador web basado en Tcl puede analizar una página web traduciendo el HTML de la página en un script Tcl usando unas pocas sustituciones de expresiones regulares. Luego ejecuta el script Tcl para renderizar la página en la pantalla.

Los lenguajes de scripting son menos eficientes que los lenguajes de programación de sistemas, en parte porque utilizan intérpretes en lugar de compiladores, pero también porque sus componentes básicos se eligen por su potencia y facilidad de uso en lugar de un mapeo eficiente en el hardware subyacente. Por ejemplo, los lenguajes de scripting a menudo usan cadenas de longitud variable en situaciones donde un lenguaje de programación de sistemas usaría un valor binario que cabe en una sola palabra de máquina, y los lenguajes de scripting a menudo usan tablas hash donde los lenguajes de programación de sistemas usan matrices indexadas.

Afortunadamente, el rendimiento de un lenguaje de scripting no suele ser un problema importante. Las aplicaciones para lenguajes de scripting son generalmente más pequeñas que las aplicaciones para lenguajes de programación de sistemas, y el rendimiento de una aplicación de scripting tiende a estar dominado por el rendimiento de los componentes, que generalmente se implementan en un lenguaje de programación de sistemas.

Los lenguajes de scripting son de nivel superior que los lenguajes de programación de sistemas, en el sentido de que una sola instrucción hace más trabajo en promedio. Una instrucción típica en un lenguaje de scripting ejecuta cientos o miles de instrucciones de máquina, mientras que una instrucción típica en un lenguaje de programación de sistemas ejecuta alrededor de cinco instrucciones de máquina (ver Figura 1). Parte de esta diferencia se debe a que los lenguajes de scripting utilizan intérpretes, que son menos eficientes que el código compilado para lenguajes de programación de sistemas. Pero gran parte de la diferencia se debe a que las operaciones primitivas en los lenguajes de scripting tienen mayor funcionalidad. Por ejemplo, en Perl es tan fácil invocar una sustitución de expresión regular como invocar una suma de enteros. En Tcl, una variable puede tener trazas asociadas con ella para que establecer la variable cause efectos secundarios; por ejemplo, una traza podría usarse para mantener el valor de la variable actualizado continuamente en la pantalla.

Debido a las características descritas anteriormente, los lenguajes de scripting permiten un desarrollo muy rápido para aplicaciones que están orientadas a la unión. Tabla 1 proporciona apoyo anecdótico para esta afirmación. Describe varias aplicaciones que se implementaron en un lenguaje de programación de sistemas y luego se reimplementaron en un lenguaje de scripting, o viceversa.

En todos los casos, la versión de scripting requirió menos código y tiempo de desarrollo que la versión de programación de sistemas; la diferencia varió de un factor de 2 a un factor de 60. Los lenguajes de scripting proporcionaron menos beneficio cuando se utilizaron para la primera implementación; esto sugiere que cualquier reimplementación se beneficia sustancialmente de las experiencias de la primera implementación y que la verdadera diferencia entre scripting y programación de sistemas es más como un factor de 5-10x que los puntos extremos de la tabla. Los beneficios del scripting también dependen de la aplicación. En el último ejemplo de la tabla, la parte de la GUI de la aplicación está orientada a la unión, pero la parte del simulador no lo está; esto puede explicar por qué la aplicación se benefició menos del scripting que otras aplicaciones.

Para resumir, los lenguajes de scripting están diseñados para unir aplicaciones. Proporcionan un nivel más alto de programación que los lenguajes ensambladores o de programación de sistemas, un tipado mucho más débil que los lenguajes de programación de sistemas y un entorno de desarrollo interpretado. Los lenguajes de scripting sacrifican la velocidad de ejecución para mejorar la velocidad de desarrollo.