Buscar
Cerrar este cuadro de búsqueda.

Mohamed Louadi: De la preservación del patrimonio cultural de África a la era de la Inteligencia Artificial

Por *Mohamed Louadi/Leaders

En 2017, el número especial de la revista británica The Economist anunció en portada que el recurso más valioso ahora eran los datos. Esto hizo eco de la frase “los datos son el nuevo petróleo”, acuñada en 2006 por el científico de datos Clive Humby.

En 2018 James Bridle aclaró que los datos no son el nuevo petróleo sino la nueva energía nuclear en cuanto que es ilimitada y en su capacidad de causar daño (1) .

De hecho, desde la década de 1960, los siguientes términos han aparecido y desaparecido a un ritmo rápido: base de datos, almacén de datos, banco de datos, minería de datos, mercado de datos, almacén de datos, big data, lago de datos, conjunto de datos, todos términos que suenan anglosajones con a veces más o intentos menos exitosos de traducción a otros idiomas.

Pero desde el principio de los tiempos, los datos han sido la base de la comunicación y la transmisión de conocimientos entre humanos, que evolucionó en cuatro etapas: oral, escrita, impresa y digital.

Las etapas de la transmisión del conocimiento.

Oral

Al norte de Vancouver vive una tribu para la que cada vez que matamos a una persona matamos una historia. Esta creencia es compartida por muchas culturas y civilizaciones para las que el pasado se transmitía de boca en boca, alrededor de una hoguera de vivac o en el fondo de una cueva, cuando nuestros antepasados ​​buscaban refugio lejos del mal tiempo. Estas historias fueron memorizadas y transmitidas de una generación a otra.

Incluso hoy en día, la tradición oral sigue siendo un aspecto fundamental de la cultura tradicional, no sólo de los Squamish sino de muchas otras culturas. En 2010, la lengua squamish prácticamente había desaparecido, ya que sólo la hablaban diez de los 3.900 individuos restantes. Un día pronto la historia de más de un milenio de esta tribu, y de otras, ya no será contada oralmente, ni siquiera en su idioma original, con la pérdida de significado y sutilezas que podemos intuir.

Las lenguas, vector de transmisión oral

¿Están desapareciendo las lenguas?

Mientras que hace apenas 1.000 años se hablaban cerca de 9.000 lenguas en el mundo, sólo quedan entre 6.500 (2) y 7.168, de las cuales 2.140 en África. Los especialistas predicen que en 2050 sólo quedarán unas 4.500 lenguas, 3.000 en 2100 y 100 a principios del siglo XXIII (3) . Si no son las lenguas las que desaparecerán, serán las palabras o las expresiones que se perderán, a menudo sin ser reemplazadas, o que simplemente se agruparán (4) , contribuyendo así a un empobrecimiento progresivo de las lenguas.

Si bien las historias se transmitían oralmente a través del lenguaje, los humanos antiguos teníamos una memoria impresionante en comparación con la nuestra. Se dice que con la simple lectura de un poema, nuestros antepasados ​​podían reproducirlo palabra por palabra. Tanto los trovadores como los poetas árabes competían entre sí y el recuerdo era apreciado, si no adorado.

En algún momento de la historia de la humanidad apareció la escritura, muy probablemente en Mesopotamia.

El escrito

Pero se dice que Sócrates despreciaba la escritura porque creía que fomentaba la pereza y disminuía la memoria. Es bien sabido que este razonamiento lo oponía a Platón, quien, en su obra Fedro, describe a Sócrates deplorando el desarrollo de la escritura.

Diógenes también consideraba que la escritura era inferior al habla, que permite una comunicación más auténtica e inmediata. Según él, la escritura congela el pensamiento, permite a las personas ocultar sus verdaderos pensamientos detrás de palabras escritas y manipular la verdad. Paradójicamente, Diógenes no se había privado de tener escritos, pero ninguno de sus textos le sobrevivió, algunos porque fue él mismo quien los quemó. Lo que sabemos hoy de los escritos de Diógenes nos ha llegado en fragmentos a través del testimonio oral.

Así, renunciamos a enormes capacidades de memoria cuando empezamos a escribir (o dibujar) y, más tarde, a grabar.

Entonces, si las lenguas desaparecen, la memoria humana también decae.

Los humanos hemos adquirido el hábito de guardar en la memoria únicamente lo que no es accesible en otros lugares. Luego comenzó a descargar su memoria en dispositivos. Así olvidamos los números de teléfono de nuestros seres queridos cuando compramos móviles. Los sistemas GPS pueden haber disminuido nuestra capacidad para leer mapas, y los correctores ortográficos o las calculadoras pueden haber contribuido al surgimiento de una generación que ya no está familiarizada con las reglas de la ortografía, la gramática o la aritmética mental. Sólo internalizamos en nuestros cuerpos lo que no se puede encontrar en ningún otro lugar. Pronto las tecnologías albergarán todo lo que se supone que está en nuestra cabeza: memoria, razonamiento, imaginación, etc.

Luego vino la impresión.

Imprimir

La imprenta fue inventada por los chinos y popularizada mil años después por Johann Gutenberg. Nos permitió ampliar la disponibilidad de la escritura duplicándola más rápidamente que la copia realizada por escribas. En el siglo X, con 426 títulos, la biblioteca suiza de San Galo era entonces la más grande del mundo cristiano. Cada una de estas obras era una copia única accesible sólo para aquellos que podían permitirse el viaje. Debido a la inmediata falta de disponibilidad de escritos, las personas alfabetizadas se vieron obligadas a aprender de memoria las obras de quienes les precedieron (Homero, Platón, etc.); algo que aún lograron con facilidad.

Muy rápidamente, después de la llegada de la imprenta, comenzamos no sólo a llenar las bibliotecas con libros, sino a multiplicar el número de bibliotecas. Se dice que antes de la máquina de Gutenberg apenas había 30.000 libros en toda Europa. Cincuenta años después se imprimieron diez millones en 236 ciudades europeas (5) . En el siglo X , sólo en la ciudad de Córdoba había 70 bibliotecas públicas.

Si, como sostiene Farrukh Saleem, quien posee la mayor biblioteca reina en el mundo (6) , varios pueblos quedaron en desventaja desde el principio.

Hoy en día, es la Biblioteca del Congreso estadounidense la que, con 170 millones de obras, posee el mayor número de volúmenes.

La precariedad de la materia oral, escrita e impresa

Sin duda, una señal de orgullo para quienes las poseen, las bibliotecas han demostrado ser muy vulnerables. Bibliotecas famosas, incluidas las de Alejandría (Egipto), Nalanda (India), Celso (Italia) y Bagdad, perecieron en las llamas, con las pérdidas bien conocidas. Si no son las bibliotecas, son miles de libros los que fueron quemados alegremente en infames quemas de libros (7) .

Por tanto, la supervivencia del conocimiento humano acumulado era precaria mientras estuviera almacenado en soportes físicos como papel o papiro.

escanea todo

En 2004 Google decidió digitalizar y distribuir en Internet millones de volúmenes procedentes de cuatro bibliotecas americanas (Harvard, Stanford, Michigan y la Biblioteca Pública de Nueva York) y de una universidad británica (Oxford). Valorado entonces en 150 millones de dólares, el proyecto implicaba 15 millones de volúmenes. Cincuenta millones de volúmenes debían estar disponibles en línea antes de 2015. El proyecto siguió a otro, el Proyecto Gutenberg, iniciado en 1971 y que tenía el mismo objetivo: digitalizar todos los libros existentes. Si estos proyectos hubieran tenido éxito, la biblioteca resultante habría sido invariablemente predominantemente anglosajona. Si ya en 2011 estaban representados 430 idiomas en Google Books, mientras que en el mundo había alrededor de 7.000, casi la mitad de los títulos estaban en inglés.

Cultura a través de conjuntos de datos

Esta hegemonía de la lengua (y por tanto de la cultura) persiste hoy en los conjuntos de datos de los que dependen los grandes modelos lingüísticos (Large Language Models, o LLM), como ChatGPT, GPT 4, Perplexity, Copilot o Gemini. Un modelo como ChatGPT fue entrenado en aproximadamente dos tercios de Internet, toda Wikipedia, más de 8 millones de documentos (libros, artículos, sitios web, conversaciones, etc.) y más de 10 mil millones de palabras, todo de una tecnología donde el 55% del contenido está en inglés.

Los datos de los países desarrollados están sobrerrepresentados en los conjuntos de datos de capacitación con los que se desarrollaron estos LLM. Por el contrario, los datos de los países en desarrollo están insuficientemente representados; una parte muy mínima proviene de África, por ejemplo.

Según el Informe sobre la salud de Internet de 2022 de Mozilla (8) , de 2015 a 2020, en lo que respecta a África, solo se utilizaron conjuntos de datos de Egipto en modelos de aprendizaje automático. Así, los africanos en particular no disfrutan de sus culturas y se les mantiene en una posición de consumidores de datos de otros y de datos de otros sobre sus propias culturas.Se ven a sí mismos, por así decirlo, a través del prisma de los demás.

Precariedad digital

Desgraciadamente, no sólo el papel y el papiro son susceptibles de degradación. La tecnología digital trae consigo nuevos peligros como fallas en los discos duros, virus informáticos y mala manipulación humana.

En 1986, el incidente del Domesday de la BBC capturó la imaginación y se convirtió en un ejemplo clásico de los peligros a los que está expuesto nuestro patrimonio digital. Para conmemorar el 900 aniversario del libro de archivo original que data de 1086, el Domesday Book, la BBC gastó £2,5 millones para crear una versión multimedia que cabe en dos discos láser. Estos discos ahora contenían registros relacionados con un millón de personas. También contenían 50.000 fotografías, 3.000 conjuntos de datos, el equivalente a 60 minutos de imágenes animadas, 25.000 mapas y 250.000 topónimos (9) . Con el paso de los años, los discos se habían vuelto cada vez menos legibles para ordenadores cada vez más sofisticados. Posteriormente el problema se resolvió y las imágenes, vídeos y otros datos finalmente pudieron volver a verse. Esto no se hizo sin grandes dificultades.Irónicamente, la obra original seguía intacta después de 900 años, mientras que los discos de computadora no sobrevivieron ni siquiera quince años.

En 1995, el gobierno de Estados Unidos casi perdió una gran parte de los datos del censo nacional debido a la obsolescencia de su tecnología de recuperación de datos.

En 1996, 2001 y 2002, Internet estuvo al borde del desastre en varias ocasiones.

El 3 de marzo de 2024, un importante corte de Internet interrumpió varias redes sociales, particularmente en países como India, Pakistán y parte de África Oriental. En la red de redes, la mayor parte del tráfico de datos se basa, en gran medida, en cables submarinos que son susceptibles de sufrir daños por las anclas de los barcos, especialmente en una región tan transitada como el Mar Rojo, donde hay más de 15 cables submarinos. Ese día, cuatro de estos cables resultaron dañados al mismo tiempo.

Por tanto, las tecnologías digitales no son más invulnerables que la memoria humana o el papel.

En octubre de 1991, Túnez se conectó a Internet, seguido en noviembre por Sudáfrica. Los demás países africanos se conectaron uno por uno hasta noviembre de 2000, cuando Eritrea quedó en retaguardia.

¿África?

El africano disfruta menos de las ventajas de estar conectado con el resto del mundo que de las desventajas. A nivel cultural, es probable que el joven africano de hoy sepa más sobre el Imperio Británico que sobre el Imperio de Ghana. Es más probable que haya oído hablar de Napoleón Bonaparte que de Sundiata Keita, el rey fundador del gran imperio de Malí. Seguramente habrá oído hablar de Elon Musk como el hombre más rico del planeta, pero no de Mansa Musa, rey de Mali en 1312 y probablemente el hombre más rico que jamás haya existido. Y si supo hablar de Léopold Cedar Senghor o de Félix Houphouët-Boigny será seguramente gracias a los medios de comunicación occidentales. A través de su prisma.

Cultura digital

Desafortunadamente, África todavía tiene poca cultura de datos. En general, África tiene la capacidad estadística más baja. De hecho, en los últimos quince años la capacidad estadística ha disminuido más en África que en cualquier otra región del mundo.

Sólo la mitad de los países africanos ha realizado más de dos encuestas de hogares comparables en los últimos diez años y sólo el 29% ha publicado encuestas de hogares con datos educativos desde 2005.

Ciertamente, el contenido digital africano ya existe porque existen conjuntos de datos africanos. Incluso existen LLM africanos como, por ejemplo, Kainene vos Savant, Foondamate y MobileGPT.

Pero África sigue contribuyendo sólo de forma muy marginal a la acumulación global de datos. Según IDC (10) , la contribución de cada región a la creación de datos globales en 2023 fue del 37,4% para América del Norte, el 32,1% para Asia-Pacífico, el 19,3% para Europa, el 6,8% para Medio Oriente y África y el 4,4% para América Latina. América y el Caribe. La contribución del África subsahariana por sí sola se estima en un 1,5%. Mientras que la contribución de Europa al registro de dominios web fue del 40,4%, la contribución del África subsahariana fue del 0,7% (ver Figura 1). África subsahariana contribuyó sólo con el 1,06% del total mundial de publicaciones en revistas de IA, mientras que Asia Oriental y América del Norte representan el 42,87% y el 22,70%, respectivamente. Figura 1. Comparación de la creación de contenido en todos los continentes. África va constantemente a la zaga de otros continentes, con porcentajes tan bajos como el 0,5% (11) .

Si bien África (1.300 millones de habitantes) tiene más usuarios de Internet que América del Norte (328 millones de habitantes) (12), lamentablemente apenas tiene tantos centros de datos como Suiza (8,8 millones de habitantes). En 2023, Estados Unidos tenía 5.375 centros de datos (2.670 en 2021). Alemania, segunda en el ranking, tenía 522. En el puesto 16 aparece Suiza con 120 centros de datos (13) .

A menudo, incluso los propios datos de África se almacenan fuera del continente.

¿El comentario de Farrukh Saleem de que quien tiene las reglas de biblioteca más grandes del mundo también se aplica a los centros de datos o conjuntos de datos?

La Figura 2 no sugiere de ninguna manera que no se estén desarrollando conjuntos de datos o modelos de aprendizaje automático en el resto del mundo. Ellos son. En general, muchos de los conjuntos de datos más populares se componen de contenido extraído de Internet que, recordemos, refleja abrumadoramente palabras e imágenes que distorsionan la mirada inglesa, estadounidense, blanca y masculina (14) ; Los modelos y conjuntos de datos de aprendizaje automático reflejan tanto los prejuicios de sus creadores como las dinámicas de poder profundamente arraigadas en las sociedades.

Muchos pueblos están en desventaja desde el principio.

Figura 2. Cómo ven el mundo los datos.Los países están distorsionados según la frecuencia de uso de datos en los conjuntos de datos. El uso de datos en los Estados Unidos representa el mayor número de usos (gráfico tomado prestado y traducido del Internet Health Report).

El bajo peso de África en términos de datos

Mientras que en 2016 cada usuario de Internet en el mundo aportaba una media de 1,7 megabytes por segundo a Internet, los gobiernos africanos comenzaron a imponer impuestos a la creación de contenidos digitales de hasta el 15% (15) . Estas medidas no son exactamente propicias para desarrollar una cultura de creación de datos. Esto puede significar que la producción de contenidos africanos costará más que el consumo de contenidos no africanos, ya que el coste de descargar un gigabyte varía entre el 2% y el 16% de los ingresos mensuales. En Malawi, por ejemplo, un gigabyte cuesta en promedio 27,41 dólares en el móvil. Los costes en Benin y Chad no son menos exorbitantes (16) .

Estas políticas pueden ser consecuencia (y causa) del atraso tecnológico que sufre el continente. En el África subsahariana, donde vive el 15% de la población mundial, sólo el 6% tiene acceso a banda ancha. Sin embargo, no faltan iniciativas africanas. Varios países han lanzado planes, programas o políticas de desarrollo digital. Este es el caso, entre otros, de Senegal, Ruanda, Kenia, Marruecos y Sudáfrica.

Sin embargo, África enfrenta una serie de desafíos y supera una serie de obstáculos para explotar plenamente el potencial de la economía de datos.

Estos obstáculos incluyen la creciente disponibilidad de dispositivos digitales y conectividad, el crecimiento de la economía digital, la adopción de tecnologías de vanguardia como la IA y el Internet de las cosas (IoT), así como hacer frente a la creciente demanda de decisiones basadas en datos. haciendo. Por nuestra parte, no dejaremos de resaltar el desafío que representa la falta de habilidades digitales. Otro desafío que hay que afrontar es la necesidad de adoptar muy rápidamente una cultura digital, en lugar de una cultura digital.

Conclusión

La humanidad ha pasado por cuatro etapas en su forma de transmitir conocimientos: oral, escrita, impresa y digital. Si bien muchos países, en África y otros lugares, todavía se encuentran en la etapa oral, el cambio hacia la era digital parece inevitable, si no muy deseable. Recordemos que las herramientas digitales no excluyen en modo alguno lo oral ya que son al mismo tiempo multimedia, que no lo son ni lo escrito ni lo impreso.

Los recientes y espectaculares desarrollos en IA nos han mostrado la importancia de los datos y los conjuntos de datos.

Por el mismo hecho de que provienen de la cultura de sus creadores, los datos de entrenamiento utilizados en el aprendizaje de la IA, y particularmente los LLM, venden sesgos que favorecen esta cultura y desfavorecen a las culturas que no transportan datos o carecen de datos escritos, impresos o digitales. datos.

Muchos países africanos han puesto en marcha políticas de inversión en la economía intangible, impulsando así las inversiones en software y «digitalización». Si bien invertir y fomentar el desarrollo, o al menos el uso, de tecnologías digitales son políticas loables destinadas a promover una cultura digital, la tarea de establecer una cultura digital es mucho más difícil porque apunta a preservar y perpetuar una cultura. La tecnología se puede comprar; no cultura. Limitarnos a promover el simple uso de tecnologías inventadas en otros lugares relegará a África al papel de consumidor. La piedra angular del futuro es la preservación de una cultura, y eso sólo se hará a través de datos. África es conocida por su riqueza en materias primas. Es hora de que invierta en datos, materia prima básica de una economía digital en la que África será el continente que albergará a una cuarta parte de la humanidad en 2050.

 

1) James Bridle (2018). Opinión: Los datos no son el nuevo petróleo, sino la nueva energía nuclear, 17 de julio.

2) WorldData.info (sin fecha). Distribución geográfica de las lenguas.

3) Gobernador de la CIA (2024). The World Factbook (Archivo 2021).

4) Hemos calculado, por ejemplo, que la frase “como resultado” que aparece de repente en nuestro lenguaje cotidiano ha sustituido hasta 32 palabras diferentes, entre ellas “así”, “de ce fait”, “por lo tanto”, “en consecuencia”. , “saliendo”, “consecuentemente”, “posteriormente”, “por vía de hecho”, “por consecuencia”, etc. probablemente considerado demasiado pedante para nuestros tiempos.

5) Dominique Guellec (2004). Gutenberg revisitado: un análisis económico de la invención de la imprenta, Political Economy Review 2004/2, vol. 114, págs. 169-199.

6) Farrukh Saleem (2006). ¿Quién gobierna el mundo? Sugerencia capital: Bibliotecas, Noticias.

7) Como los de la Inquisición española en Sevilla en junio de 1481, los nazis en Alemania en mayo de 1933, la Revolución Cultural China en los años 1960 y ocasionalmente los comunistas.

8) Informe de salud de Internet (2022). IA en la vida real, Podcast IRL | Temporada 6.

9) Robin McKie y Vanessa Thorpe (2002). El libro Digital Domesday dura 15 años, no 1000, The Guardian, 3 de marzo.

10) CID (2023). Pronóstico mundial de datos estructurados y no estructurados de Global DataSphere y Global StorageSphere, 2023-2027, International Data Corp., junio, número de documento: # US50397723.

11) Sanna Ojanperä, Mark Graham, Ralph K. Straumann, Stefano De Sabbata y Matthew Zook. (2017). Compromiso en la economía del conocimiento: patrones regionales de creación de contenido con un enfoque en el África subsahariana. Tecnologías de la información y desarrollo internacional, vol. 13, pág. 33–51.

12) 508.880 millones contra 444.060 según las últimas cifras de Statista (2023).

13) Escena de nubes (2024). Suiza, https://cloudscene.com/market/data-centers-in-switzerland/all , consultado el 24 de febrero de 2024.

14) Informe de salud de Internet (2022). Op. cit.

15) Ronald Agak (2024). Kenia: creadores de contenidos contra un impuesto sobre sus ingresos, áfricanews del 25 de febrero y Samira Njoya (2023). Kenia: el impuesto del 15% aplicado a los creadores de contenido entró en vigor, We Are Tech Africa el 30 de octubre.

16) David Ehl y Gianna-Carina Grün (2020). Por qué Internet móvil es tan caro en África, 3 de noviembre.

Sobre el autor: Mohamed Louadi. PhD – Profesor universitario en ISG, Universidad de Túnez

Fuente: Leaders nº 154

En Portada

Scroll al inicio

No te pierdas