Aprende GPT!
Según publicaba Euronews la semana pasada, no es imposible entrenar grandes modelos del lenguaje (LLM) sin violar los derechos de autor.
Common Corpus: La Iniciativa Francesa que Desafía el Monopolio de Datos de IA
En un momento decisivo para la inteligencia artificial (IA), donde las batallas legales y los dilemas éticos cobran protagonismo, una startup francesa emerge como un faro de innovación y esperanza. Con el lanzamiento de Common Corpus, esta iniciativa no solo cuestiona la afirmación de OpenAI sobre la imposibilidad de desarrollar herramientas avanzadas de IA sin material con derechos de autor, sino que también se perfila como una solución potencial a los desafíos legales que enfrenta la industria.
Desafiando Gigantes: El Logro de Pleias
Coordinada por Pleias, una startup francesa, y respaldada por pesos pesados de la ciencia abierta como HuggingFace y Eleuther, Common Corpus se presenta como el conjunto de datos público más grande para el entrenamiento de grandes modelos de lenguaje (LLM). Este avance llega en un momento crítico, destacando el caso del New York Times contra OpenAI y Microsoft, acusándolos de utilizar indebidamente contenido protegido por derechos de autor para entrenar a ChatGPT.
Un Campo de Juego Nivelado
La colaboración internacional detrás de Common Corpus, que incluye a investigadores y empresas de IA comprometidas con la ciencia abierta, apunta a democratizar el acceso a datos para la IA. Con el apoyo de Langu:IA, un proyecto del Ministerio de Cultura francés, la iniciativa busca facilitar el acceso a datos en francés y en otras lenguas de Francia, promoviendo así la diversidad y la inclusión en el desarrollo IA.
El Tesoro de Datos Multilingües de Common Corpus
Common Corpus se enorgullece de su vasto repositorio de datos, que abarca 180.000 millones de palabras en inglés, incluyendo 21 millones de periódicos digitalizados y millones de libros. Además, destaca por su diversidad lingüística, albergando el conjunto de datos abierto más grande en francés, alemán, español, holandés e italiano.
El Futuro de la IA: Abierto vs. Cerrado
La iniciativa resalta el debate en curso entre la IA de código abierto y la IA de código cerrado. Mientras algunas editoriales europeas, como Le Monde, han licenciado su contenido a OpenAI, Pleias y Common Corpus ofrecen una alternativa que promueve la autonomía y reduce la dependencia de las grandes corporaciones estadounidenses.
Limitaciones y Oportunidades
A pesar de sus ventajas, Common Corpus enfrenta limitaciones inherentes al depender de material sin derechos de autor. Sin embargo, la iniciativa explora vías innovadoras como el uso de datos administrativos abiertos y el movimiento de ciencia abierta, así como la generación de datos sintéticos, para mantener la relevancia y actualidad de su conjunto de datos.
Mirando hacia el Futuro
Con el compromiso de enriquecer y diversificar el Corpus Común, Pleias y sus aliados se encuentran en una búsqueda continua para incluir más idiomas y contenidos que reflejen la riqueza cultural de Europa y más allá. La visión de un futuro en el que la colaboración, la ética y la innovación guíen el desarrollo de la IA parece no solo posible, sino palpable, gracias a esfuerzos como el de Common Corpus.
Este desafío a la norma establecida por gigantes tecnológicos subraya un momento crucial en la evolución de la inteligencia artificial, marcando el inicio de una era en la que el acceso abierto y la cooperación pueden definir el camino hacia adelante en la ciencia y la tecnología de IA.
Puedes leer la noticia original aquí.
O escuchar el capítulo de podcast aquí