Google Bard AI - ¿Qué es y que sitios se utilizaron para entrenarla?

Google Bard AI – ¿Qué es y que sitios se utilizaron para entrenarla?

La Google Bard AI se entrena utilizando contenido de sitios web, pero se sabe poco sobre cómo se recopiló y de quién fue el contenido utilizado.

Los detalles de los sitios web utilizados para entrenar a Bard/LaMDA se mantienen en secreto.
El 50% de los datos de entrenamiento proceden de foros públicos
Sitios web de preguntas y respuestas sobre programación y sitios de tutoriales utilizados para el entrenamiento

¿Qué es Bard AI de Google?

Bard es una Inteligencia artificial (AI) de Google que se basa en el modelo lingüístico LaMDA, entrenado en conjuntos de datos basados en contenidos de Internet llamados Infiniset de los que se sabe muy poco sobre la procedencia de los datos y cómo los obtuvieron.

El documento de investigación LaMDA de 2022 enumera los porcentajes de los diferentes tipos de datos utilizados para entrenar LaMDA, pero sólo el 12,5% procede de un conjunto de datos públicos de contenido rastreado de la web y otro 12,5% procede de Wikipedia.

En que se basa Google Bard AI

Google Bard se basa en un modelo lingüístico llamado LaMDA, acrónimo de Language Model for Dialogue Applications (modelo lingüístico para aplicaciones de diálogo).

LaMDA se entrenó en un conjunto de datos llamado Infiniset.

Infiniset es una mezcla de contenidos de Internet que se eligió deliberadamente para mejorar la capacidad del modelo para entablar diálogos.

El documento de investigación de LaMDA (PDF) explica por qué eligieron esta composición de contenidos:

“…esta composición se eligió para lograr un rendimiento más sólido en tareas de diálogo …manteniendo su capacidad para realizar otras tareas como la generación de código.

Como trabajo futuro, podemos estudiar cómo la elección de esta composición puede afectar a la calidad de algunas de las otras tareas de PNL realizadas por el modelo.”

El trabajo de investigación hace referencia al diálogo y a los diálogos, que es la grafía de las palabras utilizadas en este contexto, dentro del ámbito de la informática.

En total, LaMDA se preentrenó con 1,56 billones de palabras de “datos públicos de diálogos y texto web”.

El conjunto de datos se compone de la siguiente mezcla

Un 12,5% datos basados en C4.
12,5% Wikipedia en inglés.
12,5% documentos de código de sitios web de preguntas y respuestas sobre programación, tutoriales y otros.
6,25% de documentos web en inglés.
6,25% de documentos web en lengua no inglesa.
50% de datos de diálogos procedentes de foros públicos.
Las dos primeras partes de Infiniset (C4 y Wikipedia) se componen de datos conocidos.

El conjunto de datos C4, que se analizará en breve, es una versión especialmente filtrada del conjunto de datos Common Crawl.

Sólo el 25% de los datos procede de una fuente conocida (el conjunto de datos C4 y Wikipedia).

El resto de los datos que componen el grueso del conjunto de datos Infiniset, el 75%, consiste en palabras que se han extraído de Internet.

El documento de investigación no dice cómo se obtuvieron los datos de los sitios web, de qué sitios web se obtuvieron ni ningún otro detalle sobre el contenido raspado.

Google sólo utiliza descripciones generalizadas como “Documentos web no ingleses”.

La palabra “turbio” significa cuando algo no se explica y se oculta en su mayor parte.

Turbio es la mejor palabra para describir el 75% de los datos que Google utilizó para entrenar a LaMDA.

Hay algunas pistas que pueden dar una idea general de qué sitios se encuentran dentro del 75% de contenido web, pero no podemos saberlo con certeza.

Conjunto de datos C4

C4 es un conjunto de datos desarrollado por Google en 2020. C4 son las siglas de “Colossal Clean Crawled Corpus”.

Este conjunto de datos se basa en los datos de Common Crawl, que es un conjunto de datos de código abierto.

Acerca de Common Crawl

Common Crawl es una organización registrada sin ánimo de lucro que rastrea Internet mensualmente para crear conjuntos de datos gratuitos que cualquiera puede utilizar.

La organización Common Crawl está dirigida actualmente por personas que han trabajado para la Fundación Wikimedia, antiguos Googlers, un fundador de Blekko, y cuenta como asesores con personas como Peter Norvig, Director de Investigación de Google y Danny Sullivan (también de Google).

Cómo se desarrolla C4 a partir de Common Crawl

Los datos sin procesar de Common Crawl se limpian eliminando elementos como el thin content, las palabras obscenas, el lorem ipsum, los menús de navegación, la deduplicación, etc. con el fin de limitar el conjunto de datos al contenido principal.

El objetivo de filtrar los datos innecesarios era eliminar el galimatías y conservar ejemplos de inglés natural.

Esto es lo que escribieron los investigadores que crearon C4

“Para ensamblar nuestro conjunto de datos base, descargamos el texto extraído de la web de abril de 2019 y aplicamos el filtrado antes mencionado.

Esto produce una colección de texto que no solo es órdenes de magnitud más grande que la mayoría de los conjuntos de datos utilizados para el preentrenamiento (alrededor de 750 GB), sino que también comprende texto en inglés razonablemente limpio y natural.

Denominamos a este conjunto de datos “Colossal Clean Crawled Corpus” (o C4 para abreviar) y lo publicamos como parte de TensorFlow Datasets…”.

También existen otras versiones no filtradas de C4.

El documento de investigación que describe el conjunto de datos C4 se titula Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (PDF).

Otro trabajo de investigación de 2021 (Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus – PDF) examinó la composición de los sitios incluidos en el conjunto de datos C4.

Curiosamente, el segundo trabajo de investigación descubrió anomalías en el conjunto de datos C4 original que provocaron la eliminación de páginas web alineadas con hispanos y afroamericanos.

El filtro de la lista de bloqueo (palabrotas, etc.) eliminó un 32% de las páginas con contenido hispano.

Las páginas afroamericanas fueron eliminadas en un 42%.

Es de suponer que estas deficiencias se han subsanado…

Otro hallazgo fue que el 51,3% del conjunto de datos C4 estaba formado por páginas web alojadas en Estados Unidos.

Por último, el análisis de 2021 del conjunto de datos C4 original reconoce que el conjunto de datos representa sólo una fracción del total de Internet.

El análisis afirma:

“Nuestro análisis muestra que, aunque este conjunto de datos representa una fracción significativa de un scrape de la Internet pública, no es en absoluto representativo del mundo angloparlante y abarca un amplio abanico de años.

Cuando se construye un conjunto de datos a partir de un raspado de la web, informar de los dominios de los que procede el texto es fundamental para comprender el conjunto de datos; el proceso de recopilación de datos puede dar lugar a una distribución de dominios de internet significativamente distinta de la que cabría esperar”.

Las siguientes estadísticas sobre el conjunto de datos C4 proceden del segundo trabajo de investigación enlazado anteriormente.

Los 25 sitios web más visitados (por número de tokens) en C4 son:

patentes.google.com
es.wikipedia.org
es.m.wikipedia.org
www.nytimes.com
www.latimes.com
www.theguardian.com
journals.plos.org
www.forbes.com
www.huffpost.com
patentes.com
www.scribd.com
www.washingtonpost.com
www.fool.com
ipfs.io
www.frontiersin.org
www.businessinsider.com
www.chicagotribune.com
www.booking.com
www.theatlantic.com
enlace.springer.com
www.aljazeera.com
www.kickstarter.com
caselaw.findlaw.com
www.ncbi.nlm.nih.gov
www.npr.org

Estos son los 25 dominios de nivel superior más representados en el conjunto de datos C4:

¿Qué pueden ser los datos de diálogos procedentes de foros públicos?

El 50% de los datos de entrenamiento proceden de “datos de diálogos de foros públicos”.

Eso es todo lo que dice el documento de investigación LaMDA de Google sobre estos datos de entrenamiento.

Si hubiera que adivinar, Reddit y otras comunidades importantes como StackOverflow son apuestas seguras.

Reddit se utiliza en muchos conjuntos de datos importantes, como los desarrollados por OpenAI llamados WebText2 (PDF), una aproximación de código abierto de WebText2 llamada OpenWebText2 y el propio conjunto de datos WebText-like (PDF) de Google de 2020.

Google también publicó detalles de otro conjunto de datos de sitios de diálogo públicos un mes antes de la publicación del artículo de LaMDA.

Este conjunto de datos que contiene sitios de diálogo públicos se llama MassiveWeb.

No estamos especulando con que el conjunto de datos MassiveWeb se utilizara para entrenar a LaMDA.

Pero contiene un buen ejemplo de lo que Google eligió para otro modelo lingüístico centrado en el diálogo.

MassiveWeb fue creado por DeepMind, propiedad de Google.

Fue diseñado para ser utilizado por un gran modelo de lenguaje llamado Gopher (enlace al PDF del documento de investigación).

MassiveWeb utiliza fuentes web de diálogo que van más allá de Reddit para evitar crear un sesgo hacia datos influenciados por Reddit.

Sigue utilizando Reddit. Pero también contiene datos extraídos de muchos otros sitios.

Los sitios de diálogo públicos incluidos en MassiveWeb son:

Reddit
Facebook
Quora
YouTube
Medium
StackOverflow
De nuevo, esto no sugiere que LaMDA se entrenara con los sitios mencionados.

Sólo pretende mostrar lo que Google podría haber utilizado, mostrando un conjunto de datos en el que Google estaba trabajando más o menos al mismo tiempo que LaMDA, y que contiene sitios de tipo foro.

El 37,5% restante
El último grupo de fuentes de datos son:

12,5% documentos de código de sitios relacionados con la programación, como sitios de preguntas y respuestas, tutoriales, etc;
12,5% Wikipedia (en inglés)
6,25% Documentos web en inglés
6,25% Documentos web no ingleses.
Google no especifica qué sitios se encuentran en la categoría de sitios de preguntas y respuestas sobre programación, que constituye el 12,5% del conjunto de datos sobre el que se ha entrenado LaMDA.

Así que sólo podemos especular.

Stack Overflow y Reddit parecen opciones obvias, sobre todo porque se incluyeron en el conjunto de datos de MassiveWeb.

¿Qué sitios de “tutoriales” se rastrearon? Sólo podemos especular sobre cuáles pueden ser esos sitios de “tutoriales”.

Quedan las tres últimas categorías de contenidos, dos de las cuales son extremadamente vagas.

Wikipedia en inglés no necesita discusión, todos conocemos Wikipedia.

Pero las dos siguientes no se explican:

Páginas web en inglés y en otros idiomas es una descripción general del 13% de los sitios incluidos en la base de datos.

Esa es toda la información que Google da sobre esta parte de los datos de entrenamiento.

¿Debería Google ser transparente sobre los conjuntos de datos utilizados para Bard?

Algunos editores se sienten incómodos por el hecho de que sus sitios se utilicen para entrenar sistemas de IA porque, en su opinión, esos sistemas podrían en el futuro hacer que sus sitios web quedaran obsoletos y desaparecieran.

Está por ver si esto es cierto o no, pero es una preocupación genuina expresada por editores y miembros de la comunidad de marketing de búsqueda.

Google es frustrantemente impreciso sobre los sitios web utilizados para entrenar a LaMDA, así como sobre la tecnología utilizada para extraer los datos de los sitios web.

Como se vio en el análisis del conjunto de datos C4, la metodología de elección del contenido de los sitios web que se utiliza para entrenar grandes modelos lingüísticos puede afectar a la calidad del modelo lingüístico al excluir a determinadas poblaciones.

Para conocer más sobre las novedades de IA, mantente atento al contenido que publicamos diariamente en nuestro blog.

Ultraseo Agency