Google Bard AI – situs web apa yang digunakan untuk melatihnya? – Beragampengetahuan
Bard Google didasarkan pada model bahasa LaMDA, dilatih pada kumpulan data berdasarkan konten internet yang disebut Infiniset, di mana sedikit yang diketahui tentang dari mana asal data dan bagaimana data itu diperoleh.
Makalah penelitian LaMDA 2022 mencantumkan persentase berbagai jenis data yang digunakan untuk melatih LaMDA, tetapi hanya 12,5% yang berasal dari kumpulan data publik dari konten yang diambil dari web, dan 12,5% lainnya berasal dari Wikipedia.
Google sengaja tidak jelas tentang sumber sisa data yang tergores, tetapi ada indikasi situs mana yang ada dalam kumpulan data ini.
Contents
Kumpulan data Infiniset Google
Google Bard didasarkan pada model bahasa yang disebut LaMDA, yaitu Model Bahasa untuk Aplikasi Percakapan.
LaMDA dilatih pada kumpulan data yang disebut Infiniset.
Infiniset adalah perpaduan konten Internet yang sengaja dipilih untuk meningkatkan kemampuan model untuk berpartisipasi dalam percakapan.
Makalah penelitian LaMDA (PDF) menjelaskan mengapa mereka memilih kombinasi konten ini:
“…kombinasi ini dipilih untuk mencapai kinerja yang lebih kuat pada tugas dialog… sambil tetap mempertahankan kemampuannya untuk melakukan tugas lain seperti pembuatan kode.
Sebagai pekerjaan di masa mendatang, kami dapat menyelidiki bagaimana pilihan kombinasi ini memengaruhi kualitas beberapa tugas NLP lain yang dilakukan oleh model. “
Makalah penelitian dirujuk dialog Dan dialogyang merupakan ejaan kata yang digunakan dalam konteks ini dalam bidang ilmu komputer.
Secara total, LaMDA dilatih sebelumnya dengan “1,56 triliun kata”Data Percakapan Publik dan Teks Web“
Dataset terdiri dari kombinasi berikut:
- 12,5% berdasarkan data C4
- 12,5% Wikipedia bahasa Inggris
- 12,5% Dokumentasi kode dari situs Q&A coding, tutorial, dll.
- 6,25% dokumen web berbahasa Inggris
- 6,25% dokumen web non-Inggris
- 50% data percakapan berasal dari forum publik
Dua bagian pertama Infiniset (C4 dan Wikipedia) terdiri dari data yang diketahui.
Kumpulan data C4, yang akan dieksplorasi nanti, adalah versi yang difilter secara khusus dari kumpulan data Perayapan Umum.
Hanya 25% data berasal dari sumber tertentu ( C4 kumpulan data dan Wikipedia).
Sisa data (75%) yang merupakan mayoritas dari kumpulan data Infiniset terdiri dari kata-kata yang diambil dari internet.
Makalah penelitian tidak mengatakan bagaimana data diperoleh dari situs, dari situs mana, atau detail lain tentang apa yang dikorek.
Google hanya menggunakan deskripsi umum seperti “dokumen web non-Inggris”.
Kata “tidak jelas” berarti ada sesuatu yang tidak dijelaskan dan sebagian besar tersembunyi.
Keruh adalah kata yang tepat untuk mendeskripsikan 75% data yang digunakan Google untuk melatih LaMDA.
ada beberapa petunjuk itu mungkin memberikan gambaran kasar 75% dari semua konten web berisi situs mana, tetapi kami tidak dapat memastikannya.
kumpulan data C4
C4 adalah kumpulan data yang dikembangkan oleh Google pada tahun 2020, dan C4 adalah singkatan dari “Korpus merangkak besar dan bersih“
Kumpulan data ini didasarkan pada data Perayapan Umum, yang merupakan kumpulan data sumber terbuka.
Tentang perayapan normal
Common Crawl adalah organisasi nirlaba terdaftar yang merayapi Internet setiap bulan untuk membuat kumpulan data gratis yang dapat digunakan siapa saja.
Organisasi Common Crawl saat ini dijalankan oleh orang-orang yang pernah bekerja di Wikimedia Foundation, mantan karyawan Google, pendiri Blekko, dan penasihat seperti Direktur Riset Google Peter Norvig dan Danny Sullivan (juga di Google).
Bagaimana C4 berevolusi dari Common Crawl
Data Raw Common Crawl dibersihkan dengan menghapus konten tipis, kata-kata cabul, lorem ipsum, menu navigasi, deduplikasi, dll. untuk membatasi kumpulan data ke konten utama.
Tujuan memfilter data yang tidak perlu adalah untuk menghapus karakter yang kacau dan mempertahankan contoh alami bahasa Inggris.
Inilah yang ditulis oleh para peneliti yang menciptakan C4:
“Untuk menyusun kumpulan data dasar kami, kami mengunduh teks yang diekstraksi web dari April 2019 dan menerapkan pemfilteran yang dijelaskan di atas.
Ini menghasilkan kumpulan teks yang tidak hanya lebih besar dari sebagian besar kumpulan data yang digunakan untuk pra-pelatihan (sekitar 750 GB), tetapi juga berisi teks bahasa Inggris yang cukup bersih dan natural.
Kami menyebut dataset ini “Colossal Clean Crawled Corpus” (atau cukup C4) dan merilisnya sebagai bagian dari dataset TensorFlow…”
Ada versi C4 tanpa filter lainnya.
Makalah penelitian yang menjelaskan dataset C4 berjudul “Menjelajahi Keterbatasan Pembelajaran Transfer Menggunakan Transformator Teks-ke-Teks Bersatu” (PDF).
Makalah penelitian lain pada tahun 2021 (Rekaman Korporat Teks Web Besar: Studi Kasus tentang Korpus Perayapan Besar yang Bersih – PDF) memeriksa komposisi situs yang termasuk dalam kumpulan data C4.
Menariknya, makalah penelitian kedua menemukan anomali dalam kumpulan data C4 asli yang mengakibatkan penghapusan halaman yang selaras dengan Hispanik dan Afrika-Amerika.
Halaman yang disejajarkan dengan Hispanik dihapus oleh filter daftar blokir (bahasa sumpah serapah, dll.) dengan laju 32% halaman.
Halaman web yang selaras dengan orang Afrika-Amerika dihapus dengan kecepatan 42%.
Kiranya kekurangan ini telah diatasi…
Temuan lain adalah bahwa 51,3% dari kumpulan data C4 terdiri dari halaman web yang dihosting di Amerika Serikat.
Terakhir, analisis tahun 2021 dari kumpulan data C4 asli mengakui bahwa kumpulan data tersebut hanya mewakili sebagian kecil dari keseluruhan Internet.
Analisis tersebut menunjukkan:
“Analisis kami menunjukkan bahwa meskipun kumpulan data ini mewakili sebagian besar Internet publik, itu sama sekali tidak mewakili dunia berbahasa Inggris, dan itu berlangsung selama bertahun-tahun.
Saat membuat kumpulan data dari kumpulan data di web, melaporkan domain tempat teks tergores merupakan bagian integral untuk memahami kumpulan data; proses pengumpulan data dapat menghasilkan distribusi domain Internet yang jauh berbeda dari yang diharapkan. “
Statistik berikut pada kumpulan data C4 berasal dari makalah penelitian kedua yang ditautkan di atas.
25 situs teratas di C4 (berdasarkan volume token) adalah:
- paten.google.com
- id.wikipedia.org
- id.m.wikipedia.org
- www.nytimes.com
- www.latimes.com
- www.theguardian.com
- journal.plos.org
- www.forbes.com
- www.huffpost.com
- Jaringan Paten
- www.scribd.com
- www.washingtonpost.com
- jaringan bodoh
- ipfs.io
- www.frontiersin.org
- www.businessinsider.com
- www.chicagotribune.com
- www.booking.com
- www.theatlantic.com
- tautan.springer.com
- www.aljazeera.com
- www.kickstarter.com
- caselaw.findlaw.com
- www.ncbi.nlm.nih.gov
- www.npr.org
Ini adalah 25 teratas yang mewakili domain tingkat atas dalam kumpulan data C4:
tangkapan layar dari Mendokumentasikan Corpora Teks Web Besar: Studi Kasus pada Korpus Perayapan Besar yang BersihJika Anda tertarik untuk mempelajari lebih lanjut tentang kumpulan data C4, saya sarankan untuk membaca Recording Large Web Text Corpora: A Case Study on a Huge Clean Crawl Corpus (PDF) dan makalah penelitian asli tahun 2020 yang membuat C4 (PDF).
Apa yang bisa menjadi data percakapan dari forum publik?
50% dari data pelatihan berasal dari “Data percakapan dari forum publik“
Itulah makalah penelitian LaMDA Google tentang data pelatihan.
Jika ada yang menebak, komunitas top lainnya seperti Reddit dan StackOverflow adalah taruhan yang aman.
Reddit digunakan untuk banyak kumpulan data penting, seperti kumpulan data yang dikembangkan oleh OpenAI yang disebut WebText2 (PDF), perkiraan sumber terbuka dari WebText2 OpenWebText2, dan kumpulan data seperti WebText (PDF) dari Google sejak 2020.
Sebulan sebelum makalah LaMDA diterbitkan, Google juga merilis detail kumpulan data situs web percakapan publik lainnya.
Kumpulan data situs percakapan publik ini disebut MassiveWeb.
Kami tidak berspekulasi bahwa kumpulan data MassiveWeb digunakan untuk melatih LaMDA.
Tapi itu berisi contoh bagus Google memilih model bahasa lain yang berfokus pada percakapan.
MassiveWeb dibuat oleh DeepMind milik Google.
Itu dirancang untuk digunakan oleh model bahasa besar yang disebut Gopher (tautan ke PDF makalah penelitian).
MassiveWeb menggunakan sumber daya web percakapan yang melampaui Reddit untuk menghindari bias dalam data yang dipengaruhi oleh Reddit.
Itu masih menggunakan Reddit. Tapi itu juga berisi data yang diambil dari banyak situs lain.
Situs obrolan umum yang disertakan dalam MassiveWeb adalah:
- Tahu hampir
- Youtube
- Sedang
- tumpukan meluap
Sekali lagi, ini bukan untuk mengatakan bahwa LaMDA dilatih oleh situs-situs tersebut.
Ini hanya untuk menunjukkan apa yang dapat digunakan Google, dengan menunjukkan kumpulan data yang dikerjakan Google pada waktu yang hampir bersamaan dengan LaMDA, yang berisi situs berjenis forum.
Sisanya 37,5%
Kumpulan sumber data terakhir adalah:
- 12,5% dokumentasi kode berasal dari situs web terkait pemrograman, seperti situs tanya jawab, tutorial, dll.;
- 12,5% Wikipedia (Bahasa Inggris)
- 6,25% dokumen web berbahasa Inggris
- 6,25% dokumen web non-Inggris.
Google tidak menentukan situs mana yang ada Situs tanya jawab pemrograman Kategori ini menyumbang 12,5% dari kumpulan data pelatihan LaMDA.
Jadi kita hanya bisa berspekulasi.
Stack Overflow dan Reddit sepertinya merupakan pilihan yang jelas, terutama karena keduanya disertakan dalam kumpulan data MassiveWeb.
Apa”tutorialApakah situs sedang dirayapi? Kami hanya dapat berspekulasi tentang apa situs “tutorial” itu.
Tiga kategori konten terakhir tetap ada, dua di antaranya sangat kabur.
Wikipedia bahasa Inggris tidak perlu diskusi, kita semua tahu Wikipedia.
Tetapi dua berikut ini tidak dijelaskan:
Bahasa inggris Dan bukan bahasa Inggris Halaman bahasa adalah gambaran umum dari 13% situs dalam database.
Itu semua informasi yang diberikan Google tentang bagian data pelatihan ini.
Haruskah Google bersikap transparan tentang kumpulan data yang digunakan untuk Bard?
Beberapa penayang merasa tidak nyaman dengan situs mereka yang digunakan untuk melatih sistem kecerdasan buatan yang, menurut pandangan mereka, dapat membuat situs mereka usang dan menghilang di masa mendatang.
Apakah itu benar masih harus dilihat, tetapi ini adalah perhatian tulus yang diungkapkan oleh penerbit dan anggota komunitas pemasaran pencarian.
Dengan frustrasi, Google tidak jelas tentang situs web yang digunakan untuk melatih LaMDA dan teknik yang digunakan untuk mengorek data situs.
Seperti yang terlihat pada analisis dataset C4, metode pemilihan konten situs web untuk pelatihan model bahasa besar dapat memengaruhi kualitas model bahasa dengan mengecualikan kelompok orang tertentu.
Haruskah Google lebih transparan tentang situs mana yang digunakan untuk melatih AI mereka, atau setidaknya menerbitkan laporan transparansi yang mudah ditemukan tentang data yang digunakan?
Gambar unggulan melalui Shutterstock/Asier Romero
strategi pemasaran
marketing
pemasaran, manajemen pemasaran, kantor pemasaran
, digital marketing, konsep pemasaran, marketing mix, apa itu marketing
#Google #Bard #situs #web #apa #yang #digunakan #untuk #melatihnya