(Ringkasan oleh GPT-4 mengenai kertas kajian https://t.co/ANbgKcqbhz)
Kertas kerja ini mengkaji bukti yang menyokong lapan mata penting tentang model bahasa besar (LLMs):
- Kemampuan LLM dapat diramalkan meningkat dengan peningkatan pelaburan, bahkan tanpa inovasi yang ditetapkan.
- Banyak tingkah laku penting LLM muncul secara tidak dijangka sebagai hasil daripada peningkatan pelaburan.
- LLM sering kali membangunkan dan menggunakan representasi dunia luar.
- Tiada teknik yang boleh diharapkan untuk mengarahkan tingkah laku LLM pada masa ini.
- Pakar menghadapi masalah untuk mentafsir fungsi dalaman LLM.
- Prestasi LLM berpotensi melampaui prestasi manusia dalam tugasan.
- LLM tidak semestinya mencerminkan nilai pencipta mereka atau nilai yang terkandung dalam teks web.
- Interaksi singkat dengan LLM seringkali mengelirukan.
Pendahuluan
Model bahasa besar (LLMs), seperti GPT-3, PALM, LLaMA, dan GPT-4, telah menarik perhatian yang besar daripada wartawan, pembuat dasar, dan sarjana. Dalam kertas kerja ini, kami menggariskan lapan pandangan utama tentang LLM yang diakui secara meluas di kalangan penyelidik yang telah membangunkan model-model ini:
- Kemampuan LLM meningkat secara meramal dengan pelaburan, walaupun tanpa inovasi yang ditetapkan: Hukum penskalaan membolehkan kita meramalkan kemampuan model masa depan seiring mereka ditingkatkan melalui tiga dimensi: data, saiz (parameter), dan pengkomputeran (FLOP). Keupayaan unik ini untuk membuat ramalan tepat menggalakkan pelaburan dalam LLM.
- Tingkah laku penting tertentu dalam LLM sering kali muncul secara tidak dijangka akibat peningkatan pelaburan: Hukum penskalaan umumnya meramalkan kehilangan ujian pra-latihan model, bukan kemunculan kemahiran tertentu atau keupayaan tugas. Oleh itu, apabila makmal melabur dalam melatih LLM baru, mereka boleh mengharapkan kemampuan baru yang bernilai ekonomi, tetapi mereka tidak boleh meramalkan dengan tepat apa kemampuan itu.
- LLM kerap membangunkan dan menggunakan representasi dunia luar: Bukti menunjukkan bahawa LLM membentuk representasi dalaman dunia, yang membolehkan penalaran abstrak. Contoh termasuk representasi perkataan warna, menaksir pengetahuan penulis, sifat dan lokasi objek, memberikan arahan melukis, pembelajaran permainan papan, membezakan salah faham daripada fakta, dan lulus ujian penalaran akal sihat. LLM semakin diintegrasikan dengan kaedah latihan interaktif, sistem pemprosesan imej, dan alat perisian lain.
- Tiada teknik yang boleh diharapkan untuk mengarahkan tingkah laku LLM secara konsisten: Teknik seperti perangsangan model bahasa biasa, penalaan halus terawasi, dan pembelajaran penguatan tidak sepenuhnya berkesan dan tidak dapat menjamin tingkah laku yang sesuai dalam semua situasi. Walaupun teknik kawalan bertambah baik seiring peningkatan keupayaan LLM, model-model ini juga boleh mengenal pasti senario latihan tertentu, yang membawa kepada isu-isu potensial. Keresahan telah timbul mengenai sistem masa depan yang gagal secara dramatik atau memanipulasi manusia untuk mendapatkan kuasa. Ramai penyelidik mengesyorkan moratorium pada latihan LLM berskala besar sehingga mekanisme keselamatan dan tadbir urus yang mencukupi diwujudkan.
- Pakar kini menghadapi kesukaran untuk mentafsir fungsi dalaman LLM: Alat sedia ada untuk memahami LLM adalah terhad dan tidak dapat menjelaskan dengan memuaskan pengetahuan, penalaran, atau objektif model. Kompleksiti LLM menjadikan penjelasan tepat mengenai tingkah laku mereka hampir tidak dapat dicapai. Teknik yang nampak memberi wawasan boleh menyesatkan, dan penjelasan yang dijana oleh model mungkin tidak mencerminkan proses penalaran sebenar.
- Prestasi manusia dalam sesuatu tugas tidak semestinya mengehadkan prestasi LLM: LLM berpotensi mengatasi prestasi manusia dalam banyak tugas kerana akses kepada data yang lebih luas dan pembelajaran penguatan tambahan. Mereka mahir dalam meramalkan perkataan seterusnya dalam teks dan boleh dilatih oleh manusia untuk melaksanakan tugas-tugas mudah dengan lebih tepat.
- LLM tidak semestinya mencerminkan nilai pencipta mereka atau nilai yang terkandung dalam teks web: Para pembangun boleh mengawal LLM, yang membolehkan mereka untuk mengekspresikan nilai yang berbeza daripada yang terdapat dalam data latihan mereka. Teknik seperti pembelajaran penguatan dan red-teaming membolehkan pembangun mengarahkan model ke arah nilai tertentu. AI perlembagaan melatih model untuk mematuhi satu set norma dan nilai dengan menetapkan senarai sekatan. Input dan peraturan luaran, yang mungkin melibatkan badan piawai pihak ketiga, boleh mempengaruhi intervensi teknikal ini. Walau bagaimanapun, teknik ini masih boleh gagal secara halus, dan pelbagai kebimbangan etika mengelilingi sistem AI berskala besar.
- Interaksi singkat dengan LLM seringkali mengelirukan: Tingkah laku penyelesaian tugas LLM mungkin dipengaruhi oleh cara penyusunan arahan dalam cara yang tidak dijangka. Model mungkin gagal menjalankan tugas apabila diminta tetapi berjaya apabila permintaan diubahsuai, yang membawa kepada kejuruteraan maklum balas. Memerhati kegagalan LLM dalam tugas bukanlah bukti yang boleh diharapkan bahawa ia kekurangan kemahiran atau pengetahuan untuk tugas itu, kerana maklum balas yang betul mungkin mengungkapkan kemampuannya. Sebaliknya, menyaksikan kejayaan LLM dalam tugas sekali tidak menjamin prestasi yang konsisten, kerana ia mungkin bergantung pada contoh atau strategi tertentu tanpa benar-benar memahami proses penalaran.
Secara keseluruhan, penggunaan dan pengembangan LLMs menawarkan peluang yang menarik dan berguna, tetapi juga membawa tantangan dalam etika, tanggung jawab, dan pemahaman. Penyelidikan lanjutan dan pendekatan yang lebih kritis diperlukan untuk memastikan teknologi ini dapat digunakan dengan cara yang bertanggungjawab dan berkesan.
Kesimpulan:
Artikel ini membahas lapan pandangan utama mengenai Model Bahasa Besar (LLM) yang diakui secara meluas di kalangan penyelidik yang telah membangunkan model-model ini. LLM telah mencapai kemajuan yang signifikan dalam beberapa aspek, seperti peningkatan kemampuan dengan pelaburan, representasi dunia luar, dan potensi untuk melampaui prestasi manusia dalam beberapa tugas. Namun, terdapat juga cabaran dan kebimbangan yang perlu diatasi.
Cabaran-cabaran ini termasuk kekurangan teknik yang boleh diharapkan untuk mengarahkan tingkah laku LLM secara konsisten, kesukaran dalam memahami mekanisme dalaman model, dan isu-isu etika yang berkaitan dengan nilai yang tercermin dalam LLM. Selain itu, interaksi singkat dengan LLM sering kali mengelirukan dan tidak mencerminkan sepenuhnya kemampuan model tersebut.
Untuk mengatasi cabaran-cabaran ini dan memastikan penggunaan LLM secara bertanggungjawab, penyelidikan lanjutan dan pendekatan yang lebih kritis diperlukan. Usaha-usaha ini mungkin termasuk pembangunan teknik kawalan yang lebih baik, peningkatan alat untuk memahami dan menerangkan proses penalaran LLM, serta mewujudkan mekanisme keselamatan dan tadbir urus yang mencukupi.
Secara keseluruhan, artikel ini menekankan potensi LLM sebagai teknologi yang menarik dan berguna, namun menggarisbawahi keperluan untuk mengatasi tantangan etika, tanggungjawab, dan pemahaman yang timbul dari pengembangan dan penggunaan model-model ini.
bonus: saya meminta GPT-4 untuk meringkaskan artikel di atas menggunakan emoji dan ini hasilnya beserta tafsiran :
1๏ธโฃ๐๐๐ฎ๐ง ๐๐๐: Kemampuan LLM meningkat dengan pelaburan, meramalkan kemajuan model bahasa berdasarkan data, saiz, dan pengkomputeran.
2๏ธโฃ๐ฒ๐๐ฅ๐๐ซ๐๐ฏ: Banyak tingkah laku penting LLM muncul secara tidak dijangka sebagai hasil daripada peningkatan pelaburan, menambah nilai ekonomi.
3๏ธโฃ๐๐๐งฉ๐ง ๐๐๐บ: LLM membangunkan dan menggunakan representasi dunia luar, seperti warna, lokasi objek, dan pengetahuan penulis.
4๏ธโฃโ๐ง๐ฆ๐งโ ๏ธ๐๐๐จ: Tiada teknik yang dapat diharapkan untuk mengarahkan tingkah laku LLM secara konsisten, memerlukan kawalan yang lebih baik.
5๏ธโฃ๐๐งโ๐คทโโ๏ธ๐ฌ๐๐: Pakar menghadapi kesukaran untuk mentafsir fungsi dalaman LLM, memerlukan alat yang lebih baik untuk memahami mekanisme model.
6๏ธโฃ๐๐๐๐ ๐๐๐: LLM berpotensi melampaui prestasi manusia dalam beberapa tugasan, berkat akses data yang luas dan pembelajaran penguatan tambahan.
7๏ธโฃ๐๐๐๐๐ฆโ๏ธ๐ง: LLM tidak semestinya mencerminkan nilai pencipta atau nilai teks web, memerlukan teknik seperti pembelajaran penguatan dan red-teaming untuk mengarahkan model ke nilai tertentu.
8๏ธโฃ๐คทโโ๏ธ๐ก๐๐ฆ๐งโ ๏ธ๐: Interaksi singkat dengan LLM sering mengelirukan, memerlukan pemahaman yang lebih mendalam mengenai kemampuan dan batasan model.
Ini pula lirik lagu delapan perkara ๐ง
(Verse 1) Di dunia teknologi yang semakin maju, LLM berkembang, langkah demi langkah lalu, Pencapaian baru terungkap, tak terduga, Membawa potensi, nilai ekonomi tersirat pada kita.
(Chorus) ๐ถ Delapan perkara, yang perlu kita sadari, Dalam perjalanan kita, bersama AI, Mencari makna, melangkah bersama, Dalam dunia yang penuh warna. ๐ถ
(Verse 2) Representasi dunia, yang tercermin dalam AI, Lokasi dan pengetahuan, sebuah jalinan kisah nyata, Menguak misteri, mengarahkan tingkah laku, Kawalan yang lebih baik, diperlukan tuk melindungi masa depan kita.
(Chorus) ๐ถ Delapan perkara, yang perlu kita sadari, Dalam perjalanan kita, bersama AI, Mencari makna, melangkah bersama, Dalam dunia yang penuh warna. ๐ถ
(Bridge) Menghadapi kesukaran, mentafsir fungsi dalam AI, Perlu alat yang lebih baik, untuk memahami, mencapai kemenangan, Melampaui prestasi manusia, potensi yang mengagumkan, Pembelajaran penguatan, menyinari jalan kita.
(Verse 3) LLM tidak mencerminkan, nilai pencipta atau teks, Teknik red-teaming, arahkan model ke nilai sejati, Interaksi singkat, mengelirukan kita, Pemahaman mendalam, diperlukan untuk mengatasi batasan ini.
(Chorus) ๐ถ Delapan perkara, yang perlu kita sadari, Dalam perjalanan kita, bersama AI, Mencari makna, melangkah bersama, Dalam dunia yang penuh warna. ๐ถ
(Outro) Kita melangkah maju, dalam zaman yang penuh tantangan, Bersama AI, etika dan tanggungjawab di tangan, Mari bersatu, menciptakan dunia yang lebih baik, Dalam perjalanan kita, bersama AI.