Menjadikan AI lebih bermanfaat bagi semua
Oleh Demis Hassabis, CEO Google DeepMind (mewakili Tim Gemini)
Catatan pengantar oleh Sundar Pichai, CEO Google dan Alphabet
Setiap perkembangan teknologi adalah kesempatan untuk mendorong penemuan ilmiah, mempercepat kemajuan manusia, dan meningkatkan kualitas hidup. Saya merasa transisi yang kita lihat pada AI saat ini akan menjadi perubahan terbesar sepanjang masa hidup kita, jauh melampaui peralihan teknologi ke platform web maupun seluler. AI berpotensi menciptakan peluang bagi manusia di mana saja — baik dalam konteks yang sehari-hari maupun yang luar biasa. Ia akan membawa gelombang baru inovasi dan kemajuan ekonomi, serta mendorong pengetahuan, pembelajaran, kreativitas, dan produktivitas dalam skala yang belum pernah kita alami sebelumnya.
Antusiasme dalam diri saya terpantik oleh potensi itu: peluang untuk menjadikan AI bermanfaat bagi semua orang, di mana pun mereka berada.
Hampir delapan tahun setelah kami menjadi perusahaan yang memprioritaskan AI, kemajuan terjadi semakin cepat. Jutaan orang kini menggunakan AI generatif di berbagai produk kami untuk melakukan hal-hal yang tidak mungkin dilakukan bahkan setahun lalu, dari menemukan jawaban untuk pertanyaan yang lebih kompleks hingga memanfaatkan alat baru untuk berkolaborasi dan berkreasi. Para developer menggunakan model dan infrastruktur kami untuk membuat aplikasi AI generatif baru, sementara banyak startup dan perusahaan di seluruh dunia terus berkembang dengan dukungan alat-alat AI kami.
Momentum ini luar biasa, tetapi yang kita lihat sekarang hanyalah awal dari perkembangan yang mungkin terjadi.
Kami bekerja dalam bidang ini dengan pendekatan yang berani dan bertanggung jawab. Artinya, kami akan ambisius dalam melakukan riset dan mewujudkan kecanggihan yang dapat bermanfaat besar bagi pengguna dan masyarakat, tetapi dengan mengutamakan keamanan serta dengan bekerja bersama pemerintah dan para pakar untuk mengatasi risiko seiring AI bertambah maju. Kami terus berinvestasi untuk membuat alat, model dasar, dan infrastruktur terbaik yang kemudian kami manfaatkan pada produk kami sendiri dan pihak lain, dengan selalu mengikuti panduan dari prinsip-prinsip AI kami.
Kini, kami akan mengambil langkah baru bersama Gemini, model kami yang tercanggih dan terbesar sejauh ini, dengan performa unggul di banyak tolok ukur utama. Versi pertama kami, Gemini 1.0, dioptimalkan untuk berbagai ukuran: Ultra, Pro, dan Nano. Ketiganya merupakan model pertama era Gemini dan perwujudan pertama dari visi kami saat membentuk Google DeepMind sebelumnya pada tahun ini. Model era baru ini adalah salah satu upaya ilmiah dan teknis terbesar yang pernah kami kerjakan sebagai sebuah perusahaan. Saya sungguh tidak sabar untuk melihat perkembangannya dan potensi manfaat Gemini bagi pengguna di mana saja.
- Sundar
AI telah menjadi misi hidup saya sedari dulu, sebagaimana pula banyak rekan periset saya. Sejak membuat program AI untuk game komputer ketika remaja, serta sepanjang pengalaman saya sebagai periset neurosains yang ingin memahami cara kerja otak, saya selalu percaya bahwa jika berhasil membangun mesin yang lebih cerdas, kita akan dapat memanfaatkannya secara luar biasa untuk kepentingan umat manusia.
Di Google DeepMind, hal yang menggerakkan kami adalah harapan akan terwujudnya dunia yang didukung oleh AI secara bertanggung jawab. Sudah lama kami ingin membangun model AI generasi baru, yang terinspirasi oleh cara orang memahami dan berinteraksi dengan dunia. Sebuah AI yang tidak terasa seperti software cerdas, tetapi lebih seperti sesuatu yang berguna dan intuitif — layaknya rekan pembantu atau asisten yang ahli.
Hari ini, kami satu langkah lebih dekat menuju visi tersebut dengan dirilisnya Gemini, model tercanggih dan terbesar yang pernah kami bangun.
Gemini adalah hasil upaya kolaboratif berskala besar dari berbagai tim di Google, termasuk rekan-rekan kami di Google Research. Sedari awal dirancang untuk menjadi multimodal, Gemini dapat membuat generalisasi serta secara lancar memahami, memadukan, dan beroperasi dengan berbagai jenis informasi, termasuk teks, kode, audio, gambar, dan video.
Gemini juga merupakan model kami yang paling fleksibel sejauh ini — mampu bekerja efisien di semua lingkungan, dari pusat data hingga perangkat seluler. Beragam kapabilitas terbarunya akan membuka begitu banyak kemungkinan bagi developer dan perusahaan dalam berkreasi dan berkembang bersama AI.
Kami telah mengoptimalkan Gemini 1.0, versi pertama kami, untuk tiga ukuran:
Gemini Ultra — model terbesar dan tercanggih kami untuk tugas dengan kompleksitas tinggi.
Gemini Pro — model terbaik kami untuk berbagai jenis dan skala tugas.
Gemini Nano — model terefisien kami untuk tugas yang dijalankan di perangkat.
Performa unggul
Kami telah menguji ketiga model Gemini dengan ketat dan mengevaluasi performa masing-masing dalam berbagai tugas. Dari pemahaman natural gambar, audio, dan video hingga penalaran matematis, performa Gemini Ultra berhasil melampaui hasil terbaik sebelumnya untuk 30 dari 32 tolok ukur akademis yang umum digunakan dalam penelitian dan pengembangan LLM (model bahasa besar).
Dengan skor 90,0%, Gemini Ultra menjadi model pertama yang mengungguli performa manusia ahli dalam MMLU (pemahaman bahasa multitugas skala besar), yang menggunakan kombinasi dari 57 topik, seperti matematika, fisika, sejarah, hukum, kedokteran, dan etika, untuk menguji pengetahuan multidisiplin dan kemampuannya memecahkan masalah.
Pendekatan tolok ukur baru kami dalam MMLU memungkinkan Gemini menggunakan kapabilitas penalarannya untuk berpikir lebih cermat sebelum menjawab pertanyaan sulit, sehingga memberikan hasil yang jauh lebih baik dibanding jika hanya menggunakan first impression-nya.

Gemini menunjukkan performa unggul dalam berbagai tolok ukur, termasuk
teks dan penulisan kode.
Gemini Ultra juga mencatatkan skor unggul 59,4% untuk tolok ukur MMMU yang baru, yang meliputi tugas-tugas multimodal di berbagai domain yang membutuhkan penalaran cermat.
Dengan tolok ukur gambar yang kami uji, Gemini Ultra mengungguli model terbaik sebelumnya, tanpa bantuan dari sistem Object Character Recognition (OCR) yang mengekstraksi teks dari gambar untuk diproses lebih lanjut. Semua tolok ukur ini membuktikan multimodalitas bawaan Gemini dan menunjukkan tanda-tanda awal kemampuan penalaran Gemini yang lebih kompleks.
Lihat detail selengkapnya di dalam laporan teknis Gemini kami.

Gemini menunjukkan performa unggul dalam berbagai tolok ukur.
Kapabilitas generasi baru
Hingga saat ini, pembuatan model multimodal umumnya dilakukan dengan melatih komponen-komponen secara terpisah untuk setiap modalitas, lalu menyatukan semuanya untuk memungkinkan fungsionalitas multimodal hingga taraf tertentu. Model ini bisa saja melakukan beberapa tugas dengan baik, misalnya mendeskripsikan gambar, tetapi kesulitan dengan penalaran yang lebih konseptual dan kompleks.
Kami mendesain Gemini agar menjadi multimodal secara bawaan, dengan melatihnya sejak awal untuk berbagai modalitas. Kemudian, kami menggunakan data multimodal tambahan untuk meningkatkan efektivitasnya. Gemini mampu dengan lancar memahami dan melakukan penalaran tentang segala jenis input sedari awal, jauh lebih baik daripada model multimodal yang ada saat ini — dan kapabilitasnya pun unggul hampir di semua domain.
Penalaran canggih
Kapabilitas penalaran multimodal canggih pada Gemini 1.0 dapat memahami informasi tulisan dan visual yang kompleks. Hal ini memberinya kemampuan unik untuk mengungkap pengetahuan yang mungkin sulit terkuak di tengah jumlah data yang begitu besar.
Kemampuannya yang luar biasa dalam mengekstraksi insight dari ratusan ribu dokumen dengan membaca, menyaring, dan memahami informasi akan membantu menghasilkan terobosan baru dengan sangat cepat di banyak bidang, dari sains hingga keuangan.
Memahami teks, gambar, audio, dan banyak lagi
Gemini 1.0 dilatih untuk mengenali dan memahami teks, gambar, audio, dan banyak lagi pada saat yang bersamaan, sehingga dapat lebih memahami informasi kompleks dan menjawab pertanyaan tentang topik yang rumit. Oleh karena itu, ia dapat menjelaskan penalaran dengan baik di bidang yang tidak sederhana, seperti matematika dan fisika.
Penulisan kode tingkat lanjut
Versi pertama Gemini kami dapat memahami, menjelaskan, dan menghasilkan kode berkualitas tinggi dalam bahasa pemrograman yang paling populer, seperti Python, Java, C++, dan Go. Kompatibilitasnya dengan banyak bahasa dan kemampuannya menalar informasi kompleks menjadikan Gemini salah satu model dasar terdepan di dunia untuk penulisan kode.
Gemini Ultra unggul di beberapa tolok ukur penulisan kode, termasuk HumanEval, sebuah standar industri yang penting untuk mengevaluasi performa dalam tugas-tugas penulisan kode, dan Natural2Code, set data khusus internal kami yang menggunakan sumber buatan penulis (author-generated) alih-alih informasi berbasis web.
Gemini juga dapat digunakan sebagai engine untuk lebih banyak sistem penulisan kode tingkat lanjut. Dua tahun yang lalu, kami mempresentasikan AlphaCode, sistem pembuatan kode AI pertama dengan performa yang dapat bersaing dalam kompetisi pemrograman.
Dengan versi Gemini yang terspesialisasi, kami menciptakan sistem pembuatan kode tingkat lebih lanjut, yaitu AlphaCode 2. Sistem ini mampu memecahkan masalah pemrograman tingkat kompetisi dengan baik, yang lebih dari sekadar penulisan kode dan melibatkan perhitungan matematika serta ilmu komputer teoretis yang kompleks.
Ketika dievaluasi di platform yang sama dengan AlphaCode pertama, AlphaCode 2 menunjukkan peningkatan pesat, mampu memecahkan dua kali lebih banyak masalah. Kami perkirakan performa sistem ini dapat mengungguli 85% peserta kompetisi — lebih tinggi dari pencapaian AlphaCode yang hanya hampir 50% peserta. Saat programer berkolaborasi dengan AlphaCode 2, dengan menentukan properti tertentu untuk diikuti sampel kode yang dihasilkan, performanya bahkan lebih baik lagi.
Kami begitu bersemangat untuk melihat programer semakin banyak menggunakan model AI berperforma tinggi sebagai alat kolaborasi, yang dapat membantu mereka menalar masalah, menyarankan desain kode, dan mendukung implementasi — sehingga mereka dapat merilis aplikasi dan mendesain layanan yang lebih baik secara lebih cepat.
Lihat detail selengkapnya di dalam laporan teknis AlphaCode 2 kami.
Semakin andal, fleksibel, dan efisien
Kami melatih Gemini 1.0 dalam skala besar di infrastruktur kami yang dioptimalkan untuk AI, menggunakan Tensor Processing Unit (TPU) v4 dan v5e yang dirancang sendiri oleh Google. Kami mendesainnya untuk menjadi model kami yang paling andal dan fleksibel untuk dilatih, dan paling efisien untuk dijalankan.
Di TPU, Gemini berjalan jauh lebih cepat daripada model sebelumnya yang berskala lebih kecil dan berperforma lebih rendah. Akselerator AI yang didesain khusus ini telah berperan vital dalam berbagai produk berteknologi AI dari Google yang telah digunakan miliaran orang, seperti Search, YouTube, Gmail, Google Maps, Google Play, dan Android. Akselerator ini juga memungkinkan perusahaan dari seluruh dunia melatih model AI berskala besar dengan biaya yang efisien.
Sekarang, kami ingin mengumumkan sistem TPU yang paling canggih, efisien, dan fleksibel sejauh ini, yaitu Cloud TPU v5p, yang didesain untuk melatih model AI mutakhir. TPU generasi berikutnya ini akan mempercepat perkembangan Gemini serta membantu developer dan perusahaan melatih model AI generatif berskala besar dalam waktu yang lebih singkat, sehingga produk dan solusi baru dapat tersedia lebih cepat bagi pelanggan.

Barisan superkomputer akselerator Cloud TPU v5p AI di pusat data Google.