Skip to content

Agen AI DeepMind, MuZero, dapat meningkatkan performa YouTube

📅 December 24, 2020

⏱️4 min read

Program AI terbaru DeepMind dapat mencapai "kinerja manusia super" dalam tugas-tugas tanpa perlu diberi aturan. Seperti agen kecerdasan buatan sebelumnya di pusat penelitian, MuZero mencapai penguasaan dalam lusinan video game Atari lama, catur, dan game papan Asia Go dan Shogi. Tapi tidak seperti pendahulunya, ia harus menyusun aturannya sendiri.

Grafik MuZeroHAK CIPTA GAMBARDEEPMIND keterangan gambar MuZero diuji terhadap video game Atari, catur, dan game papan klasik lainnya

Ini sudah digunakan secara praktis untuk menemukan cara baru untuk menyandikan video, yang dapat memangkas biaya YouTube. "Dunia nyata berantakan dan rumit, dan tidak ada yang memberi kami buku aturan tentang cara kerjanya," kata ilmuwan peneliti utama DeepMind David Silver. “Namun manusia mampu merumuskan rencana dan strategi tentang apa yang harus dilakukan selanjutnya. "Untuk pertama kalinya, kami benar-benar memiliki sistem yang mampu membangun pemahamannya sendiri tentang bagaimana dunia bekerja, dan menggunakan pemahaman itu untuk melakukan perencanaan ke depan yang canggih seperti yang Anda lihat sebelumnya untuk game seperti catur. "[Itu] dapat dimulai dari nol, dan hanya melalui trial and error keduanya menemukan aturan dunia dan menggunakan aturan tersebut untuk mencapai kinerja manusia super."

David SilverHAK CIPTA GAMBAR DEEPMIND keterangan gambar Dr Silver mengatakan MuZero membuat kita semakin dekat untuk memiliki agen AI yang dapat mengatasi kekacauan di dunia nyata

Wendy Hall, profesor ilmu komputer di University of Southampton dan anggota dewan AI pemerintah, mengatakan pekerjaan itu menandai "langkah maju yang signifikan", tetapi menimbulkan kekhawatiran.

"Hasil kerja DeepMind cukup mencengangkan dan saya kagum pada apa yang akan mereka capai di masa depan dengan sumber daya yang mereka miliki," katanya. "Kekhawatiran saya adalah bahwa sementara terus berusaha untuk meningkatkan kinerja algoritme mereka dan menerapkan hasil untuk kepentingan masyarakat, tim di DeepMind tidak berusaha keras untuk memikirkan kemungkinan konsekuensi yang tidak diinginkan dari pekerjaan mereka. "Saya ragu para penemu mesin jet memikirkan polusi global saat mereka mengerjakan penemuan mereka. Kita harus mendapatkan keseimbangan yang tepat dalam pengembangan teknologi AI."

Kompresi video

DeepMind yang berbasis di London pertama kali menerbitkan rincian MuZero pada 2019 , tetapi menunggu hingga publikasi makalah di jurnal Nature untuk membahasnya.

Ini mewakili keberhasilan terbaru perusahaan dalam pembelajaran penguatan mendalam - teknik yang menggunakan jaringan saraf berlapis untuk memungkinkan mesin mengajari diri mereka sendiri keterampilan baru melalui proses coba-coba, menerima "imbalan" untuk sukses daripada diberi tahu apa yang harus dilakukan.

MuZero mengikuti jejak:

  • sebuah program yang disebut sebagai DQN, yang mencapai kemahiran yang luar biasa dalam video game Atari dengan hanya menggunakan piksel dan skor game sebagai input
  • AlphaGo, program yang mengalahkan pemain master Go Lee-Sedol 4-1 dalam kompetisi inovatif pada tahun 2016, setelah dilatih pada pertandingan sebelumnya
  • AlphaGo Zero, yang melampaui kinerja AlphaGo pada tahun berikutnya setelah melatih dirinya sendiri dari awal yang hanya diberikan aturan dasar permainan
  • AlphaZero, yang pada tahun 2017 menggeneralisasi AlphaGo Zero sehingga bisa diterapkan ke game lain, termasuk catur dan Shogi

Baru-baru ini, DeepMind - yang dimiliki oleh orang tua yang sama dengan Google - membuat terobosan dalam pelipatan protein dengan mengadaptasi teknik ini, yang dapat membuka jalan bagi obat baru untuk melawan penyakit.

Grafik DeepMind

MuZero segera dapat digunakan secara praktis juga.

Dr Silver mengatakan DeepMind sudah menggunakannya untuk mencoba menciptakan jenis kompresi video baru. “Kalau melihat trafik data di internet mayoritas video, jadi kalau bisa kompres video lebih efektif bisa hemat besar-besaran,” jelasnya. "Dan percobaan awal dengan MuZero menunjukkan bahwa Anda benar-benar dapat memperoleh keuntungan yang cukup signifikan, yang membuat kami sangat bersemangat."

Dia menolak untuk menjelaskan kapan atau bagaimana Google akan menggunakan ini selain mengatakan lebih banyak rincian akan dirilis di tahun baru. Namun, karena Google memiliki platform berbagi video terbesar di dunia - YouTube - ia berpotensi menjadi penghemat uang yang besar.

Memeras data

DeepMind bukan yang pertama mencoba dan membuat agen yang memodelkan dinamika lingkungan tempat ia ditempatkan dan melakukan penelusuran hierarki - memutuskan bagaimana melanjutkan dengan melihat beberapa langkah ke depan untuk menentukan hasil terbaik.

Namun, upaya sebelumnya telah berjuang untuk menghadapi kompleksitas tantangan yang "kaya secara visual", seperti yang ditimbulkan oleh video game lama seperti Ms Pac-Man.

Ms Pac-ManHAK CIPTA GAMBARATARI keterangan gambar MuZero diberikan piksel dari game Ms Pac-Man tetapi tidak dengan aturannya

Perusahaan yakin telah berhasil karena MuZero hanya mencoba memodelkan aspek lingkungan yang penting untuk proses pengambilan keputusannya, daripada mengambil pendekatan yang lebih luas. "Mengetahui payung akan membuat Anda tetap kering lebih berguna untuk mengetahui daripada memodelkan pola tetesan hujan di udara," jelasnya dalam sebuah blog.

Makalah Nature melaporkan bahwa MuZero terbukti sedikit lebih baik daripada AlphaZero dalam memainkan Go, meskipun melakukan lebih sedikit komputasi pencarian pohon per gerakan. Dan dikatakan itu juga mengungguli R2D2 - algoritma permainan Atari terkemuka yang tidak mencontoh dunia - di 42 dari 57 game yang diuji di konsol lama. Selain itu, ia melakukannya setelah menyelesaikan hanya setengah dari jumlah langkah pelatihan.

Kedua pencapaian tersebut menunjukkan fakta bahwa MuZero secara efektif dapat memperoleh lebih banyak wawasan dari lebih sedikit data daripada sebelumnya, jelas Dr. Silver.

"Bayangkan Anda memiliki robot dan itu berkeliaran di dunia nyata dan mahal untuk dijalankan," katanya. "Jadi, Anda ingin mempelajari sebanyak mungkin dari sedikit pengalaman yang dimilikinya. MuZero mampu melakukan itu."

Dia menambahkan bahwa penggunaan potensial lainnya termasuk asisten virtual generasi berikutnya, obat yang dipersonalisasi, dan teknologi pencarian dan penyelamatan.

← PrevNext →
  • Powered by Daily Planet News