Bagaimana DALL-E 2 dapat memecahkan tantangan utama visi komputer

Bagaimana DALL-E 2 dapat memecahkan tantangan utama visi komputer

Kami sangat antusias untuk menghadirkan Remodel 2022 kembali secara langsung pada 19 Juli dan 20 – 28 Juli secara digital. Bergabunglah dengan AI dan para pemimpin knowledge untuk pembicaraan yang berwawasan luas dan peluang jaringan yang menarik. Daftar hari ini!


OpenAI memiliki baru-baru ini merilis DALL-E 2, versi DALL-E yang lebih canggih, AI multimodal yang cerdik yang mampu menghasilkan gambar murni berdasarkan deskripsi teks. DALL-E 2 melakukannya dengan menggunakan teknik pembelajaran mendalam lanjutan yang meningkatkan kualitas dan resolusi gambar yang dihasilkan dan memberikan kemampuan lebih lanjut seperti mengedit gambar yang sudah ada, atau membuat versi baru.

Banyak penggemar AI dan peneliti men-tweet tentang betapa menakjubkannya DALL-E 2 dalam menghasilkan seni dan gambar dari kata yang tipis, namun dalam artikel ini saya ingin menjelajahi aplikasi berbeda untuk mannequin teks-ke-gambar yang kuat ini — menghasilkan kumpulan knowledge menyelesaikan tantangan terbesar visi komputer.

Keterangan: Gambar yang dihasilkan DALL-E 2. “Seorang detektif kelinci duduk di bangku taman dan membaca koran dalam suasana Victoria.” Sumber: Indonesia

Kekurangan visi komputer

Aplikasi pc imaginative and prescient AI dapat bervariasi mulai dari mendeteksi tumor jinak di CT scan hingga mengaktifkan mobil self-driving. Namun apa yang umum untuk semua adalah kebutuhan akan knowledge yang melimpah. Salah satu prediktor kinerja yang paling menonjol dari algoritme pembelajaran mendalam adalah ukuran kumpulan knowledge yang mendasarinya. Misalnya, kumpulan knowledge JFTyang merupakan kumpulan knowledge inside Google yang digunakan untuk pelatihan mannequin klasifikasi gambar, terdiri dari 300 juta gambar dan lebih dari 375 juta label.

Pertimbangkan bagaimana mannequin klasifikasi gambar bekerja: Jaringan saraf mengubah warna piksel menjadi serangkaian angka yang mewakili fitur-fiturnya, juga dikenal sebagai “penyematan” enter. Fitur-fitur tersebut kemudian dipetakan ke lapisan keluaran, yang berisi skor probabilitas untuk setiap kelas gambar yang seharusnya dideteksi oleh mannequin. Selama pelatihan, jaringan saraf mencoba mempelajari representasi fitur terbaik yang membedakan antar kelas, misalnya fitur telinga runcing untuk Dobermann vs. Poodle.

Idealnya, mannequin pembelajaran mesin akan belajar untuk menggeneralisasi di berbagai kondisi pencahayaan, sudut, dan lingkungan latar belakang yang berbeda. Namun lebih sering daripada tidak, mannequin pembelajaran mendalam mempelajari representasi yang salah. Misalnya, jaringan saraf mungkin menyimpulkan bahwa piksel biru adalah fitur dari kelas “frisbee” karena semua gambar frisbee yang dilihatnya selama pelatihan berada di pantai.

Salah satu cara yang menjanjikan untuk mengatasi kekurangan tersebut adalah dengan meningkatkan ukuran set pelatihan, misalnya dengan menambahkan lebih banyak gambar frisbee dengan latar belakang berbeda. Namun latihan ini dapat terbukti menjadi usaha yang mahal dan panjang.

Pertama, Anda perlu mengumpulkan semua sampel yang diperlukan, misalnya dengan mencari secara on-line atau dengan mengambil gambar baru. Kemudian, Anda perlu memastikan setiap kelas memiliki label yang cukup untuk mencegah mannequin dari overfitting atau underfitting ke beberapa. Terakhir, Anda perlu memberi label pada setiap gambar, dengan menyatakan gambar mana yang sesuai dengan kelas mana. Di dunia di mana lebih banyak knowledge diterjemahkan menjadi mannequin yang berkinerja lebih baikketiga langkah ini bertindak sebagai penghambat untuk mencapai kinerja mutakhir.

Namun meskipun demikian, mannequin visi komputer mudah dibodohi, terutama jika mereka diserang dengan contoh-contoh permusuhan. Coba tebak apa cara lain untuk mengurangi serangan permusuhan? Anda menebak dengan benar — lebih banyak knowledge berlabel, dikuratori dengan baik, dan beragam.

Keterangan: CLIP OpenAI salah mengklasifikasikan apel sebagai iPod karena label tekstual. Sumber: OpenAI

Masukkan DALL-E 2

Mari kita ambil contoh pengklasifikasi jenis anjing dan kelas yang gambarnya agak sulit ditemukan — anjing Dalmatian. Bisakah kita menggunakan DALL-E untuk mengatasi masalah kekurangan knowledge?

Pertimbangkan untuk menerapkan teknik berikut, semuanya didukung oleh DALL-E 2:

  • Penggunaan vanili. Masukkan nama kelas sebagai bagian dari perintah tekstual ke DALL-E dan tambahkan gambar yang dihasilkan ke label kelas itu. Misalnya, “Anjing Dalmatian di taman mengejar burung.”
  • Lingkungan dan gaya yang berbeda. Untuk meningkatkan kemampuan mannequin untuk menggeneralisasi, gunakan petunjuk dengan lingkungan yang berbeda sambil mempertahankan kelas yang sama. Misalnya, “Seekor anjing Dalmatian di pantai mengejar seekor burung.” Hal yang sama berlaku untuk gaya gambar yang dihasilkan, misalnya “Anjing Dalmatian di taman mengejar burung dengan gaya kartun.”
  • Sampel permusuhan. Gunakan nama kelas untuk membuat kumpulan knowledge contoh permusuhan. Misalnya, “Mobil seperti Dalmatian.”
  • Variasi. Salah satu fitur baru DALL-E adalah kemampuan untuk menghasilkan beberapa variasi gambar enter. Itu juga dapat mengambil gambar kedua dan menggabungkan keduanya dengan menggabungkan aspek yang paling menonjol dari masing-masing. Seseorang kemudian dapat menulis skrip yang memberi makan semua gambar dataset yang ada untuk menghasilkan lusinan variasi per kelas.
  • Sayamelukis. DALL-E 2 juga dapat melakukan pengeditan realistis pada gambar yang ada, menambahkan dan menghapus elemen sambil memperhitungkan bayangan, pantulan, dan tekstur. Ini bisa menjadi teknik augmentasi knowledge yang kuat untuk lebih melatih dan meningkatkan mannequin yang mendasarinya.

Kecuali untuk menghasilkan lebih banyak knowledge pelatihan, manfaat besar dari semua teknik di atas adalah bahwa gambar yang baru dibuat sudah diberi label, menghilangkan kebutuhan akan tenaga kerja pelabelan manusia.

Sementara teknik menghasilkan gambar seperti generative adversarial networks (GAN) telah ada selama beberapa waktu, DALL-E 2 berbeda dalam generasi resolusi tinggi 1024×1024, sifat multimodalitasnya dalam mengubah teks menjadi gambar, dan konsistensi semantiknya yang kuat, yaitu memahami hubungan antara objek yang berbeda dalam gambar yang diberikan.

Mengotomatiskan pembuatan set knowledge menggunakan GPT-3 + DALL-E

Enter DALL-E adalah immediate tekstual dari gambar yang ingin kita buat. Kita dapat memanfaatkan GPT-3, mannequin penghasil teks, untuk menghasilkan lusinan perintah tekstual per kelas yang kemudian akan dimasukkan ke DALL-E, yang pada gilirannya akan membuat lusinan gambar yang akan disimpan per kelas.

Misalnya, kami dapat membuat perintah yang menyertakan lingkungan berbeda yang kami ingin DALL-E untuk membuat gambar anjing.

Keterangan: Immediate yang dihasilkan GPT-3 untuk digunakan sebagai enter ke DALL-E . Sumber: penulis

Menggunakan contoh ini, dan kalimat seperti template seperti “A [class_name] [gpt3_generated_actions],” kita dapat memberi makan DALL-E dengan perintah berikut: “Seekor Dalmatian berbaring di lantai.” Ini dapat lebih dioptimalkan dengan menyempurnakan GPT-3 untuk menghasilkan teks dataset seperti yang ada pada contoh OpenAI Playground di atas.

Untuk lebih meningkatkan kepercayaan pada sampel yang baru ditambahkan, seseorang dapat menetapkan ambang batas kepastian untuk memilih hanya generasi yang telah melewati peringkat tertentu, karena setiap gambar yang dihasilkan diberi peringkat oleh mannequin gambar-ke-teks yang disebut KLIP.

Batasan dan mitigasi

Jika tidak digunakan dengan hati-hati, DALL-E dapat menghasilkan gambar yang tidak akurat atau gambar dengan cakupan yang sempit, mengecualikan kelompok etnis tertentu atau mengabaikan sifat yang mungkin mengarah pada bias. Contoh sederhananya adalah pendeteksi wajah yang hanya dilatih pada gambar pria. Selain itu, menggunakan gambar yang dihasilkan oleh DALL-E mungkin memiliki risiko yang signifikan dalam area tertentu seperti patologi atau mobil self-driving, di mana biaya negatif palsu sangat tinggi.

DALL-E 2 masih memiliki beberapa keterbatasan, salah satunya adalah komposisi. Mengandalkan petunjuk yang, misalnya, menganggap posisi objek yang benar mungkin berisiko.

Keterangan: DALL-E masih kesulitan dengan beberapa petunjuk. Sumber: Indonesia

Cara untuk mengurangi ini termasuk pengambilan sampel manusia, di mana seorang ahli manusia akan secara acak memilih sampel untuk memeriksa validitasnya. Untuk mengoptimalkan proses seperti itu, seseorang dapat mengikuti pendekatan pembelajaran aktif di mana gambar yang mendapat peringkat CLIP terendah untuk teks tertentu diprioritaskan untuk ditinjau.

Kata-kata terakhir

DALL-E 2 adalah hasil penelitian menarik lainnya dari OpenAI yang membuka pintu ke jenis aplikasi baru. Menghasilkan kumpulan knowledge yang sangat besar untuk mengatasi salah satu hambatan terbesar visi komputer—knowledge hanyalah salah satu contohnya.

OpenAI sinyal itu akan merilis DALL-E selama musim panas mendatang, kemungkinan besar dalam rilis bertahap dengan pra-penyaringan untuk pengguna yang tertarik. Mereka yang tidak sabar, atau tidak mampu membayar untuk layanan ini, dapat bermain-main dengan alternatif open supply seperti DALL-E Mini (Antarmuka, Tempat penyimpanan taman bermain).

Sementara kasus bisnis untuk banyak aplikasi berbasis DALL-E akan bergantung pada harga dan kebijakan yang ditetapkan OpenAI untuk pengguna API-nya, mereka semua pasti akan mengambil satu lompatan besar ke depan.

Sahar Mor memiliki 13 tahun pengalaman rekayasa dan manajemen produk yang berfokus pada produk AI. Dia saat ini adalah Manajer Produk di Stripe, memimpin inisiatif knowledge strategis. Sebelumnya, ia mendirikan kertas udaraAPI intelijen dokumen yang didukung oleh GPT-3 dan merupakan Manajer Produk pendiri di Zeitgold (Acq. By Deel), perusahaan perangkat lunak akuntansi AI B2B tempat ia membangun dan meningkatkan produk human-in-the-loop, dan Levity.ai, platform AutoML tanpa kode. Dia juga bekerja sebagai manajer teknik di perusahaan rintisan tahap awal dan di unit intelijen elit Israel, 8200.

DataDecisionMakers

Selamat datang di komunitas VentureBeat!

DataDecisionMakers adalah tempat para ahli, termasuk orang teknis yang melakukan pekerjaan knowledge, dapat berbagi wawasan dan inovasi terkait knowledge.

Jika Anda ingin membaca tentang ide-ide mutakhir dan informasi terkini, praktik terbaik, dan masa depan knowledge dan teknologi knowledge, bergabunglah dengan kami di DataDecisionMakers.

Anda bahkan mungkin mempertimbangkan menyumbangkan artikel milikmu sendiri!

Baca Lebih Lanjut Dari DataDecisionMakers



Total
0
Shares
Leave a Reply

Your email address will not be published.

Related Posts