Adversarial Machine Learning

Apa itu Adversarial Machine Learning?
Adversarial Machine Learning adalah kumpulan teknik untuk melatih jaringan saraf tentang cara mengenali data atau perilaku yang sengaja menyesatkan. Juga di definiskan sebagai studi tentang serangan terhadap algoritma machine learning, dan pertahanan terhadap serangan. Adversarial Machine Learning juga merupakan teknik yang menyesatkan model machine learning apa pun dengan data yang menipu dan mengurangi akurasi dan kinerja model.
Istilah "adversary (musuh)" digunakan di bidang keamanan komputer untuk membodohi atau menyesatkan model machine learning dengan input berbahaya.
Ini berbeda dari masalah klasifikasi standar dalam pembelajaran mesin, karena tujuannya bukan hanya untuk menemukan input "buruk", tetapi secara preemptif menemukan kerentanan dan membuat algoritme pembelajaran yang lebih fleksibel.
Meskipun ada banyak jenis serangan dan vektor untuk mengeksploitasi sistem pembelajaran mesin, secara garis besar semua serangan bermuara pada:
- Classification evasion (penghindaran klasifikasi): Bentuk serangan paling umum, di mana musuh berusaha menyembunyikan konten berbahaya untuk melewati filter algoritme.
- Data poisoning (meracuni data): Serangan yang lebih canggih ini mencoba memanipulasi proses pembelajaran dengan memperkenalkan data palsu atau menyesatkan yang membahayakan keluaran algoritme.
Catatan: bidang pelatihan ini berorientasi pada keamanan, dan tidak sama dengan jaringan permusuhan generatif (GAN), yang merupakan teknik pembelajaran mesin tanpa pengawasan yang mengadu dua jaringan saraf satu sama lain untuk mempercepat proses pembelajaran.
Pertahanan Pembelajaran Mesin Bermusuhan
Teknik paling sukses untuk melatih sistem AI untuk menahan serangan ini terbagi dalam dua kelas:
Pelatihan permusuhan
– Ini adalah metode pembelajaran yang diawasi secara brutal di mana sebanyak mungkin contoh permusuhan dimasukkan ke dalam model dan secara eksplisit diberi label sebagai ancaman. Ini adalah pendekatan yang sama dengan perangkat lunak antivirus yang biasa digunakan pada komputer pribadi, dengan beberapa pembaruan setiap hari. Meskipun cukup efektif, hal ini membutuhkan pemeliharaan yang berkelanjutan untuk tetap mengikuti ancaman baru dan juga masih mengalami masalah mendasar yang hanya dapat menghentikan sesuatu yang telah terjadi agar tidak terjadi lagi.
Distilasi defensif
– Strategi ini menambahkan fleksibilitas pada proses klasifikasi algoritme sehingga model tidak terlalu rentan terhadap eksploitasi. Dalam pelatihan distilasi, satu model dilatih untuk memprediksi probabilitas keluaran model lain yang dilatih pada standar dasar sebelumnya untuk menekankan akurasi.
Keuntungan terbesar dari pendekatan distilasi adalah dapat beradaptasi dengan ancaman yang tidak diketahui. Meskipun tidak sepenuhnya terbukti, distilasi lebih dinamis dan membutuhkan lebih sedikit intervensi manusia daripada pelatihan permusuhan. Kerugian terbesar adalah bahwa sementara model kedua memiliki lebih banyak ruang gerak untuk menolak manipulasi input, masih terikat oleh aturan umum model pertama. Jadi dengan daya komputasi yang cukup dan penyetelan halus di pihak penyerang, kedua model dapat direkayasa ulang untuk menemukan eksploitasi mendasar