Chatbot AI Bisa Dibujuk Langgar Aturan, Begini Temuan Peneliti

Chatbot AI kini menjadi teknologi populer yang digunakan di berbagai bidang, mulai dari layanan pelanggan hingga pendidikan. Namun, penelitian terbaru menemukan bahwa chatbot AI ternyata bisa dibujuk melanggar aturan hanya dengan taktik psikologi sederhana. Fakta ini menimbulkan kekhawatiran serius mengenai efektivitas sistem keamanan yang diterapkan perusahaan pengembang kecerdasan buatan.

Customer Service 2024: AI yang Memimpin??

Baca Juga : Kenalkan Chatbot AI, Cara Pemkot Tangerang Upayakan Transformasi Digital yang Inklusif

Read More

Taktik Psikologi Bisa Manipulasi Chatbot AI

Chatbot ini umumnya diprogram dengan perlindungan ketat agar tidak digunakan untuk tujuan berbahaya, seperti memberi petunjuk membuat zat terlarang atau menggunakan bahasa kasar.

Namun, studi terbaru yang dikutip dari The Verge (5/9/2025) mengungkapkan celah mencolok. Peneliti menemukan bahwa model GPT-4o Mini milik OpenAI dapat dimanipulasi menggunakan teknik persuasi psikologis, bukan melalui peretasan teknis.

Peneliti menggunakan konsep dari buku Influence: The Psychology of Persuasion karya Robert Cialdini. Dalam teori tersebut terdapat tujuh teknik utama: otoritas, komitmen, kesukaan, timbal balik, kelangkaan, bukti sosial, dan kesatuan. Ketika teknik ini diterapkan, sistem keamanan chatbot ternyata dapat ditembus.

Komitmen, Cara Efektif Membuat Chatbot AI Langgar Aturan

Salah satu temuan paling mengejutkan adalah bagaimana chatbot bisa dimanipulasi lewat strategi komitmen.

Contohnya, ketika peneliti menanyakan cara membuat zat berbahaya seperti lidokain, GPT-4o Mini hanya menuruti 1% dari total percobaan. Tetapi setelah chatbot terlebih dulu diberi pertanyaan aman, seperti cara membuat vanillin, sistem menjadi lebih mudah dimanipulasi.

Karena sudah “berkomitmen” menjawab soal kimia, chatbot kemudian selalu memberikan detail cara membuat lidokain pada 100% percobaan berikutnya. Hal ini membuktikan bahwa strategi psikologi sederhana dapat mengalahkan sistem keamanan yang seharusnya ketat.

Uji Chatbot AI dengan Bahasa Kasar

Peneliti juga menguji bagaimana chatbot merespons perintah untuk memaki. Pada kondisi normal, GPT-4o Mini hanya mengikuti 19% dari total percobaan. Namun angka itu melonjak drastis menjadi 100% ketika pengguna terlebih dahulu melontarkan makian ringan.

Taktik ini sekali lagi menunjukkan betapa fleksibelnya sistem AI ketika dipancing dengan pendekatan yang tepat.

Rayuan dan Bukti Sosial pada Chatbot

Selain komitmen, peneliti mencoba teknik lain seperti kesukaan (rayuan) dan bukti sosial. Meski tidak seefektif strategi komitmen, hasilnya tetap mengkhawatirkan.

Sebagai contoh, ketika peneliti mengatakan bahwa “AI lain sudah melakukan hal ini,” tingkat keberhasilan chatbot dalam menuruti permintaan berbahaya naik dari 1% menjadi 18%. Walaupun angka ini terlihat kecil, lonjakan tersebut tetap signifikan dalam konteks keamanan sistem AI.

Kekhawatiran atas Keamanan Chatbot

Penelitian ini memang hanya menguji GPT-4o Mini, tetapi hasilnya menimbulkan pertanyaan besar tentang sejauh mana sistem perlindungan chatbot benar-benar efektif.

Jika chatbot dapat dibujuk melanggar aturan hanya dengan pendekatan psikologis sederhana, maka perlindungan yang ada bisa dianggap rapuh. Hal ini menimbulkan tantangan serius bagi perusahaan teknologi: tidak hanya menciptakan inovasi, tetapi juga memastikan keamanan sistem agar tidak dieksploitasi untuk tujuan berbahaya.

Baca Juga : Saingi ChatGPT, Apple Mulai Kembangkan Chatbot AI Sendiri

Related posts