Sering Diunggulkan, ChatGPT Malah Gagal dalam Ujian Ini

AMEERALIFE.COM, JAKARTA – Sebuah studi terbaru menemukan bahwa chatbot ChatGPT dari OpenAI telah gagal dalam ujian ahli urologi di AS. Hal ini terjadi di saat meningkatnya minat terhadap potensi peran teknologi kecerdasan buatan (AI) dalam bidang kedokteran dan perawatan kesehatan.

Studi yang dilaporkan dalam jurnal Urology Practice ini menunjukkan bahwa ChatGPT mencapai kurang dari 30 persen tingkat jawaban yang benar pada Assessment Study Program for Urology (SASP) dari American Urologist Association.

Baca Juga

"ChatGPT tidak hanya memiliki tingkat jawaban benar yang rendah terkait pertanyaan klinis dalam praktik urologi, tetapi juga membuat beberapa jenis kesalahan yang berisiko menyebarkan informasi medis yang salah," kata Christopher M Deibert, dari University of Nebraska Medical Center seperti dilansir dari Siasat, Kamis (7/6/2023).

SASP adalah ujian praktik dengan 150 pertanyaan yang membahas kurikulum inti dari pengetahuan medis di bidang urologi. Penelitian ini tidak termasuk 15 pertanyaan yang berisi informasi visual seperti gambar atau grafik.

Secara keseluruhan, ChatGPT memberikan jawaban yang benar untuk kurang dari 30 persen pertanyaan SASP. Lalu 28,2 persen pertanyaan pilihan ganda, dan 26,7 persen pertanyaan terbuka.

Chatbot memberikan jawaban yang tidak pasti untuk beberapa pertanyaan. Pada pertanyaan-pertanyaan ini, akurasi menurun ketika LLM pada ChatGPT diminta untuk membuat ulang jawabannya. Untuk sebagian besar pertanyaan terbuka, ChatGPT memberikan penjelasan untuk jawaban yang dipilih.

“Secara keseluruhan, ChatGPT sering memberikan pembenaran yang tidak jelas dengan pernyataan yang luas dan jarang mengomentari hal-hal yang spesifik. Bahkan ketika diberi feedback, ChatGPT terus menerus mengulangi penjelasan awal meskipun tidak akurat," kata Deibert.

Para peneliti menyarankan bahwa meskipun ChatGPT dapat bekerja dengan baik pada tes yang membutuhkan ingatan akan fakta, namun ChatGPT gagal dalam pertanyaan yang berkaitan dengan kedokteran klinis, yang membutuhkan pertimbangan simultan dari berbagai fakta, situasi, dan hasil yang tumpang tindih.

“Mengingat bahwa LLM dibatasi oleh pelatihan manusia, penelitian lebih lanjut diperlukan untuk memahami keterbatasan dan kemampuan mereka di berbagai disiplin ilmu sebelum tersedia untuk penggunaan umum," kata Dr Deibert.

“Saat ini, pemanfaatan ChatGPT dalam urologi memiliki kemungkinan besar untuk memfasilitasi kesalahan informasi medis bagi pengguna yang tidak terlatih,” jelas dia.

BACA JUGA: Ikuti Serial Sejarah dan Peradaban Islam di Islam Digest , Klik di Sini

Sering Diunggulkan, ChatGPT Malah Gagal dalam Ujian Ini

Tips Pilih Shade Cushion yang Tepat, Biar Kulit Muka Enggak Berubah Jadi Abu-Abu

Ciri Beras Oplosan: Warna dan Butiran tak Seragam, Ketika Dimasak Lembek

Ini Langkah yang Wajib Dilakukan Saat Kulit Terbakar Sinar Matahari

Konser G-Dragon di Thailand Dibatalkan, Fans Kecewa dan Kritik Agensi

Meski Canggih, AI Disebut tak Bisa Gantikan Dokter Diagnosis Penyakit

1	Ciri Beras Oplosan: Warna dan Butiran tak Seragam, Ketika Dimasak Lembek
2	Tips Pilih Shade Cushion yang Tepat, Biar Kulit Muka Enggak Berubah Jadi Abu-Abu