Daftar Isi
Ohio, 7 Juni 2025 โ Seiring berkembangnya kecerdasan buatan (AI) dalam memahami dan menirukan perilaku manusia, sebuah studi terbaru dari Ohio State University memperingatkan bahwa model AI modern masih memiliki keterbatasan mendasar dalam memahami dunia secara sensorik.
Penelitian ini dipimpin oleh Qihui Xu, seorang peneliti kognitif yang bersama timnya melakukan perbandingan antara persepsi manusia dan model bahasa besar (large language models/LLM) terhadap hampir 4.500 kata. Model AI yang diuji termasuk GPT-3.5 dan GPT-4 dari OpenAI serta PaLM dan Gemini dari Google.
AI Masih Sulit Pahami Indera Manusia
Para partisipan manusia dan model AI diminta memberikan penilaian terhadap ribuan kata berdasarkan aspek-aspek seperti:
- Tingkat emosional yang ditimbulkan,
- Keterkaitan dengan indera (penglihatan, penciuman, peraba, pengecap, pendengaran),
- Hubungan dengan bagian tubuh tertentu.
Hasilnya? Ketika kata yang digunakan bersifat abstrak atau tidak melibatkan interaksi fisik langsungโmisalnya konsep sosial atau logikaโAI mampu memberikan interpretasi yang relatif serupa dengan manusia.
Namun perbedaan besar muncul ketika memasuki ranah konsep sensorik atau berbasis tubuh. Contohnya, untuk kata โbungaโ, AI cenderung mengaitkannya dengan torso atau tubuh bagian atas, sementara manusia mengasosiasikannya melalui penglihatan dan penciumanโdua indera utama yang digunakan saat mencium bunga secara nyata.
Mengapa Perbedaan Ini Terjadi?
Xu menjelaskan bahwa AI membangun pemahamannya berdasarkan data teks dari internet. Mereka tidak memiliki tubuh, tidak mencium aroma bunga, atau merasakan hangatnya sinar matahari. Dengan kata lain, AI hanya mengenal โrealitasโ melalui kata-kataโbukan pengalaman langsung.
โMereka sangat berbeda dari manusia,โ ujar Xu, dikutip dari laporan New Scientist.
AI bisa meniru deskripsi sensorik, tetapi tidak benar-benar โmerasakanโ. Ini menjadi keterbatasan mendasar yang menandai perbedaan besar antara persepsi manusia dan AI, terutama dalam konteks dunia nyata yang penuh nuansa inderawi.
Potensi Pelatihan Multimodal
Menariknya, beberapa model yang telah dilatih menggunakan data visual seperti gambar dan video memperlihatkan respons yang lebih mendekati manusia. Temuan ini menunjukkan bahwa pelatihan multimodal, yaitu gabungan teks, visual, dan audio, memiliki potensi besar dalam menjembatani kesenjangan tersebut.
Xu menggambarkan manfaat pelatihan multimodal sebagai sesuatu yang lebih dari sekadar penjumlahan data.
โIni seperti satu ditambah satu bisa menghasilkan lebih dari dua,โ ujarnya.
Pendekatan multimodal bisa menjadi kunci untuk menciptakan AI yang lebih manusiawi dalam pemahaman dan interaksi. Tapi apakah multimodal saja cukup?
Butuh โTubuhโ untuk Benar-Benar Memahami Dunia
Beberapa pakar berpendapat bahwa memiliki tubuh fisikโatau setidaknya pengalaman sensorimotor langsungโmenjadi prasyarat penting bagi AI untuk memahami dunia secara lebih autentik.
Philip Feldman, pakar AI dan robotika dari University of Maryland, Baltimore County, menekankan pentingnya paparan pengalaman fisik bagi AI. Ia menyarankan penggunaan robot ringan dan fleksibel sebagai alat belajar bagi model AI sebelum diterapkan ke bentuk robot humanoid yang lebih kompleks.
Namun, ia juga memberikan catatan penting:
โJika AI dilatih dengan robot lunak dan ringan, mereka bisa menganggap bahwa tabrakan itu tidak berbahaya. Tapi bayangkan jika pemahaman itu diterapkan pada robot bermassa besarโmereka bisa saling menabrak dengan kecepatan penuh. Itu bisa sangat berbahaya.โ
Ini menunjukkan bahwa konteks fisik sangat memengaruhi pembentukan pemahaman dalam sistem cerdas.
Implikasi untuk Masa Depan AI
Temuan dari studi ini memberikan dua pesan besar untuk dunia pengembangan kecerdasan buatan:
- Model berbasis teks murni memiliki keterbatasan konseptual. Mereka dapat mendeskripsikan, tetapi tidak memahami sepenuhnya, terutama untuk konsep yang terkait langsung dengan pengalaman fisik atau sensorik.
- Penggabungan antara multimodal dan tubuh fisik bisa menjadi fondasi baru dalam penciptaan AI yang lebih menyatu dengan realitas manusia.
AI generasi mendatang mungkin perlu โmerasakan duniaโ secara langsung, bukan hanya membaca tentangnya. Hal ini bisa berarti menggabungkan robotika, sensor real-time, dan pembelajaran pengalaman, sesuatu yang saat ini baru dalam tahap eksplorasi awal.
Kesimpulan: AI Masih Butuh “Tubuh” untuk Jadi Manusiawi
Meskipun kemajuan AI sangat luar biasa dalam hal kemampuan linguistik dan pemrosesan informasi, pemahaman sensorik dan persepsi dunia nyata masih menjadi celah besar.
Studi ini memperkuat pentingnya pendekatan holistikโbahwa untuk menciptakan AI yang benar-benar bisa memahami seperti manusia, dibutuhkan pengalaman inderawi, interaksi fisik, dan kesadaran kontekstual yang tidak bisa dibentuk hanya dengan teks.
Perkembangan ini membuka peluang dan tantangan baru dalam etika AI, keamanan robotika, dan bagaimana manusia akan hidup berdampingan dengan sistem cerdas di masa depan.

0 Comments