AI dan Manusia Pahami Dunia Berbeda


Ohio, 7 Juni 2025 โ€” Seiring berkembangnya kecerdasan buatan (AI) dalam memahami dan menirukan perilaku manusia, sebuah studi terbaru dari Ohio State University memperingatkan bahwa model AI modern masih memiliki keterbatasan mendasar dalam memahami dunia secara sensorik.

Penelitian ini dipimpin oleh Qihui Xu, seorang peneliti kognitif yang bersama timnya melakukan perbandingan antara persepsi manusia dan model bahasa besar (large language models/LLM) terhadap hampir 4.500 kata. Model AI yang diuji termasuk GPT-3.5 dan GPT-4 dari OpenAI serta PaLM dan Gemini dari Google.


AI Masih Sulit Pahami Indera Manusia

Para partisipan manusia dan model AI diminta memberikan penilaian terhadap ribuan kata berdasarkan aspek-aspek seperti:

  • Tingkat emosional yang ditimbulkan,
  • Keterkaitan dengan indera (penglihatan, penciuman, peraba, pengecap, pendengaran),
  • Hubungan dengan bagian tubuh tertentu.

Hasilnya? Ketika kata yang digunakan bersifat abstrak atau tidak melibatkan interaksi fisik langsungโ€”misalnya konsep sosial atau logikaโ€”AI mampu memberikan interpretasi yang relatif serupa dengan manusia.

Namun perbedaan besar muncul ketika memasuki ranah konsep sensorik atau berbasis tubuh. Contohnya, untuk kata โ€œbungaโ€, AI cenderung mengaitkannya dengan torso atau tubuh bagian atas, sementara manusia mengasosiasikannya melalui penglihatan dan penciumanโ€”dua indera utama yang digunakan saat mencium bunga secara nyata.


Mengapa Perbedaan Ini Terjadi?

Xu menjelaskan bahwa AI membangun pemahamannya berdasarkan data teks dari internet. Mereka tidak memiliki tubuh, tidak mencium aroma bunga, atau merasakan hangatnya sinar matahari. Dengan kata lain, AI hanya mengenal โ€œrealitasโ€ melalui kata-kataโ€”bukan pengalaman langsung.

โ€œMereka sangat berbeda dari manusia,โ€ ujar Xu, dikutip dari laporan New Scientist.

AI bisa meniru deskripsi sensorik, tetapi tidak benar-benar โ€œmerasakanโ€. Ini menjadi keterbatasan mendasar yang menandai perbedaan besar antara persepsi manusia dan AI, terutama dalam konteks dunia nyata yang penuh nuansa inderawi.


Potensi Pelatihan Multimodal

Menariknya, beberapa model yang telah dilatih menggunakan data visual seperti gambar dan video memperlihatkan respons yang lebih mendekati manusia. Temuan ini menunjukkan bahwa pelatihan multimodal, yaitu gabungan teks, visual, dan audio, memiliki potensi besar dalam menjembatani kesenjangan tersebut.

Xu menggambarkan manfaat pelatihan multimodal sebagai sesuatu yang lebih dari sekadar penjumlahan data.

โ€œIni seperti satu ditambah satu bisa menghasilkan lebih dari dua,โ€ ujarnya.

Pendekatan multimodal bisa menjadi kunci untuk menciptakan AI yang lebih manusiawi dalam pemahaman dan interaksi. Tapi apakah multimodal saja cukup?


Butuh โ€œTubuhโ€ untuk Benar-Benar Memahami Dunia

Beberapa pakar berpendapat bahwa memiliki tubuh fisikโ€”atau setidaknya pengalaman sensorimotor langsungโ€”menjadi prasyarat penting bagi AI untuk memahami dunia secara lebih autentik.

Philip Feldman, pakar AI dan robotika dari University of Maryland, Baltimore County, menekankan pentingnya paparan pengalaman fisik bagi AI. Ia menyarankan penggunaan robot ringan dan fleksibel sebagai alat belajar bagi model AI sebelum diterapkan ke bentuk robot humanoid yang lebih kompleks.

Namun, ia juga memberikan catatan penting:

โ€œJika AI dilatih dengan robot lunak dan ringan, mereka bisa menganggap bahwa tabrakan itu tidak berbahaya. Tapi bayangkan jika pemahaman itu diterapkan pada robot bermassa besarโ€”mereka bisa saling menabrak dengan kecepatan penuh. Itu bisa sangat berbahaya.โ€

Ini menunjukkan bahwa konteks fisik sangat memengaruhi pembentukan pemahaman dalam sistem cerdas.


Implikasi untuk Masa Depan AI

Temuan dari studi ini memberikan dua pesan besar untuk dunia pengembangan kecerdasan buatan:

  1. Model berbasis teks murni memiliki keterbatasan konseptual. Mereka dapat mendeskripsikan, tetapi tidak memahami sepenuhnya, terutama untuk konsep yang terkait langsung dengan pengalaman fisik atau sensorik.
  2. Penggabungan antara multimodal dan tubuh fisik bisa menjadi fondasi baru dalam penciptaan AI yang lebih menyatu dengan realitas manusia.

AI generasi mendatang mungkin perlu โ€œmerasakan duniaโ€ secara langsung, bukan hanya membaca tentangnya. Hal ini bisa berarti menggabungkan robotika, sensor real-time, dan pembelajaran pengalaman, sesuatu yang saat ini baru dalam tahap eksplorasi awal.


Kesimpulan: AI Masih Butuh “Tubuh” untuk Jadi Manusiawi

Meskipun kemajuan AI sangat luar biasa dalam hal kemampuan linguistik dan pemrosesan informasi, pemahaman sensorik dan persepsi dunia nyata masih menjadi celah besar.

Studi ini memperkuat pentingnya pendekatan holistikโ€”bahwa untuk menciptakan AI yang benar-benar bisa memahami seperti manusia, dibutuhkan pengalaman inderawi, interaksi fisik, dan kesadaran kontekstual yang tidak bisa dibentuk hanya dengan teks.

Perkembangan ini membuka peluang dan tantangan baru dalam etika AI, keamanan robotika, dan bagaimana manusia akan hidup berdampingan dengan sistem cerdas di masa depan.


0 Comments

Your email address will not be published. Required fields are marked *