AI dan Manusia Pahami Dunia Berbeda

Daftar Isi

1 AI Masih Sulit Pahami Indera Manusia
2 Mengapa Perbedaan Ini Terjadi?
3 Potensi Pelatihan Multimodal
4 Butuh “Tubuh” untuk Benar-Benar Memahami Dunia
5 Implikasi untuk Masa Depan AI
6 Kesimpulan: AI Masih Butuh “Tubuh” untuk Jadi Manusiawi

Ohio, 7 Juni 2025 — Seiring berkembangnya kecerdasan buatan (AI) dalam memahami dan menirukan perilaku manusia, sebuah studi terbaru dari Ohio State University memperingatkan bahwa model AI modern masih memiliki keterbatasan mendasar dalam memahami dunia secara sensorik.

Penelitian ini dipimpin oleh Qihui Xu, seorang peneliti kognitif yang bersama timnya melakukan perbandingan antara persepsi manusia dan model bahasa besar (large language models/LLM) terhadap hampir 4.500 kata. Model AI yang diuji termasuk GPT-3.5 dan GPT-4 dari OpenAI serta PaLM dan Gemini dari Google.

AI Masih Sulit Pahami Indera Manusia

Para partisipan manusia dan model AI diminta memberikan penilaian terhadap ribuan kata berdasarkan aspek-aspek seperti:

Tingkat emosional yang ditimbulkan,
Keterkaitan dengan indera (penglihatan, penciuman, peraba, pengecap, pendengaran),
Hubungan dengan bagian tubuh tertentu.

Hasilnya? Ketika kata yang digunakan bersifat abstrak atau tidak melibatkan interaksi fisik langsung—misalnya konsep sosial atau logika—AI mampu memberikan interpretasi yang relatif serupa dengan manusia.

Namun perbedaan besar muncul ketika memasuki ranah konsep sensorik atau berbasis tubuh. Contohnya, untuk kata “bunga”, AI cenderung mengaitkannya dengan torso atau tubuh bagian atas, sementara manusia mengasosiasikannya melalui penglihatan dan penciuman—dua indera utama yang digunakan saat mencium bunga secara nyata.

Mengapa Perbedaan Ini Terjadi?

Xu menjelaskan bahwa AI membangun pemahamannya berdasarkan data teks dari internet. Mereka tidak memiliki tubuh, tidak mencium aroma bunga, atau merasakan hangatnya sinar matahari. Dengan kata lain, AI hanya mengenal “realitas” melalui kata-kata—bukan pengalaman langsung.

“Mereka sangat berbeda dari manusia,” ujar Xu, dikutip dari laporan New Scientist.

AI bisa meniru deskripsi sensorik, tetapi tidak benar-benar “merasakan”. Ini menjadi keterbatasan mendasar yang menandai perbedaan besar antara persepsi manusia dan AI, terutama dalam konteks dunia nyata yang penuh nuansa inderawi.

Potensi Pelatihan Multimodal

Menariknya, beberapa model yang telah dilatih menggunakan data visual seperti gambar dan video memperlihatkan respons yang lebih mendekati manusia. Temuan ini menunjukkan bahwa pelatihan multimodal, yaitu gabungan teks, visual, dan audio, memiliki potensi besar dalam menjembatani kesenjangan tersebut.

Xu menggambarkan manfaat pelatihan multimodal sebagai sesuatu yang lebih dari sekadar penjumlahan data.

“Ini seperti satu ditambah satu bisa menghasilkan lebih dari dua,” ujarnya.

Pendekatan multimodal bisa menjadi kunci untuk menciptakan AI yang lebih manusiawi dalam pemahaman dan interaksi. Tapi apakah multimodal saja cukup?

Butuh “Tubuh” untuk Benar-Benar Memahami Dunia

Beberapa pakar berpendapat bahwa memiliki tubuh fisik—atau setidaknya pengalaman sensorimotor langsung—menjadi prasyarat penting bagi AI untuk memahami dunia secara lebih autentik.

Philip Feldman, pakar AI dan robotika dari University of Maryland, Baltimore County, menekankan pentingnya paparan pengalaman fisik bagi AI. Ia menyarankan penggunaan robot ringan dan fleksibel sebagai alat belajar bagi model AI sebelum diterapkan ke bentuk robot humanoid yang lebih kompleks.

Namun, ia juga memberikan catatan penting:

“Jika AI dilatih dengan robot lunak dan ringan, mereka bisa menganggap bahwa tabrakan itu tidak berbahaya. Tapi bayangkan jika pemahaman itu diterapkan pada robot bermassa besar—mereka bisa saling menabrak dengan kecepatan penuh. Itu bisa sangat berbahaya.”

Ini menunjukkan bahwa konteks fisik sangat memengaruhi pembentukan pemahaman dalam sistem cerdas.

Implikasi untuk Masa Depan AI

Temuan dari studi ini memberikan dua pesan besar untuk dunia pengembangan kecerdasan buatan:

Model berbasis teks murni memiliki keterbatasan konseptual. Mereka dapat mendeskripsikan, tetapi tidak memahami sepenuhnya, terutama untuk konsep yang terkait langsung dengan pengalaman fisik atau sensorik.
Penggabungan antara multimodal dan tubuh fisik bisa menjadi fondasi baru dalam penciptaan AI yang lebih menyatu dengan realitas manusia.

AI generasi mendatang mungkin perlu “merasakan dunia” secara langsung, bukan hanya membaca tentangnya. Hal ini bisa berarti menggabungkan robotika, sensor real-time, dan pembelajaran pengalaman, sesuatu yang saat ini baru dalam tahap eksplorasi awal.

Kesimpulan: AI Masih Butuh “Tubuh” untuk Jadi Manusiawi

Meskipun kemajuan AI sangat luar biasa dalam hal kemampuan linguistik dan pemrosesan informasi, pemahaman sensorik dan persepsi dunia nyata masih menjadi celah besar.

Studi ini memperkuat pentingnya pendekatan holistik—bahwa untuk menciptakan AI yang benar-benar bisa memahami seperti manusia, dibutuhkan pengalaman inderawi, interaksi fisik, dan kesadaran kontekstual yang tidak bisa dibentuk hanya dengan teks.

Perkembangan ini membuka peluang dan tantangan baru dalam etika AI, keamanan robotika, dan bagaimana manusia akan hidup berdampingan dengan sistem cerdas di masa depan.

Cyberlec

AI dan Manusia Pahami Dunia Berbeda

AI Masih Sulit Pahami Indera Manusia

Mengapa Perbedaan Ini Terjadi?

Potensi Pelatihan Multimodal

Butuh “Tubuh” untuk Benar-Benar Memahami Dunia

Implikasi untuk Masa Depan AI

Kesimpulan: AI Masih Butuh “Tubuh” untuk Jadi Manusiawi

Leave a Reply Cancel reply

Get in touch!

Posts

Hindari Tipuan Akibat Halusinasi AI

Resident Evil Kembali ke Jepang

Alienware AW3426DW Resmi Meluncur

Socials