PERAN VISUAL QUESTION ANSWERING (VQA) UNTUK ORIENTASI MOBILISASI PENYANDANG TUNANETRA PADA RUANG PUBLIK MENGGUNAKAN TRANSFORMER

DEVINA, FITRIA and Ruvita, Faurina and Arie, Vatresia (2023) PERAN VISUAL QUESTION ANSWERING (VQA) UNTUK ORIENTASI MOBILISASI PENYANDANG TUNANETRA PADA RUANG PUBLIK MENGGUNAKAN TRANSFORMER. Undergraduated thesis, Fakultas Teknik.

[img] Archive (Thesis Informatika)
SKRIPSI_G1A018049_DEVINA FITRIA_FINAL - Devina Fitria_.pdf - Bibliography
Restricted to Repository staff only
Available under License Creative Commons GNU GPL (Software).

Download (4MB)

Abstract

Mengikuti kemajuan pekembangan teknologi sistem cerdas, teknologi yang dapat digunakan untuk membantu tunanetra dalam ber-orientasi dan mobilisasi dalam kehidupan sehari-hari semakin banyak dikembangkan. Penelitian ini dilakukan dengan mengaplikasikan pendekatan algoritme encoder transformers yaitu ALBERT (A Lite BERT) dan ViT (Visual Transformers) untuk menghasilkan model Visual Question Answering yang bertindak sebagai sistem pemandu tunanetra menggunakan image dan question. Dataset gambar di ruang publik seperti taman kota, trotoar dikumpulkan lalu kemudian diberikan pertanyaan dan jawaban yang berkaitan dengan pemahaman lingkungan sekitar mereka dan mengetahui informasi kemana mereka harus bergerak. Penelitian dilakukan dengan mengikuti alur kerja metode CRISP-DM. ViT digunakan sebagai encoder untuk mengekstraksi fitur image sedangkan ALBERT digunakan sebagai encoder untuk mengekstraksi fitur question, selanjutnya hasil dari kedua representasi fitur image dan question digabungkan menggunakan fusion model dan terakhir menggunakan simple classifier untuk mendapatkan jawaban satu kata atau frasa. Hasil akurasi model didapatkan menggunakan matriks Wu and Palmer Similarity (WUPS) Score , accuracy dan Macro F1. Hasil pengujian model VQA pada dataset Bahasa Indonesia mendapatkan nilai terbaik pada pasangan model Albert-base-v2 dan ViT-base-patch32-384 memiliki nilai matriks yaitu: nilai WUPS Score = 0.7380622837370242, Accuracy = 0.7380622837370242, dan Macro-F1= 0.1426620785611069. Sedangkan hasil pengujian model VQA pada dataset Bahasa Inggris pasangan model Albert-base-v1 dan ViT-base-patch16-224 memiliki nilai WUPS Score terbaik yaitu sebesar 0.7363029464817126 dan Accuracy sebesar 0.7340940525587828 dan pasangan model Albert-base-v2 dan ViT-base-patch32-384 memiliki nilai macro-f1 lebih baik dari model lainnya yaitu sebesar 0.15434524766985283. dan dari ke-3 model tersebut, layer untuk classifier yang lebih optimal adalah menggunakan 1 layer classifier. Kata Kunci : Visual Question Answering, VQA, Tunanetra, Transformer, ALBERT, ViT. WUPS Score

Item Type: Thesis (Undergraduated)
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Engineering > Department of Informatics Engineering
Depositing User: 58 lili haryanti
Date Deposited: 11 Jun 2024 08:18
Last Modified: 11 Jun 2024 08:18
URI: http://repository.unib.ac.id/id/eprint/18373

Actions (login required)

View Item View Item