DEVINA, FITRIA and Ruvita, Faurina and Arie, Vatresia (2023) PERAN VISUAL QUESTION ANSWERING (VQA) UNTUK ORIENTASI MOBILISASI PENYANDANG TUNANETRA PADA RUANG PUBLIK MENGGUNAKAN TRANSFORMER. ['eprint_fieldopt_thesis_type_ut' not defined] thesis, Fakultas Teknik.
![Thesis Informatika [thumbnail of Thesis Informatika]](https://repository.unib.ac.id/style/images/fileicons/archive.png)
SKRIPSI_G1A018049_DEVINA FITRIA_FINAL - Devina Fitria_.pdf - Bibliography
Restricted to Repository staff only
Available under License Creative Commons GNU GPL (Software).
Download (4MB)
Abstract
Mengikuti kemajuan pekembangan teknologi sistem cerdas, teknologi yang dapat digunakan
untuk membantu tunanetra dalam ber-orientasi dan mobilisasi dalam kehidupan sehari-hari
semakin banyak dikembangkan. Penelitian ini dilakukan dengan mengaplikasikan pendekatan
algoritme encoder transformers yaitu ALBERT (A Lite BERT) dan ViT (Visual Transformers)
untuk menghasilkan model Visual Question Answering yang bertindak sebagai sistem pemandu
tunanetra menggunakan image dan question. Dataset gambar di ruang publik seperti taman
kota, trotoar dikumpulkan lalu kemudian diberikan pertanyaan dan jawaban yang berkaitan
dengan pemahaman lingkungan sekitar mereka dan mengetahui informasi kemana mereka
harus bergerak. Penelitian dilakukan dengan mengikuti alur kerja metode CRISP-DM. ViT
digunakan sebagai encoder untuk mengekstraksi fitur image sedangkan ALBERT digunakan
sebagai encoder untuk mengekstraksi fitur question, selanjutnya hasil dari kedua representasi
fitur image dan question digabungkan menggunakan fusion model dan terakhir menggunakan
simple classifier untuk mendapatkan jawaban satu kata atau frasa. Hasil akurasi model
didapatkan menggunakan matriks Wu and Palmer Similarity (WUPS) Score , accuracy dan
Macro F1. Hasil pengujian model VQA pada dataset Bahasa Indonesia mendapatkan nilai
terbaik pada pasangan model Albert-base-v2 dan ViT-base-patch32-384 memiliki nilai matriks
yaitu: nilai WUPS Score = 0.7380622837370242, Accuracy = 0.7380622837370242, dan
Macro-F1= 0.1426620785611069. Sedangkan hasil pengujian model VQA pada dataset
Bahasa Inggris pasangan model Albert-base-v1 dan ViT-base-patch16-224 memiliki nilai
WUPS Score terbaik yaitu sebesar 0.7363029464817126 dan Accuracy sebesar
0.7340940525587828 dan pasangan model Albert-base-v2 dan ViT-base-patch32-384
memiliki nilai macro-f1 lebih baik dari model lainnya yaitu sebesar 0.15434524766985283.
dan dari ke-3 model tersebut, layer untuk classifier yang lebih optimal adalah menggunakan 1
layer classifier.
Kata Kunci : Visual Question Answering, VQA, Tunanetra, Transformer, ALBERT, ViT.
WUPS Score
Item Type: | Thesis (['eprint_fieldopt_thesis_type_ut' not defined]) |
---|---|
Subjects: | T Technology > T Technology (General) |
Divisions: | Faculty of Engineering > Department of Informatics Engineering |
Depositing User: | 58 lili haryanti |
Date Deposited: | 11 Jun 2024 08:18 |
Last Modified: | 11 Jun 2024 08:18 |
URI: | https://repository.unib.ac.id/id/eprint/18373 |