IMAGE CAPTIONING UNTUK MOBILITAS TUNANETRA DI RUANG PUBLIK MENGGUNAKAN ViT (VISION TRANSFORMER)

SITANGGANG, EVLIN and Arie, Vatresia and kurnia, Anggriani (2024) IMAGE CAPTIONING UNTUK MOBILITAS TUNANETRA DI RUANG PUBLIK MENGGUNAKAN ViT (VISION TRANSFORMER). Other thesis, Universitas Bengkulu.

[thumbnail of Thesis] Archive (Thesis)
Naskah Skripsi Evlin Sitanggang - Evlin Sitanggang.pdf - Bibliography
Restricted to Repository staff only
Available under License Creative Commons GNU GPL (Software).

Download (2MB)

Abstract

Laporan WHO tahun 2021 yang menyatakan bahwa lebih dari 2,2 miliar individu
di seluruh dunia mengalami gangguan penglihatan, penelitian ini berfokus pada
pengembangan sistem image captioning untuk meningkatkan mobilitas individu
tunanetra di ruang publik menggunakan berbagai varian model Vision Transformer
(ViT). Transformers telah merevolusi bidang Natural Language Processing (NLP)
dan Computer Vision, menunjukkan kemampuan luar biasa dalam tugas-tugas
seperti image captioning. Pada penelitian ini dilakukan evaluasi kinerja lima varian
model ViT: ViT-B/16, ViT-B/32, ViT-L/16, ViT-L/32, dan ViT-H/14. Image
captioning ini menggunakan Vision Transformer untuk ekstraksi fitur sebagai
encoder dan GPT-2 sebagai decoder. Dataset yang digunakan terdiri dari 3000
gambar, dengan setiap gambar memiliki 4 caption, sehingga totalnya terdapat
12.000 caption. Dataset caption direkonstruksi untuk memberikan informasi yang
lebih detail tentang posisi hambatan di ruang publik, seperti menunjukkan apakah
hambatan tersebut berada di depan, di kiri, di kanan, atau di tengah. Temuan
penelitian ini menunjukkan bahwa model ViT-B/16 mengungguli varian lainnya,
mencapai skor BLEU tertinggi sebesar 94% dan skor ROUGE sebesar 93%. Selain
itu, model ViT-B/16 mencapai nilai loss sebesar 0,0486 dengan total waktu
pelatihan 7 jam dan 24 menit. Model ini dilatih menggunakan optimizer AdamW
dengan 20 epoch dan batch size 32. Model ViT-B/16 unggul dalam mendeteksi
hambatan ketika gambar diambil pada jarak ideal dan dengan visibilitas yang jelas.
Namun, model ini menunjukkan keterbatasan dalam mendeteksi beberapa
hambatan yang berurutan. Meskipun demikian, model ini menunjukkan
keberhasilan dalam merekonstruksi dataset dengan secara akurat merinci posisi
hambatan.
Keywords : Image Captioning, Vision Transfomer, Tunanetra, Attention
mechanism, GPT-2

Item Type: Thesis (Other)
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Engineering > Department of Informatics Engineering
Depositing User: 58 lili haryanti
Date Deposited: 26 Sep 2025 04:34
Last Modified: 26 Sep 2025 04:34
URI: https://repository.unib.ac.id/id/eprint/26388

Actions (login required)

View Item
View Item

slot gacor terbaik

slot gacor terpercaya

Situs Resmi Bisawd

slot gacor 4d

Slot Terpercaya

Slot Gacor bet 200