JELITA, ANISA and Faurina, Ruvita (2023) KONVERSI GAMBAR KE AUDIO UNTUK MOBILITAS TUNANETRA DI RUANG PUBLIK MENGGUNAKAN TRANSFER LEARNING DAN LONG SHORT-TERM MEMORY (LSTM). ['eprint_fieldopt_thesis_type_ut' not defined] thesis, Universitas Bengkulu.
![Skripsi Anisa Jelita_G1A017033 - Anisa Jelita.pdf [thumbnail of Skripsi Anisa Jelita_G1A017033 - Anisa Jelita.pdf]](https://repository.unib.ac.id/style/images/fileicons/text.png)
Skripsi Anisa Jelita_G1A017033 - Anisa Jelita.pdf - Bibliography
Restricted to Repository staff only
Available under License Creative Commons GNU GPL (Software).
Download (3MB)
Abstract
Tunanetra merupakan penyandang disabilitas yang memiliki masalah dengan indra
penglihatan. Tunanetra memiliki beberapa keterbatasan dalam kesehariannya, salah
satunya keterbatasan dalam mobilitas, terutama di lingkungan ruang publik.
Penelitian ini mencoba mengimplementasikan pendekatan encoder-decoder
algoritma transfer learning dan Long Short-Term Memory (LSTM) untuk
membangun pemodelan image captioning yang bertugas melakukan konversi
gambar ke audio untuk membantu tunanetra memahami pemandangan visual di
ruang publik. Dataset gambar di ruang publik terbuka dikumpulkan dan diberikan
caption yang menjelaskan informasi mengenai hambatan pada pemandangan visual
dalam gambar. Permodelan dibangun mengikuti alur kerja metode pengembangan
CRISP-DM. Resnet101 dan Resnet152 digunakan pada encoder untuk mengekstrak
fitur gambar. Hasil ekstraksi dan caption diteruskan sebagai input pada jaringan
LSTM dengan lapisan attention. Akurasi pada model dikalkulasi menggunakan
metrik BLEU, METEOR, dan ROUGE-L. Permodelan berbahasa Inggris dengan
encoder ResNet101 mendapat nilai evaluasi terbaik pada BLEU-4 dengan score
91,811%. Sementara itu, permodelan yang dilatih dengan dataset berbahasa
Indonesia dengan encoder ResNet101 mencapai nilai terbaik pada BLEU-4 dengan
score 87.392%. Hasil captioning yang dilakukan menunjukkan bahwa model cukup
berhasil menampilkan caption sederhana yang sesuai untuk masing-masing
gambar.
Kata Kunci: image captioning, visually impaired, CNN, attention mechanism,
LSTM
Item Type: | Thesis (['eprint_fieldopt_thesis_type_ut' not defined]) |
---|---|
Subjects: | T Technology > T Technology (General) |
Divisions: | Faculty of Engineering > Department of Informatics Engineering |
Depositing User: | 58 lili haryanti |
Date Deposited: | 20 Nov 2023 07:07 |
Last Modified: | 20 Nov 2023 07:07 |
URI: | https://repository.unib.ac.id/id/eprint/17291 |