IMAGE CAPTIONING UNTUK MOBILITAS TUNANETRA DI RUANG PUBLIK MENGGUNAKAN TRANSFORMERS CLIP (CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING)

MUHAMMAD, DAFFA ALFAJRI and Ferzha, Putra Utama and Arie, Vatresia (2023) IMAGE CAPTIONING UNTUK MOBILITAS TUNANETRA DI RUANG PUBLIK MENGGUNAKAN TRANSFORMERS CLIP (CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING). ['eprint_fieldopt_thesis_type_ut' not defined] thesis, Universitas Bengkulu.

[thumbnail of Thesis] Archive (Thesis)
SKRIPSI MUHAMMAD DAFFA ALFAJRI G1A019033 - muhammad daffa alfajri.pdf - Bibliography
Restricted to Repository staff only
Available under License Creative Commons GNU GPL (Software).

Download (2MB)

Abstract

Image captioning adalah suatu teknik dalam bidang pengolahan citra dan
pemahaman bahasa alami yang bertujuan untuk menghasilkan deskripsi teks yang
menjelaskan konten suatu gambar atau citra. Seiring dengan berjalannya waktu
banyak potensi dari adanya teknologi image captioning salah satu contohnya adalah
penerapan image captioning untuk tunanetra, Tujuan dari penelitian ini adalah
mengimplementasikan pendekatan transformers CLIP (Contrastive Languange
Image Pre-training) yang bertugas sebagai model belajar dengan hasil akhirnya
adalah model yang dapat memahami dan menghubungkan teks dan gambar dalam
satu ruang vector (Image Captioning). Model ini digunakan untuk menyelesaikan
masalah mobilitas pada tunanetra untuk mengurangi keterbatasan pada indra
penglihatannya sehingga dapat melakukan kegiatan sehari-hari yaitu dalam
bermobilisasi di ruang publik. Permodelan dibangun mengikuti alur kerja metode
pengembangan CRISP-DM. Dataset yang digunakan dalam penelitian ini adalah
dataset berbahasa inggris yang bersumber dari deskripsi gambar area mobilisasi di
ruang publik, CLIP model block RN50x4 dan ViT-B/32 digunakan sebagai model
untuk image embedding dan GPT2 sebagai language model dalam penelitian ini.
Akurasi pada model dikalkulasi menggunakan metrik BLEU dan METEOR,
penggunaan model block RN50x4 menjadi model terbaik yang mendapatkan score
BLEU-1 82%, BLEU-2 78%, BLEU-3 75%, BLEU-4 73%. Hasil captioning
yang dilakukan menunjukkan bahwa model berhasil menampilkan caption yang
kreatif yang sesuai untuk masing-masing gambar dan optimal.
Kata Kunci: Image Captioning, Tunanetra, Mobilisasi, Transformers,
Contrastive Language Image Pre-training

Item Type: Thesis (['eprint_fieldopt_thesis_type_ut' not defined])
Subjects: T Technology > T Technology (General)
Divisions: Faculty of Engineering > Department of Informatics Engineering
Depositing User: 58 lili haryanti
Date Deposited: 19 Aug 2024 07:54
Last Modified: 19 Aug 2024 07:54
URI: https://repository.unib.ac.id/id/eprint/20204

Actions (login required)

View Item
View Item

slot gacor terbaik

slot gacor terpercaya

Situs Resmi Bisawd

slot gacor 4d

Slot Terpercaya

Slot Gacor bet 200