You are on page 1of 32

Pendahuluan

Event kota, seperti pertandingan olahraga, karnaval tematik, dan festival tahunan nasional,
dilakukan di daerah perkotaan, dan dapat menarik banyak orang dalam waktu singkat. Skala dan
intensitas peristiwa ini menuntut pendekatan sistematis yang mendukung stakeholder kepentingan
(misalnya, penyelenggara acara, otoritas publik dan keselamatan) untuk mengelola kerumunan.
Stakeholder bertujuan untuk mengurangi risiko insiden yang disebabkan oleh ancaman internal dan
eksternal, dan mempertahankan tingkat layanan yang dapat diterima (Fruin 1971; Marana et al.
1998) di area event tersebut. Tingkat layanan menggambarkan kisaran rata-rata hunian area untuk
pejalan kaki tunggal (Polus dkk. 1983). Tingkat layanan yang lebih tinggi dari area event
menunjukkan kepadatan yang lebih rendah dari orang-orang di daerah itu, yang lebih aman daripada
tingkat layanan yang lebih rendah yang mengacu pada kepadatan tinggi dari orang-orang.
Menggunakan informasi itu bersama dengan perangkat kualitatif dan kuantitatif lainnya interpretasi
kerumunan, seperti sentimen (Gong et al. 2019) dan komposisi (Gong et al. 2018a), stakeholder
menerapkan langkah-langkah yang telah ditentukan untuk mengelola keramaian. Informasi tingkat
pelayanan dapat disimpulkan dari kepadatan penduduk di wilayah tersebut, yang dapat berupa
dihitung lebih lanjut dengan menggunakan jumlah orang di area dan area tempat acara. Ambil
contoh hari libur nasional yaitu King's Day di Belanda. Untuk memperkirakan tingkat layanan di
atraksi populer seperti Dam Square di Amsterdam selama hari raya untuk manajemen kerumunan,
kita dapat menghitung kepadatan kerumunan di daerah itu. Menurut Duives et al. (2015), kepadatan
pejalan kaki di suatu Kawasan selama periode tertentu dapat didefinisikan sebagai jumlah peserta
per satuan luas. Sekali tingkat layanan suatu area diperkirakan, manajer kerumunan dapat
menerapkan langkah-langkah tertentu untuk menghindari insiden seperti kepadatan penduduk di
daerah itu. Oleh karena itu, jumlah orang di kerumunan adalah masukan yang berharga untuk
memperkirakan tingkat layanan di area acara, dan selanjutnya untuk manajemen kerumunan.

Ukuran kerumunan dapat diperkirakan oleh petugas, atau menggunakan pengamatan


kerumunan dan algoritma pemantauan berdasarkan data dari survei (Fang et al. 2008), kamera
(Davies et al. 1995), sistem penghitungan (Daamen et al. 2016), ponsel (Yuan 2014; Earl et al.2004)
dan sistem transportasi umum (Luo et al. 2018; Wang et al. 2018). Namun,metode konvensional
memiliki berbagai kelemahan. Ukuran kerumunan diperkirakan oleh pelayan dan survei
mengandung kesalahan manusia. Mengumpulkan data dari kamera atau sistem penghitungan dapat
mahal, khususnya untuk acara kota besar yang membutuhkan banyak kamera. Mirip dengan data
transportasi umum, sensor tidak dapat digunakan secara global dan mungkin melibatkan privasi
masalah. Sementara itu, dengan kemajuan teknologi, media sosial banyak digunakan oleh orang-
orang dalam acara kota. Orang-orang di media sosial membagikan ekspresi mereka dengan
mengirim teks dan gambar bersama dengan cap waktu dan lokasi. Terlepas dari kekurangan data
media sosial seperti jarangnya dan ketergantungan pada individu, gambar di media sosial mungkin
bisa jadi sumber data yang menjanjikan untuk memperkirakan ukuran kerumunan. Gambar 1
mengilustrasikan hubungan antara ukuran kerumunan dalam kenyataan dan perkiraan ukuran
kerumunan dari gambar media sosial dikirim oleh orang banyak selama acara kota.

Menghitung orang dalam sebuah gambar dipelajari secara ekstensif (Chen et al. 2013; Idrees
et al. 2013;Lempitsky dan Zisserman 2010; Zhang et al. 2015, 2016b). Lebih dari 50 metode ditinjau
dalam survei (Sindagi dan Patel 2018; Saleh et al. 2015; Ryan et al. 2015) tentang memperkirakan
jumlah orang dalam kerumunan dari satu gambar. Namun, tidak ada pekerjaan menyelidiki estimasi
ukuran kerumunan dari gambar media sosial mengenai beragam karakteristik dalam konteks
peristiwa kota, dan tidak ada pekerjaan yang diusulkan kumpulan data terkait untuk mengeksplorasi
masalah seperti itu. Ada kurangnya pemahaman mendalam tentang metode mana yang paling
efektif dalam konteks ini, dan apakah kinerja mereka akan dipengaruhi oleh karakteristik gambar
yang beragam.

Gambar 1. Ilustrasi hubungan antara ukuran kerumunan dalam kenyataan dan ukuran kerumunan yang diperkirakan menggunakan sosial
gambar media yang dikirim oleh orang banyak di acara kota

Kesenjangan penelitian ini mengarah pada dua pertanyaan penelitian:

 RQ1. Metode mana yang cocok untuk memperkirakan ukuran kerumunan menggunakan
gambar media sosial di konteks peristiwa kota?
 RQ2. Apa pengaruh karakteristik gambar pada keakuratan ukuran kerumunan metode
estimasi yang dijelaskan dalam RQ1?
Untuk menjawab pertanyaan penelitian ini, pertama-tama kita mengatur ruang lingkup
ukuran kerumunan yang akan diukur dalam penelitian ini. Kemudian, memilih satu set metode dari
beragam kategori yang diperkenalkan oleh Saleh et.al. (2015) untuk memperkirakan ukuran
kerumunan dari gambar. Berdasarkan pengetahuan kita dapat keuntungan dari investasi metode
yang ada, kita mengusulkan metode baru untuk memperkirakan ukuran kerumunan. Kita
meninggalkannya untuk pekerjaan di masa depan. Untuk menguji keefektifan setiap metode, kita
membuat kumpulan data dengan jumlah orang dalam kerumunan yang dianotasi serta beragam
karakteristik gambar. Selanjutnya, kita menerapkan setiap metode yang dipilih pada dataset yang
dibangun untuk memperkirakan ukuran kerumunan setiap gambar. Kemudian menganalisis dampak
karakteristik citra pada kinerja masing-masing metode. Akhirnya, kita memilih yang paling
menjanjikan metode dan diidentifikasi di mana karakteristik gambar itu paling efektif.
Makalah ini disusun sebagai berikut. Kami menyajikan karya-karya terkait di bagian
berikutnya. Kemudian, kami menetapkan cakupan ukuran kerumunan yang akan diperkirakan, diikuti
dengan pengantar metodologi penelitian untuk menguji akurasi estimasi metode yang berbeda.
Selanjutnya dijelaskan karakteristik gambar dari data media sosial, serta metode penghitungan
kerumunan potensial. Bagian selanjutnya memperkenalkan kumpulan data media sosial, diikuti oleh
desain eksperimental untuk menguji efektivitas metode yang dipilih untuk dataset yang dibangun.
Temuan eksperimen yang dihasilkan dan analisis yang sesuai kemudian ditampilkan, diikuti dengan
diskusi.Dan makalah diakhiri dengan kesimpulan.

Karya yang terkait

Di bagian ini, kami meninjau karya terkait tentang menghitung orang di keramaian. Seperti
karya-karya tersebut mengusulkan dan menyelidiki metode penghitungan kerumunan dalam
konteks tertentu dan menggunakan kumpulan data untuk menilai keefektifannya, kami meninjau
karya-karya tersebut dalam hal metode, konteks dan Himpunan data.
Sindagi dan Patel (2018) membandingkan 27 metode penghitungan massa dalam survei
mereka. Mereka mengklasifikasikan metode ini menjadi dua jenis, yaitu pendekatan tradisional dan
convolutional neural network (CNN). Pendekatan tradisional mendeteksi orang melalui fitur buatan
tangan, seperti fitur wajah, kepala dan bagian bunga, yang diekstraksi dari sebuah gambar (Liu et al.
2019; Zhou et al. 2015; Chen et al. 2012). Pendekatan tradisional dapat diklasifikasikan lebih lanjut
menjadi pendekatan berbasis deteksi, regresi, dan densitas. Sementara pendekatan berbasis CNN
menghitung jumlah orang dalam sebuah gambar menggunakan kemajuan yang didorong terutama
oleh jaringan CNN (Wang et al. 2020; Sindagi et al. 2019; Ma et al. 2019; Sindagi dan Patel 2019b;
Jiang et al. 2019; Shi dkk. 2019; Sindagi dan Patel 2019a). Metode berbasis CNN dapat
diklasifikasikan lebih lanjut berdasarkan properti jaringan dan pendekatan pelatihan. Eksperimen
(Sindagi dan Patel 2018) menunjukkan bahwa pendekatan berbasis CNN mencapai kinerja yang lebih
baik di keramaian dengan kepadatan tinggi dengan variasi skala objek dan perspektif pemandangan.

Saleh dkk. (2015) mengulas serangkaian pendekatan terkait penghitungan massa dan
estimasi kepadatan. Mereka mengkategorikan pendekatan yang ditinjau menjadi pendekatan
langsung dan pendekatan tidak langsung. Pendekatan langsung (yaitu deteksi target berbasis objek)
menghitung orang dengan mengidentifikasi segmen individu dalam kerumunan dan kemudian
mengumpulkannya sebagai hasilnya. Sementara, pendekatan tidak langsung (misalnya analisis
berbasis piksel, berbasis tekstur, dan berbasis titik sudut) menghitung kerumunan dengan algoritma
pembelajaran mesin atau analisis statistik, yang dianggap lebih kuat dibandingkan dengan metode
langsung.

Ryan dkk. (2015) mengevaluasi 22 metode penghitungan massa dalam survei mereka di
mana mereka mengkategorikan karya-karya tersebut sebagai metode holistik, menengah dan lokal.
Pendekatan holistik menggambarkan setiap gambar menggunakan fitur gambar global dan
kemudian memetakan fitur-fitur ini dengan perkiraan ukuran kerumunan melalui model regresi atau
klasifikasi. Sebaliknya, pendekatan lokal menggunakan fitur lokal dalam gambar untuk
mengidentifikasi individu dan kemudian mengakumulasikannya sebagai hasilnya. Yang perantara
Mengumpulkan informasi tentang objek lokal ke dalam histogram bin, dan informasi ini
direpresentasikan pada tingkat holistik.

Meskipun ketiga klasifikasi memiliki nama yang berbeda, namun mereka serupa dalam hal
pendekatan penghitungan kerumunan (yaitu mekanisme untuk menghitung orang) dan apakah
jaringan saraf digunakan. Misalnya, kategori metode tradisional (Sindagi dan Patel 2018) mirip
dengan kategori metode langsung (Saleh dkk. 2015) dan metode lokal (Ryan dkk. 2015). Kategori
metode berbasis CNN mirip dengan kategori metode tidak langsung dan metode holistik. Dalam hal
ini, kami mengikuti klasifikasi yang diusulkan oleh Saleh et al. (2015) dalam penelitian ini, yaitu
metode langsung dan metode tidak langsung, untuk memilih metode untuk menghitung ukuran
kerumunan.

Analisis penghitungan massa juga dilakukan dalam berbagai konteks, mis. menghitung orang
untuk manajemen kerumunan melalui pengawasan video di trotoar pejalan kaki (Zhang et al. 2015),
di pusat perbelanjaan (Idrees et al. 2013; Chen et al. 2013), di area kota (Li et al. 2018; Xiong et al.
2017; Sam et al. 2017), untuk deteksi perilaku kekerasan di lingkungan yang beragam (Marsden et al.
2017). Selain itu, pendekatan penghitungan massa menunjukkan efektivitas yang berbeda dalam
konteks yang beragam menurut penelitian sebelumnya. Pendekatan penghitungan massa holistik,
seperti M-CNN (Zhang et al. 2016b) dan CNN-boosting (Walach and Wolf 2016), lebih mahir daripada
pendekatan lokal di jalur pejalan kaki dengan kepadatan rendah (Chan et al. 2008). Sedangkan
metode berbasis CNN, mis. Cascaded-MTL (Sindagi dan Patel 2017) dan Switching-CNN (Sam et al.
2017), mengungguli yang lain dalam konteks acara kota (Zhang et al. 2016a, b), karena dalam
konteks tersebut keramaian berada pada tingkat kepadatan yang tinggi dengan variasi dalam
perspektif pemandangan. Namun, belum ada karya yang mengkaji crowdcounting dalam konteks
city-event dengan menggunakan citra media sosial.

Sementara itu, satu set kumpulan data diusulkan dan digunakan dalam analisis
penghitungan massa (Wang et al. 2020; Chan et al. 2008; Chen et al. 2012; Idrees et al. 2013; Zhang
et al. 2015, 2016a, b ). Kumpulan data ini beragam mengenai tingkat dan pemandangan yang padat
variasi di seluruh gambar. Dataset UCSD (Chan et al. 2008), sebagai salah satu dataset pertama yang
dibuat untuk penelitian semacam itu, berisi 2.000 gambar dengan total 49.885 pejalan kaki
beranotasi, ditangkap oleh pengawasan video di jalur pejalan kaki. Meskipun sejumlah besar gambar
yang dikandungnya, ia memiliki kerumunan dengan kepadatan rendah dengan rata-rata sekitar 15
orang dalam sebuah gambar yang tidak cukup untuk analisis penghitungan kerumunan di lingkungan
yang sangat padat. Dengan upaya meningkatkan keragaman tingkat kepadatan, Chen et al. (2012)
mengusulkan dataset Mall yang berisi 2.000 gambar dengan 62.325 orang yang dianotasi dengan
rata-rata 33 orang dalam gambar yang diambil oleh pengawasan video pusat perbelanjaan. Namun,
kedua set data ini kurang bervariasi dalam hal perspektif pemandangan karena semuanya ditangkap
oleh pengawasan video tetap. Idris dkk. (2013) meningkatkan variasi pemandangan dalam kumpulan
data UCF_CC_50 mereka dengan mengumpulkan 50 gambar dari Internet dengan serangkaian kata
kunci, mis. konser, protes, stadion, dan maraton. Meskipun memiliki berbagai tingkat kepadatan,
gambar yang terlalu sedikit membuatnya tidak cukup untuk melatih dan menguji metode berbasis
pembelajaran mesin. Zhang dkk. (2016b) memperkenalkan kumpulan data yang berisi 1198 gambar
dengan 330.165 kepala beranotasi, di antaranya 482 gambar dipilih secara acak dari Internet dan
sisa gambar diambil dari pengawasan video di jalan area metropolitan di kota. Ini banyak digunakan
dalam penghitungan kerumunan dan penelitian estimasi kepadatan karena mengandung tingkat
kepadatan yang beragam dengan variasi yang kaya dalam perspektif pemandangan di seluruh
gambar. Namun, tidak ada kumpulan data khusus yang diusulkan dengan gambar yang diambil
secara aktif oleh individu itu sendiri, seperti dari media sosial, dalam konteks peristiwa kota.

Definisi ukuran kerumunan

Pada bagian ini, kami mendefinisikan ukuran kerumunan yang akan diestimasi, terdiri dari
tingkat ukuran kerumunan dan jumlah orang tertentu untuk lingkungan yang lebih sedikit
penduduknya.

Tingkat ukuran kerumunan

Seperti yang ditunjukkan pada bagian sebelumnya, informasi ukuran kerumunan sangat
penting untuk memperkirakan tingkat layanan di suatu area (Marana et al. 1998) untuk manajemen
kerumunan. Ukuran kerumunan selama acara kota beragam, mis. bisa kecil di awal, dan menjadi
besar saat puncak kegiatan acara. Ketika jumlah orang besar dalam sebuah gambar, sulit untuk
mendapatkan data kebenaran dasar karena penghitungan manual menjadi rawan kesalahan. Jadi,
dalam penelitian ini, kami memperkirakan ukuran kerumunan di berbagai level (kategori) di mana
setiap level sesuai dengan rentang jumlah orang dalam sebuah gambar.

Jiang dkk. (2014) mengkategorikan ukuran kerumunan menjadi lima tingkatan, yaitu 0–10,
10–30, 30–60, 60–100, >100 orang. Namun, jumlah orang yang ditangkap dalam pemantauan
kamera di area tertentu jauh lebih sedikit daripada jumlah orang dalam gambar media sosial, mis.
selfie media sosial mungkin hanya berisi beberapa orang, sementara beberapa gambar panorama
mungkin berisi banyak orang di alun-alun atau di jalan dalam acara kota. Oleh karena itu, kami
menyesuaikan kategori ukuran kerumunan yang digunakan oleh Jiang et al. (2014) ke dalam lingkup
yang lebih besar.

Kami melakukan penyelidikan sebelumnya pada kumpulan data media sosial percontohan,
yang diperkenalkan kemudian. Kami menemukan bahwa sekitar 30% gambar tidak berisi orang, dan
sekitar 50% gambar berisi kurang dari 20 orang, sebagian besar adalah selfie dan foto grup. Oleh
karena itu, kami menetapkan tingkat ukuran kerumunan pertama untuk tidak berisi orang dalam
gambar, dilambangkan sebagai 0, dan tingkat kedua berisi sejumlah orang antara 1 dan 20,
dilambangkan sebagai 1. Selanjutnya, kami mendefinisikan 3 tingkat dengan jumlah orang di atas 20.
Padahal scoping level 2, 3, dan 4 berbeda dengan kategori yang digunakan dalam Jiang et al. (2014),
perbedaan pelingkupan ini memiliki dampak yang lebih kecil pada penelitian ini karena proporsi
gambar yang berisi lebih dari 20 orang kurang dari 20% di gambar media sosial.

Kami merangkum cakupan tingkat ukuran kerumunan sebagai berikut:

 Level 0 menunjukkan jumlah orang adalah 0, yaitu, tidak ada orang.


 Level 1 menunjukkan jumlah orang antara 1 dan 20.
 Level 2 menunjukkan jumlah orang antara 20 dan 100.
 Level 3 menunjukkan jumlah orang antara 100 dan 250.
 Level 4 menunjukkan lebih dari 250 orang.

Jumlah orang di kerumunan dalam gambar yang lebih sedikit penduduknya

Di lingkungan yang berpenduduk sedikit, di mana jumlah orang kurang dari 20 (level 1),
dimungkinkan untuk menghitung jumlah orang tertentu dalam sebuah gambar dan memperoleh
data kebenaran dasar. Dengan demikian, mengeksplorasi keakuratan metode untuk level 1 bisa lebih
tepat. Oleh karena itu, dalam penelitian ini, kami juga mengestimasi jumlah spesifik orang pada citra
yang kurang populasinya, yaitu citra dengan ukuran kerumunan level 1.

Pendekatan penelitian

Dalam bab ini, kami memperkenalkan pendekatan penelitian dan metrik penilaian untuk
menjawab pertanyaan penelitian. Kami menggambarkan setiap langkah dari pendekatan penelitian
yang ditunjukkan pada Gambar. 2.

Untuk menyelidiki pertanyaan penelitian pertama, yaitu efektivitas metode dalam estimasi
ukuran kerumunan menggunakan gambar media sosial di acara kota, kami memilih satu set metode
penghitungan kerumunan dengan beragam teknik yang ditinjau dalam survei (Sindagi dan Patel
2018; Saleh et al. 2015) . Untuk memperkirakan ukuran kerumunan menggunakan metode yang
dipilih, kami membangun kumpulan data media sosial dari gambar yang dikumpulkan selama acara
kota dengan mempertimbangkan berbagai aspek, seperti topik acara, edisi, durasi durasi, kota, dan
area di kota. Metode yang dipilih diterapkan pada kumpulan data beranotasi, menghasilkan
perkiraan ukuran kerumunan untuk setiap gambar. Keakuratan estimasi crowd size dihitung dengan
membandingkan hasil estimasi dengan kebenaran dasar, yang menunjukkan apakah tingkat ukuran
kerumunan suatu gambar sama dengan kebenaran dasar.
Gambar 2 Proses penjajakan keefektifan metode yang dipilih dalam pendugaan ukuran kerumunan menggunakan citra media sosial pada
peristiwa kota, dan investigasi dampak karakteristik citra pada hasil pendugaan. Simbol dalam warna hijau menunjukkan langkah-langkah
proses. Simbol dalam warna abu-abu menunjukkan input dan output. (Gambar berwarna online)

Untuk menjawab pertanyaan penelitian kedua, yaitu menyelidiki dampak karakteristik


gambar pada estimasi ukuran kerumunan dari metode yang berbeda, kami menghasilkan
serangkaian karakteristik gambar dari perspektif manajemen kerumunan dan perspektif gambar
media sosial. Karakteristik citra yang dihasilkan dari crowd management meliputi kondisi seperti
indoor atau outdoor, dan lingkungan perkotaan tempat pengambilan foto seperti alun-alun, jalan,
kanal, dan taman. Karakteristik citra yang dihasilkan dari perspektif citra media sosial terdiri dari
karakteristik yang dapat mempengaruhi efektivitas penghitungan massa, seperti people_present,
view, dan selfie_face.

Kami memperbesar anotasi dataset dan pemfilteran karakteristik gambar pada Gambar. 2b.
Karena karakteristik gambar yang dihasilkan pada langkah sebelumnya mungkin mengandung
karakteristik yang sangat berkorelasi, kami melakukan prosedur pemilihan karakteristik untuk
menyaring karakteristik gambar berkorelasi tinggi. Untuk melakukannya, kami secara acak memilih
satu set gambar dari total dataset sebagai dataset percontohan dan membubuhi keterangan ini
dengan nilai karakteristik gambar dan ukuran kerumunan sebagai kebenaran dasar. Setelah
memeriksa korelasi pada semua karakteristik yang dijelaskan dalam set data percontohan,
karakteristik gambar yang paling tidak berkorelasi disaring. Dataset lengkap kemudian dianotasi
dengan karakteristik gambar yang dipilih dan ukuran kerumunan. Output dari sub-proses ini adalah
kumpulan data beranotasi yang menggabungkan kumpulan data Pilot dan kumpulan data Lengkap,
yang diberi nama kumpulan data Total.

Untuk menyelidiki dampak karakteristik gambar pada keakuratan metode yang dipilih, kami
melatih pengklasifikasi menggunakan algoritma regresi logistik untuk pembelajaran mesin (Dreiseitl
dan Ohno-Machado 2002) untuk setiap metode pada nilai karakteristik gambar dengan kebenaran
kerumunan estimasi tingkat ukuran. Langkah ini menghasilkan serangkaian dampak (koefisien) untuk
setiap karakteristik gambar. Selain itu juga menghasilkan model klasifikasi sebagai produk sampingan
dengan kinerja rata-rata model yang dihitung dari validasi silang. Kami menganalisis keluaran ini dan
memberikannya sebagai umpan balik untuk meningkatkan penyelidikan dampak karakteristik
gambar pada efektivitas metode dalam estimasi ukuran kerumunan
Metrik perbandingan

Kami menggunakan seperangkat metrik perbandingan untuk menganalisis keakuratan


metode dalam estimasi ukuran kerumunan dan dampak karakteristik gambar pada hasil estimasi

Keakuratan estimasi metode

Kinerja estimasi dinilai dengan menggunakan akurasi estimasi, yang dihitung untuk setiap
metode i. Kesalahan estimasi Ai dihitung dengan jumlah gambar yang diidentifikasi dengan benar
Mtrue dibagi dengan total ukuran sampel Mi, lihat Persamaan. 1. Kami menyadari kelemahan dari
tindakan ini sehubungan dengan batas (keras) dari tingkat ukuran kerumunan, misalnya dengan
asumsi sebuah gambar berisi 99 orang, yaitu ground truth crowd size level 2, sedangkan perkiraan
jumlah orang adalah 101, yaitu crowd size level 3. Meskipun perbedaan antara nilai ground truth
dan perkiraan jumlah orang dalam gambar kecil, perkiraan tingkat ukuran kerumunan tidak benar,
yang tampaknya merupakan reaksi berlebihan. Untuk mengimbangi ini, kami juga memeriksa
kebenaran dasar dan estimasi jarak dekat di level yang berdekatan.

Untuk mengeksplorasi wawasan tentang kinerja estimasi dari berbagai metode, kami
selanjutnya menunjukkan distribusi tingkat ukuran kerumunan yang diperkirakan dibandingkan
dengan kebenaran dasar pada Tabel 7, dan distribusi perkiraan jumlah orang dalam tingkat ukuran
kerumunan 1 dibandingkan dengan kebenaran dasar pada Gambar. 6.

(1)

Kinerja klasifikasi

Penyelidikan dampak karakteristik citra terhadap keakuratan metode dalam estimasi ukuran
kerumunan menghasilkan dampak dari masing-masing karakteristik citra, model klasifikasi, dan
kinerja validasi silang model klasifikasi ini. Kinerja model klasifikasi ditunjukkan dengan kinerja
validasi silang. Kinerja validasi silang model klasifikasi ini diukur dengan metrik untuk klasifikasi
biner, yaitu Precision, Recall dan F1_Score (Powers 2011). Precision mengacu pada persentase hasil
yang diklasifikasikan benar di antara semua hasil yang diklasifikasikan, sedangkan Recall mengacu
pada persentase item yang benar telah diklasifikasikan di antara semua item yang benar. F1_Score
hanyalah rata-rata harmonik dari presisi dan penarikan Kembali.

Karakteristik gambar media sosial

Di bagian ini, kami mengidentifikasi serangkaian karakteristik pemandangan dari gambar


(selanjutnya disebut sebagai Karakteristik Gambar) untuk menyelidiki dampaknya terhadap
keakuratan metode penghitungan massa. Karakteristik citra terdiri dari persyaratan dari crowd
management seperti indoor/outdoor dan lingkungan perkotaan yang ditampilkan pada masing-
masing citra (sebagai tujuan dari penelitian ini adalah untuk memberikan informasi tentang crowd
size untuk crowd management), dan karakteristik citra yang diposting dari media sosial dalam hal,
mis. jenis gambar (selfie atau group picture) dan sebaran keramaian, yang dapat mempengaruhi
kinerja metode penghitungan keramaian. Karakteristik citra selanjutnya dikategorikan menjadi tiga
jenis yaitu karakteristik gambar global, frontend dan backend, yang akan diperkenalkan di bagian
berikut. Definisi rinci karakteristik gambar diberikan pada Tabel 1, dan contoh yang sesuai
ditunjukkan pada Gambar. 3.
Karakteristik perspektif manajemen kerumunan

Seperti dalam penelitian ini, kami menyelidiki efektivitas metode menghitung orang untuk
manajemen kerumunan dalam event kota yang dilakukan di ruang terbuka (disimbolkan dengan
outdoor), seperti di jalan, stadion olahraga, dan pusat konferensi, daripada di ruang tertutup.
(dilambangkan sebagai dalam ruangan) seperti di dalam ruangan atau toko. Jadi kami
mengidentifikasi gambar jika diambil di dalam atau di luar ruangan. Sementara itu, manajer
kerumunan biasanya menerapkan langkah-langkah yang telah ditentukan untuk mengelola
kerumunan. Keterbatasan area di mana kerumunan berada relevan dengan tindakan tertentu;
apakah orang-orang punya tempat untuk dikunjungi? Apakah ada air atau rel kereta api atau area
lain yang tidak dapat diakses di sekitar? Oleh karena itu, kita perlu mengidentifikasi lingkungan
perkotaan yang ditampilkan dalam gambar, seperti alun-alun, jalan, kanal, taman, yang dapat
mempengaruhi efektifitas metode penghitungan orang di keramaian. Kami mengkategorikan dua
karakteristik gambar ini sebagai karakteristik global karena mereka ada di semua gambar
Table 1 Karakteristik citra yang teridentifikasi
Tabel 1 lanjutan
Gambar 3 Contoh gambar dengan karakteristik yang beragam, seperti yang tercantum pada Tabel 1. Gambar-gambar ini dikumpulkan dari
media sosial dalam acara-acara kota King's Day 2016–2018, dan Europride 2017, baik di Amsterdam, Belanda

Karakteristik perspektif media sosial

Untuk mengidentifikasi karakteristik pada gambar media sosial yang dapat memengaruhi
efektivitas metode penghitungan orang, Kami meninjau gambar media sosial dari kumpulan data
percontohan (yang akan diperkenalkan di bagian Pengumpulan Data). Karena semua metode yang
dipilih (yang akan diperkenalkan di bagian Pemilihan Metode Estimasi Ukuran Massa) menghitung
orang berdasarkan konten gambar, oleh karena itu kami fokus pada karakteristik konten gambar,
daripada informasi gambar lainnya, seperti meta-data. Pertama, kami menemukan bahwa sebagian
besar gambar yang diulas berisi orang. Di antara semua gambar ini, orang-orang ditangkap oleh
kamera dari sudut pandang yang berbeda, seperti Atas, Paralel, dan antara Atas dan Paralel, yang
diilustrasikan pada Gambar 4a, yang dapat memengaruhi efektivitas metode penghitungan orang
melalui pengidentifikasian bentuk dan wajah. Kedua karakteristik citra ini juga dikategorikan sebagai
karakteristik citra global karena terdapat pada semua citra. Selain itu, kami menemukan bahwa
orang hadir dalam dua lapisan dalam gambar, yaitu lapisan ujung depan yang dekat dengan lensa
kamera, dan lapisan ujung belakang yang jauh dari lensa kamera, diilustrasikan pada Gambar 4b.
Gambar dengan orang-orang di frontend biasanya selfie. Orang-orang di bagian belakang gambar
disebut pertemuan (dilambangkan sebagai pertemuan). Ukuran dan bentuk orang yang berbeda di
frontend dan backend dapat memengaruhi efektivitas metode penghitungan orang. Berdasarkan
sudut pandang dan lapisan tempat orang ditangkap, gambar yang berisi orang dapat dikategorikan
lebih lanjut menjadi tiga jenis, yaitu selfie saja, selfie dengan kumpul-kumpul, dan hanya kumpul
kumpul.
Gbr. 4 Interpretasi skema karakteristik gambar dalam hal view, has_gatherings, gatherings_distribution, dan gatherings_clarity_level,
tercantum dalam Tabel 1. Gambar media sosial dikumpulkan dari media sosial di acara kota King's Day 2016–2018, dan Europride 2017, di
Amsterdam , Belanda

Untuk selfie yang berisi orang di frontend, wajah orang mungkin beragam,misalnya Wajah penuh,
Wajah sebagian, Wajah terblokir, Wajah belakang (atau Kepala Hack), atau Tanpa wajah (yaitu hanya
menunjukkan tubuh daripada wajah). Ini dapat memengaruhi metode berbasis wajah dalam
menghitung orang. Untuk gambar yang berisi kumpul-kumpul, sebaran kumpul-kumpul dapat dibagi
menjadi dua jenis, yaitu Tetap dan Gradien, diilustrasikan pada Gambar. 4b. Pertemuan tetap
menunjukkan bahwa orang-orang memiliki jarak yang mirip dengan kamera. Gradient gathering,
sebaliknya, memiliki jarak yang berbeda ke kamera, dengan orang yang lebih kecil memiliki jarak
yang lebih jauh. Distribusi pertemuan yang berbeda menyebabkan perbedaan ukuran dan kejelasan
wajah dan bentuk, yang dapat mempengaruhi efektivitas metode penghitungan orang. Di antara
semua gambar dengan kumpulan di backend, kejelasan orang berbeda: beberapa gambar cukup
buram, sementara yang lain sangat jelas. Perbedaan kejelasan kumpulan di backend dapat
memengaruhi efektivitas metode yang menghitung orang berdasarkan wajah dan tekstur (mis.
metode bertingkat). Kami kemudian mengkategorikan gambar dengan orang-orang dalam kelompok
ke dalam tingkat yang berbeda dalam hal kejelasan, diilustrasikan pada Gambar. 4c, mulai dari A
sampai E, di mana A menunjukkan kejelasan tertinggi dan E menunjukkan kejelasan terendah. Pada
tingkat kejelasan A, wajah dan fitur detail pada wajah terlihat jelas dan dapat dikenali. Di level B,
wajahnya jelas. Fitur di wajah dapat diamati tetapi tidak dapat diidentifikasi. Di level C, hanya wajah
yang dapat diamati sedangkan fitur pada wajah tidak berbeda. Bentuk orangnya jelas. Di level D,
setiap orang hanya ditampilkan sebagai bentuk. Di level E, setiap orang ditampilkan sebagai titik.
Aturan detail dan contoh untuk membedakan tingkat kejernihan tercantum pada baris
Mengumpulkan tingkat kejelasan pada Tabel 1. Selanjutnya, Kami mengkategorikan karakteristik
gambar Memiliki tipe wajah selfie dan Selfie sebagai karakteristik gambar frontend karena ada di
lapisan frontend gambar-gambar. Sedangkan karakteristik citra Has gathering, sebaran Gathering,
dan tingkat kejelasan Gathering dikategorikan sebagai karakteristik citra backend, karena berada
pada lapisan backend citra.

Pemilihan metode estimasi ukuran kerumunan

Di bagian ini kami memilih metode untuk melakukan estimasi ukuran kerumunan pada
gambar media sosial. Seperti yang ditunjukkan dalam pendahuluan, tidak ada literatur yang
membandingkan kinerja metode estimasi ukuran kerumunan menggunakan data media sosial dalam
konteks peristiwa kota. Namun, menghitung jumlah orang dalam sebuah gambar bukanlah masalah
baru. Banyak karya membahas topik ini dan metode yang diusulkan untuk memecahkan masalah ini,
lihat (Chen et al. 2013; Idrees et al. 2013; Lempitsky dan Zisserman 2010; Zhang et al. 2015, 2016b).
Lebih dari 60 metode ditinjau dalam survei tentang menghitung orang dari gambar (Sindagi dan
Patel 2018; Saleh et al. 2015; Ryan et al. 2015). Seperti yang diperkenalkan di Bagian Pendahuluan,
metode ini dapat dikategorikan berdasarkan pendekatan yang berbeda, yaitu pendekatan langsung
dan pendekatan tidak langsung. Metode yang menggunakan pendekatan langsung mengidentifikasi
orang yang menggunakan fitur buatan tangan dalam sebuah gambar dan mengakumulasikannya
sebagai jumlah orang dalam sebuah gambar. Fitur buatan tangan mengacu pada properti yang
diturunkan sebelumnya oleh pakar manusia menggunakan informasi yang ada dalam gambar itu
sendiri, seperti wajah, kepala, bahu, dan kaki orang (Nanni et al. 2017). Metode dengan pendekatan
tidak langsung menghitung orang yang menggunakan fitur bukan buatan tangan yang diterapkan
dengan algoritme pembelajaran atau analisis statistik. Fitur non-buatan tangan juga disebut fitur
yang dipelajari, yang dipelajari oleh algoritme pembelajaran mesin menggunakan data daripada fitur
buatan tangan.

Dalam penelitian ini kami memilih beberapa metode untuk menghitung orang dari gambar.
Kriteria pemilihan adalah sebagai berikut: metode yang dipilih harus 1) beragam dalam mekanisme,
2) beragam dalam fitur khusus yang digunakan untuk mengidentifikasi dan menghitung orang, dan 3)
harus memiliki kinerja tinggi dibandingkan dengan metode terkait. Untuk memenuhi kriteria
pertama, kami memilih metode langsung dan tidak langsung. Untuk metode langsung, kami
selanjutnya mempertimbangkan dengan fitur berbeda untuk mengidentifikasi dan menghitung
orang, seperti wajah dan objek. Kami memilih Face-plusplus (Zhou et al. 2015) dan Darknet Yolo
(Redmon dan Farhadi 2017), yang masing-masing mengidentifikasi orang melalui pengenalan wajah
dan pengenalan objek, dan mencapai kinerja tinggi (Zhou et al. 2015; Redmon dan Farhadi 2017) ) .
Metode tidak langsung yang dipilih adalah metode Cascaded berbasis jaringan saraf convolutional
(Sindagi dan Patel 2017) dengan versi A dan B, yang mencapai hasil yang jauh lebih baik
dibandingkan dengan metode terkait (Sindagi dan Patel 2017). Metode yang dipilih tercantum dalam
Tabel 2 dan dijelaskan sebagai berikut

Pengenalan wajah: Faceplusplus (Face11)


Faceplusplus (Wajah??) adalah metode yang banyak digunakan untuk mengidentifikasi orang
berdasarkan wajah mereka (Zhou et al. 2015). Model pengenalan wajah dibuat berdasarkan jaringan
saraf konvolusi dalam yang dilatih dengan 5 juta wajah berlabel dengan sekitar 20.000 wajah
individu
Tabel 2 Metode yang dipilih untuk menghitung orang di kerumunan
Ini mencapai akurasi 99,50% dalam pengujian pengenalan wajah di database Labeled Faces in the
Wild (LFW) (Zhou et al. 2015), database wajah yang dirancang untuk mempelajari masalah
pengenalan wajah tanpa kendala. Metode ini mendeteksi wajah di setiap gambar dan memberikan
jumlah wajah di setiap gambar, berdasarkan mana kita dapat menghitung ukuran kerumunan setiap
gambar.

Pengenalan objek: Darknet Yolo (you only look once)

Darknet Yolo (You Only Look Once) adalah metode pembelajaran mesin berbasis jaringan
saraf yang canggih untuk deteksi objek waktu nyata (Redmon et al. 2016; Redmon dan Farhadi
2017). Itu dibangun berdasarkan Darknet, kerangka kerja jaringan saraf open source
(https://pjreddie.com/darknet/). Ia dapat mengenali sejumlah besar objek termasuk orang dan
mencapai rata-rata presisi 78,6 pada PASCAL Visual Object Classes Challenge 2007 (PASCAL VOC
2007), yang mengungguli algoritma lain yang banyak digunakan dalam bidang ini seperti Fast R-CNN,
SSD300 dan SSD500 (Redmon dan Farhadi 2017). Metode ini mendeteksi orang dan mengekspor
jumlah orang di setiap gambar.

CNN-Based: metode cascade

Metode cascade adalah metode pembelajaran mesin berbasis jaringan saraf convolutional
state-of-the-art (berbasis CNN) untuk memperkirakan jumlah orang dalam konteks kepadatan tinggi
dalam sebuah gambar (Sindagi dan Patel 2017). Ini terdiri dari dua model terlatih, yaitu Cascaded A
dan Cascaded B. Kedua model dilatih dengan bagian yang berbeda dari dataset Shanghai Tech
(Zhang et al. 2016b) yang berisi 1.198 gambar beranotasi dengan total 330.165 orang. Cascade A
dilatih dengan bagian dari gambar di dataset Shanghai Tech yang dirayapi secara acak dari Internet
tentang acara Shanghai Tech dan kebanyakan dari mereka memiliki banyak orang. Sementara,
Cascaded B dilatih dengan bagian dari gambar dalam kumpulan data Shanghai Tech yang diambil
dari jalan-jalan sibuk di area metropolitan di Shanghai selama acara Shanghai Tech (Sindagi dan Patel
2017; Zhang et al. 2016b). Menurut perbandingan (Sindagi dan Patel 2017), kinerja kedua model
cascade mengungguli metode populer yang digunakan di bidang ini seperti MCNN (Zhang et al.
2016b), Idrees (Idrees et al. 2013; Walach dan Wolf 2016; Zhang et al. al.2015). Metode Cascaded
memperkirakan jumlah orang di setiap gambar. Kemudian, untuk setiap gambar, tingkat ukuran
kerumunan yang sesuai dengan jumlah orang ini ditetapkan.

Data collection and annotation

Di bagian ini, kami membuat kumpulan data yang berisi gambar media sosial beranotasi
dalam peristiwa kota, untuk memperoleh kebenaran dasar guna menyelidiki efektivitas berbagai
metode dalam estimasi ukuran kerumunan, serta dampak karakteristik gambar pada efektivitas ini.
Untuk mengumpulkan gambar media sosial ini, pertama-tama kami memilih serangkaian acara dan
aktivitas selama acara ini. Kemudian, gambar media sosial yang diambil selama acara dan kegiatan
ini dikumpulkan dari Instagram, jejaring sosial berbasis gambar paling populer (Yang et al. 2016;
Gong et al. 2018a). Setelah mengumpulkan data, kami menggunakan gambar media sosial ini untuk
mendapatkan kebenaran dasar (dataset beranotasi). Karena kami juga ingin menyelidiki dampak
karakteristik gambar, gambar ini juga digunakan untuk mengidentifikasi karakteristik gambar. Kami
memperkenalkan setiap langkah secara rinci berikut ini
Event selection

Data media sosial dikumpulkan dari berbagai acara kota dan kegiatan selama acara tersebut.
Untuk menghindari bias dalam memilih acara dan kegiatan kota, Kami mengidentifikasi persyaratan
mengenai acara dan kegiatan dengan mempertimbangkan keragaman dalam hal kota, karakteristik
acara, dan kegiatan utamanya. Acara yang dipilih tercantum dalam Tabel 3. Ini berisi 4 acara kota
yang berbeda dengan topik yang berbeda, yaitu Hari Raja adalah perayaan ulang tahun Raja di
Belanda, Europride adalah festival LGBT, Sail adalah acara bahari, dan Feyenoord mewakili
Feyenoord huru hara penggemar sepak bola tahun 2017. Kami telah mengumpulkan data selama
tiga edisi acara King’s Day, pada tahun 2016, 2017 dan 2018. Acara yang dipilih beragam durasinya,
mulai dari kurang dari 1 hingga 9 hari. Mereka juga beragam di kota-kota dan daerah-daerah di kota,
mis. Sementara acara Feyenoord di Rotterdam, semua acara lainnya berlangsung di kota
Amsterdam. Kecuali event Sail dan event Feyenoord yang masing-masing berlangsung di area IJ (bay
area) dan sekitar stadion sepak bola, event-event tersebut berlangsung di pusat kota.

Social media data collection

Instagram, jaringan media sosial berbasis gambar, banyak digunakan oleh orang-orang untuk
berbagi gambar (Yang et al. 2016; Gong et al. 2018a). Oleh karena itu, kami mengumpulkan gambar
dari Instagram untuk membangun kumpulan data media sosial. Gambar Instagram dikumpulkan
melalui API platform Instagram menggunakan SocialGlass (http://social-glass.tudelft.nl/), sistem
terintegrasi untuk mengumpulkan dan memproses data media sosial (Bocconi et al. 2015; Psyllidis et
al. 2015) . Pada akhirnya, kami mengumpulkan 2.028 gambar Instagram yang dikirim selama acara
tertentu.

Data annotation

Total dataset dibagi secara acak menjadi dua sub-set data, yaitu pilot dataset dan full
dataset, masing-masing berisi sekitar 50% gambar Instagram yang dikumpulkan selama acara
tertentu. Dataset percontohan digunakan untuk mengidentifikasi dan memilih karakteristik gambar,
sedangkan dataset lengkap nantinya akan dianotasi dengan karakteristik gambar yang dipilih dari
dataset percontohan, dan selanjutnya digabungkan dengan dataset percontohan untuk
mendapatkan kebenaran dasar dan menyelidiki dampak karakteristik gambar pada kerumunan.
estimasi ukuran. Tabel 4 dan 5 mencantumkan komposisi dua kumpulan data dalam hal tingkat
keramaian dan karakteristik gambar.

Pilot data annotation

Dataset percontohan dianotasi secara manual dengan memperhatikan ukuran kerumunan


sebagai kebenaran dasar, dan nilai karakteristik gambar yang diidentifikasi di bagian karakteristik
gambar media sosial.

Characteristics selection

Karena karakteristik gambar diidentifikasi dari dua perspektif yang berbeda, yaitu
manajemen kerumunan dan media sosial. Mungkin ada represe tindih, yaitu karakteristik terkait
yang kuat, ada di antara kedua perspektif ini. Untuk menganalisis dampak karakteristik citra
terhadap akurasi estimasi ukuran kerumunan, perlu dilakukan identifikasi karakteristik terkait dan
pilih yang representative
Gbr. 5 Heatmap asosiasi karakteristik gambar yang diidentifikasi, dihitung dengan Cramer's V berdasarkan set data percontohan
beranotasi

Kami menggunakan Cramer's V (Crame´r 1999) untuk menghitung ukuran efek dari asosiasi
antara setiap pasangan karakteristik. Cramer's V bervariasi antara 0 dan 1. Nilai yang mendekati 0
menunjukkan sedikit hubungan antara dua karakteristik. Namun, nilai yang mendekati 1
menunjukkan hubungan yang kuat. Heatmap pada Gambar 5a menunjukkan kekuatan hubungan
antara masing-masing pasangan karakteristik. Sel yang lebih merah menunjukkan asosiasi yang kuat
sementara yang lebih biru menunjukkan asosiasi yang lebih lemah.

Berdasarkan Gambar 5a, terlihat adanya asosiasi yang kuat antara kondisi dan 'lingkungan
perkotaan', 'memiliki selfie' dan 'selfie face', 'memiliki pertemuan' dan 'distribusi pertemuan'. Untuk
setiap pasangan di atas, satu karakteristik gambar akan dihapus, jika:

 Asosiasi dengan karakteristik lain lebih tinggi dari karakteristik lain


 Tidak diperlukan oleh manajemen kerumunan, tercantum dalam Tabel 1

Untuk pasangan 'kondisi' dan 'lingkungan perkotaan', karakteristik 'kondisi' yang


menunjukkan lingkungan dalam atau luar ruangan adalah informasi kunci untuk manajemen
kerumunan (Martella et al. 2017). Ini lebih penting daripada lokasi tertentu seperti yang ditunjukkan
oleh karakteristik 'lingkungan perkotaan'. Dengan demikian, karakteristik 'kondisi' akan tetap
terjaga. Untuk dua pasangan lainnya, yaitu 'has selfie' dengan 'selfie face', dan 'has gatherings'
dengan 'gatherings distribution', karakteristik terakhir di setiap pasangan, yaitu 'selfie face' dan
gatherings distribution', mengandung informasi yang lebih kaya daripada yang sebelumnya, dan
rata-rata memiliki asosiasi yang lebih sedikit dengan karakteristik gambar lainnya. Akibatnya, yang
terakhir disimpan.Dengan demikian, ciri-ciri gambar berikut akan dihilangkan: ‘urban environment’,
‘has selfie’, and ‘has gatherings’. Heatmap asosiasi dari karakteristik gambar yang dipilih ditunjukkan
pada Gambar. 5b.

Full dataset annotation

Setelah memilih karakteristik gambar, kami memberi anotasi pada karakteristik gambar yang
dipilih dan ukuran kerumunan (ground truth) untuk sisa dataset (Full dataset). Untuk anotasi ini kami
telah menggunakan crowd-sourcing (Schenk dan Guittard 2009): karakteristik gambar yang dipilih
dan ukuran kerumunan dari setiap gambar ditentukan oleh banyak orang dan penilaian mayoritas
diambil sebagai kebenaran dasar. Kami melakukan operasi crowd-sourcing menggunakan figure
Eight (https://www.figure-eight.com/), platform crowd-sourcing yang populer.

Setelah anotasi kumpulan data lengkap, itu digabungkan dengan kumpulan data
percontohan beranotasi untuk menghasilkan kumpulan data total beranotasi.

Dataset descriptive statistics

Statistik deskriptif kumpulan data dalam hal karakteristik gambar yang dipilih tercantum
dalam Tabel 4 dan 5, dengan sorotan untuk proporsi terbesar dalam kumpulan data Total dalam hal
tingkat kerumunan atau kategori karakteristik gambar. Total dataset berisi 2.028 gambar Instagram,
di mana dataset percontohan berisi sekitar 47,14% dan sisanya adalah bagian dari dataset lengkap.
Distribusi tingkat kerumunan di antara semua gambar media sosial menunjukkan pola yang sama di
seluruh dataset, yaitu hampir sepertiga dari mereka tidak berisi orang, dan setengahnya berisi
jumlah orang kurang dari 20. Sementara, Sekitar 12% di antaranya berisi jumlah orang antara 20
hingga 100. Gambar yang berisi lebih dari 100 orang jarang. Meskipun kumpulan data tidak
seimbang dalam hal tingkat ukuran kerumunan, ini mencerminkan realitas tingkat ukuran
kerumunan dalam gambar media sosial, yang tidak seimbang. Keefektifan algoritma yang diuji
menggunakan dataset yang dikumpulkan dari media sosial ini, oleh karena itu, sesuai dengan tujuan
penelitian ini,yaitu untuk membandingkan efektivitas metode estimasi ukuran kerumunan di acara
kota menggunakan gambar media sosial.

Mengenai karakteristik gambar di kedua set data, di antara lebih dari dua pertiga gambar
yang menampilkan orang, rata-rata 74% diambil di luar ruangan, dan sekitar 89% diambil dalam
tampilan paralel. Berkenaan dengan karakteristik gambar frontend, sekitar 63% dari gambar yang
berisi orang adalah foto selfie, dan 79% dari selfie tersebut menangkap wajah penuh orang.
Berkenaan dengan karakteristik gambar backend, di antara semua gambar yang berisi kumpulan,
sekitar 76% di antaranya kumpulan ditampilkan dalam distribusi gradien, yaitu kumpulan secara
bertahap jauh dari kamera. Di sekitar 36% dan 27% dari kasus tersebut, tingkat kejelasan adalah B
dan C, yang menyiratkan bahwa kita dapat melihat wajah tanpa fitur rinci dari wajah orang-orang itu
dalam pertemuan, atau kita hanya dapat melihat bentuk mereka masing-masing.

Pengaturan eksperimen

Kami eksperimen untuk melakukan analisis penggunaan menggunakan gambar media sosial
dalam acara kota untuk menjawab pertanyaan penelitian dari penelitian ini. Untuk menjawab
pertanyaan penelitian pertama, kami membuat eksperimen untuk mempelajari perkiraan ukuran
dari berbagai metode. Untuk menjawab pertanyaan penelitian, kami mengadakan eksperimen untuk
menentukan manfaat kedua dari gambar yang dipilih pada ketepatan perkiraan ukuran dengan
masing-masing metode. Dalam subbagian berikut, kami memperkenalkan setiap eksperimen dalam
hal variabelnya, hasil dan proses yang diharapkan

Eksperimen 1: akurasi estimasi ukuran kerumunan

Kami menyiapkan percobaan pertama untuk menilai akurasi estimasi untuk setiap metode yang
dipilih untuk memperkirakan ukuran kerumunan. Variabel bebas dalam percobaan ini adalah
keakuratan metode yang dipilih dan anotasi gambar media sosial dalam dataset. Variabel terikatnya
adalah crowd size dari setiap citra yang diestimasi dengan masing-masing metode. Selain ukuran
kerumunan yang diperkirakan, eksperimen ini juga menampilkan ukuran Ai yang didefinisikan dalam
Persamaan. 1 untuk membandingkan efektivitas metode yang berbeda. Proses percobaan tercantum
sebagai berikut:

 Untuk setiap metode, kami melakukan estimasi ukuran kerumunan pada gambar media
sosial di dataset, menghasilkan satu set estimasi ukuran kerumunan untuk setiap gambar.
 Hitung ukuran Ai yang didefinisikan dalam Persamaan. 1 pada set perkiraan ukuran
kerumunan untuk setiap metode.

Eksperimen 2: dampak karakteristik gambar pada estimasi ukuran kerumunan

Eksperimen kedua dilakukan untuk menyelidiki dampak karakteristik citra terhadap akurasi estimasi
estimasi tingkat ukuran kerumunan dengan metode yang berbeda. Variabel bebas terdiri dari
karakteristik citra yang dipilih dan ketepatan tingkat ukuran kerumunan yang diestimasi oleh masing-
masing metode. Variabel terikatnya adalah pengaruh (koefisien) masing-masing karakteristik citra
terhadap ketepatan tingkat crowd size untuk masing-masing metode. Setelah melakukan proses
eksperimen, selain dampak karakteristik citra, eksperimen juga menghasilkan model klasifikasi
dengan kinerja validasi silang sebagai produk sampingan untuk setiap metode. Model klasifikasi
mengklasifikasikan citra masukan ke dalam dua kategori, yaitu apakah ukuran kerumunan dalam
suatu citra dapat diperkirakan dengan benar, dengan tetap mempertimbangkan karakteristik citra.
Misalnya, ukuran kerumunan dalam gambar selfie yang berisi orang-orang dengan wajah penuh,
yang diambil dalam tampilan paralel tanpa pertemuan massal di bagian belakang dapat diperkirakan
dengan benar menggunakan metode Faceplusplus atau Darknet Yolo daripada metode Cascade.
Proses percobaan ini tercantum sebagai berikut:

 Hitung apakah perkiraan tingkat ukuran kerumunan sama dengan kebenaran dasar untuk
setiap gambar, dan tetapkan hasilnya sebagai variabel bi-kategori dependen.
 Latih pengklasifikasi biner menggunakan algoritma regresi logistik untuk pembelajaran mesin
(Dreiseitl dan Ohno-Machado 2002) untuk setiap metode dengan karakteristik gambar dan
ketepatan estimasi dengan metode ini. Untuk menilai bagaimana pengklasifikasi akan
menggeneralisasi ke dataset independen (Kohavi 1995), kami menerapkan validasi silang
lima kali lipat (Guyon 1997) diproses pelatihan.
 Catat dampak (koefisien) dari setiap karakteristik gambar yang dipilih dari model yang dilatih
dan ukur kinerja klasifikasi dari validasi silang oleh Precision, Recall dan F1_Score (Powers
2011) yang diperkenalkan di bab sebelumnya.

Analisis penghitungan kerumunan: temuan eksperimen tentang estimasi ukuran kerumunan dan
dampak karakteristik gambar

Pada bagian ini, kami menganalisis keakuratan perkiraan ukuran kerumunan untuk setiap
metode, serta dampak karakteristik gambar pada estimasi tingkat ukuran kerumunan untuk setiap
metode yang tercantum pada Tabel 2.

Estimasi ukuran kerumunan dari gambar media sosial di acara kota

Tabel 6 mencantumkan hasil estimasi ukuran kerumunan dari berbagai metode


menggunakan data media sosial dalam acara kota. Di sini, kami membedakan tingkat estimasi yang
berbeda. Ketika tingkat perkiraan adalah 1 (jadi kurang dari 20 orang), kami juga menentukan
perkiraan jumlah orang yang tepat.

Estimasi tingkat ukuran kerumunan

Berdasarkan Tabel 6, Faceplusplus (65,00%) dan Darknet Yolo (72,01%) mencapai akurasi 2-3
kali lebih tinggi daripada Cascade A (24,72%) dan Cascade B (35,43%). Faceplusplus dan Darknet Yolo
meremehkan ukuran kerumunan di sejumlah besar gambar, sementara Cascade A dan B
memprediksi nilai yang terlalu tinggi. Karena Faceplusplus dan Darknet Yolo menghitung orang
dengan mengidentifikasi wajah atau bentuk mereka, ukuran kerumunan dalam gambar padat
diremehkan, karena wajah dan bentuk mungkin tidak tersedia dalam jenis gambar ini.

Untuk membandingkan tingkat perkiraan dengan kebenaran dasar, kami menunjukkan


distribusi tingkat perkiraan untuk setiap metode pada Tabel 7. Diagonal tabel menunjukkan
persentase gambar yang diestimasi dengan benar oleh setiap metode. Menurut tabel, Faceplusplus
dan Darknet Yolo menghasilkan persentase estimasi benar yang lebih tinggi pada level 0 dan 1 yang
kurang padat. Sebaliknya, Cascade A dan B menghasilkan estimasi yang lebih tepat untuk level yang
lebih tinggi. Ini mungkin juga disebabkan oleh fitur berbeda yang digunakan oleh metode berbeda
dalam mendeteksi orang, yaitu Faceplusplus dan Darknet Yolo mendeteksi orang berdasarkan feses
atau bentuk, sedangkan metode Cascade menggunakan fitur yang dipelajari. Dengan demikian, kami
dapat menyimpulkan bahwa Faceplusplus dan Darknet Yolo lebih layak di lingkungan dengan
kepadatan rendah, sementara Cascaded A dan B cocok untuk lingkungan dengan kepadatan tinggi.
Saat membandingkan Faceplusplus dan Darknet Yolo, metode yang terakhir mencapai akurasi yang
lebih baik daripada yang pertama; yang mungkin menunjukkan bahwa dalam gambar media sosial,
bahkan di lingkungan dengan kepadatan rendah, bentuk lebih tersedia atau berharga daripada
wajah yang dapat dideteksi untuk menghitung orang. Sementara itu, karena kumpulan data yang
dibangun berisi lebih banyak gambar dengan kepadatan rendah yang dikumpulkan dari media sosial,
akurasi estimasi untuk metode Cascade jelas lebih rendah daripada Faceplusplus dan Darknet Yolo.

Jumlah orang tertentu dalam perkiraan ukuran kerumunan level 1

Berdasarkan Tabel 6, Darknet Yolo mencapai akurasi estimasi tertinggi (38,09%) dalam
estimasi jumlah spesifik orang dalam crowd size level 1, diikuti oleh Faceplusplus (37,21%). Metode
Cascade A dan B mencapai akurasi yang sangat rendah (2,05%, 4,88%). Serupa dengan pengamatan
dalam estimasi tingkat ukuran kerumunan, kecenderungan under- dan overestimasi dari metode
yang berbeda dapat disebabkan oleh fitur yang berbeda yang mereka gunakan untuk mendeteksi
orang, seperti yang kami jelaskan di bagian sebelumnya.

Untuk mengeksplorasi hubungan antara kebenaran dasar, nilai estimasi dan jumlah estimasi
tersebut untuk setiap metode, kami memplot pada Gambar. 6 dengan nilai kebenaran dasar pada
sumbu X, nilai estimasi pada sumbu Y dan jumlah estimasi yang sesuai poin dalam ukuran. Titik pada
diagonal (Y = X) menunjukkan estimasi yang benar. Berdasarkan Gambar 6a, b, metode Faceplusplus
dan Darknet Yolo mencapai akurasi tertinggi pada kisaran 0 hingga 4. Sebaliknya, estimasi akurat
untuk metode Cascade, menurut Gambar 6c–f, didistribusikan lebih merata daripada Faceplusplus
dan Darknet Yolo. Hal ini sesuai dengan mekanisme metode yang berbeda, yaitu Faceplusplus dan
Darknet Yolo lebih layak di lingkungan dengan kepadatan rendah sedangkan Cascade A dan B lebih
layak di lingkungan kepadatan tinggi.

Ketika membandingkan kedua metode Cascade, estimasi yang akurat dalam Cascade B lebih
merata daripada Cascade A. Ini adalah sifat bahwa sebagian besar gambar media sosial yang dikirim
selama acara kota ditangkap di area acara outdoor, yang lebih layak untuk metode Cascade. B, yang
dilatih dengan area jalan yang sibuk dalam acara kota, daripada Cascade A, yang dilatih dengan
gambar acak acara kota.
Table 7 Crowd size level estimation by different methods

Dampak karakteristik gambar pada estimasi tingkat keramaian

Kami melakukan percobaan kedua untuk menyelidiki dampak karakteristik gambar pada
estimasi tingkat ukuran kerumunan untuk metode terpisah. Hasilnya tercantum dalam Tabel 8 dan 9,
di mana setiap sel gelap menunjukkan karakteristik gambar (misalnya 'Kondisi') dengan nilai saat ini
(misalnya 'Outdoor') di kolom memiliki dampak positif maksimum untuk metode yang sesuai di baris.
Yaitu, gambar dengan karakteristik dalam nilai tersebut memiliki kemungkinan lebih besar untuk
memperkirakan tingkat ukuran kerumunan dengan benar dengan metode yang sesuai. Misalnya, sel
dengan skor dampak 0,88 di kolom 'Paralel' menunjukkan bahwa gambar yang diambil dalam
'tampilan' (yaitu karakteristik gambar) dari 'paralel' (yaitu nilai karakteristik gambar 'Tampilan')
menunjukkan dampak paling positif pada estimasi tingkat ukuran kerumunan daripada nilai lain
dalam melihat karakteristik menggunakan metode Faceplusplus. Sederhananya, kemungkinan besar
Faceplusplus memperkirakan tingkat ukuran kerumunan dengan benar untuk gambar yang diambil
dalam tampilan parallel.
Menurut Tabel 8 dan 9, karakteristik gambar 'orang yang hadir' menunjukkan dampak
negatif untuk Faceplusplus dan Darknet Yolo, tetapi dampak positif maksimal untuk metode
Cascade. Hal ini mungkin disebabkan oleh metode Faceplusplus dan Darknet Yolo yang cenderung
meremehkan ukuran kerumunan, sehingga meningkatkan akurasi estimasi yang benar dalam
memproses gambar yang berisi lebih sedikit orang, khususnya, tidak ada orang.

Kami juga menemukan bahwa gambar dalam ruangan menunjukkan dampak positif pada
semua metode. Ini mungkin disebabkan oleh gambar dalam ruangan yang berisi lebih sedikit orang
yang mengurangi kesulitan dalam estimasi ukuran kerumunan.

Kami mengamati bahwa gambar yang diambil dalam tampilan paralel menunjukkan dampak
positif yang lebih tinggi untuk Faceplusplus dan Darknet Yolo, sedangkan gambar tampilan atas lebih
baik ditafsirkan dengan metode Cascade. Ini mungkin karena Faceplusplus dan Darknet Yolo,
menghitung orang berdasarkan wajah dan bentuk, memerlukan informasi lebih detail tentang orang
daripada metode Berjenjang, menghitung orang melalui fitur yang dipelajari seperti yang
diperkenalkan di bab sebelumnya.

Berkenaan dengan 'distribusi pengumpulan', semua metode kecuali Cascade A menunjukkan


akurasi estimasi yang lebih tinggi dengan distribusi pengumpulan yang tetap. Wajar jika
dibandingkan dengan distribusi gradien, kumpulan dalam distribusi tetap berisi lebih sedikit orang
dan orang-orang memiliki ukuran yang sama pada gambar, yang mengurangi kesulitan dalam
mendeteksi dan menghitung orang.

Temuan menunjukkan bahwa semua metode kecuali Faceplusplus cenderung secara tepat
memperkirakan ukuran kerumunan gambar dengan pertemuan. Faceplusplus malah mencapai
akurasi estimasi yang lebih tinggi dengan gambar yang berisi kumpulan paling jelas (jadi di level A)
daripada tidak ada kumpulan. Wajar jika untuk tiga metode lainnya, kumpulan yang berukuran kecil
di bagian belakang gambar meningkatkan kesulitan untuk estimasi ukuran kerumunan. Namun,
sebagai metode berbasis pengenalan wajah, Faceplusplus masih dapat mengenali wajah kecil namun
jelas (begitu di Level A) dalam pertemuan.

Untuk menilai efektivitas dampak karakteristik gambar pada akurasi estimasi ukuran
kerumunan untuk setiap metode, kami menguji kinerja validasi silang dari pengklasifikasi produk
sampingan yang dibangun dengan dampak karakteristik gambar. Berdasarkan Tabel 9, baik
Faceplusplus dan Darknet Yolo mencapai F1_Score pada 0,86, sedangkan Cascaded A dan B masing-
masing mencapai 0,76 dan 0,74. Hal ini menunjukkan bahwa Faceplusplus dan Darknet Yolo
mencapai kemungkinan (keyakinan) yang lebih tinggi untuk menghasilkan estimasi tingkat ukuran
kerumunan yang benar daripada metode Cascade ketika karakteristik gambar berada pada nilai
dampak paling positif.

You might also like