Mendalam Konvolusional Neural Networks untuk Analisis Sentimen Pendek Teks

Cicero Nogueira dos Santos Brasil Research Lab IBM Research cicerons@br.ibm.com
Maıra Gatti Brasil Research Lab IBM Research mairacg@br.ibm.com
Abstrak
analisis Sentimenteks pendek seperti kalimat tunggal dan pesan Twitter menantang karena informasi
kontekstual terbatas yang mereka biasanya mengandung. Secara efektif memecahkan tugas ini
memerlukan strategi yang menggabungkan konten teks kecil dengan pengetahuan sebelumnya dan
menggunakan lebih dari sekedar tas-dari-kata. Dalam karya ini kami mengusulkan jaringan saraf baru
dalam convolutional yang mantan-ploits dari informasi untuk kalimat-tingkat karakter-untuk melakukan
analisis sentimen dari teks-teks pendek. Kami menerapkan pendekatan kami untuk dua corpora dari dua
domain yang berbeda: Stanford Sentimen pohon-bank (SSTB), yang berisi kalimat dari review film; dan
Stanford Twitter Sentimen corpus (STS), yang berisi pesan-pesan Twitter. Untuk corpus SSTB,
pendekatan kami mencapai state-of-the-art hasil untuk sentimen prediksi kalimat tunggal di kedua biner
positif / klasifikasi negatif, dengan akurasi 85,7%, dan klasifikasi halus, dengan akurasi 48,3%. Untuk
corpus STS, pendekatan kami mencapai sentimen prediksi akurasi 86,4%.
1 Pendahuluan
Munculnya jaringan sosial online telah menghasilkan bunga sabit pada tugas analisis sentimen untuk
pesan teks singkat (Go et al, 2009;. Barbosa dan Feng, 2010; Nakov et al, 2013.). Namun, analisis
sentimen dari teks-teks pendek seperti kalimat tunggal dan dan posting microblogging, seperti pesan
Twitter, adalah menantang karena terbatasnya jumlah data kontekstual dalam jenis teks. Secara efektif
memecahkan tugas ini memerlukan strategi yang melampaui tas-dari-kata dan mengekstrak informasi dari
kalimat / pesan dalam cara yang lebih disiplin. Selain itu, untuk mengisi kesenjangan informasi
kontekstual dalam cara yang terukur, itu lebih cocok untuk menggunakan metode yang dapat
memanfaatkan pengetahuan sebelumnya dari set besar teks berlabel.
Dalam karya ini kami mengusulkan jaringan saraf convolutional mendalam yang mengeksploitasi dari
karakter-ke sentence- informasi tingkat untuk melakukan analisis sentimen dari teks-teks pendek.
Jaringan yang diusulkan, bernama Karakter untuk kalimat Konvolusional Neural Network (CharSCNN),
menggunakan dua lapisan convolutional untuk mengekstrak fitur vant rele dari kata-kata dan kalimat dari
berbagai ukuran. Jaringan yang diusulkan dapat dengan mudah menjelajahi kekayaan embeddings kata
yang dihasilkan oleh pra-pelatihan tanpa pengawasan (Mikolov et al., 2013). Kami melakukan KASIH
pengalaman- yang menunjukkan efektivitas CharSCNN untuk analisis sentimen dari teks-teks dari dua
domain: review film kalimat; dan pesan Twitter (tweet). CharSCNN mencapai state-of-the-art hasil untuk
dua domain. Selain itu, dalam percobaan kami memberikan informasi tentang kegunaan dari pra-pelatihan
tanpa pengawasan; kontribusi fitur karakter tingkat; dan efektivitas fitur kalimat-level untuk mendeteksi
negasi.
Karya ini disusun sebagai berikut. Dalam Bagian 2, kita menggambarkan diusulkan Jaringan Syaraf
archi- tecture. Dalam Bagian 3, kita membahas beberapa pekerjaan terkait. Bagian 4 Rincian setup
eksperimental dan hasil. Akhirnya, dalam Bagian 5 kami menyajikan pernyataan akhir kami.
2 Neural Network Architecture
Mengingat kalimat, CharSCNN menghitung skor untuk setiap label sentimen τ ∈ T. Dalam rangka untuk

mencetak kalimat, jaringan mengambil sebagai masukan urutan kata dalam kalimat, dan dibagikan
melalui
kerja ini berada dibawah lisensi Creative Commons Attribution 4.0 International License. Nomor halaman dan proses footer
ditambahkan oleh penyelenggara. Rincian lisensi: http://creativecommons.org/licenses/by/4.0/

69
Prosiding coling 2014, Konferensi Internasional tentang 25 Komputasi Linguistik: Papers Teknis, halaman 69-78, Dublin,
Irlandia, 23-29 Agustus 2014.

verted menjadi vektor u n = [rwrd. Jaringan ekstrak fitur dari karakter tingkat hingga kalimat-tingkat.1 Kata-Level embeddings Embeddings Firman-tingkat dikodekan oleh vektor kolom dalam embedding matriks W wrd ∈ Rdwrd × | V wrd |. Kami menggunakan berukuran tetap kata kosakata V wrd. Kebaruan utama dalam arsitektur jaringan kami adalah masuknya dua lapisan convolutional. Mengingat kalimat yang terdiri dari kata-kata N {w 1. embeddings karakter tingkat menangkap morfologi dan bentuk informasi. 2. yang terdiri dari dua sub-vektor : kata-tingkat embedding rwrd ∈ Rdwrd dan karakter tingkat embedding rwch ∈ Rcl0 u dari w n. w 2. dan kami menganggap bahwa kata-kata yang terdiri dari karakter dari karakter kosakata V chr berukuran tetap. sintaksis dan semantik mendatang tentang kata-kata. setiap kata w n adalah con. 2.informasi morfologi. w N}. rwch].a urutan lapisan di mana fitur dengan meningkatnya tingkat kompleksitas yang diekstraksi...1. w ke kata-level embedding rwrd dengan menggunakan produk matriks-vektor: r wrd =W wrd . . Sementara embeddings kata-level dimaksudkan untuk menangkap informasi sintaksis dan semantik. yang memungkinkan untuk menangani kata-kata dan kalimat dari berbagai ukuran. Setiap Kami mengubah kolom W ai kata wrd ∈ Rdwrd sesuai dengan embedding kata-tingkat kata-i dalam kosa kata..1 Tingkat Representasi awal Lapisan pertama dari jaringan mengubah kata-kata menjadi fitur vektor bernilai real (embeddings) yang cap.

. 2. Seperti digambarkan dalam Gambar. Embeddings karakter dikodekan oleh vektor kolom dalam embedding Mengingat karakter c. pendekatan convolutional menghasilkan fitur lokal di masing-masing karakter kata dan kemudian menggabungkan mereka menggunakan operasi max untuk membuat embedding karakter-tingkat tetap berukuran kata. 1. c M}. 1989). rchr nya embedding diperoleh dengan produk matriks-vektor: rchr = W chrvc (2) di mana vc adalah vektor dari ukuran || V chr || . yang didasarkan pada pendekatan convolutional (Waibel et al. . “sempurna” dan “buruk”). dan ukuran dwrd kata-tingkat embedding adalah parameter hiper untuk dipilih oleh pengguna. informasi penting dapat muncul di berbagai bagian dari tag hash (misalnya.1. Mengingat kata w terdiri dari M karakter {c 1. “#SoSad”..v w (1) di mana vw adalah vektor dari ukuran || V wrd || yang memiliki nilai 1 pada indeks w dan nol di semua posisi lain.. Matriks W wrd adalah parameter yang harus dipelajari. . Misalnya. dalam tugas analisis sentimen data Twitter. “#ILikeIt”) dan banyak keterangan informatif berakhir dengan akhiran “ly” (misalnya “indah”. c 2. pertama kita mengubah setiap karakter c m menja di karakter embedding matriks W chr ∈ Rdchr × | V rchr m chr |.. Kami mengatasi masalah ini dengan menggunakan strategi yang sama diusulkan dalam (dos Santos dan Zadrozny 2014).2 Karakter-Level Embeddings metode Robust untuk mengekstrak morfologi dan bentuk informasi dari kata-kata harus mempertimbangkan semua karakter kata dan memilih fitur yang lebih penting untuk tugas di tangan.

.1) / 2 kiri tetangga. ∈ Rdchrkchr sebagai con dan nya (kchr ..... rchr m + (kchr-1) / 2) T 1We menggunakan karakter bantalan khusus untuk karakter dengan indeks di luar kata batas. Mari kita mendefinisikan vektor z m = (rchr m. rchr 2 dari. m. . ukuran rchr M kchr}.. ... yang memiliki nilai 1 pada indeks c dan nol di semua posisi lainnya. jendela berturut-turut di urutan {rchr 1 catenation dari embedding karakter... rchr 2. Input untuk lapisan convolutional adalah urutan embeddings karakter {rchr 1 Lapisan convolutional berlaku operasi matriks-vektor untuk setiap jendela. 70 .1) / 2 neighbors1 kanan: z m}.(kchr-1) / 2. rchr M nya (kchr .

. Matriks W chr dan W 0. ding dari kata nomor). Menggunakan max atas semua jendela karakter kata.Gambar 1: pendekatan Konvolusional untuk ekstraksi fitur karakter tingkat. w 2..2 Kalimat Representasi -tingkat dan Scoring Mengingat x kalimat dengan kata-kata N {w 1. Lapisan convolutional menghitung unsur-j dari rwch vektor ∈ Rcl0 u. 2.. Matriks yang sama digunakan untuk mengekstrak fitur lokal di sekitar setiap jendela karakter kata yang diberikan. kita mengekstrak berukuran tetap vektor fitur “global” untuk kata. dan convolutional ukuran cl0 unit karakter u (yang konteksnya sesuai jendela kchr dengan ukuran adalah dari karakter tingkat embed- hiper-parameter. Ukuran dari dchr vektor karakter. sebagai berikut: [r wch] j = 1 <m <M max [W 0 z m +b 0 ] j (3) di mana W 0 ∈ Rcl0 u × dchrkchr adalah matriks berat lapisan convolutional.. w N}. . dan vektor b0 adalah parameter yang harus dipelajari.yang merupakan embedding karakter-tingkat w.

terpusat di n-th word2: z n.. . u n}. dan informasi penting dapat muncul kapan saja posisi dalam kalimat. ini lapisan convolutional kedua dalam arsitektur jaringan saraf kita bekerja dengan cara yang sangat mirip dengan yang digunakan untuk mengekstrak fitur karakter tingkat untuk kata-kata.(kwrd-1) / 2)=. Lapisan convolutional kedua berlaku operasi matriks-vektor untuk setiap jendela ukuran kwrd jendela berturut-turut di urutan {u 1 ∈ R (dwrd + cl0 u)kwrd seba gai gabungan dari urutan embeddings kwrd. Mari kita mendefinisikan vektor z n (u n. u 2. .. kami mengatasi masalah ini dengan menggunakan lapisan convolutional untuk menghitung kalimat-lebar vektor fitur rsent. . . lapisan ini menghasilkan prestasi lokal ures sekitar setiap kata dalam kalimat dan kemudian menggabungkan mereka menggunakan operasi max untuk membuat vektor fitur tetap berukuran untuk kalimat.. yang telah dikonversi menjadi kata-tingkat bersama dan karakter tingkat embedding {u 1. kalimat memiliki ukuran yang berbeda... u 2. u N}. langkah berikutnya dalam CharSCNN terdiri dalam penggalian kalimat-tingkat representasi rsent x Metode untuk mengekstrak fitur kalimat-lebar set paling kesepakatan dengan dua masalah utama:.

. 71 .... u n + (kwrd-1) / 2 T 2We menggunakan token bantalan khusus untuk kata-kata dengan indeks di luar kalimat batas.

Matriks yang sama digunakan untuk mengekstrak fitur lokal di sekitar setiap jendela kata kalimat yang diberikan.Lapisan convolutional menghitung unsur-j dari rsent vektor ∈ Rcl1 u sebagai berikut: [rsent] j = 1 <n <N max [W 1Z n + b1] j (4) di mana W 1 ∈ Rcl1 u × ( dwrd + cl0 u)kwrd adalah matriks berat lapisan convolutional. Matrix W 1 dan vektor b1 adalah parameter yang harus dipelajari. dan ukuran kata konteks jendela kwrd hiper-parameter yang akan dipilih oleh pengguna. yang mengambil satu tingkat representasi dan menghitung skor untuk setiap τ label sentimen ∈ T: s (x) = W 3 h (W 2 r x mengirim 2) +b 3 . Menggunakan max atas semua jendela kata kalimat. Akhirnya. yang “global vektor fitur kalimat x. kita mengekstrak berukuran tetap vektor fitur “global” untuk kalimat. vektor rsent x. Jumlah unit convolutional CL1 u (yang sesuai dengan ukuran vektor fitur kalimat-tingkat). diproses oleh dua lapisan jaringan saraf biasa.

(5) di mana matriks W 2 ∈ RHL u +b × CL1 u dan W 3 ∈ R | T | × hl u. Fungsi transfer h (. kami tiba di kondisional log-probabilitas berikut: log p (τ | x. θ) = s θ es θ (x) i (Σ . jaringan dengan parameter set θ menghitung nilai s θ (x) τ untuk setiap label sentimen τ ∈ T. θ) = Σ es θ (x) τ ∀ i∈ T (6) Mengambil log.3 Jaringan Jaringan Pelatihan kami dilatih oleh meminimalkan kemungkinan negatif atas pelatihan set D. 2. Mengingat kalimat x. Dalam rangka untuk mengubah skor tersebut menjadi distribusi probabilitas bersyarat dari label diberi hukuman dan set parameter jaringan θ. dan vektor b2 ∈ RHL u dan b3 ∈ R | T | adalah parameter yang harus dipelajari. kami menerapkan operasi Softmax atas nilai dari semua tag τ ∈ T: p (τ | x.) Adalah tangen hiperbolik. Jumlah tersembunyi unit hl u adalah hiper-parameter yang akan dipilih oleh pengguna.

Dalam (Socher et al. Untuk melakukan percobaan kami. yang memiliki kemampuan untuk belajar vektor komposisi 72 . kami menerapkan arsitektur CharSCNN yang diusulkan menggunakan perpustakaan Theano (Bergstra et al.. 2010). 2011). Theano adalah library Python serbaguna yang memungkinkan definisi efisien.seperti yang diusulkan dalam pekerjaan ini (Lecun et al. y) ∈ D -log p (y | x .log es θ (x) i Σ (x.. 1998. Kami menggunakan kemampuan diferensiasi otomatis Theano dalam rangka melaksanakan algoritma backpropagation. penulis mengusulkan pendekatan semi-diawasi berdasarkan autoencoders rekursif untuk memprediksi distribusi ment senti-. diusulkan matriks-vektor rekursif neutrofil model jaringan ral untuk compositionality semantik. Metode belajar vektor ruang representasi untuk frase multi-kata dan mengeksploitasi sifat rekursif kalimat.. dan evaluasi dari ekspresi matematika yang melibatkan array multi-dimensi. Algoritma backpropagation adalah pilihan yang alami untuk efisien menghitung gradien dari jaringan tectures archi. 2012). Collobert. y) sesuai dengan kalimat dalam pelatihan corpus D dan y mewakili label masing-masing. Dalam (Socher et al.. 3 Kerja Terkait Ada beberapa karya pada arsitektur jaringan saraf untuk analisis sentimen.∀ i∈ T) (7) Kami menggunakan stokastik gradien keturunan (SGD) untuk meminimalkan negatif log-kemungkinan sehubungan dengan θ: θ ↦→ (x) τ . 2011). optimasi. θ) (8) di mana (x.

Pengaturan Eksperimental 4 dan Hasil 4. Selain itu.. dan menggunakannya sebagai fitur dalam classifier bidang acak bersyarat untuk memecahkan segmentasi teks tingkat karakter dan tugas pelabelan. Dataset review film yang digunakan adalah baru-baru ini diusulkan Stanford Sentimen Treebank (SSTB) (Socher et al. Mengenai jaringan convolutional untuk tugas-tugas NLP. 2013). 2011). yang merupakan frase melalui vektor kata dan pohon parsing dan kemudian menghitung vektor untuk node yang lebih tinggi di pohon menggunakan komposisi berbasis tensor yang sama fungsi. Dalam (Luong et al. Training set.1 Sentimen Analisis dataset Kami menerapkan CharSCNN selama dua corpora berbeda dari dua domain yang berbeda: review film dan Twitter posting. Alexandrescu et al. 2013b). penulis menggunakan jaringan saraf rekursif (RNN) secara eksplisit memodelkan struktur morfologi kata-kata dan belajar embeddings morfologis- sadar.representasi untuk frase dan kalimat panjang sewenang-wenang. Dalam percobaan kami. bukan hanya kalimat. Keuntungan utama dari pendekatan kami untuk mengekstrak fitur karakter tingkat itu fleksibilitas. Set uji secara manual dijelaskan oleh Go et al. Dalam (Socher et al.. Dalam (Chrupala. tag morfologi dan kasus dan matriks embedding tunggal digunakan untuk mencari semua fitur ini. Lapisan convolutional memungkinkan ekstraksi fitur yang relevan dari setiap bagian dari kata dan tidak perlu input buatan tangan seperti batang dan daftar morfem (dos Santos dan Zadrozny 2014). Training set asli berisi 1. Dalam hal menggunakan informasi intra-kata dalam arsitektur jaringan saraf untuk tugas-tugas NLP.. Dalam (Collobert. Korpus berlabel kedua kita gunakan adalah Stanford Twitter Sentimen corpus (STS) diperkenalkan oleh (2009). 2013). Vektor menangkap makna yang melekat dari konstituen. sementara matriks menangkap bagaimana arti kata-kata tetangga dan frase berubah.tive / negatif menggunakan emoticon sebagai label berisik.6 juta tweet yang secara otomatis dicap sebagai posi. Kami juga membangun pembangunan yang ditetapkan oleh acak memilih 16K tweets dari Go et al. Lazaridou et al. (2006) menyajikan model bahasa saraf faktor di mana setiap kata direpresentasikan sebagai vektor fitur seperti batang. CharSCNN berkaitan dengan karya-karya ini karena mereka juga berlaku lapisan convolutional untuk mengekstrak fitur tingkat sentence-. Pada Tabel 1. 2013b) penulis mengusulkan Rekursif Neural Tensor Jaringan (RNTN) arsitektur. penulis mengusulkan jaringan berulang sederhana (SRN) untuk belajar representasi vektor terus menerus untuk urutan karakter. awalnya dirancang untuk belajar makna frase. Namun. (2009). Perbedaan utama dalam arsitektur jaringan saraf kita adalah penambahan satu lapisan convolutional untuk mengekstrak fitur karakter. Dalam percobaan kami kami fokus di prediksi sentimen dari kalimat lengkap. tidak membutuhkan masukan tentang struktur sintaksis kalimat. untuk memperoleh representasi untuk kata-kata yang kompleks. di mana unit dasar adalah morfem tersebut. di (Collobert et al. untuk mempercepat proses pelatihan kami hanya menggunakan sampel data pelatihan yang terdiri dari 80K (5%) tweet yang dipilih secara acak.154 frasa dalam pohon-pohon parse dari 11. penulis menggunakan arsitektur jaringan yang sama untuk parsing sintaksis. 2013) menggunakan komposisi model semantik distribusi. penulis menggunakan jaringan convolutional untuk semantik peran label tugas dengan tujuan menghindari berlebihan rekayasa fitur tugas spesifik. (Lazaridou et al. 2011). .855 kalimat.. kami menunjukkan dampak pelatihan dengan kalimat dan frase. yang meliputi label sentimen berbutir halus untuk 215.. Pendekatan kami berbeda dari karya-karya sebelumnya karena menggunakan jaringan saraf umpan-maju daripada sebuah rekursif.

Dataset Set # kalimat / tweet # kelas SSTB Kereta 8544 5 Dev 1101 5 Uji 2210 5 STS Kereta 80K 2 Dev 16K 2 Uji 498 3 Tabel 1: Sentimen Analisis dataset.kami menyajikan rincian tambahan tentang dua corpora. 73 .

Dalam percobaan kami. 2013a). Hanya dua parameter dengan nilai yang berbeda untuk dua dataset adalah tingkat pembelajaran dan jumlah unit pada lapisan convolutional bahwa ekstrak fitur kalimat. Saat menjalankan alat word2vec. 2011. r). Seperti di (Collobert et al. Yang dihasilkan corpus bersih mengandung sekitar 1. yang mengakibatkan kosakata dari 870. Dalam percobaan kami. 2011).. yang √ | V diinisialisasi chr | 6 + dchr oleh. Banyak kombinasi yang berbeda dari hiper-parameter dapat memberikan hasil yang sama baik. di mana r di corpus SSTB dan 453 karakter yang berbeda = dicorpus STS. 4. Ini memberikan beberapa indikasi pada kekokohan pendekatan kami untuk beberapa domain. Untuk kedua dataset. kita menunjukkan yang dipilih nilai hiper-parameter untuk dua dataset berlabel.. Pada Tabel 2. Sejak dua kosakata karakter yang relatif kecil. kita menetapkan bahwa kata harus terjadi setidaknya 10 kali dalam rangka untuk dimasukkan dalam kosa kata. acak Ada sampel setiap nilai yang 94 karakter yang berbeda dari distribusi seragam: U (r. 2011) dan (Luong et al. Waktu pelatihan untuk korpus bahasa Inggris adalah sekitar 1h10min menggunakan 12 thread dalam mesin 3. Untuk melatih kata-level kami embeddings kita menggunakan word2vec metode skip-gram dengan jendela konteks ukuran 9. Karya terbaru telah menunjukkan bahwa perbaikan besar dalam hal akurasi model yang dapat diperoleh dengan melakukan pra-pelatihan tanpa pengawasan dari embeddings kata (Collobert et al. yang memungkinkan jaringan untuk menangkap informasi yang relevan tentang kapitalisasi. 2013. kami huruf kecil semua kata-kata dan menggantikan setiap digit numerik oleh 0 (misalnya 1967 menjadi 0000). kita melakukan pembelajaran tanpa pengawasan dari embeddings kata-level menggunakan tool3 word2vec. Socher et al.... telah memungkinkan untuk belajar embeddings karakter tingkat handal menggunakan corpora pelatihan berlabel. 2013). karena merupakan hiper-parameter yang memiliki dampak terbesar pada kinerja prediksi. Luong et al..214 entri.75 miliar token. Mentah (tidak lowercased) kata-kata yang digunakan untuk membangun kosakata karakter.2 Unsupervised Learning Firman-Level Embeddings Firman-tingkat embeddings memainkan peran yang sangat penting dalam arsitektur CharSCNN.30GHz Intel® Xeon® E5-2643. yang mengimplementasikan terus menerus tas-dari-kata dan melewatkan-gram arsitektur untuk menghitung representasi vektor dari kata-kata (Mikolov et al. Wikipedia corpus telah diproses dengan menggunakan langkah-langkah berikut: (1) penghapusan paragraf yang tidak dalam bahasa Inggris. kami tidak melakukan pra-pelatihan tanpa pengawasan dari embeddings karakter tingkat. . yang sangat penting untuk analisis sentimen. (4) dan penghapusan kalimat yang kurang dari 20 karakter (termasuk spasi putih) atau memiliki kurang dari 5 token. Kami menghabiskan lebih banyak waktu tuning tingkat belajar dari menyetel parameter lainnya. (3) tokenization teks menggunakan tokenizer tersedia dengan Stanford POS Tagger (Manning. 2013). (2) substitusi karakter non-Barat untuk karakter khusus. Kami menggunakan Desember 2013 snapshot dari korpus Wikipedia bahasa Inggris sebagai sumber data berlabel.4. jumlah zaman pelatihan bervariasi antara lima dan sepuluh. Zheng et al.3 Model Pengaturan Kami menggunakan pengembangan set untuk menyesuaikan saraf jaringan hiper-parameter. 2013. Mereka dimaksudkan untuk menangkap informasi sintaksis dan semantik. .

02 0.google. Unit lilit Unit Firman lilit 10 50 300 300 hl u Unit Hidden 300 300 λ Belajar Tingkat 0.com/p/word2vec/ 74 . Embeddings dimensi 5 5 kchr Char. Konteks jendela 3 3 cl0 CL1 u u Char.01 Tabel 2: Jaringan Syaraf Hyper-Parameter 3https: //code.Parameter Parameter Nama SSTB STS dwrd Firman-Level Embeddings dimensi 30 30 kwrd Firman Konteks jendela 5 5 dchr Char.

Namun. Kolom Fine-grained berisi hasil prediksi untuk kasus di mana 5 kelas sentimen (label) yang digunakan (sangat negatif. Dalam percobaan kami.3 85.0 81. Namun.) ya 43. 2013b).4 82. selain untuk melengkapi kalimat. dapat memberikan informasi yang berguna untuk melatih diusulkan NN.5 82.3 85. Untuk SCNN.0 RNTN (Socher et al. karena itu berisi penjelasan sentimen untuk semua frasa di semua kalimat dalam korpus. dapat diketahui bahwa CharSCN dan SCNN memiliki hasil yang sangat mirip di kedua halus dan BI nary sentimen prediksi.2 82. Kami percaya bahwa menggunakan frase sebagai contoh pelatihan memungkinkan classifier untuk mempelajari fenomena yang lebih kompleks. kami memeriksa apakah menggunakan contoh-contoh yang frase tunggal. RNTN memiliki kinerja akurasi yang sama untuk prediksi sentimen biner. 2013b. Dibandingkan dengan RNTN. karena sentimen berlabel frase memberikan informasi tentang bagaimana kata-kata (frase) bergabung untuk membentuk sentimen frase (kalimat).. Pada Tabel 3. untuk setiap kata w n embedding adalah u n = rwrd.7 79. yaitu. Perhatikan bahwa SSTB corpus adalah Treebank sentimen. negatif. Model Frase Fine-grained Positif / CharSCNN Negatif ya 48. pendekatan kami memberikan akurasi ment mutlak improve.6 selama pendekatan RNTN diusulkan oleh (Socher et al.pare arsitektur yang diusulkan CharSCNN dengan arsitektur yang hanya menggunakan embeddings kata.5 82. bahkan tidak secara eksplisit menggunakan informasi pohon sintaksis saat melakukan prediksi.3 SCNN ada 43. Hasil ini menunjukkan bahwa informasi karakter tingkat tidak banyak membantu untuk prediksi sentimen di corpus SSTB. kita menggunakan yang sama hiper-parameter NN nilai-nilai (bila ada) ditunjukkan pada Tabel 2. Mengenai penggunaan frasa dalam training set. netral. SCNN dan Socher et al. yaitu. CharSCN. 4. sangat positif). metode kami memiliki . CharSCNN dan SCNN manfaat dari kehadiran frase sebagai contoh pelatihan. positif.7 85. Pada Tabel 3. kita dapat mencatat bahwa.4 NB (Socher et al. Hasil ini sejalan dengan Socher et al. (2013b) saran bahwa informasi dari frase sentimen berlabel meningkatkan akurasi algoritma klasifikasi lain seperti mesin dukungan vektor (SVM) dan naif Bayes (NB).2. yang merupakan hasil terbaik yang dilaporkan sebelumnya untuk SSTB. Mengenai prediksi sentimen halus. 2013b. dalam percobaan kami uji ditetapkan selalu mencakup kalimat saja selesai.7 SCNN ya 48. Dalam percobaan kami.. kami menyajikan hasil CharSCNN dan SCNN untuk versi yang berbeda dari corpus SSTB. Positif / kolom Negatif menyajikan hasil prediksi untuk kasus klasifikasi biner kalimat. Dalam rangka untuk menilai efektivitas representasi karakter tingkat yang diusulkan kata-kata.4 MV-RNN (Socher et al.9 RNN (Socher et al. SCNN merupakan jaringan yang diberi makan dengan representasi kata saja. 2013b) ya 45.4 Tabel 3: Akurasi model yang berbeda untuk grained (5 kelas baik ) dan prediksi biner menggunakan SSTB.4 Hasil untuk SSTB Corpus Pada Tabel 3.8 SVM (Socher et al. kita com..) ya 41. perlu untuk melakukan eksperimen yang lebih rinci untuk mengkonfirmasi dugaan ini. 2013b. 2013b) ya 44.5 CharSCNN ada 43.) ya 40. kelas netral dihapus. kolom Frase menunjukkan apakah semua frase (ya) atau hanya kalimat lengkap (tidak ada) di korpus digunakan untuk pelatihan. dua kelas negatif digabung serta dua kelas yang positif.

Untuk alasan perbandingan. Implementasi berdasarkan Theano dari CharSCNN memakan waktu sekitar 10 menit.keuntungan tidak membutuhkan output dari parser sintaksis saat melakukan prediksi sentimen. Menginisialisasi kata-embeddings menggunakan tanpa pengawasan pra-pelatihan memberikan peningkatan akurasi mutlak dari sekitar 1. untuk menyelesaikan satu zaman pelatihan untuk corpus SSTB dengan semua frase 75 . matriks-vektor RNN (MV-RNN). NB. pada Tabel 3 kami juga melaporkan Socher et al. dan algoritma SVM. (2013b) hasil untuk pengklasifikasi sentimen dilatih dengan jaringan saraf rekursif (RNN).5 bila dibandingkan dengan secara acak menginisialisasi vektor.

. dan bagian dari kalimat yang menunjukkan sentimen ( “menyukai” dan “tidak 'nt seperti”). (2009) menggunakan entropi maksimum (MAXENT). kami juga membandingkan kinerja CharSCNN dengan pendekatan lain yang diusulkan dalam literatur. kami menyajikan hasil CharSCNN dan SCNN untuk prediksi sentimen menggunakan nanah STS cor-. “Film”. kita dapat melihat bahwa dampak dari kata “seperti '' berkurang karena negasi“melakukan 'nt”. menginisialisasi kata-embeddings menggunakan tanpa pengawasan pra-pelatihan memberikan peningkatan akurasi mutlak dari sekitar 4.2 82. 4. serta kemampuannya untuk menangkap informasi yang penting untuk prediksi sentimen.7 MAXENT (Go et al. 2009) 83.2 LProp (Speriosu et al.. Sejauh yang kami tahu. kami menggunakan 4 benang dalam mesin 3.4 81. informasi karakter tingkat memiliki dampak yang lebih besar untuk data Twitter. NB dan pengklasifikasi berbasis SVM. Menggunakan tanpa pengawasan pra-pelatihan. bertanggung jawab untuk 77% dari fitur diekstrak dari kalimat dalam grafik di sebelah kanan. Kita dapat mengamati bahwa di kedua versi kalimat.5 bila dibandingkan dengan secara acak menginisialisasi kata-embeddings. Pada Tabel 4. Perhatikan bahwa dalam lapisan convolutional. Gambar 2 menunjukkan kalimat positif (kiri) dan negasinya. 2011) 84. propagasi label (LProp) pendekatan diusulkan. yang bertanggung jawab untuk sebagian besar fitur diekstrak. Selain itu. CharSCNN memberikan peningkatan akurasi mutlak 1.. yang agak lebih positif. tingkat kata. Kontribusi utama dari makalah ini adalah: (1) ide menggunakan jaringan saraf convolutional untuk mengekstrak dari karakter-ke sentence..2 Tabel 4: Akurasi model yang berbeda untuk prediksi biner (positif / negatif) menggunakan STS Corpus. (2) demonstrasi yang arsitektur jaringan saraf . negasi “pasti tidak membosankan”.) 82. sementara Go et al. CharSCNN melebihi pendekatan sebelumnya dalam hal akurasi prediksi.30GHz Intel® Xeon® E5-2643. Kemudian operator max memilih 300 fitur yang memiliki nilai terbesar di antara kata-kata untuk membangun kalimat-level set fitur rsent. Pra-pelatihan) embeddings kata) CharSCNN 86.4 adalah yang terbaik akurasi prediksi dilaporkan sejauh untuk corpus STS. 2013b). Kami memilih kasus ini karena negasi merupakan masalah penting dalam analisis sentimen. 2011). fitur diekstrak berkonsentrasi terutama di sekitar topik utama. Di sisi lain. Seperti yang diharapkan.9 SCNN 85.0 NB (Go et al. Contoh-contoh ini menunjukkan ketahanan CharSCNN untuk menangani negasi. kalimat yang sama juga digunakan sebagai contoh ilustrasi di (Socher et al.dan representasi kalimat-level untuk melakukan analisis sentimen. Catatan di chart kiri bahwa kata “menyukai” memiliki dampak besar pada set fitur diekstrak.7 SVM (Go et al. Selain itu. 2009) 82. 4. Sementara ekspresi sangat negatif “sangat membosankan” bertanggung jawab untuk 69% dari fitur diekstrak dari kalimat di sebelah kiri. 2009.fitur tingkat.. Pada Gambar 3 perilaku yang sama dapat diamati.dan lima kelas. 86.5 Hasil untuk STS Corpus Pada Tabel 4.6 Kalimat-tingkat fitur Dalam angka 2 dan 3 kami menyajikan perilaku CharSCNN mengenai fitur kalimat-tingkat diekstraksi untuk dua kasus negasi. 5 Kesimpulan Dalam karya ini kami menyajikan arsitektur jaringan baru dalam saraf yang bersama-sama menggunakan karakter-tingkat. Dalam percobaan kami. yang benar memprediksi oleh CharSCNN.2 lebih SCNN. 300 fitur yang pertama diekstrak untuk setiap kata. pada grafik yang tepat. Dalam (Speriosu et al. Model Akurasi Akurasi (random (unsup.

(3) definisi hasil negara-of-the-art baru untuk SSTB dan STS corpora. 76 .) Untuk analisis sentimen dari kalimat. 2013a.umpan-maju dapat seefektif RNTN (Socher et al.

70 70 60 60 50 50 40 40 30 30 20 20 10 10 Saya lik e d e v e r y dalam g le m di u te o f th adalah film yang. 0 Saya d id n 't .

lik e seperti dalam g le m di u te o f th adalah film yang. 120 10 Ini ju st 90 110 100 80 90 70 80 70 60 60 50 50 40 40 30 20 30 di c r e d ib ly . Gambar 2: Jumlah fitur lokal dipilih pada setiap kata ketika membentuk representasi kalimat-tingkat. kita memiliki kalimat positif (kiri) dan negasi (kanan). Dalam contoh ini.

2011. Guillaume Desjardins. 2011. Jauh belajar untuk parsing diskriminatif efisien. kita memiliki kalimat negatif (kiri) dan negasi (kanan). JMLR: W & CP Volume 32. Collobert. 2014. 2010. 2010. Theano: CPU dan GPU ekspresi matematika compiler. Amerika Serikat. halaman 1-4. dan P. dan Yoshua Bengio. R. Pidato dan Bahasa Pengolahan. Referensi Andrei Alexandrescu dan Katrin Kirchhoff. Selain itu. 2006. Kavukcuoglu. Kuksa. halaman 36-44. Joseph Turian. Pascal Lamblin. 12: 2493-2537. kami ingin menganalisis secara lebih rinci peran representasi karakter tingkat untuk analisis sentimen tweets. halaman 224-232. Dalam Prosiding keempatbelas Interna- tional Konferensi Kecerdasan Buatan dan Statistik (AISTATS). Olivier Breuleux. Dalam Prosiding Konferensi Internasional 31 pada Machine Learning. 77 . K. Pengolahan bahasa alami (hampir) dari awal. Cina. Dalam Prosiding Python Ilmiah Computing Conference (SciPy). Juni. Karlen. Belajar representasi karakter-level untuk bagian-of-speech tagging. Dalam ProsidingManusia Konferensi TeknologiBahasa dari NAACL. Weston. Fr ed eric Bastien. Beijing. Razvan Pascanu. J. Dalam contoh ini. kami ingin memeriksa dampak dari melakukan langkah pra-pelatihan tanpa pengawasan menggunakan teks dari domain yang spesifik di tangan.20 Ini sd e sirip ite ly d u ll n ot d u ll Gambar 3: sejumlah fitur lokal dipilih pada setiap kata ketika membentuk representasi kalimat-tingkat. model bahasa neural diperhitungkan. Dalam Prosiding Konferensi Internasional ke-23 di Komputasi Linguistik. Luciano Barbosa dan Junlan Feng. R. L. David Warde-Farley. Collobert. Journal of Machine Learning Research. Cicero Nogueira dos Santos dan Bianca Zadrozny. Grzegorz Chrupala. Sebagai pekerjaan di masa depan. Deteksi sentimen kuat di twitter dari data bias dan berisik. M. 2013. Bottou. Dalam Prosiding ICML lokakaryatentang Deep Learning untuk Audio. New York City. James Bergstra. segmentasi Teks dengan embeddings teks karakter tingkat.

Parsing with compositional vector grammars. Sid Upadhyay. Manning. USA. Lon Bottou. Pembelajaran berbasis Gradient diterapkan untuk mendokumentasikan pengakuan. Tech- laporan te. Sofia. pages 647–657. 1998. Richard Socher. A. dan Patrick Haffner. Brody Huval. 2011. Atlanta. 2013. Ng. 2013. 2013. Christopher D. Phoneme recognition using time-delay neural networks. Jean Wu. Better word representations with recur- sive neural networks for morphology. Greg Corrado. Richard Socher. Kai Chen. Andrew Y. Part-of-speech tagging from 97% to 100%: Is it time for some linguistics? In Proceedings of the 12th International Conference on Computational Linguistics and Intelligent Text Processing. 1989. 2009. Tomas Mikolov. Christopher D.Alec Go. and Andrew Y. pages 53–63. and Jeffrey Dean. Yann Lecun. In Proceedings of the IEEE. Xiaoqing Zheng. T. Shikano. In Proceedings of the Annual Meeting of the Association for Computational Linguistics. 2013b. pages 312–320. Yoshua Bengio. 2013. Andrew Y. In Proceedings of Workshop at International Conference on Learning Representations. IEEE Transactions on Acoustics. Semi- supervised recursive autoencoders for predicting sentiment distributions. Minh-Thang Luong. Efficient estimation of word representations in vector space. 2013. Marco Marelli. Ng. Manning. Eric H. Veselin Stoyanov. Waibel. and Christopher Potts. 2011. Manning. Manning. pages 1631–1642. Semeval-2013 task 2: Sentiment analysis in twitter. Richard Socher. 2013a. Twitter klasifikasi sentimen menggunakan pengawasan yang jauh. and Jason Baldridge. 37(3):328–339. halaman 1517-1526. In Proceedings of the Conference on Computational Natural Language Learning. Zornitsa Kozareva. Sara Rosenthal. Angeliki Lazaridou. In Proceedings of theConference on Empirical Methods in Natural Language Processing. Roberto Zamparelli. Ng. EMNLP. Christopher D. pages 171–189. Alex Perelygin. In Proceedings of the Conference on Empirical Methods in NLP. Recursive deep models for semantic compositionality over a sentiment treebank. Association for Computational Linguistics. pages 1201–1211. Christopher D. 2011. dan Marco Baroni. Manning. Dalam Prosiding Pertemuan Tahunan ke-51 Asosiasi untuk Komputasi Linguistik (ACL). komposisional-ly berasal resentations mewakili keadaan kata morfologi kompleks dalam semantik distribusi. In Proceedings of the First Workshop on Unsupervised Learning in NLP. Bulgaria. 78 . 2012. Hinton. Richard Socher. and Andrew Y. and Tianyu Xu. pages 2278–2324. In Second Joint Conference on Lexical and Computational Semantics (*SEM). Alan Ritter. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Richa Bhayani. Speech and Signal Processing. G. Hanyang Chen. and Christopher D. Semantic compositionality through recursive matrix-vector spaces. Twitter polarity classification with la- bel propagation over lexical links and the follower graph. pages 151–161. Nikita Sudan. Michael Speriosu. June. Preslav Nakov. Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013). Manning. CICLing'11. K. In Proceedings of the Conference on Empirical Methods in Natural Language Processing. Georgia. Huang. Ng. Richard Socher. Deep learning for chinese word segmentation and pos tagging. Stanford University. Jason Chuang. and Christopher D. and Theresa Wilson. dan Lei Huang. and KJ Lang. Hanazawa. John Bauer. Jeffrey Pennington.