Učinkovita dugoročna analiza raspoloženja temeljena na kratkoročnom pamćenju recenzija e-trgovine, 2. dio
Jan 18, 2024
Muhamed i dr. [20] predstavili su model za sentimentalnu analizu koristeći word2vec i LSTM za recenzije hotela.
Muhamed je prorok i utemeljitelj islama. Poznat je kao mudar, mudar i mudar čovjek. Njegovo je pamćenje vrlo snažno, što ga čini vrlo učinkovitim u obradi informacija i izražavanju svojih misli.
Muhamedovo sjećanje ima mnogo veze s njegovim obrazovanjem i iskustvom. Prema zapisima, u mladosti je često bio udubljen u razmišljanja i razmišljanja. Ta znatiželja i žeđ za znanjem pomogle su mu da izgradi snažnu bazu znanja i sposobnost pamćenja.
Osim toga, Muhamedova inteligencija također je igrala veliku ulogu u njegovim sposobnostima pamćenja. On je pametan, duhovit, pronicav i ima sposobnost logičkog razmišljanja, što je vrlo korisno kada se radi sa složenim informacijama. Ta mu je prednost pomogla da bolje upravlja i kontrolira proces pamćenja, čime je poboljšao svoje pamćenje.
Međutim, Muhamedovo pamćenje nije bilo urođeno, već se poboljšalo napornim radom i vježbom. Često provodi trening pamćenja, kao što je opetovano čitanje, diktiranje i govor, kako bi mu pomoglo da razumije i dublje ovlada znanjem.
Muhamedovo pamćenje nije bilo samo prirodni talent, ono se poboljšavalo napornim radom i vježbom. To pokazuje da svatko od nas može poboljšati svoje pamćenje i poboljšati učinkovitost učenja i rada kroz učenje i praksu. Hajde da, poput Muhammeda, aktivno radimo na stalnom poboljšanju sposobnosti pamćenja, kako bismo postigli što veći uspjeh u životu i radu! Vidi se da moramo poboljšati pamćenje, a Cistanche deserticola može značajno poboljšati pamćenje, jer Cistanche deserticola također može regulirati ravnotežu neurotransmitera, poput povećanja razine acetilkolina i faktora rasta. Ove tvari su vrlo važne za pamćenje i učenje. Osim toga, meso također može poboljšati protok krvi i pospješiti opskrbu kisikom, što može osigurati da mozak dobije dovoljno hranjivih tvari i energije, čime se poboljšava vitalnost i izdržljivost mozga.

Pritisnite Know za poboljšanje kratkoročnog pamćenja
Za ovu studiju podaci su prikupljeni indeksiranjem web stranice za putovanja pomoću selena i otpada. +e Najvažnija svrha ovog eksperimenta bila je analizirati točnost promjenom parametara word2veca i LSTM-a. Rezultati su pokazali da se pomoću parametara može postići srednja točnost od 85,96, što je pokazalo obećavajuće rezultate.
Zhao i sur. [21] uveo je novu tehniku za analizu osjećaja kupaca iz recenzija na web stranicama e-trgovine. +e predložena optimizirana tehnika "LocalSearch Improvised Bat Algorithm based Elman NeuralNetwork (LSIBA-ENN)" uključuje četiri koraka i detektira polaritet i klasificira osjećaje recenzija. +e podaci za ovo istraživanje prikupljeni su korištenjem alata za brisanje weba na web stranicama e-trgovine kako bi se izvukle recenzije kupaca.
Osim prethodne obrade podataka, ova studija koristi "LogTerm Frequency-based Modified Inverse Class Frequency (LTF-MICF) and Hybrid Mutation based Earth Warm Algorithm (HMEWA)" za ponderiranje izraza i odabir značajki. Predložena metodologija nadmašila je druge osnovne tehnike u smislu točnosti predviđanja.
Jiang [22] je predložio model za klasifikaciju mišljenja recenzija dobivenih s platforme za e-trgovinu Taobao.+e studija koristi algoritam strojnog učenja kao i vektorski stroj podrške za klasifikaciju i poboljšanu optimizaciju roja čestica (IPSO) za optimizaciju parametara. +e podaci za studiju prikupljeni su pretraživanjem komentara s web stranice. Eksperimentalni rezultati pokazali su da kombinirani pristup SVM i IPSO ima veću točnost. Međutim, većina postojećih modela pati od prekomjernog prilagođavanja [23-25], slabe brzine konvergencije [26-28] i problema s nestajanjem gradijenta [29-31].
3. Eksperimentalna studija
Ovaj odjeljak daje jasan pregled metodologije korištene u projektu za klasifikaciju sentimenta. Tehnika +e koja je korištena je mreža dugog kratkoročnog pamćenja, koja se koristi za klasificiranje velikog broja recenzija Amazonove baze podataka. +e korišteno ugrađivanje je word2vec, koji je prilagođen prema bazi podataka.
Podešavanje word2veca prema skupu podataka poboljšava ukupnu izvedbu modela. Prednost korištenja LSTM-a je u tome što daje bolje rezultate čak i za nestrukturirane podatke pregleda. Sposoban je dobiti korisnu funkcionalnost za resurse koji sadrže dugoročne ovisnosti.
+e podaci prikupljaju se iz Amazonovog skupa podataka za recenzije, koji se zatim prethodno obrađuju. Word2vec ugradnje čine važan korak u pretprocesiranju podataka. Stvoreni su podaci o treniranju i ispitivanju. +e podaci o obuci su podijeljeni u skupove podataka za obuku i validaciju. +e prilagođeni word2vec model je obučen za bazu podataka. Dobiva se +e vektor značajki, koji se zatim koristi kao sloj za ugradnju za LSTM model.
Keras se koristi za izgradnju LSTM sekvencijalnog modela s maksimalnim značajkama jednakim 50,000 i veličinom ugradnje jednakom 16. +emodel se zatim trenira za 10 epoha. +e model je testiran na temelju sklearn metrike performansi. Proces dobivanja značajki prikazan je na slici 2.
3.1. Skup podataka. Za generiranje točnih rezultata, korišteni skup podataka trebao bi biti velik i obogaćen. +e skup podataka prikupljen je iz odjeljka za mobitele i dodatnu opremu na mreži skupa podataka Amazon Reviews (2018.). +e skup podataka sastoji se od ukupno 938.261 recenzija, među kojima je 47901 jedinstvenih proizvoda i 153124 jedinstvenih korisničkih recenzija. +e skup podataka u početku se sastoji od 7 stupaca, naime, ocjena koja varira od 1 do 5, vrijeme pregleda, ID recenzenta, ID proizvoda i sažetak teksta recenzije.
Nakon uklanjanja duplikata, skup podataka sastoji se od 938254 zapisa, a Tablica 2 prikazuje isječak zapisa originalnog skupa podataka.
3.2. Metodologija. Prilagodili smo naš word2vecmodel za korištenje s LSTM modelom za klasifikaciju. Word2vec je ugrađivanje riječi koje se koristi za predstavljanje riječi skupom nekoliko termina vektora. To je daleko od preslikavanja riječi u vektorski prostor. +e skup podataka učitava se u podatkovni okvir Panda. Za razvoj customword2vec modela, prvi korak je pretprocesiranje podataka.
Pogledamo samo ocjenu i tekst recenzije i odbacimo sve ostalo. +e tekst se čisti uklanjanjem interpunkcije. Poduzorak teksta stvara se od blizu 200000 recenzija, a primjenjuje se metoda čistog teksta za pretvaranje svake recenzije u popis riječi. +ovaj popis riječi sada djeluje kao ulaz u model genism word2vec.
Izgradili smo prilagođeni skip-gram word2vecmodel i instancirali model s dimenzijama: veličina vektora riječi kao 100, veličina prozora jednaka 15, min_countas 2 za riječi koje se pojavljuju manje od 2 puta u našem korpusu, negativan jednak 5, a brzina uzorkovanja jednaka 1e−5. Iskoristili smo sve te dimenzije kako bismo izgradili vokabular od naših rečenica za pregled.

Naš model word2vec obučavamo 1000 epoha. +en izračunavamo gubitak u svakoj epohi. Gubitak je visok na početku i smanjuje se prema posljednjoj epohi. +e gubitak u epohi 0 je 2239394.0, a gubitak u epohi 1000 je 11504.0.+e spremljeni model se zatim ponovno učitava i na njemu se izvode operacije.
Na primjer, ako želimo pronaći riječi slične buci u našem skupu podataka, dobit ćemo poništavanje i slušalice.
Slično, također možemo pronaći sličnost između određenih riječi kao što su slušalice i slušalice koja je {{0}}.48756, a sličnost između riječi punjenje i punjač je 0.89264.
Kako bismo smanjili dimenzije naših podataka, upotrijebili smo TSNE vizualizaciju za iscrtavanje podataka u dvije dimenzije. Sada se ovi vektori riječi mogu koristiti za daljnju klasifikaciju. +ove ugradnje zatim se koriste kao značajke za daljnje strujanje.
3.2.1. Priprema podataka za LSTM. Naš skup podataka sastoji se od 938254 zapisa s većinom recenzija koje imaju distribuciju bodova veću od 3. Prvo smo izračunali broj riječi za svaku recenziju. Prosječna srednja vrijednost koristi se kao statistika za pronalaženje prosječne duljine pregleda. +e srednja duljina pregleda je 44,59, a najveća duljina je 4303.
Stvorili smo skup podataka koji se sastoji od recenzija koje imaju 100 riječi ili manje. Recenzije čija je dužina veća od 20, ali manja od 100 kategorizirane su pod kratke recenzije, a ponovne recenzije kategorizirane su pod duge recenzije. Broj kratkih pregleda je 411313, a dugih pregleda 100239. Hiperparametri korišteni u modelu opisani su u tablici 3.
Zatim, definirali smo ocjenu raspoloženja kao pozitivnu ako je ocjena veća ili jednaka 3; inače, ocjena je negativna. Razmotrili smo tekst recenzije i mišljenje za stvaranje skupa podataka o vlaku. Podaci o testiranju +e sastoje se od proizvoda koji imaju najmanje više od 10 recenzija.
Nakon distribucije, skup podataka za obuku sastojao se od ukupno 203891 zapisa, među kojima je 175910 pripadalo pozitivnoj klasi, a 27981 negativnoj klasi. Skup podataka +e testa sastojao se od ukupno 686345 zapisa, među kojima je 592118 pripadalo pozitivnoj, a 94227 negativnoj klasi.
U ovoj smo studiji koristili Keras za izradu našeg LSTMmodela, koji uzima maksimalno 50 000 značajki kao ulaz u sloj za ugradnju. Dugo kratkoročno pamćenje (LSTM) vrsta je rekurentne neuronske mreže koja koristi interni mehanizam koji regulira protok informacija.+taj interni mehanizam sastoji se od vrata koja se moraju uvježbati tako da mogu točno filtrirati nebitne informacije i zadržati korisne informacije.

Slika 3 prikazuje osnovnu arhitekturu LSTM modela u našoj predloženoj metodologiji.
Ht−1 i Xt su ulazi u LSTM jedinicu; Ht−1, koji se obično naziva kratkoročna memorija, uzima izlaz iz prethodnih stanja kao ulaz. +e memorijska stanica ili dugoročna memorija, Ct −1, pomaže u prenošenju relevantnih informacija kroz proces niza. +eLSTM arhitektura kombinira tri vrata: zaboraviti vrata, ulazna vrata i izlazna vrata. U jedinici LSTM, tanh i sigmoidne funkcije koriste se za dobivanje ovih vrata.
Podaci o vlaku +e zatim su podijeljeni u podatke o vlaku i validacijske podatke jednake duljine. +e duljina podataka izračunata je na 101945, a distribucija klasa bila je {1: 87955, 0:13990}. Za izradu skupova podataka o vlaku TensorFlow za testiranje i validaciju, moramo pretvoriti naše podatke o vlaku u sekvence. Dopunili smo ih do maksimalne duljine od 100 tako da su sve sekvence iste duljine. +e vlak i ispitne oznake

For more information:1950477648nn@gmail.com






