You are on page 1of 7

Rregullat për një pjesë të etiketimit të të folurit mund të krijohen me dorë ose të ndërtohen

automatikisht duke përdorur të mësuarit e bazuar në transformim, bazuar në një korpus mostër
ku pjesët e sakta të të folurit janë shënuar me dorë. morfologjinë). Matrica e tranzicionit
specifikon probabilitetin që një pjesë e të folurit të ndjekë një tjetër (shih Tabelën 8.4): Fjalia e
mëposhtme tregon caktimin e saktë të një pjese të etiketave të të folurit.

Kjo detyrë është sfiduese për një kompjuter, sepse konsultimi mund të shënohet VB (Ortopedia
kërkohet të konsultohet), vazhdimi mund të shënohet VBN (penicilina u vazhdua) dhe mund të
etiketohet IN.

8.4.3 Sintaksa

Shumë sisteme NLP kryejnë një lloj analize sintaksore. Një gramatikë specifikon se si fjalët
kombinohen në struktura të mirëformuara dhe përbëhet nga rregulla ku kategoritë kombinohen
me kategori ose struktura të tjera për të prodhuar një strukturë të mirëformuar me marrëdhënie
themelore. Në përgjithësi, fjalët kombinohen për të formuar fraza që përbëhen nga një fjalë
kryesore dhe modifikues, dhe frazat formojnë fjali ose klauzola. Për shembull, në anglisht ka
fraza emërore (NP) që përmbajnë një emër dhe modifikues opsionalisht majtas dhe djathtas,
Frazat e thjeshta mund të përfaqësohen duke përdorur shprehje të rregullta (siç tregohet më lart
për tok enization). Në këtë rast, kategoritë sintaksore përdoren për të përputhur tekstin në vend të
aktorëve të karaktereve. Një shprehje e rregullt (duke përdorur etiketat e përcaktuara në tabelën
8.2) për një frazë të thjeshtë emërore (dmth., një frazë emërore që nuk ka modifikues në anën e
djathtë) është:

DT? JJ* NN* (NN|NNS)

Kjo strukturë specifikon një frazë të thjeshtë emërore që përbëhet nga një përcaktor fakultativ
(d.m.th., a, the, disa, jo), e ndjekur nga zero ose më shumë mbiemra, e ndjekur nga zero ose më
shumë emra njëjës dhe e përfunduar nga një emër njëjës ose shumës.
Strukturat më komplekse mund të përfaqësohen nga gramatika pa kontekst. Një frazë e plotë
emërore nuk mund të trajtohet duke përdorur një shprehje të rregullt, sepse përmban struktura të
mbivendosura, të tilla si frazat parafjalore të mbivendosura ose fjalitë lidhore të mbivendosura.
Zbatimi i rregullave gramatikore në një fjali të caktuar quhet analizë, dhe nëse rregullat
gramatikore mund të plotësohen, gramatika jep një strukturë të mbivendosur që mund të
përfaqësohet grafikisht si një pemë analizuese.
Për më tepër, sekuenca e zgjedhjeve alternative të rregullave në gramatikë mund të japë grupime
të ndryshme frazash.
Për shembull, fjalia 1a më poshtë korrespondon me një analizë të bazuar në rregullat
gramatikore të paraqitura në Figurën 8.2, ku rregulli VP përmban një PP (p.sh. mohohet në ER)
dhe rregulli NP përmban vetëm një emër (p.sh. dhimbje).
Format më komplekse të paqartësisë nuk shfaqin dallime në pjesë të të folurit ose në grupim, por
kërkojnë përcaktimin e marrëdhënieve më të thella sintaksore. Për shembull, kur një folje që
mbaron me –ing pasohet nga of, emri i mëposhtëm mund të jetë ose kryefjalë ose objekt i foljes.

 Ndjenja e kokëfortësisë u përmirësua.


 Ndjenja e pacientit është përmirësuar.

Qasjet statistikore ofrojnë një metodë për të adresuar paqartësitë. Ideja thelbësore është të
shfrytëzohet fakti që disa zgjedhje në gramatikë janë më të mundshme se të tjerat. Kjo mund të
përfaqësohet duke përdorur një gramatikë probabilistike pa kontekst, e cila lidh një probabilitet
me secilën zgjedhje në një rregull
8.4.4 Semantika

Analiza semantike përfshin hapa analogë me ato të përshkruara më sipër për sintaksë. Së pari,
interpretimet semantike duhet t'u caktohen fjalëve individuale. Më pas, këto kombinohen në
struktura më të mëdha semantike. Informacioni semantik rreth fjalëve ruhet përgjithësisht në
leksik. Një lloj semantik është zakonisht një klasë e gjerë që përfshin shumë raste ndërsa një
kuptim semantik dallon kuptimet individuale të fjalëve. Një leksik mund të krijohet manualisht
nga një gjuhëtar, ose të rrjedhë nga burime të jashtme të njohurive, të tilla si Sistemi i Unifikuar i
Gjuhës Mjekësore (UMLS).

Zbërthimi semantik i leksemave mund të kryhet duke përdorur të njëjtat metoda të përshkruara
më sipër për sintaksë. Rregullat mund të caktojnë lloje semantike duke përdorur njohuri
kontekstuale të fjalëve të tjera të afërta dhe llojeve të tyre. Strukturat më të mëdha semantike që
përbëhen nga marrëdhënie semantike mund të identifikohen duke përdorur shprehje të rregullta,
të cilat specifikojnë modele të llojeve semantike.

Një metodë alternative e përpunimit të fjalive me shprehje të rregullta, e cila aktualisht përdoret
më gjerësisht në anglishten e përgjithshme sepse është shumë e fuqishme, përdor automata të
gjendjes së fundme cas cading (FSA). Strukturat semantike më komplekse mund të njihen duke
përdorur një gramatikë semantike që është një gramatikë pa kontekst, e bazuar në kategori
semantike.

Për gramatikën e thjeshtë të ilustruar në figurën 8.4, fjalia e analizuar do të ishte një GJETJE që
përbëhet nga një NDRYSHIM FRAZË (p.sh., e rritur) e ndjekur nga një SYMP TOM (p.sh.
butësi). Vini re se paqartësia është e mundur në këtë gramatikë, sepse një fjali si Jo/ u rrit/ butësi/
mund të analizohet në dy mënyra, FRAZA SHKALLËRORE (p.sh., jo) dhe NDRYSHIMI
(p.sh., i rritur) të dyja modifikojnë butësinë, ndërsa në analizën e saktë vetëm NDRYSHIMI I
FRAZËS ( p.sh., jo i rritur) modifikon butësinë, dhe brenda FRAZËS NDRYSHO, asnjë
modifikim NDRYSHO (p.sh., i rritur); në këtë rast vetëm informacioni i ndryshimit mohohet,
por jo simptoma.
Figura 8.5. Një pemë analizuese për fjalinë pa
butësi të shtuar sipas gramatikës. Gjuha
natyrore dhe përpunimi i tekstit në biomjekësi
327. Në këtë interpretim, i cili është i pasaktë,
jo dhe shtohet çdo butësi.

8.4.5 Pragmatika

Analiza e plotë e një teksti (p.sh., një shënim


klinik ose artikull reviste) kërkon analizë të
marrëdhënieve midis fjalive dhe njësive më të
mëdha të ligjërimit, p.sh. paragrafë dhe seksione (Jurafsky dhe Martin, 2000, f. 669–696). Një
nga mekanizmat më të rëndësishëm në gjuhë për krijimin e lidhjeve midis fjalive është përdorimi
i shprehjeve referenciale, të cilat përfshijnë përemrat (ai, ajo, ajo, ai vetë), emrat e përveçëm (Dr.
Smith, Atlantic Hospital) dhe frazat emërore të modifikuara nga artikull i caktuar ose një dëftore
(gjiri i majtë, ky mjekim, atë ditë, këto gjetje).

Çdo shprehje referenciale ka një referencë unike që duhet të identifikohet për t'i dhënë kuptim
tekstit. Teksti i mëposhtëm përmban disa shembuj. Emri i përveçëm Dr. Smith i referohet mjekut
që trajton pacientin.

Zgjidhja automatike e shprehjeve referenciale mund të mbështetet në informacionin sintaksor


dhe semantik në tekst. Informacioni sintaksor për zgjidhjen e shprehjeve referente përfshin:

• Marrëveshja e veçorive sintaksore ndërmjet togfjalëshit referencial dhe referentëve të


mundshëm.

• Afati i referentëve të mundshëm (afërsia me frazën referenciale)

• Pozicioni sintaksor i referentëve të mundshëm (p.sh., tema, objekti i drejtpërdrejtë, objekti i


parafjalës)

• Modeli i tranzicionit të temave nëpër fjalitë


Teoria e përqendrimit llogaritet për referencë duke vënë në dukje se si qendra (fokusi i
vëmendjes) e secilës fjali ndryshon përgjatë diskursit. Në tekstin e mësipërm, pacienti është
qendra e tre fjalive të para, mjeku është qendra e fjalisë së katërt dhe të pestë dhe zona e tumorit
është qendra e fjalisë së fundit. Në këtë qasje, rregullat e zgjidhjes përpiqen të minimizojnë
numrin e ndryshimeve në qendra.

Informacioni semantik për zgjidhjen e shprehjeve referenciale përfshin shqyrtimin e llojit


semantik të shprehjes dhe mënyrën se si ai lidhet me referentët e mundshëm (Hahn et al., 1999).

• Lloji semantik është i njëjtë me referentin potencial.

• Lloji semantik është nënlloj i referentit potencial.

• Tipi semantik ka një lidhje të ngushtë semantike me referentin e mundshëm.

8.5 Sfidat e gjuhës klinike

Performanca e mirë: Nëse produkti i një sistemi NLP do të përdoret për të ndihmuar në
menaxhimin dhe përmirësimin e cilësisë së kujdesit klinik dhe për të lehtësuar kërkimin, ai duhet
të ketë mjaftueshëm të lartë ndjeshmëria, saktësia dhe specifika për aplikimet e synuara klinike.

 Rikuperimi i informacionit të nënkuptuar:

Shumë raporte të kujdesit shëndetësor janë shumë kompakte dhe shpesh lënë jashtë
informacionin që mund të supozohet nga ekspertë të tjerë.

 Intraoperabiliteti:

Për të qenë funksional në një mjedis klinik, një sistem NLP duhet të integrohet npa probleme në
një sistem informacioni klinik dhe të gjenerojë rezultate që është në një formë të përdorshme nga
komponentët e tjerë të sistemit. Kjo në përgjithësi do të thotë se:
• Sistemi do të duhet të trajtojë shumë formate të ndryshme shkëmbimi (p.sh., Extensible Gjuha e
shënjimit,

• Sistemi do të duhet të trajtojë formate të ndryshme që lidhen me lloje të ndryshme raportesh.

• Sistemi NLP duhet të gjenerojë rezultate që mund të ruhen në një depo ekzistuese klinike.

 Ndërveprueshmëria:

Sistemet NLP kërkojnë kohë dhe të vështira për t'u zhvilluar, dhe në mënyrë që të jenë
funksionale për institucione të shumta dhe aplikacione të ndryshme, ato minimalisht do të duhet
të gjenerojnë rezultate që përmbajnë një fjalor të kontrolluar.

 Komplete trajnimi për zhvillim:

Zhvillimi i sistemeve NLP bazohet në analizën (manuale ose të automatizuar) të mostrave të


tekstit që do të përpunohet. Në fushën klinike, kjo do të thotë se koleksione të mëdha të të
dhënave të pacientëve në internet në formë tekstuale duhet të jenë të disponueshme për trajnimin
e sistemeve NLP.

 Vlerësimi:

Vlerësimi i një sistemi NLP është kritik, por i vështirë në fushën e kujdesit shëndetësor për shkak
të vështirësisë për të marrë një standard të artë dhe për shkak se është e vështirë të ndahen të
dhënat nëpër institucione.

 Përcaktimi i llojeve të informacionit për të kapur:

Përcaktimi i informacionit që duhet të kapë një sistem NLP është një vendim i rëndësishëm.
Disa sisteme NLP mund të përpunojnë pjesërisht informacione në raport, të tilla si diagnozat e
pranimit ose ankesat kryesore, por jo raporti i plotë. Sisteme të tjera NLP mund të jenë shumë të
specializuara dhe mund të përfshijnë gjithashtu njohuri mjekësore eksperte.
 Granulariteti i informacionit:

Sistemet NLP mund të kapin informacionin klinik në shumë nivele të ndryshme të granularitetit.
Një nivel i përmbledhjes së trashë përbëhet nga klasifikimi i raporteve. Për shembull, disa
sisteme (Aronow et al., 1999) klasifikuan raportet si pozitive ose negative për kushte specifike
klinike, si kanceri i gjirit.

 Ekspresiviteti kundrejt lehtësisë së aksesit:

Gjuha natyrore është shumë shprehëse. Shpesh ka disa mënyra për të shprehur një koncept të
veçantë mjekësor dhe gjithashtu mënyra të shumta për të shprehur modifikuesit e konceptit. Për
shembull, informacioni i ashpërsisë mund të shprehet në më shumë se 200 shprehje të ndryshme,
me terma të tillë si i dobët, i butë, kufitar, 1+, shkalla e 3- të, e rëndë, e gjerë dhe e butë deri në
mesatare.

 Formatet heterogjene:

Nuk ka strukturë të standardizuar për raportet klinike, apo për formatin e tekstit brenda raportit.
Shpesh, nuk ka asnjë pikë (dmth. ".") për të përcaktuar fundin e një fjalie, por në vend të kësaj
përdoret një rresht i ri ose një format tabelor. Kjo është e lehtë për njerëzit për t'u interpretuar me
dorë, por e vështirë për kompjuterët.

You might also like