You are on page 1of 11

Uwagi o rwnowaeniu wynikw egzaminw gimnazjalnych

Adam Szymaski (adi_epp@wp.pl)

1. Wprowadzenie
diagnozie prezentowanej na XVIII Konferencja Diagnostyki Edukacyjnej (Wrocaw 2012) napisa rzecz nastpujc:
W zaoeniach i w praktyce polskiego systemu egzaminw zewntrznych gwny akcent zosta pooony na porwnywalno egzaminw w danej sesji. Jak dotychczas nie jest brana pod uwag rwnowano wynikw egzaminacyjnych dla kolejnych populacji przystpujcych do tego samego egzaminu. Innymi sowy, z powodu nieuniknionych waha trudnoci arkuszy egzaminacyjnych stosownych w kolejnych latach, skale, w ktrych corocznie komunikowane s wyniki, nie s ekwiwalentne. Problem ten, cho by podejmowany pilotaowo przez CKE w latach 2004-2005 dla sprawdzianu (Niemierko B., 2004; Szaleniec H., 2005) oraz w roku 2006 i 2007 dla gimnazjum, nie doczeka si jeszcze rozwiza systemowych. Brak porwnywalnoci wynikw pomidzy latami ma kilka istotnych konsekwencji w zakresie komunikowania rezultatw egzaminacyjnych. Po pierwsze, obecny sposb prezentowania wynikw nie jest fair w stosunku do maturzystw podczas rekrutacji na wysze uczelnie. Maturzyci z rnych lat, konkurujc o indeks w tym samym roku, przedstawiaj na wiadectwach wyniki, ktre obcione s efektem fluktuacji trudnoci arkuszy egzaminacyjnych. Dla sprawdzianu i dla egzaminu gimnazjalnego ten problem nie jest tak wysokiej wagi, gdy rekrutacja do szkoy wyszego szczebla obejmuje tylko jeden rocznik (t sam populacj). Po drugie, przy obecnym systemie komunikacji wynikw egzaminacyjnych utrudnione jest monitorowanie rezultatw egzaminowania w przedziaach czasowych duszych ni jeden rok. A take wskanik edukacyjnej wartoci dodanej obciony jest efektem fluktuacji trudnoci arkuszy egzaminacyjnych.

Dr Henryk Szaleniec w swojej publikacji pt. Moliwoci wykorzystania zrwnanych wynikw egzaminu gimnazjalnego w szkolnej

W moich opracowaniach pt. Modelowanie procesw spoecznych na przykadzie egzaminu gimnazjalnego z jzyka

nowoytnego(2011)1 i Dlaczego nie mona porwnywa wynikw egzaminw gimnazjalnych z rnych okresw szkolenia ? (2011)2 rwnie zajmowaem si podobnymi problemami i doszedem do podobnych wnioskw. Na przykadzie interpelacji jednego z radnych miasta Piy pokazaem take spoeczne konsekwencje omawianego zagadnienia. W tym aspekcie nie podzielam opinii dr Szaleca, e dla sprawdzianu i egzaminu gimnazjalnego ten problem nie jest tak wysokiej rangi . Moim zdaniem wszystkie czynnoci zwizane z procesem ksztacenia powinny mie rang priorytetow, choby ze wzgldw egzystencjalnych naszego spoeczestwa, a proponowana

przez dr Szaleca tzw. metoda wyrwnywania wynikw egzaminw post factum powinna by, w ramach procedury weryfikacyjnej, odrzucona. Po pierwsze, moim zdaniem, pojcie trudnoci arkusza, czy te zestawu egzaminacyjnego mona jedynie zdefiniowa post factum na podstawie analizy wynikw uzyskanych przez zdajcych. Wwczas fluktuacje, o ktrych wspomina dr Szaleniec wynikaj z rnego przygotowania formalnego w populacjach podlegajcych weryfikacji. Natomiast od strony egzaminatora mona mwi jedynie o zakresie testowanej wiedzy, ktr odzwierciedla pojemno informacyjna arkusza egzaminacyjnego. Dla egzaminatora problem trudnoci arkusza egzaminacyjnego jest bez znaczenia, poniewa jego priorytetowym zagadnieniem jest weryfikacja zakresu wiedzy jak powinien uzyska zdajcy na okrelonym poziomie edukacyjnym. Mona powiedzie, i egzaminator przygotowujc odpowiedni arkusz egzaminacyjny, definiuje tym samym wzorzec jakoci wiedzy na okrelonym poziomie ksztacenia. Stawia on przed zdajcym wymagania formalne, ktre pozwalaj okreli zakres wiedzy zdobytej w stosunku do uprzednio zdefiniowanego wymaganego wzorca jakoci wiedzy. Wspomniany wzorzec jest funkcj czasu i na pewnym etapie ksztacenia, powiedzmy w okresie kilku lat, musi pozosta na niezmiennym poziomie. Wzorzec jakoci wiedzy definiowany jest tzw. podstaw programow i dopki ona pozostaje bez zmian, omawiany wzorzec nie moe ulega adnym fluktuacjom. Poprzez brak odpowiednio sformalizowanej procedury tworzenia zestaww egzaminacyjnych, przy staym wzorcu jakoci wymaganej wiedzy, dochodzi do sytuacji, w ktrej egzaminator nie ma odpowiednich narzdzi do weryfikacji pojemnoci informacyjnej arkuszy egzaminacyjnych i to wanie w tym momencie dochodzi do utraty sterowalnoci proponowanego systemu egzaminacyjnego. Aby to unaoczni podam nastpujcy przykad. Zamy, e do egzaminu w kolejnych latach przystpuj kandydaci, ktrych wiedza formalna wykracza poza zakres wymagany wzorcem jakoci wiedzy na danym etapie szkolenia. Wwczas arkusze przygotowane na podstawie procedury opisywanej przez dr Szaleca zostan bezbdnie opracowane, a wic fluktuacje trudnoci arkuszy, uywajc nomenklatury wprowadzonej przez dr Szaleca, nie maj adnego znaczenia. To o czym mwi dr Szaleniec to fluktuacje wprowadzonego wzorca jakoci wiedzy i to wanie jest gwnym problemem systemu egzaminacyjnego praktykowanego w naszym kraju. W tym aspekcie naley odpowiedzie na fundamentalne pytanie: jak powinna wyglda formalna implementacja wymaganego wzorca jakoci wiedzy. A oto schemat jaki, jedynie w oglnych zarysach, proponuj, jako jedno z moliwych podej. Zamy, e zajmiemy si egzaminem z jzyka obcego. Jako wymagany wzorzec jakoci wiedzy definiujemy czteroelementowy zbir sownictwa i dwie podstawowe konstrukcje gramatyczne. Na tak prostym przykadzie pokaemy jak wyglda praktycznie fluktuacja tego wzorca i jak mona j opisa za pomoc odpowiednio dobranego systemu oceniania. Poprzez fluktuacj skadnika wzorca wiedzy, zdefiniowanego jako jedna z weryfikowanych konstrukcji gramatycznych, ilustrujemy problemy zwizane z fluktuacj. Pokazujemy, i celowo wprowadzona fluktuacja wzorca wiedzy moe by wychwycona poprzez odpowiedni system oceniania i przedstawiamy procedur wyrwnywania wynikw egzaminu.

2. Zarys proponowanej metody

proponowanego podejcia. Rozpatrzmy dwa test: TEST A i TEST B zdefiniowane w nastpujcy sposb: TEST A Ich liebe meine Mutter. (Ja kocham moj mam.) TEST B

Na przykadzie gimnazjalnego testu egzaminacyjnego z jzyka niemieckiego omawiamy podstawowe charakterystyki

Ich liebe meinen Vater. (Ja kocham mojego ojca)

Dla uproszczenia, TESTY A i B polegaj na przetumaczeniu tekstu polskiego, podanego w nawiasie, na jzyk niemiecki. Aby stworzy wspomniane testy musimy dysponowa odpowiedni baz danych tzw. baz sownictwa. Przykadowo, jako merytoryczn podstaw do tworzenia omawianej bazy sownictwa mona uy Zertifikat Deutsch (Goethe-Zertifikat B1). Osoba z tym certyfikatem opanowaa ok. 2 tys. sw i najwaniejsze struktury gramatyczne. Certyfikat ten uznawany jest w Niemczech i w wielu innych krajach. Zdanie tego egzaminu wiadczy o solidnych podstawach znajomoci jzyka i umoliwia poprawne porozumiewanie si we wszystkich wanych sytuacjach yciowych. Co jest w tym kontekcie najwaniejsze ? Mianowicie ograniczony zasb sownictwa, co w znacznym stopniu rozwizuje wiele problemw czysto technicznych. Powracajc do naszych testw, zauwaamy, e w bazie sownictwa mamy takie czci mowy jak: rzeczownik, czasownik, zaimek osobowy i dzierawczy. Z formalnego punktu widzenia stworzenie takiej bazy danych nie jest obecnie adnym problemem. Nastpnym etapem jest stworzenie bazy struktur gramatycznych, co moim zdaniem na obecnym poziomie wiedzy te nie stanowi powanego problemu. Dalej naley zaproponowa system oceny osigni i zaproponowa wzorzec jakoci wiedzy egzaminowanych kandydatw. W oglnych zarysach proponowany system przygotowania testw egzaminacyjnych powinien zapewni brak istotnych waha poziomu wzorca wiedzy. Zajmijmy si teraz bliej systemem oceniania. Kady nauczyciel wie, e ten sam test rnie oceniany prowadzi zazwyczaj do odmiennych rezultatw kocowych, a systemy oceniania mona wwczas porwna do sita o dynamicznie zmiennej rednicy oczek, przez ktre przechodz, bd nie przechodz egzaminowani kandydaci.

3. Przykad (metoda oceniania nr 1)


punktw, a tylko cakowicie poprawne tumaczenie premiowane jest 1 punktem. TESTY A i B napisali ci sami uczniowie jednego z gimnazjw w Polsce. A oto otrzymane rezultaty. TEST A napisao 39 uczniw, z tego 26 uczniw uzyskao 1 punkt, a 13 uczniw otrzymao 0 punktw. rednia z testu wynosi 0.67 p., a populacja uczniw, ktrzy zaliczyli to 66.67 % wszystkich zdajcych. Jak wspomniano, TEST B napisaa to sama populacja zdajcych, czyli 39 uczniw. Wyniki s nastpujce: 25 uczniw uzyskao 1 punkt, a 14 uczniw otrzymao 0 punktw. rednia z testu wynosi 0.64 p., a populacja uczniw, ktrzy zaliczyli to 64.01 % wszystkich zdajcych. Jak oceni uzyskane rezultaty? Przypomnijmy, oba testy pisali ci sami uczniowie. Na pierwszy, przysowiowy, rzut oka rozpatrywane testy mona zakwalifikowa jako jednakowo trudne, a jednak, jak mona zauway, wyniki wskazuj, e TEST A wydaje si by nieco atwiejszym. Zobaczmy jak wygldaj otrzymane rezultaty w innej skali ocen.

Jako pierwsz zaproponowano metod zwan wszystko albo nic. Jakikolwiek bd w testach A i B powoduje otrzymanie 0

4. Przykad (metoda oceniania nr 2, skala punktacji od 0 do 13 punktw) Opiszemy teraz system punktacji dla TESTU A. Elementem nr 1 jest rzeczownik matka (die Mutter).
Tabela 1s die Mutter Przydzielone punkty
Jest w zdaniu (rozpoznany) Nieprawidowo napisany Prawidowo napisany Brak w zdaniu (nierozpoznany)

Za prawidowe przetumaczenie wraz z prawidow pisowni ucze otrzymuje 2 punkty, natomiast za bdy w pisowni tylko 1 punkt np. pisownia bdna to np. die Muter. Element nr 2 to czasownik kocha (lieben). Tabela 2s lieben Przydzielone punkty
Jest w zdaniu (rozpoznany) Nieprawidowo napisany Prawidowo napisany Brak w zdaniu (nierozpoznany)

Podobnie jak wyej, za prawidowe przetumaczenie wraz z prawidow pisowni ucze otrzymuje 2 punkty, natomiast za bdy w pisowni tylko 1 punkt np. pisownia bdna to np. leben. Element nr 3 to zaimek osobowy ja (ich). Tabela 3s ich Przydzielone punkty
Jest w zdaniu (rozpoznany) Nieprawidowo napisany Prawidowo napisany Brak w zdaniu (nierozpoznany)

Podobnie jak wyej, za prawidowe przetumaczenie wraz z prawidow pisowni ucze otrzymuje 2 punkty, natomiast za bdy w pisowni tylko 1 punkt np. pisownia bdna to np. ih. Element nr 4 to zaimek dzierawczy mj (mein). Tabela 4s mein Przydzielone punkty
Jest w zdaniu (rozpoznany) Nieprawidowo napisany Prawidowo napisany Brak w zdaniu (nierozpoznany)

Podobnie jak wyej, za prawidowe przetumaczenie wraz z prawidow pisowni ucze otrzymuje 2 punkty, natomiast za bdy w pisowni tylko 1 punkt np. pisownia bdna to np. main. Element nr 5 to koniugacja czasownika kocha (lieben), a wic struktura gramatyczna tumaczonego zdania. Tabela 5g
lieben Przydzielone punkty Prawidowa koniugacja 2 Nieprawidowa koniugacja 0

Element nr 6 to deklinacja zaimka dzierawczego mj (mein), a wic ponownie struktura gramatyczna tumaczonego zdania. Tabela 6g
mein Przydzielone punkty Prawidowa deklinacja 2 Nieprawidowa deklinacja 0

Jako ostatni element oceniona zostaje czytelno tumaczenia, czy s np. poprawki, przekrelenia utrudniajce sprawdzanie itp.. Tabela 7
czytelnos Przydzielone punkty Prawidowa (brak poprawek) 1 Nieprawidowa 0

Z przeprowadzonej analizy wynika, e minimalna ilo punktw to 0 a maksymalna to 13. Jeeli chodzi o punktacj dla TESTU B, to wyglda ona identycznie, tylko w Tabeli 1s naley wpisa rzeczownik ojciec (der Vater). Teraz kilka uwag o wyborze skali systemu oceniania wzorca jakoci wiedzy. Zauwamy, i przyjto arbitralnie jednakow wanoci komponentu zwanego sownictwem i komponentu okrelonego jako konstrukcje gramatyczne. Jedynie skadnik okrelany jako czytelno zosta oceniony nieco niej. Oglnie rzecz biorc to wagi punktowe przypisane poszczeglnym komponentom wzorca jakoci wiedzy, decyduj ostatecznie o tzw. amplitudzie ewentualnych fluktuacji omawianego wzorca, jeeli na etapie tworzenia arkusza egzaminacyjnego nie zadbamy o ich wczesne wykrycie i prawidow eliminacj. Otrzymane rezultaty prezentuje Rys. 1.

TEST A (kolor niebieski) TEST B (kolor czerwony)


26 24 22 20 18 16 14 12 10 8 6 4 2 0

Y [liczba uczniw]

10

11

12

13

X [punkty]

Rys. 1

Wyniki TESTW A i B w skali od 0 do 13 punktw

Z Rys. 1 wynika, e metoda oceniania nr 1 zdyskwalifikowaa uczniw, ktrzy uzyskali 10, 11 i 12 punktw. rednia warto punktacji wynosi dla TESTU A 12.46p., a dla TESTU B 12.51p.. W zaproponowanej skali uczniowie rozwizali 95.86% TESTU A i 96.25% TESTU B. W tej skali TEST B wydaje si by, co do poziomu trudnoci, porwnywalny do TESTU A. Czy rzeczywicie tak jest ? Czy stopie komplikacji TESTU A jest rzeczywicie rny od TESTU B ? Aby na to pytanie odpowiedzie naley przeanalizowa szczegowo Tabel 6g, okrelajc komponent wzorca jakoci wiedzy zwany konstrukcj gramatyczn. Deklinacja zaimka dzierawczego mj dla rodzaju eskiego w jzyku niemieckim zakada, e pierwszy przypadek jest identyczny z przypadkiem czwartym, a wic trudno jest oceni czy ucze wybra prawidowy przypadek, patrzc tylko na rezultat kocowy. Std wniosek, e przydzia 2 punktw za prawidow deklinacj jest niesuszny, gdy nie mona przy tak wybranej formie testu sprawdzi, czy ucze zna prawidow konstrukcj gramatyczn. Zastosowana punktacja narusza zdefiniowany wyej wzorzec jakoci wiedzy, gdy przy zaoeniu, i testujemy wanie t cze wzorca wiedzy, nie pozwala de facto na przeprowadzenie obiektywnego sprawdzenia. W przypadku TESTU B taka sytuacja nie zachodzi i zdajcy musi jednoznacznie okreli przypadek 4 jako prawidow konstrukcj gramatyczn. Na tym etapie wyranie wida, i egzaminator musi si zdecydowa, jak detalicznie jest zobowizany np. przez podstaw programow do sprawdzenia wiedzy zdajcych. Jeeli sprawdza rwnie znajomo konstrukcji gramatycznych, co zaoono na wstpie, to

TESTY A i B rni si pod tym wzgldem midzy sob. Ta rnica nie moe by badana za pomoc mao wysublimowanych metod statystycznych, opracowujc jedynie wyniki przeprowadzonych testw, poniewa tkwi ona, jak wykazano, w strukturze testu, a co za tym idzie we fluktuacji wzorca jakoci wiedzy. Premiujemy ucznia pomimo faktu, e nie jestemy w stanie sprawdzi obiektywnie jego wiedzy w tym aspekcie. Mona zatem zaoy, i z punktu widzenia egzaminatora TEST A nie opisuje w sposb adekwatny wzorca jakoci wiedzy, ktry jest wymagany, poniewa jak to czsto mwi zdajcy; dopuszcza strzelanie, a wic nie wymaga takiej wiedzy od zdajcego, jak to ma miejsce w TECIE B. Jest to ewidentny przykad fluktuacji wymaganego wzorca jakoci wiedzy i to fluktuacji dopuszczonej poprzez nieprawidowo skonstruowany arkusz egzaminacyjny.

5. Przykad (metoda oceniania nr 3, skala punktacji od 0 do 12 punktw)


odstpstwo, od wczeniej zdefiniowanego wzorca jakoci wiedzy. To odstpstwo interpretujemy jako fluktuacj przyjtego wzorca jakoci wiedzy. Formalnie naleaoby do TESTU A doczy tabel deklinacji zaimka dzierawczego mj w rodzaju eskim i poprosi zdajcych ten test, aby dodatkowo podkrelili w tej tabeli wybrany przez siebie przypadek. Opisana procedura zapewnia brak fluktuacji wzorca. Aby wbudowa fluktuacj wzorca, zmianie musi ulec Tabela 6g. Tabela 6g (zmodyfikowana dla TESTU A)

Aby uwzgldni wyej omwion niedogodno TESTU A naley wprowadzi modyfikacj skali oceniania, czyli akceptujemy

mein Przydzielone punkty

Prawidowa deklinacja 1

Nieprawidowa deklinacja 0

Kolokwialnie rzecz ujmujc, za strzelanie dajemy maksymalnie tylko 1 punkt. Oznacza to, i zdajcy otrzymuje 1 p. za prawidow odpowied, poniewa mao mona powiedzie, przy tak zdefiniowanej formie testu, o znajomoci wymaganej konstrukcji gramatycznej. Reszta systemu oceniana pozostaje bez zmian. Zmodyfikowana skala oceniania wyglda nastpujco: [0, 12]. Z formalnego punktu widzenia mamy tutaj do czynienia ze zmodyfikowanym TESTEM A. Nazwijmy go TESTEM Am. Z punktu widzenia egzaminatora TEST Am i TEST B maj, przy zdefiniowanym wyej wzorcu wiedzy, rn charakterystyk formaln. Implikuje to, jak wida, problem rnych skal oceniania, ktre wprowadzono, aby formalnie opisa fluktuacje przyjtego wzorca wiedzy. Otrzymane przez uczniw rezultaty

prezentuje Rys. 2.

TEST Am (kolor niebieski) TEST B (kolor czerwony)


26 24 22 20 18 16 14

Y [liczba uczniw]

12 10 8 6 4 2 0

10

11

12

13

X [punkty]

Rys. 2 Wyniki TESTU Am (skala [0,12]) i TESTU B (skala [0,13])

Aby porwna wyniki TESTU Am i TESTU B naley wprowadzi procedur wyrwnania skal oceniania.

6. Procedura wyrwnania skal oceniania Wprowadmy nastpujce oznaczenia:


C TEST B Xpi Xmpi N sumaryczna ilo punktw otrzymanych przez wszystkich zdajcych TEST B (39 osb) ilo punktw otrzymanych przez i-tego zdajcego w TECI Am ilo punktw otrzymanych przez i-tego zdajcego TEST Am po procedurze wyrwnania liczba egzaminowanych osb Xmpi = yi Xpi i = 1, 2, 3, ..., N (1)

Zaoenie:

gdzie: yi bezwymiarowy wspczynnik proporcjonalnoci. Naley zwrci uwag, e Xpi naley do przedziau [0, 12]. Rwnanie bilansu punktowego procedury wyrwnania skal oceniania wyglda nastpujco:
N

i=1

yi Xpi = C TEST B

(2)

Wspczynnik bezwymiarowy mona wyznaczy w sposb nastpujcy. Z TESTU A i TESTU B wykluczmy Tabel 6g. Wwczas wspomniane testy s formalnie rwnowane, przy zmianie wzorca jakoci wiedzy. Wspczynnik fluktuacji okrela relacja: =1 gdzie : = (STB STA)/STA, STB suma punktw uzyskanych przez wszystkich zdajcych TEST B z pominiciem punktacji okrelonej przez Tabel 6g. STA suma punktw uzyskanych przez wszystkich zdajcych TEST A z pominiciem punktacji okrelonej przez Tabel 6g. W rozpatrywanym przypadku STB = 416 p., STA = 414 p.. Z relacji (3) wynika, e = 0.995. Zatem przyjto, i praktycznie = 1. Z rwnania (2) naley wyznaczy nieznane wspczynniki proporcjonalnoci yi dla i = 1, 2, 3, , N. Ze wzgldw etycznych naley przyj, e y1 = y2 = y3, = yN. Przy tym zaoeniu z (2) otrzymujemy
N

(3)

yi = C TEST B

[ Xpi ]-1
i=1

i = 1, 2, 3, , N

(4)

co w poczeniu z (1) definiuje ostatecznie wielko Xmpi. Po wykorzystaniu proponowanej procedury wyrwnywania skal oceniania otrzymano:
Test Am (patrz Rys. 2) Xpi [ punkty] 9 10 11 12 Test Am (po procedurze wyrwnania) Xmpi [punkty] 9,83 10,92 12 13,1 Zaokrglenie do liczb naturalnych [punkty] 10 11 12 13

Wprowadzenie procedury zaokrglenia byo konieczne, gdy przyjto, i skale musz by opisywalne w systemie liczb naturalnych. Jak atwo zauway zaproponowana procedura wyrwnywania skal oceniania prowadzi w rozpatrywanym przypadku do takich samych rezultatw jak na Rys. 1. Std wniosek, i trudno TESTU A jest identyczna z TESTEM Am. Std omykowo przyznany punkt w TECI A (patrz Tabela 6g) mona traktowa, w wietle rozpatrywanej procedury wyrwnujcej, jako tzw. bonus punkt balansujcy poziom fluktuacji wzorca jakoci wiedzy w ramach proponowanego egzaminu. Naley oczywicie pamita, i prezentowana tutaj procedura wyrwnywania poziomu fluktuacji wzorca jakoci wiedzy wraz z systemem zaokrglania naley do przeliczalnego zbioru moliwych schematw. Podsumowujc mona powiedzie, i trudnoci TESTU Am, po wyrwnaniu skal oceniania, jest formalnie porwnywalna do TESTU B, gdy ta sama populacja zdajcych rozwizaa oba testy na poziomie okoo 96%.

7. Podsumowanie
gramatyczne. Rozpatrywano dwa testy, przy czym w jednym z nich celowo wbudowano fluktuacj wzorca jakoci wiedzy, uniemoliwiajc tym samym, poprzez odpowiednio dobran form testu, obiektywne testowanie poprawnoci jednej z przyjtych konstrukcji gramatycznych. Zastosowano rne, co do skali, systemy oceniania. Oba testy rozwizywali ci sami uczniowie, a wic mona przyj, i reprezentowali oni jakociowo ten sam poziom przygotowania formalnego ( 1). Przy wskiej skali oceniania punktowego test z wbudowan fluktuacj wzorca jakoci wiedzy okaza si testem jakoby atwiejszym, poniewa wspomniana skala uniemoliwiaa precyzyjne ledzenie wspomnianego zaburzenia. Przy szerokiej skali oceniania punktowego, aby porwna trudnoci testw naleao wprowadzi procedur wyrwnujc skale oceniania. W przeciwnym przypadku testy byy formalnie nieporwnywalne. Podano rwnie propozycj uzupenienia TESTU A tak, aby zapewni jednakow pojemno informacyjn arkuszy egzaminacyjnych A i B. Pojcie wyrwnywania wynikw testw sprowadzono do wyrwnywania skal oceniania testw i oparto na eksperckiej ocenie arkuszy egzaminacyjnych.

W opisywanym przykadzie testw zdefiniowano wzorzec jakoci wiedzy jako ograniczone sownictwo i dwie konstrukcje

8. Wnioski
Kolokwialnie mwic, za wzorzec jakoci wiedzy odpowiada jedynie egzaminator, a za trudno arkusza egzaminacyjnego odpowiada tylko egzaminowany. W publikacji dr Szaleca obydwa te terminy zostay zamknite jednym okreleniem zwanym trudnoci arkusza egzaminacyjnego. Ju na tym etapie ciko okreli co faktycznie pragnie zbada dr Szaleniec, poniewa nie definiuje on w sposb systematyczny podstaw teoretycznych rozpatrywanego zagadnienia. Z praktycznego punktu widzenia, w terminach matematyki stosowanej, problem postawiony przez dr Szaleca jest niezwykle interesujcy. Jaki model teoretyczny naley zbudowa, aby uywajc jedynie wynikw egzaminw, bez eksperckiej analizy arkuszy egzaminacyjnych, rozdzieli wpyw fluktuacji wzorca jakoci wiedzy od trudnoci arkuszy egzaminacyjnych dla rnych populacji zdajcych ? Nastpne pytanie: Czy jest to teoretycznie w ogle moliwe, a jeeli tak to jak

W prezentowanym opracowaniu wprowadzono dwa istotne pojcia: wzorca jakoci wiedzy i trudnoci arkusza egzaminacyjnego.

due musz by te fluktuacje ? Ostatnie pytanie: Ile to wszystko bdzie kosztowao ?

9. Cytowane opracowania
Szaleniec H. Moliwoci wykorzystania zrwnanych wynikw egzaminu gimnazjalnego w szkolnej diagnozie, prezentacja na XVIII Konferencja Diagnostyki Edukacyjnej, Wrocaw 2012. 1. http://pl.scribd.com/doc/66632205/Modelowanie-wynikow 2. http://pl.scribd.com/doc/68051440/Modelowanie-wynikow-2