Utófeldolgozás

Elméleti háttér

A numerikus modellek által szolgáltatott nyers outputok nem mindig alkalmasak arra, hogy azokat közvetlenül a felhasználók rendelkezésére bocsássuk. Ennek több oka is lehet. Egyrészt a nyers produktumok nem mindig az igényeknek megfelelőek, vagyis más koordinátarendszerben megadott információra, illetve más paraméterek előrejelzett értékeire lehet szüksége a felhasználónak. Másrészt előfordulhat, hogy a számítási eredmények szisztematikus hibával terheltek, és vannak olyan esetek is, amikor a modell felbontása nem felel meg az elvárásoknak, ezért ezt tovább kell finomítani. Ezeket a problémákat próbáljuk orvosolni a különböző utófeldolgozási eljárások révén.

Az előrejelzési hibák statisztikai alapú kiszűrésére olyan a matematikai statisztikában ismert módszereken alapuló utófeldolgozásokat fejlesztettek ki, amelyekben a nyers produktumokra, a megfigyelésekre és a klímaadatokra támaszkodva javítják egy adott területre vonatkozó előrejelzést. A meghatározni kívánt változókat prediktanduszoknak, míg a rendelkezésre álló változókat, amik felhasználásával az utófeldolgozást végezzük, prediktoroknak nevezzük. E kétféle változó-csoport közötti kapcsolatot az ún. regressziós egyenletek írják le. Ezeket az egyenleteket múltbeli adatokra alkalmazva (prediktorok és prediktanduszok is ismertek) megkapjuk azokat az összefüggéseket (regressziós együtthatók), amik felhasználásával - és az aktuális előrejelzések (prediktorok) ismeretében - a keresett változók (prediktanduszok) meghatározhatók.

A legfontosabb objektív utófeldolgozási technikák

A Perfect-Prog (PPM) - mint azt a neve is tükrözi - a nyers modell outputok (DMO: Direct Model Output) tökéletességét feltételezi, hiszen a regressziós összefüggéseket a megfigyelt prediktanduszok és a megfigyelt prediktorok között keresi, ezeket az összefüggéseket azonban előrejelzésekre alkalmazza.

A Model Output Statisztika (MOS) ezzel szemben a regressziós összefüggéseket a DMO-ból kapott prediktorok és a megfigyelésekből származó prediktanduszok között hozza létre egy adott, az ún. fejlesztési időszak alatt, majd utána a PPM-hez hasonlóan használja, vagyis a DMO-ból kapott prediktorok és a regressziós együtthatók segítségével számolja ki a prediktanduszokat. Fontos kiemelni, hogy ebben az esetben a fejlesztési időszakra vonatkozóan nemcsak megfigyelésekkel (mint prediktanduszokkal), hanem a nyers modell eredményekkel (mint prediktorokkal) is rendelkeznünk kell.

A Kálmán-szűrő módszer az adatasszimiláción kívül jól használható nyers modell eredmények statisztikai utófeldolgozására is. Tanuló algoritmus jellege miatt ötvözni tudja a Perfect-Prog és a MOS előnyeit, és ezáltal képes kiküszöbölni azok hátrányait. A modell outputok és a megfigyelések között olyan regressziós kapcsolatot ír le, ahol a regressziós együtthatók adott helyen az időben változnak, ezzel "megtanulják" a kapcsolat változásait. Nagyon gyorsan reagálnak bármilyen változásra (modell-fejlesztés, új megfigyelő állomás stb.), így a fejlesztési időszak jelentősen lerövidül, és az esetleges változások alkalmával nem szükséges új regressziót generálni.

Előnyeik és hátrányaik alapján a módszerek összehasonlítását a következő táblázatban láthatjuk.

Perfect-Prog	MOS	Kálmán-szűrő
Nagyon szoros kapcsolat van a prediktorok és a prediktanduszok között, mivel csak aktuálisan megfigyelt adatokat használ	A kapcsolat az idővel gyengül a modell hiba varianciájának növekedése miatt	A kapcsolat az idővel gyengül a modell hiba varianciájának növekedése miatt
Nem kezeli a modell szisztematikus hibáját	Kezeli a modell szisztematikus hibáját	Kezeli a modell szisztematikus hibáját
Általában hosszú adatsor szükséges a fejlesztési időszakhoz	Általában rövidebb adatsor is elégséges a fejlesztési időszakhoz	Nagyon rövid adatsor is elegendő a fejlesztési időszakhoz
Csak megfigyelt vagy analizált változók közötti összefüggéseket használ fel	Tetszőleges modell output és megfigyelés közötti kapcsolatot használ fel	Tetszőleges modell output és megfigyelés közötti kapcsolatot használ fel
Nem modell-függő	Az adott modell bármilyen változásánál újra kell generálni a regressziós együtthatókat	Nem modell-függő

Itt jegyezzük meg, hogy az előrejelző szakember által végzett mindennapos előrejelzés hasonló, de szubjektív eljárás, hiszen az előrejelző nem tesz mást, mint a különböző meteorológiai paraméterek közötti kapcsolatok feltárásában szerzett jelentős tapasztalata alapján értelmezi a nyers outputokat, és azzal együtt interpretálja az időjárási helyzetet, illetve készíti el az előrejelzést.

Többváltozós lineáris regresszió

A regresszió egy olyan lineáris függvénykapcsolat, ami a prediktorok (ismert paraméterek) és a prediktanduszok (a későbbiekben meghatározandó paraméterek) között írja le az összefüggéseket. Többváltozós esetben a prediktorok száma egynél több. Az egyenlet a következő:

A fenti egyenletet először - hosszabb idősorra - múltbeli adatokra (y, x_i ismertek) alkalmazzuk, amikor az a_i-ket (regressziós együtthatókat) határozzuk meg. Ezt csak egyszer kell elvégezni (fejlesztési-, vagy tanuló időszak). Ezután - a már ismert regressziós együtthatók segítségével - aktuális adatokon is alkalmazva (a_i, x_i ismertek), megkapjuk az y-t, a prediktanduszt. Ezt a lépést minden új előrejelzés készítésekor el kell végezni.

A prediktorszám és a prediktorok kiválasztásának módszerei

Az optimális prediktorok meghatározása előtt elengedhetetlen annak eldöntése, hogy maximálisan hány prediktort használhatunk a regresszió során. Ha birtokunkban van ez az optimális érték, akkor keríthetünk sort a legmegfelelőbb prediktorok kiválasztására. Ehhez különféle matematikai hibafüggvényeket használunk fel. Segítségükkel eldönthetjük, hogy melyik prediktor-együttessel (x₁,...,x_p) közelítettük meg legjobban a prediktanduszt (a meghatározandó paramétert), ami a fejlesztési időszak alatt természetesen ismert, és így a hiba kiszámítható. Kiválasztva a legkisebb hibát adó prediktor-együttest, megkapjuk az optimális megoldást.

Azt, hogy adott p prediktorszám mellett milyen szisztémával tekintjük végig a lehetőségeket, különböző módszerek alkalmazásával érhetjük el. Ilyenek pl. az "all-possible", a "forward", "backward" és a "stepwise" módszerek. Az "all-possible" módszer minden lehetséges (q ≤ p) prediktorszám esetében megvizsgálja az összes lehetséges variációt, és az összes - sokszor hatalmas mennyiségű - lehetőségből választja ki a legkisebb hibával rendelkező megoldást. A "forward" módszer az 1-es prediktorszámtól kiindulva egyesével növeli a prediktorok számát, minden esetben meghagyva az előzőleg már kiválasztott prediktorokat. Ez utóbbi egy sokkal kisebb számításigényű módszer. A "backward" módszer a "forward" fordítottja, míg a "stepwise" módszer az utóbbi kettő egyesítése, a visszalépés technikáját alkalmazva, vagyis adott lépésben el is lehet venni egy prediktort az együttesből, de hozzá is lehet adni egy újabbat attól függően, hogy melyik optimális az adott helyzetben.

Arra, hogy hogyan határozzuk meg a prediktorok számának optimális értékét, több módszert is ismerünk. Ilyen pl. az ún. "cross-validation" módszer, ami azon alapszik, hogy a regressziós időszakon belül - független időszakokat képezve - tudjuk tesztelni az eljárásunkat. Jelen esetben N-szer (N a minta nagysága) lefuttatva a regressziót, minden alkalommal kihagyunk 1-1 napot a tanuló időszakból és a kihagyott napon - mint független "időszakon" - verifikáljuk a regressziót. Az összes - N - esetet lefuttatva, MSE (négyzetes hiba) minimumhelyének segítségével állapítjuk meg a legjobb prediktorszámot. Egy másik ismert módszer a "nested F-test", ami megadja azt a prediktorszámot, aminél több prediktor használata esetén már túlhatározottá ("overfitted") válik a regresszió. Mint az angol neve is mutatja, itt két egymásba ágyazott prediktor együttes (ez csak a "forward" módszer esetén teljesül) eredményeivel kapcsolatban mond ki a teszt egy állítást, amit F-testnek vetünk alá, s ezzel eldönthetjük, hogy a kisebb vizsgált prediktor-együttesnél bővebb prediktor-együttesek túlhatározottak-e.

Gyakorlati megvalósítás az OMSZ-nál

Az osztályunkon, a bevezetőben vázolt statisztikai utófeldolgozási módszerek közül 2004-ig egyedül a 2 m-es hőmérséklet Kalman-szűrővel történő utófeldolgozásával foglalkoztunk. 2004 végén kezdtük meg egy új utófeldolgozási rendszer létrehozását, aminek első lépéseként kifejlesztettünk egy - a Model Output Statisztika elméletére épülő, a többváltozós lineáris regresszión alapuló - utófeldolgozási eljárást.

Ezen munka során a 2m-es hőmérséklet, a relatív nedvesség és a 10m-es szél numerikus produktumainak (ALADIN/HU, ECMWF) statisztikai korrekcióját végeztük el.

26 prediktorból, a modell-terület minden szinoptikus állomására, minden időlépcsőben, havi bontásban választotta ki a program az optimálisakat, a fent leirt "cross-validation" módszer, ill. a "nested F-test" segítségével meghatározott maximális prediktorszám mellett. Az optimális prediktorokat a "forward" módszerrel kaptuk meg, miután megbizonyosodtunk arról, hogy független időszakon a jóval költségesebb "all-possible" módszer nem ad jobb megoldást. A 26 prediktor a következő: T2m, MSLP, RHU2, U10, V10, N, T5, T7, T8, T9, U5, U7, U8, U9, V5, V7, V8, V9, RHU5, RHU7, RHU8, RHU9, GEO5, GEO7, GEO8, GEO9. Itt az 5, 7, 8, 9 számok rendre az 500, 700, 850, ill. 925 hPa-os magassági szinteket jelölik, a 2-es ill. 10-es szám pedig a mérés helyének magasságát a földfelszíntől (méterben). A T a hőmérsékletet, az RHU a relatív nedvességet, az U és V a szél zonális ill. meridionális irányú komponenseit, az MSLP a tengerszinti légnyomást, az N a felhő borítottságot, a GEO pedig az adott nyomási szintek magasságát jelöli. Mind a négy prediktandusz (T2, RHU2, U10, V10) esetében, az év minden hónapjában, minden időlépcsőben (ECMWF: 12 - 60, ALHU: 06 - 48), minden modellre (ECMWF_00, ECMWF_12, ALHU_00, ALHU_12), a modell-terület minden szinoptikus állomására, a maximum 2 prediktorszámot fogadtuk el optimálisnak. Jelenleg operatívan is az így kiszámolt együtthatókkal fut az utófeldolgozás programja.

A 2m-es hőmérséklet esetében a tesztfutások rámutattak arra, hogy ez a módszer a hegyvidéki területeken szolgáltatja a legjobb eredményeket. Ennek az az oka, hogy a modellekben leírt domborzat eltér a valóságostól, így a hegyvidéki területek szisztematikus hibával terheltek. A sík területeken már sokkal kevesebbet javított az utófeldolgozás, ezen belül is a melegebb hónapokban szignifikánsabb volt a javulás, mint a hideg hónapokban. Az alábbi ábra jól szemlélteti módszerünk sikerességét a domborzat függvényében.

1. ábra A kék különböző árnyalataival jelöltük azokat az állomásokat, ahol 2005. májusában az utófeldolgozás pozitív eredményt hozott a 2m-es hőmérséklet esetében, és a sárga, ill. a piros különböző árnyalataival azokat, ahol negatív volt az eredmény. A mértékszámot az utófeldolgozás előtti, ill. az utáni RMSE értékek különbségei szolgáltatták. Sötétkékkel jó kirajzolódik az Alpok és más országok hegycsúcsainak állomásai is.

Érdekességképpen a 2. ábrán bemutatjuk az ECMWF 2m-es hőmérséklet előrejelzésének 2005. augusztus 1-től 2006. január 31-ig verifikált utófeldolgozás előtti, ill. utáni eredményeit Kékestető állomásra vonatkozóan. Teljesen egyértelmű az utófeldolgozást követő nagymértékű javulás.		2 - 3. ábra Pirossal az eredeti modell (ECMWF_00) RMSE értékeit az integrálási idő függvényében, sárgával pedig az utófeldolgozás utáni előrejelzés RMSE értékeit ábrázoltuk.
Az alacsonyabb vidékeken már nem olyan egyértelmű a pozitív hatás. Ezt demonstrálja a következő, Budapestre vonatkozó 3. ábra. Itt már tehát nem olyan látványos és egyértelmű a javulás. Bizonyos időlépcsőkben kifejezetten eredményes az utófeldolgozás, másokban viszont ront az eredeti előrejelzés beválásán. Az ún. "scatter-plot"-okból is jól látszik (4. ábra), hogy ez az utófeldolgozási módszer csak a szisztematikus hibákon segít.

4. ábra Kékestető ECMWF előrejelzésének "scatter-plot"-ja utófeldolgozás előtt (bal oldal) és után (jobb oldal)

A bal oldali ábrán látható Kékestető ECMWF előrejelzésének "scatter-plot"-ja, ami egy elég erőteljes szisztematikus hibát mutat. Ezt az utófeldolgozás helyesen korrigálja (jobb oldali ábra). Nem hegyvidéki állomásoknál azonban már a nyers produktumokban is az y=x egyeneshez esnek közel az előrejelzés-megfigyelés párok, amin már nincs mit korrigálni.

5. ábra

A hegyvidékeken kívül is vannak olyan állomások, amiknek a helyi jellegzetességeit a modellek nem tudják megfogni. Ilyen pl. a Balaton környéke, ahol a víz hőmérsékletmódosító hatását a modellek nem tudják pontosan szimulálni. Ekkor is sokat segít az utófeldolgozás. Jó példa erre az 5. ábra, ahol - a fent említett időszakban - Siófok utófeldolgozás előtti (piros) és utáni (sárga) eredményeit láthatjuk.
A grafikonból egyértelműen kiderül, hogy az eredeti modell nem tudja "megfogni" a Balaton éjszakai - melegítő - hatását, és ezt a hibát az utófeldolgozás erőteljesen csökkenti.

Az U10, V10 esetében elvégzett utófeldolgozás már nem ad olyan látványos eredményt, mint a 2m-es hőmérséklet esetében. Ebben az esetben szinte semmi javulást nem eredményez az utófeldolgozás. A relatív nedvesség esetében viszont - hasonlóan a hőmérséklethez - pozitív eredményeket kapunk. Itt is nagyobb mértékű a javulás a hegyvidéki, mint a sík területeken, de a különbség nem olyan nagy, mint a hőmérséklet esetében.

6. ábra

A bal oldali ábrán egy nagyobb - Európán belüli - területre verifikáltuk a relatív nedvességet, a jobb oldali ábrán pedig az adott terület 500 m alatti állomásainak területként vett verifikációja látható. Nincs nagy különbség, de a sík vidékeken fekvő állomásokhoz képest sokkal kisebb számú hegyi állomások eredményei pozitív irányba mozdítják el az egész terület verifikációs eredményét.

A fent ismertetett rendszer 2005. augusztus 1. óta kvázi-operatívan fut. Az eredményeket 2006. júniusától negyedévi rendszerességgel tervezzük kiértékelni.