Utófeldolgozás
Elméleti háttér
A numerikus modellek által szolgáltatott nyers outputok nem mindig alkalmasak arra, hogy azokat közvetlenül a felhasználók rendelkezésére bocsássuk. Ennek több oka is lehet. Egyrészt a nyers produktumok nem mindig az igényeknek megfelelőek, vagyis más koordinátarendszerben megadott információra, illetve más paraméterek előrejelzett értékeire lehet szüksége a felhasználónak. Másrészt előfordulhat, hogy a számítási eredmények szisztematikus hibával terheltek, és vannak olyan esetek is, amikor a modell felbontása nem felel meg az elvárásoknak, ezért ezt tovább kell finomítani. Ezeket a problémákat próbáljuk orvosolni a különböző utófeldolgozási eljárások révén.
Az előrejelzési hibák statisztikai alapú kiszűrésére olyan a matematikai statisztikában ismert módszereken alapuló utófeldolgozásokat fejlesztettek ki, amelyekben a nyers produktumokra, a megfigyelésekre és a klímaadatokra támaszkodva javítják egy adott területre vonatkozó előrejelzést. A meghatározni kívánt változókat prediktanduszoknak, míg a rendelkezésre álló változókat, amik felhasználásával az utófeldolgozást végezzük, prediktoroknak nevezzük. E kétféle változó-csoport közötti kapcsolatot az ún. regressziós egyenletek írják le. Ezeket az egyenleteket múltbeli adatokra alkalmazva (prediktorok és prediktanduszok is ismertek) megkapjuk azokat az összefüggéseket (regressziós együtthatók), amik felhasználásával - és az aktuális előrejelzések (prediktorok) ismeretében - a keresett változók (prediktanduszok) meghatározhatók.
A legfontosabb objektív utófeldolgozási technikák
A Perfect-Prog (PPM) - mint azt a neve is tükrözi - a nyers modell outputok (DMO: Direct Model Output) tökéletességét feltételezi, hiszen a regressziós összefüggéseket a megfigyelt prediktanduszok és a megfigyelt prediktorok között keresi, ezeket az összefüggéseket azonban előrejelzésekre alkalmazza.
A Model Output Statisztika (MOS) ezzel szemben a regressziós összefüggéseket a DMO-ból kapott prediktorok és a megfigyelésekből származó prediktanduszok között hozza létre egy adott, az ún. fejlesztési időszak alatt, majd utána a PPM-hez hasonlóan használja, vagyis a DMO-ból kapott prediktorok és a regressziós együtthatók segítségével számolja ki a prediktanduszokat. Fontos kiemelni, hogy ebben az esetben a fejlesztési időszakra vonatkozóan nemcsak megfigyelésekkel (mint prediktanduszokkal), hanem a nyers modell eredményekkel (mint prediktorokkal) is rendelkeznünk kell.
A Kálmán-szűrő módszer az adatasszimiláción kívül jól használható nyers modell eredmények statisztikai utófeldolgozására is. Tanuló algoritmus jellege miatt ötvözni tudja a Perfect-Prog és a MOS előnyeit, és ezáltal képes kiküszöbölni azok hátrányait. A modell outputok és a megfigyelések között olyan regressziós kapcsolatot ír le, ahol a regressziós együtthatók adott helyen az időben változnak, ezzel "megtanulják" a kapcsolat változásait. Nagyon gyorsan reagálnak bármilyen változásra (modell-fejlesztés, új megfigyelő állomás stb.), így a fejlesztési időszak jelentősen lerövidül, és az esetleges változások alkalmával nem szükséges új regressziót generálni.
Előnyeik és hátrányaik alapján a módszerek összehasonlítását a következő táblázatban láthatjuk.
Perfect-Prog | MOS | Kálmán-szűrő |
Nagyon szoros kapcsolat van a prediktorok és a prediktanduszok között, mivel csak aktuálisan megfigyelt adatokat használ | A kapcsolat az idővel gyengül a modell hiba varianciájának növekedése miatt | A kapcsolat az idővel gyengül a modell hiba varianciájának növekedése miatt |
Nem kezeli a modell szisztematikus hibáját | Kezeli a modell szisztematikus hibáját | Kezeli a modell szisztematikus hibáját |
Általában hosszú adatsor szükséges a fejlesztési időszakhoz | Általában rövidebb adatsor is elégséges a fejlesztési időszakhoz | Nagyon rövid adatsor is elegendő a fejlesztési időszakhoz |
Csak megfigyelt vagy analizált változók közötti összefüggéseket használ fel | Tetszőleges modell output és megfigyelés közötti kapcsolatot használ fel | Tetszőleges modell output és megfigyelés közötti kapcsolatot használ fel |
Nem modell-függő | Az adott modell bármilyen változásánál újra kell generálni a regressziós együtthatókat | Nem modell-függő |
Itt jegyezzük meg, hogy az előrejelző szakember által végzett mindennapos előrejelzés hasonló, de szubjektív eljárás, hiszen az előrejelző nem tesz mást, mint a különböző meteorológiai paraméterek közötti kapcsolatok feltárásában szerzett jelentős tapasztalata alapján értelmezi a nyers outputokat, és azzal együtt interpretálja az időjárási helyzetet, illetve készíti el az előrejelzést.
Többváltozós lineáris regresszió
A regresszió egy olyan lineáris függvénykapcsolat, ami a prediktorok (ismert paraméterek) és a prediktanduszok (a későbbiekben meghatározandó paraméterek) között írja le az összefüggéseket. Többváltozós esetben a prediktorok száma egynél több. Az egyenlet a következő:
A fenti egyenletet először - hosszabb idősorra - múltbeli adatokra (y, xi ismertek)
alkalmazzuk, amikor az ai-ket (regressziós együtthatókat) határozzuk meg. Ezt csak
egyszer kell elvégezni (fejlesztési-, vagy tanuló időszak). Ezután - a már ismert
regressziós együtthatók segítségével - aktuális adatokon is alkalmazva (ai, xi ismertek),
megkapjuk az y-t, a prediktanduszt. Ezt a lépést minden új előrejelzés készítésekor el
kell végezni.
A prediktorszám és a prediktorok kiválasztásának módszerei
Az optimális prediktorok meghatározása előtt elengedhetetlen annak eldöntése,
hogy maximálisan hány prediktort használhatunk a regresszió során. Ha birtokunkban
van ez az optimális érték, akkor keríthetünk sort a legmegfelelőbb prediktorok
kiválasztására. Ehhez különféle matematikai hibafüggvényeket használunk fel.
Segítségükkel eldönthetjük, hogy melyik prediktor-együttessel (x1,...,xp)
közelítettük meg legjobban a prediktanduszt (a meghatározandó paramétert), ami
a fejlesztési időszak alatt természetesen ismert, és így a hiba kiszámítható.
Kiválasztva a legkisebb hibát adó prediktor-együttest, megkapjuk az optimális
megoldást.
Azt, hogy adott p prediktorszám mellett milyen szisztémával tekintjük végig a
lehetőségeket, különböző módszerek alkalmazásával érhetjük el. Ilyenek pl. az
"all-possible", a "forward", "backward" és a
"stepwise" módszerek. Az
"all-possible" módszer minden lehetséges (q ≤ p) prediktorszám esetében
megvizsgálja az összes lehetséges variációt, és az összes - sokszor hatalmas
mennyiségű - lehetőségből választja ki a legkisebb hibával rendelkező megoldást.
A "forward" módszer az 1-es prediktorszámtól kiindulva egyesével növeli a
prediktorok számát, minden esetben meghagyva az előzőleg már kiválasztott
prediktorokat. Ez utóbbi egy sokkal kisebb számításigényű módszer. A "backward"
módszer a "forward" fordítottja, míg a "stepwise" módszer az utóbbi kettő
egyesítése, a visszalépés technikáját alkalmazva, vagyis adott lépésben el
is lehet venni egy prediktort az együttesből, de hozzá is lehet adni egy
újabbat attól függően, hogy melyik optimális az adott helyzetben.
Arra, hogy hogyan határozzuk meg a prediktorok számának optimális értékét, több
módszert is ismerünk. Ilyen pl. az ún. "cross-validation" módszer, ami azon
alapszik, hogy a regressziós időszakon belül - független időszakokat képezve -
tudjuk tesztelni az eljárásunkat. Jelen esetben N-szer (N a minta nagysága)
lefuttatva a regressziót, minden alkalommal kihagyunk 1-1 napot a tanuló
időszakból és a kihagyott napon - mint független "időszakon" - verifikáljuk
a regressziót. Az összes - N - esetet lefuttatva, MSE (négyzetes hiba)
minimumhelyének segítségével állapítjuk meg a legjobb prediktorszámot.
Egy másik ismert módszer a "nested F-test", ami megadja azt a prediktorszámot,
aminél több prediktor használata esetén már túlhatározottá ("overfitted")
válik a regresszió. Mint az angol neve is mutatja, itt két egymásba ágyazott
prediktor együttes (ez csak a "forward" módszer esetén teljesül) eredményeivel
kapcsolatban mond ki a teszt egy állítást, amit F-testnek vetünk alá, s ezzel
eldönthetjük, hogy a kisebb vizsgált prediktor-együttesnél bővebb
prediktor-együttesek túlhatározottak-e.
Gyakorlati megvalósítás az OMSZ-nál
Az osztályunkon, a bevezetőben vázolt statisztikai utófeldolgozási módszerek közül
2004-ig egyedül a 2 m-es hőmérséklet Kalman-szűrővel történő utófeldolgozásával
foglalkoztunk. 2004 végén kezdtük meg egy új utófeldolgozási rendszer létrehozását,
aminek első lépéseként kifejlesztettünk egy - a Model Output Statisztika
elméletére épülő, a többváltozós lineáris regresszión alapuló - utófeldolgozási
eljárást.
Ezen munka során a 2m-es hőmérséklet, a relatív nedvesség és a 10m-es szél numerikus
produktumainak (ALADIN/HU, ECMWF) statisztikai korrekcióját végeztük el.
26 prediktorból, a modell-terület minden szinoptikus állomására, minden időlépcsőben,
havi bontásban választotta ki a program az optimálisakat, a fent leirt
"cross-validation" módszer, ill. a "nested F-test" segítségével meghatározott
maximális prediktorszám mellett. Az optimális prediktorokat a "forward"
módszerrel kaptuk meg, miután megbizonyosodtunk arról, hogy független időszakon a
jóval költségesebb "all-possible" módszer nem ad jobb megoldást. A 26 prediktor a
következő: T2m, MSLP, RHU2, U10, V10, N, T5, T7, T8, T9, U5, U7, U8, U9, V5, V7,
V8, V9, RHU5, RHU7, RHU8, RHU9, GEO5, GEO7, GEO8, GEO9. Itt az 5, 7, 8, 9 számok
rendre az 500, 700, 850, ill. 925 hPa-os magassági szinteket jelölik, a 2-es ill.
10-es szám pedig a mérés helyének magasságát a földfelszíntől (méterben). A T a
hőmérsékletet, az RHU a relatív nedvességet, az U és V a szél zonális ill.
meridionális irányú komponenseit, az MSLP a tengerszinti légnyomást, az N a
felhő borítottságot, a GEO pedig az adott nyomási szintek magasságát jelöli.
Mind a négy prediktandusz (T2, RHU2, U10, V10) esetében, az év minden hónapjában,
minden időlépcsőben (ECMWF: 12 - 60, ALHU: 06 - 48), minden modellre (ECMWF_00,
ECMWF_12, ALHU_00, ALHU_12), a modell-terület minden szinoptikus állomására, a
maximum 2 prediktorszámot fogadtuk el optimálisnak. Jelenleg operatívan is az
így kiszámolt együtthatókkal fut az utófeldolgozás programja.
A 2m-es hőmérséklet esetében a tesztfutások rámutattak arra, hogy ez a módszer a
hegyvidéki területeken szolgáltatja a legjobb eredményeket. Ennek az az oka, hogy
a modellekben leírt domborzat eltér a valóságostól, így a hegyvidéki területek
szisztematikus hibával terheltek. A sík területeken már sokkal kevesebbet javított
az utófeldolgozás, ezen belül is a melegebb hónapokban szignifikánsabb volt a
javulás, mint a hideg hónapokban. Az alábbi ábra jól szemlélteti módszerünk
sikerességét a domborzat függvényében.
1. ábra A kék különböző árnyalataival jelöltük azokat az állomásokat, ahol 2005.
májusában az utófeldolgozás pozitív eredményt hozott a 2m-es hőmérséklet esetében, és
a sárga, ill. a piros különböző árnyalataival azokat, ahol negatív volt az eredmény.
A mértékszámot az utófeldolgozás előtti, ill. az utáni RMSE értékek különbségei
szolgáltatták. Sötétkékkel jó kirajzolódik az Alpok és más országok hegycsúcsainak
állomásai is.
Érdekességképpen a 2. ábrán bemutatjuk az ECMWF 2m-es hőmérséklet
előrejelzésének 2005. augusztus 1-től 2006. január 31-ig verifikált utófeldolgozás
előtti, ill. utáni eredményeit Kékestető állomásra vonatkozóan.
Teljesen egyértelmű az utófeldolgozást követő nagymértékű javulás.
|
|
2 - 3. ábra Pirossal az eredeti modell (ECMWF_00) RMSE értékeit az integrálási idő
függvényében, sárgával pedig az utófeldolgozás utáni előrejelzés RMSE értékeit
ábrázoltuk.
|
Az alacsonyabb vidékeken már nem olyan egyértelmű a pozitív hatás. Ezt
demonstrálja a következő, Budapestre vonatkozó 3. ábra. Itt már tehát nem olyan
látványos és egyértelmű a javulás. Bizonyos időlépcsőkben kifejezetten
eredményes az utófeldolgozás, másokban viszont ront az eredeti előrejelzés
beválásán. Az ún. "scatter-plot"-okból is jól látszik (4. ábra), hogy ez az
utófeldolgozási módszer csak a szisztematikus hibákon segít.
|
|
4. ábra Kékestető ECMWF előrejelzésének
"scatter-plot"-ja utófeldolgozás előtt (bal oldal) és után (jobb oldal)
A bal oldali ábrán látható Kékestető ECMWF előrejelzésének
"scatter-plot"-ja, ami egy elég erőteljes szisztematikus hibát
mutat. Ezt az utófeldolgozás helyesen korrigálja (jobb oldali ábra). Nem
hegyvidéki állomásoknál azonban már a nyers produktumokban is az y=x egyeneshez
esnek közel az előrejelzés-megfigyelés párok, amin már nincs mit korrigálni.
5. ábra
A hegyvidékeken kívül is vannak olyan állomások, amiknek a helyi
jellegzetességeit a modellek nem tudják megfogni. Ilyen pl. a Balaton
környéke, ahol a víz hőmérsékletmódosító hatását a modellek nem tudják
pontosan szimulálni. Ekkor is sokat segít az utófeldolgozás. Jó példa
erre az 5. ábra, ahol - a fent említett időszakban - Siófok utófeldolgozás
előtti (piros) és utáni (sárga) eredményeit láthatjuk.
A grafikonból egyértelműen kiderül, hogy az eredeti modell nem tudja
"megfogni" a Balaton éjszakai - melegítő - hatását, és ezt a hibát az
utófeldolgozás erőteljesen csökkenti.
Az U10, V10 esetében elvégzett utófeldolgozás már nem ad olyan látványos
eredményt, mint a 2m-es hőmérséklet esetében. Ebben az esetben szinte semmi
javulást nem eredményez az utófeldolgozás. A relatív nedvesség esetében
viszont - hasonlóan a hőmérséklethez - pozitív eredményeket kapunk. Itt is
nagyobb mértékű a javulás a hegyvidéki, mint a sík területeken, de a
különbség nem olyan nagy, mint a hőmérséklet esetében.
6. ábra
A bal oldali ábrán egy nagyobb - Európán belüli - területre verifikáltuk a
relatív nedvességet, a jobb oldali ábrán pedig az adott terület 500 m alatti
állomásainak területként vett verifikációja látható. Nincs nagy különbség,
de a sík vidékeken fekvő állomásokhoz képest sokkal kisebb számú hegyi
állomások eredményei pozitív irányba mozdítják el az egész terület verifikációs
eredményét.
A fent ismertetett rendszer 2005. augusztus 1. óta kvázi-operatívan fut.
Az eredményeket 2006. júniusától negyedévi rendszerességgel tervezzük kiértékelni.