Algoritmusokkal rekonstruálják az átírt szövegeket
2009. augusztus 25. 21:52, kedd
A negevi Ben Gurion Egyetem kutatói olyan algoritmusokat fejlesztettek ki, amely segíthetnek a rossz állapotban lévő vagy átírt ókori szövegek rekonstruálásában.

Hirdetés

Az informatikusok és humán szakemberek bevonásával indított program célja olyan eljárások kidolgozása volt, amelyeknél számítógépek segítségével olvashatóvá tehetők a sérült, olvashatatlan vagy módosított palimpszesztek. "A palimpszesztek olyan papiruszok, amelyeknél az eredeti írást egy másik szöveggel váltották fel, vagyis átírták" - közölte Klara Kedem, a projektben részt vevő informatikusok egyike.

Az első lépést a héber és az arab nyelvű szövegek megértése jelenti. A cél az, hogy szövegrekonstruáló és - elemző algoritmusok segítségével egy olyan nyílt forráskódú rendszert fejlesszenek ki, amely a későbbiekben felhasználható a történeti dokumentumokkal kapcsolatos kutatásokban és ami elősegítheti ezeket a programokat.


Kedem elmondta, hogy az egyik problémát az átírt papiruszokon lévő eredeti szövegek megtalálása és azok megfejtése jelenti. Ehhez a thresholding nevű képfeldolgozási módszert alkalmazzák, mivel ez meglehetősen pontosnak mondható és a segítségével könnyebben megkülönböztethetők az eredeti és az azt felváltó későbbi betűk. "Ezután az úgynevezett inpainting technikákat használjuk, hogy megkaphassuk a restaurált szövegképet. Ez a módszer gyakorlatilag az összes palimpszeszt esetében működik és fontos megjegyezni, hogy gyakorlatilag bármely írásjel rekonstruálására alkalmas" - tette hozzá az informatikus.

A BGU projektben kifejlesztettek más algoritmusokat is. Ezek egyike a paleográfiai számítógépes elemzésekben segít, lényege a betűformák, a régi dokumentumokban előforduló rövidítések tanulmányozása és megfejtése, ugyanakkor alkalmas az iratok pontos keletkezési időpontjának meghatározására is. A vizsgált anyagok között vannak a kairói Ben Ezra Zsinagóga úgynevezett genizájában talált dokumentumok. A genizákban tárolják a vallásos zsidók a már nem használható, de vallási szabályaik alapján meg nem semmisíthető írásokat, könyveket. A kairói Ben Ezra Zsinagóga genizájában a 19. század végén fedeztek fel 200 000 kéziratot, amelyek némelyike az időszámításunk szerinti 9. századból származik.
Laptopok

Már 49 900 Ft-tól!

E-book olvasók

Már 17 043 Ft-tól!

Tablet PC-k

Már 23 140 Ft-tól!

LCD monitorok

Már 19 800 Ft-tól!

részletek » részletek » részletek » részletek »
Megosztás
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
 

IT/Tech, Hardver
Tudomány, Mobil, Film, Játék
Hirdetés



Hozzászólások
A témához csak regisztrált és bejelentkezett látogatók szólhatnak hozzá!
Bejelentkezéshez klikk ide
(Regisztráció a fórum nyitóoldalán)
2009. aug. 29. 18:41 | galéria | válasz | #20
Distributed Proofreaders:
beszkennelsz egy könyvet, majd beküldöd lektorálásra. Több lépcsőben, önkéntesek ellenőrzik a szöveget.t, majd a könyv bekerül a Gutenberg projektbe.
Szerintem a magyar része még nem igazán működik, valszeg kevés az önkéntes.
2009. aug. 28. 22:01 | galéria | válasz | #19
Épp beszkenneltem elég sok oldalt, és FineReaderrel OCR-eztem. A kilencessel. Ez már butális! Lényegében egyetlen hibát sem ejt a bestia, csak ott téved, ahol a papíron valami folt van, vagy gyűrődött. Pedig a könyv betűkészlete nem most volt papírra vetve, hisz kb. 28 éves könyvről van szó. A sorvégeknél található elválasztójelek kiszedését kellett kézileg megoldanom, de szerintem ezt is be lehet állítani valahol.
2009. aug. 28. 20:14 | válasz | #18
ijjjjj
2009. aug. 27. 15:16 | galéria | válasz | #17
nem. tudós körökben ezt hívjUk evolúciónak.
exac  
2009. aug. 27. 14:56 | válasz | #16
na ilyen amikor a hülyeség szorgalommal párosul
2009. aug. 27. 14:55 | galéria | válasz | #15
Na, ilyen lett a szkennerem fedőlapjának belseje:

(Apropó, ez is felhasználható háttérképként :-)
2009. aug. 27. 14:37 | galéria | válasz | #14
Van egy rossz, egy jó és egy nagyon jó hírem:

Nekiestem a szkenner belső fedelén lévő hófehér kartonlapnak, és filctollal sötétkékre festettem (épp nem volt fekete filcem).
Ilyen lett:

(Akár háttérképnek is beállíthatod! :-)

Hülyeség volt, mert macerás, helyette venni kell egy fekete papírlapot, és felragasztani.

A nagyon jó hírem az, hogy nem kell min. 65k ft-ért dokumentumszkennert venni, mert azoknál a multifunkciós nyomtatóknál, amelyeknél feltüntetik, hogy a szkenner tudja az ADF-et, 20 lapot automatikusan adagol a beolvasó.
Sanyix   "Rest in Peace Sanyix" 
2009. aug. 27. 12:57 | galéria | válasz | #13
ben gurion véletlenül nem az egyik legbrutálisabb zsidó terrorista volt aki később elnök lett? :D
2009. aug. 27. 12:26 | galéria | válasz | #12
A fineReadernek is van szótára.

Jonah:
Nekem tényleg nagy a mellényem.
És igenis ez egy jelentős oldal, mert különben nem jönnél ide. Bummm!
Itt egyébként a hosszú élet titka meleltt tudomást szerezhetsz az ufókról, a következő magyar kormány politikai összetételéről, a relativitás elmélet mellett a húrelméletről és a villanyautóról is.

Ha neked ez nem tetszik, lehet menni a zIndex szemétdombjára.
Én amióta idejárok, a koleszterinszintem csökkent 50 százalékponttal, őszülő hajszálaim visszanyerték serdülőkori színüket, és elmúlt a lábkörömgombám is.
Jonah  
2009. aug. 27. 11:20 | válasz | #11
Már írtam...

a karakter felismerés viszont más téma mint a feltételvizsgálat. Dehát te okos vagy, biztos ezt is tudod, ha már mindenkit ilyen nagy mellénnyel leosztasz.. én csak erre próbáltalak rávezetni iróniával. De ahogy elnézem, túl komolyra veszed a szereped egy jelentéktelen oldalon.

üdv.
kvp  
2009. aug. 27. 09:27 | válasz | #10
"Egy if (x>threshold) feltételvizsgálatot nem neveznék algoritmusnak..."

Pedig errol van szo, annyival kiegeszitve, hogy:
-feher: x>threshold1
-fekete: x<=threshold1 && x>=threshold2
-kerdeses: x<threshold2
ahol threshold1/2-t ugy kell megvalsztani, hogy maximalis kontrasztot kapjunk (akar mind a 256 ertekre vegig lehet probaltatni a programmal es ami a legnagyobb kontrasztot adja az a jo)

A karakterek osszehasonlitasara a mintaillesztes a gyakori, ami gyakorlatilag jopar egymasba agyazott for ciklus, kozepen a minta es a vizsgalt kep pixel kulonbsegeinek szorasnegyzet/szorodas osszegenek minimumat kereso algoritmussal. Ahol ez az osszeg a legkissebb, az a kepreszlet/betu hasonlit legjobban a minta adatbazis adott bejegyzesere. Igy minden betut hasonlosagi valoszinuseg szerint sorba lehet rakni, majd ezek kozzul kell kivalasztani a legvaloszinubbet. (a recognita meg megdobta egy szotarral is, igy a valoszinu betuk kozzul azokat a betuket valasztotta amik legvaloszinubben adtak ertelmes szavakat)
2009. aug. 27. 00:54 | galéria | válasz | #9
Te, figyu!

Ha te ilyen okos vagy, akkor miért nem írsz ilyen OCR-t?
A FineReader meg az Omnipage, vagy a Readiris azok ilyen kis for..while ciklusos szubrutinok, mi?

GoldenKéz:
Nekem az a bajom a jelenlegi szkenneremmel, hogy ha kétoldalas nyomatot teszek be, a hátlapon lévő akármi átüt. Tisztára palimpszeszt.

Rájttem, hogy a fedő aljára, amit ráhajtok a szkennelendő lapra, egy fehér papírszerű réteg van rögzítve, amely valamennyire fényáteresztő. A megoldás az, hogy a szekkenelendő lapot egy fekete színű lappal takarom le, nem a fedéllel. Jelenleg egy műanyag jegyzetelőt használok erre.

Az a vicc az egészben, hogy nekem, sima fogyasztónak kell ilyeneket kitalálnom, azok a rohadt tervezők és gyártók erre nem jöttek rá. Mert szerintük mindenki csak egyoldalas nyomato szkennel. A marhák. Tele van amúgy a világ ilyen "szakértőkkel". Kiadnak a kezükből egy terméket, de hogy végig próbálják vele a felhasználó által végzendő feladatokat, arra nem képesek. Ja, ez egy epson szkenner, de a többi sem különb.

Már eldöntöttem, hogy ennek a fehér fedélbélésnek majd egyszer nekiesek, és fekete színűre lefestem.



2009. aug. 26. 23:37 | válasz | #8
Egyszer szórakoztam avval hogy beszkennelt blokkot próbáltam manipulálni (nagyon kis hatókörű lokális normalizációval ha valakit érdekel) amikor feltűnt hogy valami koszt látok rajta. Hát nem a másik oldalán levő szöveget sikerült kinyernem? :)
Jonah  
2009. aug. 26. 21:36 | válasz | #7
persze,
van előtte egy egymásba ágyazott for ciklus :D

De az is lehet, hogy class-ba szervezték és most suliba jár ovi helyett :DDD

üdv.
2009. aug. 26. 21:30 | galéria | válasz | #6
Persze, de ez a programozásban azért több lépésben valósul meg.
2009. aug. 26. 21:25 | válasz | #5
Egy if (x>threshold) feltételvizsgálatot nem neveznék algoritmusnak...
2009. aug. 26. 17:51 | válasz | #4
Ha a régi és az új pontosan fedik egymást, akkor ugyanazt írták :)
Szerintem a betűk átfedése nem gond, az olyan, mint a halmaz metszete.
kvp  
2009. aug. 26. 13:55 | válasz | #3
A thresholding azt jelenti, hogy egy adott szurkeseg feletti, alatti vagy ket ertek kozotti tartomanyt veszi figyelembe. A recognita pont ezt tette, egy adott ertek felett vizsgalt, mig ez a szoftver ket adott ertek kozott.

A fedesben levo teruletek ilyenkor feherek (kerdojelesek) maradnak, pont ugy mint amikor hibazik a fax vagy foltot hagy a fenymasolo, esetleg kopott az irogep kalapacsa. Ez egyetlen kulonbseg, hogy itt gyakori ez a fajta hiba. Ezt statisztikai szurokkel lehet korrigalni ahogy a recognita is tette. Ok ezt inpainting-nek hivjak.

A fenti kepbol thresholding-al lehet csinalni egy olyan fekete feher kepet, ami tartalmaz feher (papir), fekete (eredetileg szurke) es kerdojeles terluleteket (eredetileg az ujabb fekete tinta), majd egy statisztikai szurovel meg lehet nezni, hogy az adott irasjelek kepei kozzul melyikre hasonlit legjobban a hianyos betu es ha a hianyzo resz nagyjabol csak a kerdojeles reszre esik, akkor azt nagy bizonyossaggal ki lehet tolteni. Nem nehez feladat, hasonloak adnak kepfeldolgozas szaktargybol laborgyakorlatokon...
2009. aug. 26. 10:12 | galéria | válasz | #2
Ez egy specializált OCR szoftver.
Nem hiszem, hogy a Recognita (ma Omnipage) használna ún. tresholding technikát.
A pöttyök eltüntetése nem ugyanez. Itt, ha jól értem, arról van szó, hogy a régi írás haloványabb, mint a későbbi. Nosza, be kell állítani egy olyan tónus vagy ilyesmi küszöbértéket, amely felett a szoftver kiszűri a mintákat, az elmosódottakat pedig meghagyja, és voilá, előbukkan a régi szöveg. De mi történik, ha a régi és az új pontosan fedik egymást? Marad, nem marad? Erre is biztos gondoltak.
kvp  
2009. aug. 26. 09:42 | válasz | #1
A technologia nagyon regi (meg itthon is tanitjak egyetemen algoritmuselmeletbol), viszont jo latni, hogy vegre hasznaljak is valamire. Szvsz. anno a recognita szovegfelismero hasznalta faxolt es foltosra fenymasolt szovegek feldolgozasahoz.