Az EU-s joganyag hasznosítása fordítási memóriaként

Az EU-s joganyag 24 nyelven elérhető a weben a DGT – Translation Memory lapon. Az innen letölthető fájlokból a szintén itt elérhető segédprogrammal előállíthatók a kívánt kétnyelvű fordítási memóriák standard TMX-formátumban. Ezek a fájlok azonban túl nagyok ahhoz, hogy a fordítómemóriás programok közvetlenül hasznosítsák. A joganyagban való kereséshez célszerű a külön blogbejegyzésben ismertetett TMLookup programot használni. Angol-magyar, német-magyar, francia-magyar és olasz-magyar korpuszok esetén nincsen szükség az alábbiak elvégzésére, a korpuszokat elkészítettem, letölthetők és használhatók az előző blogbejegyzésben leírtak szerint. Ott megtalálhatók a korpuszok letöltési linkjei is.

Példaként bemutatom az francia-magyar TM előállítását. Ehhez hasonlóan bármelyik másik nyelvpár memóriája előállítható.

Első lépés: a memória letöltése

Töltsd le az összes .zip fájlt a https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory#download oldalról (a view details gombra való kattintás után), egy erre a célra létrehozott mappába, mondjuk a D:\DGT mappába. Nyolcvan fájl lesz összesen.

Második lépés: a TMX-memória elkészítése

A DGT weblapján a táblázatok után következő részben (How to produce bilingual extractions) található a TMXtract segédprogram (TMXtract.jar), ezt is töltsd le ugyanebbe a könyvtárba.

Indítsd el a Parancssor alkalmazást (cmd.exe), vagy Windows 10 esetén a Windows PowerShell alkalmazást.

A kurzor helyére írd be a d: parancsot, majd üss Entert (átváltás a D:\ meghajtóra). Ezután írd be a cd dgt parancsot, majd üss Entert (átváltás a D:\DGT könyvtárba). Ezután Másolás/Beillesztés segítségével másold be az alábbi hosszú parancsot (java -jar TMXtract.jar <Source> <Target> <Output file> [ <Input files> …]):

java -jar TMXtract.jar FR HU dgt-fr-hu.tmx Vol_2019_2.zip Vol_2019_1.zip Vol_2018_3.zip Vol_2018_2.zip Vol_2018_1.zip Vol_2017_2.zip Vol_2017_1.zip Volume_12.zip Volume_11.zip Volume_10.zip Volume_9.zip Volume_8.zip Volume_7.zip Volume_6.zip Volume_5.zip Volume_4.zip Volume_3.zip Volume_2.zip Volume_1.zip Vol_2016_9.zip Vol_2016_8.zip Vol_2016_7.zip Vol_2016_6.zip Vol_2016_5.zip Vol_2016_4.zip Vol_2016_3.zip Vol_2016_2.zip Vol_2016_1.zip Vol_2015_6.zip Vol_2015_7.zip Vol_2015_5.zip Vol_2015_4.zip Vol_2015_3.zip Vol_2015_2.zip Vol_2014_1.zip Vol_2015_1.zip Vol_2014_2.zip Vol_2014_3.zip Vol_2013_7.zip Vol_2013_5.zip Vol_2013_4.zip Vol_2013_6.zip Vol_2013_3.zip Vol_2013_2.zip Vol_2013_1.zip Vol_2012_6.zip Vol_2012_5.zip Vol_2012_4.zip Vol_2012_3.zip Vol_2012_2.zip Vol_2012_1.zip Vol_2011_3.zip Vol_2011_2.zip Vol_2011_4.zip Vol_2011_1.zip Vol_2010_3.zip Vol_2010_2.zip Vol_2010_1.zip Vol_2010_4.zip Vol_2009_3.zip Vol_2009_2.zip Vol_2009_4.zip Vol_2009_1.zip Vol_2008_3.zip Vol_2008_4.zip Vol_2008_2.zip Vol_2008_1.zip Vol_2007_3.zip Vol_2007_2.zip Vol_2007_1.zip Vol_2006_3.zip Vol_2006_4.zip Vol_2006_5.zip Vol_2006_2.zip Vol_2006_1.zip Vol_2005_2.zip Vol_2005_3.zip Vol_2005_1.zip Vol_2004_1.zip Vol_2004_2.zip

Ha nem a francia-magyar TMX-et szeretnéd előállítani, akkor az első sorban a vastagon kiemelt részt módosítsad a nyelveknek megfelelően. A nyelvkódok megtalálhatók a DGT statisztikai összefoglalójában itt. Ha pl. angol-magyar TMX-et szeretnél készíteni, akkor a

java -jar TMXtract.jar FR HU dgt-fr-hu.tmx Vol_2019_2.zip …

helyett írd ezt:

java -jar TMXtract.jar EN HU dgt-en-hu.tmx Vol_2019_2.zip …

Most így néz ki az ablak:

Ezután üss Entert, és várd meg, amíg elkészül a TMX-fájl.

Látható, hogy a program 5 822 434 szegmenst írt a fájlba, vagyis ennyi mondatpárban kereshetünk majd referenciaként.

Harmadik lépés: TMX-fájlok importálása a TMLookup programba

Az előző blogbejegyzésben leírtak szerint add hozzá a dgt-fr-hu.tmx fájlt az újonnan létrehozott új DGT-memóriához (dgt-fr-hu.db). Először az adatbázist kell létrehozni a File/Create new database paranccsal:

Ezután következik a dgt-fr-hu.tmx fájl importálása az Edit/Import file(s) into active database paranccsal:

A Start gombra kattintás után ki kell választani a paramétereket:

Majd a Start gombra kattintás után meg kell várni a folyamat befejeződését:

Mostantól tehát 5,8 milliónál is több francia-magyar mondatpárban kereshetsz, mindkét irányban.