![]()
| Eko | Rimedoj | Kunlaborantoj | Organizo |
Ni apogas esplorojn ĉe la Centro Turing de la Universitato de Vaŝintonio ekde 2005. La apogataj esploroj produktas sciojn pri la ebloj kaj la limoj de ĉiulingva komunikado.
Demandoj bazaj por nunaj esploroj estas, interalie: Ĉu homoj povas komuniki trans lingvoj per tradukataj vortaraj vortoj? Ĉu homoj sen komuna lingvo povas kunludi kaj per tio plibonigi tradukilojn? Se oni havas egan reton de leksemoj kaj signifoj, kiuj algoritmoj faras la plej bonajn elektojn inter eblaj tradukoj kaj kiel oni povas funkciigi tiujn sufiĉe rapide por praktikaj kondiĉoj?
Esplorprojektoj kun jam raportitaj rezultoj demandis: Kiuj metodoj de senambiguigado far aŭtoroj funkcias plej bone (1, 2, 3)? Ĉu formaligitaj lingvoj povas ebligi al aŭtoroj krei tradukeble precizajn dokumentojn (4)? Kiel oni povas uzi la universalajn ecojn de la homa lingvaro por faciligi la laboron krei komputilajn modelojn de gramatikoj de ĉiuj lingvoj en la mondo (5)?
La Centro Turing per nia apogo ankaŭ evoluigis kaj provis novan teĥnologion de ĉiulingva tradukado kaj komunikado per inteligenta aŭtomata rezonado (6, 7), kiu uzas multlingvan lekseman informaron, “TransGraph”, kiun funkciigas la programo SQL Server. La Centro Turing aplikis tiun teĥnologion en prototipa bildserĉilo multlingva, “InterBildo” (8, 9), kiu estas publike uzebla kaj funkcias interalie en Esperanto. InterBildo uzas plipotencigitan version de TransGraph, “PanDictionary”, kiu sekvas plurajn tradukĉenojn por konstati la plej probablajn tradukojn.
Ni ankaŭ esploras la nunajn sciojn pri temoj gravaj al ni. La ĝisnunaj raportoj de tiu laboro prias la statistikajn ecojn de diskursoj (10), bildajn esprimmetodojn (11), tekstajn esprimmetodojn (12) kaj multlingvajn komuniksistemojn (13).
Nia estraro decidis en 2008 ke la leksema informaro kolektita ĉe la Centro Turing montris sin valora kaj unika. Ni volis igi tiun informaron disponebla por esploristoj, programistoj kaj program-uzantoj tutmonde. Do, kunlabore kun la Centro Turing, ni eklaboris por igi la informaron pli riĉa kaj pli ĝenerale atingebla.
Por la unua celo (pliriĉigo), ni jam pli ol kvarobligis la grandon de la informaro. En 2007 ĝi ujis 2,5 milionojn da vortoj en 1.029 lingvoj. En januaro 2009 ĝi ujis 12 milionojn da vortoj en 1.266 lingvoj. Ni ankaŭ konstruas liberfontan branĉon (uzante PostgreSQL ĉe Linukso) de la informaro, kun la nomo “Leksilo” (anglalingve “PanLex”). Ĝia strukturo ujas pliajn objektspecojn, inter ili temojn, multlingvajn difinojn, fontligojn, gramatikajn vortklasojn kaj ajnajn metafaktojn. La informoj venis de proksimume 600 fontoj, interalie pluraj vortaroj esperantlingvaj. Ni nun testas procezojn en Leksilo por grandkvantaj kontribuoj per dosieraj ŝutoj. Iu ajn posedanto de, ekzemple, dulingva vortaro povus tiel anigi ĝiajn informojn al Leksilo.
Por la dua celo (atingebligo), ni intencas krei programan instrukciaron, por ke programoj de aliaj povu sendi informpetojn al Leksilo kaj rericevi respondojn. Ni ankaŭ evoluigas kaj testas prototipon de retejo por Leksilo, kies instrukcioj estas pure leksemaj kaj kiu uzas Leksilon por ĉiulingvigi sin.
La laboro por pliriĉigi kaj atingebligi Leksilon ĝis nun estas tute volontula.
Ni bonvenigas novajn volontulojn. Se vi produktis aŭ posedas leksikajn verkojn, ekzemple vortarojn inter Esperanto kaj aliaj lingvoj, kontribuante ĝin vi povus plu riĉigi Leksilon. Ni esperas ke vi informos nin pri tio aŭ pri via emo kunlabori.
Ni ankaŭ petas konsilojn de ekspertoj kaj interesatoj pri kiel ni povas plej taŭge atingebligi la informaron tutmonde. Ni bonvenigos viajn ĝeneralajn opiniojn kaj, pli precize, viajn konsilojn pri la jenaj ĉefaj demandoj:
Bonvolu doni al ni viajn pensojn. Se vi povus pli profunde konsili nin por kontrakta honorario, bonvolu informi nin.
1. Marcus Sammer et al., “Ambiguity Reduction for Machine Translation: Human-Computer Collaboration”, 2006.
2. Jonathan Pool and Susan Colowick, “Syntactic Disambiguation for the Semantic Web”, 2007.
3. Jonathan Pool and Susan Colowick, “Disambiguating for the Web: A Test of Two Methods”, 2007.
4. Jonathan Pool, “Can Controlled Languages Scale to the Web?”, 2006.
5. Emily M. Bender and Dan Flickinger, “Rapid Prototyping of Scalable Grammars: Towards Modularity in Extensions to a Language-Independent Core”, 2005.
6. Jonathan Pool, “Panlingual Globalization”, 2008.
7. Marcus Sammer and Stephen Soderland, “Building a Sense-Distinguished Multilingual Lexicon from Monolingual Corpora and Bilingual Lexicons”, 2007.
8. Susan Colowick, “Multilingual Search with PanImages”, 2008.
9. Oren Etzioni et al., “Lexical Translation with Application to Image Search on the Web”, 2007.
10. S. M. Colowick, “Distribution of Some Linguistic Features in Some Types of Discourse”, 2007.
11. S. M. Colowick, “Graphical Representation of Meaning”, 2007.
12. S. M. Colowick, “Textual Representation of Meaning”, 2007.
13. S. M. Colowick, “Systems for Multilingual Interaction”, 2008.