Utilika Foundation

English

Celaĵo Utilika: Laboro

Esplorado

Ni apogas esplorojn ĉe la Centro Turing de la Universitato de Vaŝintonio ekde 2005. La apogataj esploroj produktas sciojn pri la ebloj kaj la limoj de ĉiulingva komunikado.

Demandoj bazaj por nunaj esploroj estas, interalie: Ĉu homoj povas komuniki trans lingvoj per tradukataj vortaraj vortoj? Ĉu homoj sen komuna lingvo povas kunludi kaj per tio plibonigi tradukilojn? Se oni havas egan reton de leksemoj kaj signifoj, kiuj algoritmoj faras la plej bonajn elektojn inter eblaj tradukoj kaj kiel oni povas funkciigi tiujn sufiĉe rapide por praktikaj kondiĉoj?

Esplorprojektoj kun jam raportitaj rezultoj demandis: Kiuj metodoj de senambiguigado far aŭtoroj funkcias plej bone (1, 2, 3)? Ĉu formaligitaj lingvoj povas ebligi al aŭtoroj krei tradukeble precizajn dokumentojn (4)? Kiel oni povas uzi la universalajn ecojn de la homa lingvaro por faciligi la laboron krei komputilajn modelojn de gramatikoj de ĉiuj lingvoj en la mondo (5)?

La Centro Turing per nia apogo ankaŭ evoluigis kaj provis novan teĥnologion de ĉiulingva tradukado kaj komunikado per inteligenta aŭtomata rezonado (6, 7), kiu uzas multlingvan lekseman informaron, “TransGraph”, kiun funkciigas la programo SQL Server. La Centro Turing aplikis tiun teĥnologion en prototipa bildserĉilo multlingva, “InterBildo” (8, 9), kiu estas publike uzebla kaj funkcias interalie en Esperanto. InterBildo uzas plipotencigitan version de TransGraph, “PanDictionary”, kiu sekvas plurajn tradukĉenojn por konstati la plej probablajn tradukojn.

Ni ankaŭ esploras la nunajn sciojn pri temoj gravaj al ni. La ĝisnunaj raportoj de tiu laboro prias la statistikajn ecojn de diskursoj (10), bildajn esprimmetodojn (11), tekstajn esprimmetodojn (12) kaj multlingvajn komuniksistemojn (13).

Servoj

Nia estraro decidis en 2008 ke la leksema informaro kolektita ĉe la Centro Turing montris sin valora kaj unika. Ni volis igi tiun informaron disponebla por esploristoj, programistoj kaj program-uzantoj tutmonde. Do, kunlabore kun la Centro Turing, ni eklaboris por igi la informaron pli riĉa kaj pli ĝenerale atingebla.

Por la unua celo (pliriĉigo), ni jam pli ol kvarobligis la grandon de la informaro. En 2007 ĝi ujis 2,5 milionojn da vortoj en 1.029 lingvoj. En januaro 2009 ĝi ujis 12 milionojn da vortoj en 1.266 lingvoj. Ni ankaŭ konstruas liberfontan branĉon (uzante PostgreSQL ĉe Linukso) de la informaro, kun la nomo “Leksilo” (anglalingve “PanLex”). Ĝia strukturo ujas pliajn objektspecojn, inter ili temojn, multlingvajn difinojn, fontligojn, gramatikajn vortklasojn kaj ajnajn metafaktojn. La informoj venis de proksimume 600 fontoj, interalie pluraj vortaroj esperantlingvaj. Ni nun testas procezojn en Leksilo por grandkvantaj kontribuoj per dosieraj ŝutoj. Iu ajn posedanto de, ekzemple, dulingva vortaro povus tiel anigi ĝiajn informojn al Leksilo.

Por la dua celo (atingebligo), ni intencas krei programan instrukciaron, por ke programoj de aliaj povu sendi informpetojn al Leksilo kaj rericevi respondojn. Ni ankaŭ evoluigas kaj testas prototipon de retejo por Leksilo, kies instrukcioj estas pure leksemaj kaj kiu uzas Leksilon por ĉiulingvigi sin.

La laboro por pliriĉigi kaj atingebligi Leksilon ĝis nun estas tute volontula.

Invito

Ni bonvenigas novajn volontulojn. Se vi produktis aŭ posedas leksikajn verkojn, ekzemple vortarojn inter Esperanto kaj aliaj lingvoj, kontribuante ĝin vi povus plu riĉigi Leksilon. Ni esperas ke vi informos nin pri tio aŭ pri via emo kunlabori.

Ni ankaŭ petas konsilojn de ekspertoj kaj interesatoj pri kiel ni povas plej taŭge atingebligi la informaron tutmonde. Ni bonvenigos viajn ĝeneralajn opiniojn kaj, pli precize, viajn konsilojn pri la jenaj ĉefaj demandoj:

  1. Ĉu ni plibonigu la strukturon de la informaro?
  2. Kiel ni emigu homojn kontribui informkolektojn kaj organizu kunlaboradon kun rilataj projektoj?
  3. Kiun strategion ni sekvu por kvalitgardado? Ekzemple, kiam ni akiras informojn, ĉu ni emfazu kvalitgardadon antaŭ ol akcepti ilin aŭ ĉu ni senkritike akceptu ĉion kaj poste laŭnormigi kaj ĝustigi la informojn interne de Leksilo? Krome, kiel ni kvalitmezuru kaj/aŭ oficiale agnosku informfontojn kaj respondu al malinterkonsentoj inter ili?
  4. Se Leksilo sukcesos, ĝi emigos aliajn homojn fari algoritmojn por rezoni pri ĝiaj informoj (kiel faris Reiter, Sammer, Mausam, Skinner kaj aliaj ĉe la Centro Turing por taksi la probablojn de tradukoj). Ĉu nia servo nur atingebligu la informaron aŭ ĉu ni konsentu kunpaki en Leksilo algoritmojn de aliaj por pliriĉigi la servaron? Se ni faru tiun duan, kiel?
  5. Kiujn normojn kaj praktikojn ni sekvu por la instrukcioj uzeblaj far aŭtomataj programoj por uzi Leksilon?
  6. Kiajn maŝinojn, estrajn sistemojn kaj informarestrojn ni uzu kiel la motoron de Leksiko?
  7. La plej grava problemo pri efikeco estas ke la tasko esplori la tradukreton por trovi konsiderindajn tradukojn povas daŭri tre longe. Tiu problemo povus iĝi pli granda se ni gastigus rezonilojn de diversaj aliuloj. Kiel ni solvu tiun problemon?
  8. Kiel ni gardu Leksilon kontraŭ misoj kaj paneoj?
  9. Kian strategion ni sekvu pri intelektaj rajtoj? Tio rilatas kaj al la rajtoj de la kreintoj de diversaj informfontoj kaj al nia propra politiko pri rajtoj kaj permesoj.
  10. Kion ni faru por igi Leksilon sufiĉe malmultkosta aŭ enspeza por ke ĝi povu vivi tiom longe kiom ĝi servas la publikon?
  11. Kiel, kaj far kiuj, la servo estu estrata kaj funkciigata? Kiel oni asignu rolojn al volontuloj kaj al pagataj profesiuloj?

Bonvolu doni al ni viajn pensojn. Se vi povus pli profunde konsili nin por kontrakta honorario, bonvolu informi nin.

Literaturo

1. Marcus Sammer et al., “Ambiguity Reduction for Machine Translation: Human-Computer Collaboration”, 2006.

2. Jonathan Pool and Susan Colowick, “Syntactic Disambiguation for the Semantic Web”, 2007.

3. Jonathan Pool and Susan Colowick, “Disambiguating for the Web: A Test of Two Methods”, 2007.

4. Jonathan Pool, “Can Controlled Languages Scale to the Web?”, 2006.

5. Emily M. Bender and Dan Flickinger, “Rapid Prototyping of Scalable Grammars: Towards Modularity in Extensions to a Language-Independent Core”, 2005.

6. Jonathan Pool, “Panlingual Globalization”, 2008.

7. Marcus Sammer and Stephen Soderland, “Building a Sense-Distinguished Multilingual Lexicon from Monolingual Corpora and Bilingual Lexicons”, 2007.

8. Susan Colowick, “Multilingual Search with PanImages”, 2008.

9. Oren Etzioni et al., “Lexical Translation with Application to Image Search on the Web”, 2007.

10. S. M. Colowick, “Distribution of Some Linguistic Features in Some Types of Discourse”, 2007.

11. S. M. Colowick, “Graphical Representation of Meaning”, 2007.

12. S. M. Colowick, “Textual Representation of Meaning”, 2007.

13. S. M. Colowick, “Systems for Multilingual Interaction”, 2008.

multilingual dictionaries

Valid XHTML 1.1!