DeepDict estas vortaro pri vort-rilatoj, verkita de la lingvisto Eckhard Bick, fama esperantisto, kiu eble estas plej konata kiel aŭtoro de WikiTrans, la programo, kiu perkomputile tradukis ĉiujn ĉ. 3,5 milionojn da artikoloj de la angla Vikipedio al Esperanto. DeepDict baziĝas sur la plej granda ekzistanta tezaŭro (tekstaro) de Esperanto: Praktike temas pri la kompleta Esperanto-lingva interreto kun miloj kaj miloj da paĝoj - literaturo, enhavo de periodaĵoj kiel Monato, La Ondo de Esperanto, la esperanta Vikipedio, blogoj ktp. DeepDict analizas vortojn kaj iliajn rilatojn al aliaj vortoj kaj kalkulas la relativan oftecon de tiuj rilatoj en la interreto, skribita en Esperanto.
Ni rigardu la ekzemplon de hundo. DeepDict trovas preskaŭ 10.000 aperojn de hundo kun aliaj vortoj en sia tezaŭro kaj ordigas ilin. Jen la atributoj ("premodifiers") de hundo:
Premodifers:
4.58:3 rabia · 4.93:2 mopsa · 4.49:2 dalmata · 0.82:5 granda · 3.68:2 purrasa · 1.48:4 sovaĝa · 1.43:4 nigra · 4.36:1 trikapa · 4.24:1 nelaca · 4.24:1 mallonghara · 3.18:2 andaluza · 0.89:4 malgranda · 2.53:2 vila · 1.35:3 flava · 2.16:2 paŝtista · 2.04:2 senhejma · 2.85:1 miksrasa · 2.85:1 preria · 2.75:1 bonrasa · 0.69:3 grandega · 2.45:1 senmastra · 2.3:1 terapia · 2.3:1 ŝafista · 2.22:1 kontraŭtanka · 2.04:1 vagabonda
La lasta cifero post la du-punkto indikas la relativan oftecon per skalo de 0 (malofta) ĝis 9 (oftega) kaj grasigas la plej oftajn, nome:
- 0.82:5 granda ·hundo
- 1.48:4 sovaĝa hundo
- 1.43:4 nigra hundo
- 0.89:4 malgranda hundo
- ktp.
Ni do lernas, ke - malmulte surprize - la plej ofta atributo de hundo en la Esperanto-lingva Interreto estas granda. Pli surprize estas kombinoj kiel andaluza hundo aŭ kontraŭtanka hundo. Per klako sur la ciferojn en DeepDict ni ricevas la listojn de trafoj, jen ekzemple por la kombino "andaluza hundo":
Form Statistics for: andaluza_ADJ -> hundo_N
Forms | Abs Freq | Rel Freq |
---|---|---|
Total | 5 | 100.00% |
andaluza -> hundo | 3 | 60.00% |
Andaluza -> hundo | 2 | 40.00% |
Concordances for: andaluza_ADJ -> hundo_N
ID | Text |
---|---|
wiki-193281 | Un chien andalou ( Andaluza hundo ) estas superrealisma mallonga filmo de Luis Buñuel kaj Salvador Dalí . |
ttt-s27658 | En la jaro 1928 li faris la faman filmon Un chien andalou (andaluza hundo), kune kun la fama pentristo Salvador Dalí, kaj la filmo baldaŭ estis adjektivata subrealisma armilo kontraŭ la burĝaro kaj antaŭgvardio, kaj lia kontribuaĵo tiam estis pligravigi la enhavon kaj ne la formon ¶ |
wiki-48202 | Luis Buñuel kaj Salvador DALI filmis Un chien andalou (Andaluza hundo) . |
ttt-s58949 | Kvankam Ludoviko ne ŝatis la poemlibron Platero y yo, li iam diris, ke la andaluza hundo ne estis Juan Ramón Jiménez, nek García Lorca ¶ |
uttt-622912 | Laŭ Morgan Stanley , en tiuj landoj povus ekesti plia centro de la financa krizo . |
Post tri sekundoj la enigmo pri la "andaluza hundo" estas solvita. Temas pri titolo de filmo. Dufoje ĝi estas menciita en iuj artikoloj en Vikipedio (maldekstra kolumno ID [= fonto-indikoj]: wiki-...) kaj en iuj retejoj (ID: ttt-...). La lasta trafo pri Morgan Stanley estas ... cimo, programa eraro. Eckhard jam konscias pri ĝi kaj klopodos elimini ĝin.
Kompreneble vi povas agordi la serĉ-rutinon, ekzemple ordoni "montru nur kombinojn kun minimume ses trafoj" (anstataŭ du, kiel en mia ekzemplo, t.n. Minimum occurrence). Tiukaze la programo ne montros al vi la andaluzan hundon, sed ja krom la meniciitaj kvar plej oftaj krome ekzemple "dalmata hundo".
Sed tio nur estas la premodifiers (atributoj). Kio pri la postmodifiers? Plej ofta estas "hundo de <H>". "<H>" signifas human being, do iu persono, homo. Klakante la ciferon ni denove vidas la trafojn kaj komprenas, kiuj estas niaj <H>:
pasaĝeroj -> hundoj de | 2 | 16.67% |
viro -> hundo de | 2 | 16.67% |
putino -> Hundo de | 1 | 8.33% |
amiko -> hundoj de | 1 | 8.33% |
knabo -> hundo de | 1 | 8.33% |
najbaro -> hundo de | 1 | 8.33% |
Sekvas la rubriko "oni povas ... hundo(n)" kaj la plej ofta rezulto estas ... - nu, divenu mem, ĉu kisi, karesi, manĝi, komponi, segi? Ne, bati, dresi, bredi, foti k.m.a.
Finiĝas per la rubriko "hundo povas ..." kaj tie ni trovas, kion ni atendas, nome boji, mordi, ĉasi, kuregi, alkuri, leki kaj multaj aliaj.
La surfaco de DeepDict estas en la angla. Pli vere ol "vortaro pri vort-rilatoj", kiel mi skribis supre, ĝi estas programo por krei tian vortaron. Krom por Esperanto ĝi ekzistas por ok aliaj lingvoj. Ĉar Eckhard vivtenas sin kaj sian familion per tiaj profesiaj lingvo-sciencaj programoj, firmaoj kaj aliaj klientoj devas pagi la aliron. Senkostaj estas nur la versioj esperanta kaj portugala, krom vortoj kun la unua litero -s- en ĉiuj lingvoj. Ĉiukaze necesas registriĝi kaj ensaluti.
Al kiu utilas tiu senkosta registriĝo? Certe al vortaristoj kaj aŭtoroj de lerniloj. Ili nun havas solidan helpilon ĉemane, kiu fidinde informas pri Esperanto, reale skribita en la lingva praktiko. Sendube ĝi estas unua-ranga instrumento por ekscii faktan Esperanton, ne iun fantazian "idealan" version de ĝi. DeepDict tamen ankaŭ helpas al aŭtoroj kaj eĉ komencantoj trovi aŭ lerni vort-kampojn. Tiun rolon ĝi plenumas probable pli bone ol iu ajn alia vortaro de Esperanto.
-----
Legu pli:
- pri la libro "Vortareto de Kombineblaj Vortoj" (Matubara 2000)
- pri oftec-vortaroj
Sign-in to write a comment.