Wikipedia française sur PocketPC

Houps ! Je pensais avancer sur plusieurs billets, mais je me rends compte que ça traĂźne, ça traĂźne… J’ai plusieurs choses Ă  raconter, mais je dois tout d’abord dĂ©piler mes billets en cours de rĂ©daction. C’est donc parti pour :

Comment crĂ©er et/ou rĂ©cupĂ©rer la WikipĂ©dia française sur son PocketPC…

Pour les personnes pressĂ©es, il suffit de me dire oĂč et comment je peux mettre en ligne mon fichier final de 1.3 Gigaoctets, mon hĂ©bergeur me propose seulement 500Mo ce qui ne m’aide pas vraiment. Quant aux rĂ©seaux P2P et consorts, j’avoue humblement ne pas savoir crĂ©er de feed, donc si une Ăąme charitable a de quoi s’en occuper, je veux bien volontiers lui transmettre ledit fichier.

Update : je l’ai mis ici, si ça vous intĂ©resse ! Bon tĂ©lĂ©chargement, et bonne lecture. Ah, au fait tant que j’y pense… il vous faudra Ă©galement dĂ©bourser 20 euros environ pour acheter le programme de lecture, TomeRaider3, je prĂ©fĂšre vous prĂ©venir avant que vous passiez du temps Ă  tĂ©lĂ©charger !

Je disais juste au-dessus « pour les personnes pressĂ©es« , car en effet cela prend du temps de recompiler la wikipĂ©dia… EnormĂ©ment de temps, tout relatif cependant si l’on considĂšre les chiffres suivants :

  • 773226 articles,
  • 331659 redirections,
  • 30319533 liens,
  • 1104775 pages au total.
  • 920545872 (presque 10 Go !) : taille du fichier de dump XML brut… sans les images !
  • 1315325 (1,3Go environ) : taille du fichier WikipĂ©dia final
  • 60Go d’espace disque nĂ©cessaire, entre les fichiers compressĂ©s, dĂ©compressĂ©s, les essais, les fichiers temporaires et intermĂ©diaires…
  • 60 heures de temps de calcul au total, avec tous les essais que j’ai dĂ» faire.
  • 12 heures de temps de calcul pour la conversion des fichiers au final.
  • 20 heures de travail, au bas mot (Ă  cause du dĂ©bogage et des mises au point…)
  • 60$ pour l’achat des licences nĂ©cessaires Ă  la conversion… ben oui, il n’y a pas que du libre sur Terre !

Tout ça reprĂ©sente donc un temps et un investissement certain, mais le plaisir de possĂ©der une version Ă  jour de la Wikipedia dans sa poche, tenant sur une carte micro SD de la taille d’un ongle est extraordinairement rĂ©jouissant pour ne pas dire plus. Avoir Ă  portĂ©e de main et en tout temps une formidable encyclopĂ©die est fantastique surtout lorsqu’au beau milieu de la nature, dans un train ou simplement en pleine nuit on souhaite apprendre, comprendre tel ou tel phĂ©nomĂšne, dĂ©couvrir un personnage historique, un lieu ou tout autre chose futile ou sĂ©rieuse.

Voici donc la recette qui m’a permis d’en arriver lĂ , que je vous propose de suivre si d’aventure vous souhaitez vous lancer :

Ustensiles de cuisine :

  • un PC bien frais, avec si possible une bonne puissance de calcul.
  • beaucoup de mĂ©moire vive, j’ai 4Go (enfin presque, je suis en 32bits…) et c’est presque juste.
  • beaucoup d’espace disque (compter entre 30 et 60Go, 30 Ă©tant le minimum pour stocker les fichiers de dump, les fichiers intermĂ©diaires et le resultat).
  • une ligne Internet rapide, pour tĂ©lĂ©charger le dump de la WikipĂ©dia et les logiciels nĂ©cessaires.
  • un PocketPC, mais c’est optionnel !

Ingrédients :

  • Un dump frais de la WikipĂ©dia. Cela se trouve ici et ça reprĂ©sente environ 10Go une fois dĂ©compressĂ©. Je me suis tentĂ© l’expĂ©rience avec la version anglaise Ă©galement mais j’ai vite dĂ©clarĂ© forfait : le fichier XML fait tout de mĂȘme 24Go et je n’ai osĂ© poursuivre l’expĂ©rience faute de temps et de courage !
  • Un Windows… Et oui, si les scripts Perl (voir plus bas) fonctionnent sans souci sous Linux, le compilateur TomeRaider n’existe que sous Windows… Ă  moins qu’avec Wine ? A vous de tester…
  • Une version de Perl pour Windows. Sur mon PC j’ai Ă  la fois l’environnement CygWin et ActiveState Perl. J’ai choisi ce dernier pour faire tourner les moulinettes, c’est Ă  vous de voir… les 2 marchent aussi bien.
  • Un environnement de dĂ©veloppement Perl. Comme je suis fan de PsPad – le meilleur Ă©diteur texte freeware qu’il m’ait Ă©tĂ© donnĂ© de rencontrer – et qu’il remplit parfaitement ce rĂŽle, me voilĂ  parti avec ce dernier pour effectuer mes dĂ©bogages Perl
  • Un Ă©diteur texte capable de gĂ©rer correctement des fichiers XML de 10Go qui contiennent des caractĂšres Unicode… Pas si facile Ă  trouver en fait ! Quand, au bout de nombreuses heures, je me suis retrouvĂ© Ă  dĂ©boguer mes scripts car ils plantaient en cours de traitement, j’ai dĂ» aller modifier certaines choses dans le fichier XML source, et autant dire que ça n’a pas Ă©tĂ© de la tarte… PsPad plantait au bout de quelques dizaines de minutes en tentant une ouverture infructueuse dudit fichier, et de toute maniĂšre l’Ă©dition de morceaux scindĂ©s de ce mĂȘme fichier m’a dĂ©montrĂ© assez vite que PsPad ne gĂ©rait pas correctement l’Unicode. Mes recherches m’ont rapidement permis de trouver un Ă©diteur texte japonais, EmEditor, capable de gĂ©rer correctement des fichiers XML de 250Go (si, si !) avec de l’Unicode. Du coup, mon gros fichier s’ouvrait en quelques secondes, et j’ai pu faire des chercher-remplacer, et mĂȘme des copier-coller dedans sans trop perdre patience… Seul hic : il s’agit d’un shareware Ă  35$, que je me suis finalement rĂ©signĂ© Ă  m’offrir car tout compte fait, c’est bien pratique de pouvoir d’Ă©diter de trĂšs gros fichiers dans certaines occasions. Mais la version d’essai fonctionne parfaitement pendant 30 jours, et c’est donc suffisant pour recompiler une fois la WikipĂ©dia.
  • Le lecteur et le compilateur pour la WikipĂ©dia, TomeRaider3. La sociĂ©tĂ© Yadabyte a inventĂ© un format de fichier e-book trĂšs optimisĂ©, et vend ses lecteurs sur de nombreuses plateformes (PC, PocketPC, Palm, Psion, Symbian etc.). C’est Ă  ma connaissance le seul lecteur eBook capable de manipuler des fichiers de 4Go et plus sans temps de latence mĂȘme lorsqu’on saute entre des articles trĂšs Ă©loignĂ©s dans le fichier, ce qui a amenĂ© TomeRaider Ă  devenir le standard de-facto pour une visualisation offline de la Wikipedia. Je reproche cependantle coĂ»t du lecteur (20ÂŁ par plateforme, soit au bas mot 60 euros si l’on veut la version PocketPC et la version PC, cette derniĂšre Ă©tant obligatoire pour effectuer la recompilation). Astuce : Proporta propose le bundle des 2 logiciels Ă  prix vraiment cassĂ© : 23€ le tout.
  • Les scripts de conversion d’Eric Zachte. Ces scripts Perl prennent le fameux fichier XML en entrĂ©e, et le convertit en fichier non moins Ă©norme fichier HTML, avec des tags spĂ©ciaux qui seront ensuite interprĂ©tĂ©s par le compilateur TomeRaider. Car, en effet, la conversion se fait en plusieurs Ă©tapes indĂ©pendantes, les scripts perl d’Eric totalisant non moins de 3 Ă©tapes de traitement, et le compilateur TomeRaider en comptant Ă  lui seul 4 autres… faut pas ĂȘtre pressĂ©, comme on dit !
  • De la patience, car les scripts plantent. Ce n’est pas la faute de leur concepteur, mais bel et bien des nombreux auteurs de la Wikipedia qui parfois mettent des champs et tags bizarroĂŻdes dans leurs pages, ce que Perl n’apprĂ©cie pas toujours. Alors quand au bout de 4 heures de calcul on voit que la CPU de son PC est passĂ©e Ă  100% et que le voyant d’activitĂ© du disque dur ne clignote plus, on doit se rĂ©soudre Ă  tuer le process Perl, la mort dans l’Ăąme, puis Ă  parser les logs gĂ©nĂ©rĂ©es (avec EmEditor, car PsPad n’y arrive pas, c’est dĂ©jĂ  trop gros !) pour comprendre ce qui a plantĂ©… Et lorsque l’on sait au fil tu temps que ça arrive une vingtaine de fois au cours du traitement, on a intĂ©rĂȘt Ă  comprendre vite fait la raison exacte pour laquelle ça plante, et Ă  comprendre de mĂȘme comment marchent les nombreux scripts de la moulinette afin de les patcher et de tenir bon… jusqu’au plantage suivant.

Du coup, j’ai crĂ©Ă© une version adaptĂ©e des scripts d’Eric, et fait une petite compilation de liens utiles pour comprendre ce qu’on foit faire…

DOCUMENTATION UTILE

Mirroring de la Wikipedia :

Scripts de conversion Perl :

Compilation au format TomeRaider :

Avec ça, vous devriez ĂȘtre fin prĂȘts pour compiler le tout… bon courage !!!!

Ce contenu a été publié dans General. Vous pouvez le mettre en favoris avec ce permalien.

20 réponses à Wikipedia française sur PocketPC

  1. Zythom dit :

    Je suis intĂ©ressĂ© (pas vraiment pressĂ©, mais un peu fainĂ©ant…)
    Pourquoi ne pas passer par un ftp sur http://dl.free.fr/

  2. Merci Zython pour ton intĂ©rĂȘt. A vrai dire je n’avais pas pensĂ© au dl.free.fr, je suis en train de le transfĂ©rer… DĂšs que j’ai le lien, je le posterai ici.

    Update : Ca y est, fichier transfĂ©rĂ© sans problĂšme…

    Fichier « Wikipedia_FR_PPC_080724.tr3 » uploade avec succes.
    Il est disponible via http://dl.free.fr/ilceklC8x

  3. johann dit :

    Salut,

    J’ai un petit problĂšme lors du chargement du fichier .tr3 sur mon pda, la version datant d’aout 2007 (aussi en tr3) fonctionne mais pas celle lĂ . J’ai le message d’erreur suivant :
    « This file cannot be opened in this version of tomeraider 3 … »
    J’ai la version 3.1.02 beta

    Quelqu’un a-t-il eu ce problĂšme ?

    Cordialement

  4. Bonjour,

    j’utilise pour ma part les versions suivantes avec succĂšs :

    « TomeRaider 3.5 beta » sur mon PocketPC. (La version 3.6.1 est disponible ici)
    « TomeRaider 3.39 » sur mon PC, disponible ici.

    Donc, un conseil judicieux serait de mettre à jour le soft puis de réessayer.

  5. johann dit :

    En effet ça fonctionne avec la derniÚre version (3.62).

    Merci pour votre travail et votre réponse rapide.

    @ BientĂŽt

  6. LE NAN dit :

    Salut Bruno,
    merci de nous faire partager ton travail. Je vais tester WIKIPEDIA sur mon Pocket PC. Si ça marche je te tiens au courant…

    Franck.

  7. De rien ! C’est une modeste contribution Ă  la Wikipedia, mais c’est si pratique aussi et c’est fait pour ĂȘtre partagĂ©.

  8. LE NAN dit :

    Salut Bruno,
    ça marche nickel. Merci encore.

    A+

  9. De rien ! Merci Ă©galement d’utiliser ce que je fais. N’hĂ©site pas Ă  en parler autour de toi.

  10. Ping : Bruno Kerouanton » Offline Wikipedia on PocketPC

  11. suez dit :

    salut Bruno,
    J’ai un petit problĂšme! AprĂšs avoir installer tomeraider 3.62 et copier coller le fichier wikipedia de 328mb sur mon pda, j’appuis sur l’icon wikipedia le tomeraider s’ouvre mais je me rends compte qu’il n’y a rien dedans comme s’il n’est pas chargĂ© , page blanche avec la barre d’outils tomeraider en bas d’Ă©cran mais si je fais une recherche sur un nom de monument ou quoi que ce soit, il me donne un message en anglais qui dit « no match found ». Je ne sais pas si ça vient du fichier ou du tomeraider!
    serait-il possible d’avoir un autre lien direct que celui que tu nous as proposĂ© pour retelecharger wikipedia parceque peut etre que celui que j’ai eu n’est pas compatible avec mon pda (i-mate jasjam)

    PriĂšre de m’expliquer exactement les Ă©tapes Ă  suivre pour l’installer.
    Merci d’avance

  12. Bonjour,

    C’est curieux tout ça… la version de Tomeraider est correcte, mais ce qui me surprend est la taille du fichier Wikipedia, car celui que j’ai gĂ©nĂ©rĂ© fait 1.3Go. Tu l’as rĂ©cupĂ©rĂ© oĂč ?

    Son nom est : Wikipedia_FR_PPC_080724.tr3
    Sa taille est de 1.3Go
    Tu peux le télécharger ici : http://dl.free.fr/getfile.pl?file=/lceklC8x

    Il n’y a pas proprement dit d’Ă©tapes particuliĂšres pour installer le tout : une fois Tomeraider installĂ©, il te suffit d’ouvrir le fichier Wikipedia_FR_PPC_080724.tr3 (que tu peux renommer au passage si tu le dĂ©sires) et ça marche du premier coup… J’ai testĂ© et j’utilise sous PocketPC et sur PC sans aucun souci.

  13. suez dit :

    Bonjour,

    Je te remercie d’abord pour ta prompte reponse.
    Cela m’a aussi surpris car le fichier que j’ai tĂ©lĂ©chargĂ© je l’ai copiĂ© de la meme adresse , c’est Ă  dire http://dl.free.fr/getfile.pl?file=/lceklC8x, mais je crois que ce dernier est mal tĂ©lĂ©chargĂ© parceque tout ce que j’ai eu c’etait 228 mb. et le fichier fait 1.25 Go.
    Alors je suis en train de le refaire de nouveau et j’espĂšre que cette fois ça va marcher… Je te tiendrai au courant du rĂ©sultat.

    Merci et A+

  14. Amir dit :

    Merci énormément pour ce magnifique tutoriel et le gros effort que vous avez fourni.
    Je me demandais s’il Ă©tait possible de faire un fichier consultable par « Mobipocket Reader » http://www.mobipocket.com il est gratuit ainsi que « Mobipocket Creator »
    Merci

  15. Ping : Bruno Kerouanton » Qui a dit

  16. max dit :

    Bonjour,
    Je relance ce sujet un peu tard, je sais. Je me demandais si vous auriez encore ce fichier quelques part, et si vous accepteriez de le remettre en tĂ©lĂ©chargement. J’ai tome raider sur mon palm, mais tout les liens de tĂ©lĂ©chargement pour les fichiers wiki sont morts aujourd’hui.
    Merci

  17. Bonjour,
    oui, ça doit encore se trouver quelque part sur une de mes sauvegardes. Je vais voir ce que je peux faire!

  18. VoilĂ  j’ai retrouvĂ© une version française de la Wikipedia dans mes sauvegardes, au format TomeRaider3, je l’ai mise ici.

    N’hĂ©sitez pas Ă  me redire si cela fonctionne, je n’ai pas testĂ© depuis…2008!

  19. max dit :

    Bonjour,
    Merci pour tout.
    J’ai bien chargĂ© le fichier, malheureusement, il n’est reconnu par TomeRaider.
    Peut-ĂȘtre que la version Palm Os (ver 3.1) n’est pas compatible avec une version Pocket PC (ver 3.68).
    Il y a peut ĂȘtre une conversion Ă  faire…
    Pour info, le fichier n’apparaĂźt tout simplement pas dans la liste de TR3. J’ai bien essayĂ© de le renommer en .pdb comme conseillĂ©, mais rien Ă  faire.
    Je vais encore faire quelques essais, mais j’ai peu d’espoir d’y arriver.

    En tout cas merci encore.

  20. C’est dommage. Je l’avais crĂ©Ă© pour mon PocketPC, mais je n’ai jamais testĂ© TomeRaider sur PalmOS, je ne peux par consĂ©quent rien confirmer ou infirmer. Courage pour vos essais.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *