Wikipedia française sur PocketPC
Houps ! Je pensais avancer sur plusieurs billets, mais je me rends compte que ça traîne, ça traîne… J’ai plusieurs choses à raconter, mais je dois tout d’abord dépiler mes billets en cours de rédaction. C’est donc parti pour :
Comment créer et/ou récupérer la Wikipédia française sur son PocketPC…
Pour les personnes pressées, il suffit de me dire où et comment je peux mettre en ligne mon fichier final de 1.3 Gigaoctets, mon hébergeur me propose seulement 500Mo ce qui ne m’aide pas vraiment. Quant aux réseaux P2P et consorts, j’avoue humblement ne pas savoir créer de feed, donc si une âme charitable a de quoi s’en occuper, je veux bien volontiers lui transmettre ledit fichier.
Update : je l’ai mis ici, si ça vous intéresse ! Bon téléchargement, et bonne lecture. Ah, au fait tant que j’y pense… il vous faudra également débourser 20 euros environ pour acheter le programme de lecture, TomeRaider3, je préfère vous prévenir avant que vous passiez du temps à télécharger !
Je disais juste au-dessus « pour les personnes pressées« , car en effet cela prend du temps de recompiler la wikipédia… Enormément de temps, tout relatif cependant si l’on considère les chiffres suivants :
- 773226 articles,
- 331659 redirections,
- 30319533 liens,
- 1104775 pages au total.
- 920545872 (presque 10 Go !) : taille du fichier de dump XML brut… sans les images !
- 1315325 (1,3Go environ) : taille du fichier Wikipédia final
- 60Go d’espace disque nécessaire, entre les fichiers compressés, décompressés, les essais, les fichiers temporaires et intermédiaires…
- 60 heures de temps de calcul au total, avec tous les essais que j’ai dû faire.
- 12 heures de temps de calcul pour la conversion des fichiers au final.
- 20 heures de travail, au bas mot (à cause du débogage et des mises au point…)
- 60$ pour l’achat des licences nécessaires à la conversion… ben oui, il n’y a pas que du libre sur Terre !
Tout ça représente donc un temps et un investissement certain, mais le plaisir de posséder une version à jour de la Wikipedia dans sa poche, tenant sur une carte micro SD de la taille d’un ongle est extraordinairement réjouissant pour ne pas dire plus. Avoir à portée de main et en tout temps une formidable encyclopédie est fantastique surtout lorsqu’au beau milieu de la nature, dans un train ou simplement en pleine nuit on souhaite apprendre, comprendre tel ou tel phénomène, découvrir un personnage historique, un lieu ou tout autre chose futile ou sérieuse.
Voici donc la recette qui m’a permis d’en arriver là, que je vous propose de suivre si d’aventure vous souhaitez vous lancer :
Ustensiles de cuisine :
- un PC bien frais, avec si possible une bonne puissance de calcul.
- beaucoup de mémoire vive, j’ai 4Go (enfin presque, je suis en 32bits…) et c’est presque juste.
- beaucoup d’espace disque (compter entre 30 et 60Go, 30 étant le minimum pour stocker les fichiers de dump, les fichiers intermédiaires et le resultat).
- une ligne Internet rapide, pour télécharger le dump de la Wikipédia et les logiciels nécessaires.
- un PocketPC, mais c’est optionnel !
Ingrédients :
- Un dump frais de la Wikipédia. Cela se trouve ici et ça représente environ 10Go une fois décompressé. Je me suis tenté l’expérience avec la version anglaise également mais j’ai vite déclaré forfait : le fichier XML fait tout de même 24Go et je n’ai osé poursuivre l’expérience faute de temps et de courage !
- Un Windows… Et oui, si les scripts Perl (voir plus bas) fonctionnent sans souci sous Linux, le compilateur TomeRaider n’existe que sous Windows… à moins qu’avec Wine ? A vous de tester…
- Une version de Perl pour Windows. Sur mon PC j’ai à la fois l’environnement CygWin et ActiveState Perl. J’ai choisi ce dernier pour faire tourner les moulinettes, c’est à vous de voir… les 2 marchent aussi bien.
- Un environnement de développement Perl. Comme je suis fan de PsPad – le meilleur éditeur texte freeware qu’il m’ait été donné de rencontrer – et qu’il remplit parfaitement ce rôle, me voilà parti avec ce dernier pour effectuer mes débogages Perl
- Un éditeur texte capable de gérer correctement des fichiers XML de 10Go qui contiennent des caractères Unicode… Pas si facile à trouver en fait ! Quand, au bout de nombreuses heures, je me suis retrouvé à déboguer mes scripts car ils plantaient en cours de traitement, j’ai dû aller modifier certaines choses dans le fichier XML source, et autant dire que ça n’a pas été de la tarte… PsPad plantait au bout de quelques dizaines de minutes en tentant une ouverture infructueuse dudit fichier, et de toute manière l’édition de morceaux scindés de ce même fichier m’a démontré assez vite que PsPad ne gérait pas correctement l’Unicode. Mes recherches m’ont rapidement permis de trouver un éditeur texte japonais, EmEditor, capable de gérer correctement des fichiers XML de 250Go (si, si !) avec de l’Unicode. Du coup, mon gros fichier s’ouvrait en quelques secondes, et j’ai pu faire des chercher-remplacer, et même des copier-coller dedans sans trop perdre patience… Seul hic : il s’agit d’un shareware à 35$, que je me suis finalement résigné à m’offrir car tout compte fait, c’est bien pratique de pouvoir d’éditer de très gros fichiers dans certaines occasions. Mais la version d’essai fonctionne parfaitement pendant 30 jours, et c’est donc suffisant pour recompiler une fois la Wikipédia.
- Le lecteur et le compilateur pour la Wikipédia, TomeRaider3. La société Yadabyte a inventé un format de fichier e-book très optimisé, et vend ses lecteurs sur de nombreuses plateformes (PC, PocketPC, Palm, Psion, Symbian etc.). C’est à ma connaissance le seul lecteur eBook capable de manipuler des fichiers de 4Go et plus sans temps de latence même lorsqu’on saute entre des articles très éloignés dans le fichier, ce qui a amené TomeRaider à devenir le standard de-facto pour une visualisation offline de la Wikipedia. Je reproche cependantle coût du lecteur (20£ par plateforme, soit au bas mot 60 euros si l’on veut la version PocketPC et la version PC, cette dernière étant obligatoire pour effectuer la recompilation). Astuce : Proporta propose le bundle des 2 logiciels à prix vraiment cassé : 23€ le tout.
- Les scripts de conversion d’Eric Zachte. Ces scripts Perl prennent le fameux fichier XML en entrée, et le convertit en fichier non moins énorme fichier HTML, avec des tags spéciaux qui seront ensuite interprétés par le compilateur TomeRaider. Car, en effet, la conversion se fait en plusieurs étapes indépendantes, les scripts perl d’Eric totalisant non moins de 3 étapes de traitement, et le compilateur TomeRaider en comptant à lui seul 4 autres… faut pas être pressé, comme on dit !
- De la patience, car les scripts plantent. Ce n’est pas la faute de leur concepteur, mais bel et bien des nombreux auteurs de la Wikipedia qui parfois mettent des champs et tags bizarroïdes dans leurs pages, ce que Perl n’apprécie pas toujours. Alors quand au bout de 4 heures de calcul on voit que la CPU de son PC est passée à 100% et que le voyant d’activité du disque dur ne clignote plus, on doit se résoudre à tuer le process Perl, la mort dans l’âme, puis à parser les logs générées (avec EmEditor, car PsPad n’y arrive pas, c’est déjà trop gros !) pour comprendre ce qui a planté… Et lorsque l’on sait au fil tu temps que ça arrive une vingtaine de fois au cours du traitement, on a intérêt à comprendre vite fait la raison exacte pour laquelle ça plante, et à comprendre de même comment marchent les nombreux scripts de la moulinette afin de les patcher et de tenir bon… jusqu’au plantage suivant.
Du coup, j’ai créé une version adaptée des scripts d’Eric, et fait une petite compilation de liens utiles pour comprendre ce qu’on foit faire…
DOCUMENTATION UTILE
Mirroring de la Wikipedia :
- Traitements de la Wikipédia française: structure des dumps XML
- Liens vers les dumps XML
- Comment faire le traitement des dumps XML de la Wikipedia
Scripts de conversion Perl :
Compilation au format TomeRaider :
Avec ça, vous devriez être fin prêts pour compiler le tout… bon courage !!!!
Bruno Kerouanton on octobre 20th 2008 in General
Zythom responded on 22 oct 2008 at 16:41 #
Je suis intéressé (pas vraiment pressé, mais un peu fainéant…)
Pourquoi ne pas passer par un ftp sur http://dl.free.fr/
Bruno Kerouanton responded on 22 oct 2008 at 17:49 #
Merci Zython pour ton intérêt. A vrai dire je n’avais pas pensé au dl.free.fr, je suis en train de le transférer… Dès que j’ai le lien, je le posterai ici.
Update : Ca y est, fichier transféré sans problème…
Fichier « Wikipedia_FR_PPC_080724.tr3″ uploade avec succes.
Il est disponible via http://dl.free.fr/ilceklC8x
johann responded on 20 nov 2008 at 16:35 #
Salut,
J’ai un petit problème lors du chargement du fichier .tr3 sur mon pda, la version datant d’aout 2007 (aussi en tr3) fonctionne mais pas celle là. J’ai le message d’erreur suivant :
« This file cannot be opened in this version of tomeraider 3 … »
J’ai la version 3.1.02 beta
Quelqu’un a-t-il eu ce problème ?
Cordialement
Bruno Kerouanton responded on 20 nov 2008 at 17:07 #
Bonjour,
j’utilise pour ma part les versions suivantes avec succès :
« TomeRaider 3.5 beta » sur mon PocketPC. (La version 3.6.1 est disponible ici)
« TomeRaider 3.39″ sur mon PC, disponible ici.
Donc, un conseil judicieux serait de mettre à jour le soft puis de réessayer.
johann responded on 20 nov 2008 at 18:29 #
En effet ça fonctionne avec la dernière version (3.62).
Merci pour votre travail et votre réponse rapide.
@ Bientôt
LE NAN responded on 06 fév 2009 at 17:09 #
Salut Bruno,
merci de nous faire partager ton travail. Je vais tester WIKIPEDIA sur mon Pocket PC. Si ça marche je te tiens au courant…
Franck.
Bruno Kerouanton responded on 07 fév 2009 at 17:39 #
De rien ! C’est une modeste contribution à la Wikipedia, mais c’est si pratique aussi et c’est fait pour être partagé.
LE NAN responded on 11 fév 2009 at 22:12 #
Salut Bruno,
ça marche nickel. Merci encore.
A+
Bruno Kerouanton responded on 12 fév 2009 at 14:34 #
De rien ! Merci également d’utiliser ce que je fais. N’hésite pas à en parler autour de toi.
Bruno Kerouanton » Offline Wikipedia on PocketPC responded on 25 juin 2009 at 13:32 #
[...] Note : Ceci est la publication d’un billet qui est en phase “brouillon” depuis le 22 septembre 2008… Oh, by the way, this is an english version of this post. [...]
suez responded on 04 sept 2009 at 20:27 #
salut Bruno,
J’ai un petit problème! Après avoir installer tomeraider 3.62 et copier coller le fichier wikipedia de 328mb sur mon pda, j’appuis sur l’icon wikipedia le tomeraider s’ouvre mais je me rends compte qu’il n’y a rien dedans comme s’il n’est pas chargé , page blanche avec la barre d’outils tomeraider en bas d’écran mais si je fais une recherche sur un nom de monument ou quoi que ce soit, il me donne un message en anglais qui dit « no match found ». Je ne sais pas si ça vient du fichier ou du tomeraider!
serait-il possible d’avoir un autre lien direct que celui que tu nous as proposé pour retelecharger wikipedia parceque peut etre que celui que j’ai eu n’est pas compatible avec mon pda (i-mate jasjam)
Prière de m’expliquer exactement les étapes à suivre pour l’installer.
Merci d’avance
Bruno Kerouanton responded on 05 sept 2009 at 3:14 #
Bonjour,
C’est curieux tout ça… la version de Tomeraider est correcte, mais ce qui me surprend est la taille du fichier Wikipedia, car celui que j’ai généré fait 1.3Go. Tu l’as récupéré où ?
Son nom est : Wikipedia_FR_PPC_080724.tr3
Sa taille est de 1.3Go
Tu peux le télécharger ici : http://dl.free.fr/getfile.pl?file=/lceklC8x
Il n’y a pas proprement dit d’étapes particulières pour installer le tout : une fois Tomeraider installé, il te suffit d’ouvrir le fichier Wikipedia_FR_PPC_080724.tr3 (que tu peux renommer au passage si tu le désires) et ça marche du premier coup… J’ai testé et j’utilise sous PocketPC et sur PC sans aucun souci.
suez responded on 06 sept 2009 at 15:56 #
Bonjour,
Je te remercie d’abord pour ta prompte reponse.
Cela m’a aussi surpris car le fichier que j’ai téléchargé je l’ai copié de la meme adresse , c’est à dire http://dl.free.fr/getfile.pl?file=/lceklC8x, mais je crois que ce dernier est mal téléchargé parceque tout ce que j’ai eu c’etait 228 mb. et le fichier fait 1.25 Go.
Alors je suis en train de le refaire de nouveau et j’espère que cette fois ça va marcher… Je te tiendrai au courant du résultat.
Merci et A+
Amir responded on 10 sept 2009 at 11:13 #
Merci énormément pour ce magnifique tutoriel et le gros effort que vous avez fourni.
Je me demandais s’il était possible de faire un fichier consultable par « Mobipocket Reader » http://www.mobipocket.com il est gratuit ainsi que « Mobipocket Creator »
Merci
Bruno Kerouanton » Qui a dit responded on 04 jan 2010 at 22:38 #
[...] je suis parti « en ermite » : sans ordinateur ni accès Internet. Seule ma wikipédia de poche sur mon petit pocketPC (désormais dédié à cette unique tâche) m’accompagnait durant ces [...]