AnalyseSI

Bug #353962
Comment #2

Comment 2 for bug 353962

Revision history for this message

Benjamin Gandon (benje) wrote on 2009-04-03:

Oui, et UTF-8 serait même un meilleur choix. Je me suis juste dit que c'était plus simple (et plus compatible) de conserver l'ISO-8859-1.

Mais, les choses ne sont peut-être pas si simples. Par exemple, sur une plateforme réglée en UTF-8, forcer l'ISO-8859-1 produira une incompatibilité de format de fichier.

Pour s'affranchir de ça, il faudrait préciser le jeu de caractères dans l'XML avec <?xml version="1.0" encoding="UTF-8"?> et fournir à XmlParser.parse() un InputStream au lieu d'un Reader. J'ai vu que le parser est capable de trouver tout seul le jeu de caractère utilisé dans la balise <?xml?> donc ça devrait marcher.

A noter que le parser ne gère que l'UTF-8 et l'ISO-8859-1. Pour une plateforme qui aurait enregistré des fichiers en ISO-8859-X avec X>1 ça pourrait poser problème. Mais on peut espérer n'avoir encore que des utilisateurs francophones et assez peu de slaves :-)