10 de febrer del 2013

L'infern de la conversió de caràcters (codificacions)

Quan obrim un document de text, habitualment el sistema reconeix la codificació de caràcters correcta i ens mostra el seu contingut sense problemes. De vegades, però, no està tant clar i ens ha de preguntar quina codificació de caràcters té el document: UTF-8, ISO8859-1, o encara alguna altra? Sovint podrem resoldre aquests casos amb prova i error, si més no.

Si voleu saber més sobre la codificació de caràcters i el problema que pot suposar, us recomano llegir l'article (està en anglès) "The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)" de Joel Spolsky. Absolutament recomanable.

Us explico això perquè fa uns dies, movent una base de dades de LibreOffice a un servidor extern MySQL, em vaig trobar amb un document UTF-8 que contenia caràcters Unicode (del tipus \uXXXX) entre mig. És a dir, una barreja de codificacions de caràcters en el mateix document, pel que no serveixen de res les clàssiques eines de transformació entre codificacions.

Ja em veia substituint els caràcters a mà, quan vaig arribar a la meva salvació: la pàgina http://rishida.net/tools/conversion/. Tal com es veu a la imatge de sota, aquesta web permet transformar codificacions barrejades de caràcters cap a diferents formats.


En el meu cas, vaig enganxar el text problemàtic a "Mixed Input" per recollir els caràcters UTF-8 normals a "Characters".

No cal ni dir que aquesta pàgina ja figura entre les meves adreces d'interès, en un lloc de privilegi.

Cap comentari:

Publica un comentari a l'entrada