jueves, 6 de abril de 2023

Compresión texto

 El primer diccionario que se me ocurre sería:

Ascii alfanumérico de de 7bit lo cual da 128 posibilidades

+128 datos especiales que no serian caracteres sino palabras del diccionario o códigos de control.
y completamos así los 256 valores que dan 8bit

por ejemplo un 13 indicaría que que los siguientes 2 bytes son del diccionario de 16 bit
16 bits ya dan 2 elevado a 16 posibilidades que está bien para un idioma entero... y si no usar 127 palabras comunes...

ejemplo 255 valores de diccionario estándar.

[copia palabra] indicaría una posición del texto para copiar una palabra.

puedes reverenciar diccionarios mas grandes de 16 bit 65536 valores (serían palabras)

lenguajes de programación etc...

los espacios de ponen solos...

En un QR cabrían pues bastantes cosas

Para textos largos se podría dejar un diccionario custom pero:

65536 palabras 16 bit de registro y poniéndoles unos diez caracteres no ocuparía mucho; un megabyte como mucho...

una IA puede mejorar la compresión o generar los diccionarios grandes con palabras más usadas...

No hay comentarios:

Publicar un comentario