Як дізнатися кодування тексту

Текст в файлі, електронному листі, на веб-сторінці може бути набраний на будь-якій мові і збережений в різної комп`ютерної кодуванні. Справа полягає не тільки в різноманітті сучасних кодувань, які більш-менш впорядковані, а й зберіганні документів, що представляють в першу чергу історичну цінність. Також трапляються випадки, коли документ кілька разів був збережений в різних кодуваннях. Якщо текст відкривається у вигляді незрозумілого набору символів, його необхідно привести в вид, доступний для читання.
Як дізнатися кодування тексту

Вам знадобиться

  • Комп`ютер, текстовий редактор, онлайновий декодер, спеціальні програми «перекодувальники»

Інструкція

1
Якщо текст не читається на веб-сторінці, зробіть підбір кодування в браузері. Для цього клацніть лівою клавішею мишки в меню «Вид» за пунктом «Кодування». У випадаючому списку переберіть доступні кодування, поки текст не прийме читається вигляд. Перша російська кодування KOI-8 з`явилася на комп`ютерах, коли ще вони не були персональними, з операційною системою UNIX. Застосовується на комп`ютерах з UNIX-подібними операційними системами - наприклад Linux. Наступною була російська кодування DOS-866 для операційної системи MS-DOS від компанії Microsoft. З випуском Windows 3.0 в справу вступила Win-1251. Зараз на UNIX-подібних системах застосовується кодування ISO 8859-5. Крім них іноді можна зустріти альтернативну кодування 855, DKOI-8, ГОСТ і болгарську кодування. Дуже рідко можна зустріти на документах кодування MacCyrillic, яка застосовується тільки на комп`ютерах «Макінтош».
2
Збережіть текст в текстовому файлі, потім відкрийте його в текстовому редакторі, при необхідності спробуйте відкрити документ в декількох різних текстових редакторах. Файлові менеджери також можуть визначити кодування, в якій збережений файл, і перетворити його в необхідну кодування.
3
помістіть частину тексту або весь текст, в залежності від його розміру, в онлайновий декодер (дешифратор, декодер пошти, конвектор кирилиці). Після декодування буде запропоновано кілька варіантів тексту, а також назву кодування, в якій імовірно знаходиться файл.


4
Для визначення кодування і при необхідності перекодування тексту необхідно використовувати спеціальні програми «перекодувальники». Дані програми досить популярні в інтернеті і прості у використанні, при цьому деякі з них дозволяють працювати з максимально можливою кількістю застосовуваних кодувань і надають максимально доступні можливості по роботі з ними.

Рада 2: Як визначити кодування

Іноді потрібний файл або веб-сторінка не відкривається, а при її відображенні видно тільки незрозумілі символи. Бувають випадки, коли текстовий редактор або браузер не може визначити необхідну кодування. В такому випадку її доводиться підбирати самому за допомогою додаткових утиліт.
Як визначити кодування

Вам знадобиться

  • Текстовий редактор, який працює з великим числом кодувань, або програма-декодер.

Інструкція

1
Якщо файл некоректно відкрився в одному редакторі, це зовсім не означає, що він має неправильну кодування. Варто спробувати відкрити той же файл в іншій програмі. Однією з утиліт, які в більшості випадків точно визначають необхідний набір символів, є безкоштовний редактор Notepad ++.



2
Якщо відкрити файл все-таки не вдається, то можна скористатися онлайн сервісами для визначення кодування, яких в інтернеті є безліч.
3
Також існують програми, які здатні розшифровувати російські тексти в різних кодуваннях. Безсумнівно, лідером є додаток «Штірліц» для Windows. Воно знає практично все кодові листи і знає безліч методів транслітерації. Більш того ця програма здатна виробляти операції трансформації тексту з вихідного формату в будь-який інший.
4
У Linux, щоб відкрити будь-який файл, який містить незнайому кодування, можна скористатися деякими консольними командами перетворення або готовими програмами. Під QT існує додаток QTexTransformer, яке допоможе визначити назву кодування і зробити відповідні преобразованія.Под Linux існує безліч лінгвістичних модулів, написаних на мові Perl. Наприклад, Lingua DetectCharset або DetectCyrillic (для визначення кириличних символів). Добре відображає файли Windows програма mousepad. Для конвертації також можна скористатися консольної командою «econv путь_до_файла», яка самостійно визначить поточну кодування і перетворює її до поточної локалі.
Корисна порада
Добре з вибором потрібної кодування справляється текстовий процесор Word. Навіть якщо файл не відкрився в інших редакторах, в ньому спрацює функція «Автоматичний вибір».


Увага, тільки СЬОГОДНІ!


Оцініть, будь ласка статтю
Всього голосів: 96
Увага, тільки СЬОГОДНІ!