от
Фон Я делаю работу для кого-то, что участвует загрузкой ~123,000 правительства США судебных решений сохранены как текстовые файлы (.txt-файл), которая представляется, как правило, закодированных в кодировке Windows 1252, но, видимо, иногда закодированных в кодировке UCS-2 формат файла спецификации (по К Notepad ). Они могут также иногда используют другие форматы, я не понял, как быстро сделать полный список. Проблема Эта изменчивость в кодировке предотвращает меня от изучения ПСК-2 файлы, используя Python. Я бы хотел быстрый способ конвертировать все файлы в UTF-8, независимо от их исходной кодировки. У меня есть доступ к Linux и Windows-машины, поэтому я могу использовать решения, характерные для любой операционной системы. Что я пробовал Я попытался с помощью языка Python
cchardet
библиотека, но она, кажется, не быть хорошо определять кодировку в Notepad - это, как говорят мне о том, что данный файл с помощью Windows-1252 кодировке, когда Notepad это говорю, что это на самом деле использовать UCS-2 в ЛЕ-Бом кодирования.

Ваш ответ

Отображаемое имя (по желанию):
Конфиденциальность: Ваш электронный адрес будет использоваться только для отправки уведомлений.
...