日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 运维知识 > linux >内容正文

linux

linux的xml文件格式,linux – 如何将非UTF-8格式的xml文件转换为符合UTF-8的xml

發布時間:2024/3/12 linux 29 豆豆
生活随笔 收集整理的這篇文章主要介紹了 linux的xml文件格式,linux – 如何将非UTF-8格式的xml文件转换为符合UTF-8的xml 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我有一個巨大的xml文件,其示例數據如下:

因為可以看到有文字“Gesellschaftf??rBildverarbeitung”,它不符合UTF-8,因為我從xml驗證器得到錯誤,錯誤如:

Import failed:

com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 1 of 1-byte UTF-8 sequence.

那么查詢是如何在Linux環境中處理這個問題,將xml文件轉換為UTF-8兼容格式?或者在bash中是否存在這樣的方式,以便在首先創建xml時,我可以確保所有變量/字符串都以UTF-8兼容格式存儲?

解決方法:

使用字符集轉換工具:

iconv -f ISO-8859-1 -t UTF-8 filename.txt

00-0B-91 (hex) Aglaia Gesellschaft für Bildverarbeitung und Kommunikation m

000B91 (base 16) Aglaia Gesellschaft für Bildverarbeitung und Kommunikation m

Tiniusstr. 12-15

Berlin D-13089

GERMANY

似乎“ü”是獲得mangeld的角色.

更新

當使用wget下載“oui.txt”時,我在文件中看到字符“ü”.如果您沒有在下載中破壞某些內容.考慮使用以下其中一種:

> wget –header =’Accept-Charset:utf-8′

>嘗試使用curl -o oui.txt代替

如果以上都不起作用,只需在您喜歡的瀏覽器中打開鏈接并執行“另存為”.在這種情況下,請在下面的腳本中注釋wget行.

我成功使用以下腳本(更新BEGIN& END以獲取有效的XML文件)

#!/bin/bash

wget http://standards.ieee.org/develop/regauth/oui/oui.txt

iconv -f iso-8859-15 -t utf-8 oui.txt > converted

awk 'BEGIN {

print "HTML-header"

}

/base 16/ {

printf("\n", $4)

read

desc = substr($0, index($0, $4))

printf("\n", $1, desc)

}

END {

print "HTML-footer"

}

' converted

希望這可以幫助!

標簽:shell,unix,linux,unicode,utf-8

來源: https://codeday.me/bug/20190630/1338523.html

總結

以上是生活随笔為你收集整理的linux的xml文件格式,linux – 如何将非UTF-8格式的xml文件转换为符合UTF-8的xml的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。