word可以直接另存為 htm,但即使是 另存為 HTML 也會(huì)有大量的廢代碼。以前我一般用 Dreamweaver 的 clean up html 來處理,先處理 word 特有標(biāo)簽,然后刪除一些 font,b,span 等。進(jìn)一步,在 editplus 里面用正則進(jìn)行處理,最后得到我想要的干凈的html 代碼。當(dāng)然最完美的辦法就是拷貝文字出來,自己用文本編輯器書寫htm標(biāo)簽,:)
今天又看到lifehacker這幾種word 2 clean htm方法:
1.使用這個(gè)HTML Tidy Library Project開源軟件來處理。
2.微軟官方站點(diǎn)也有個(gè)office 2000 HTML Filter 2.0工具,可以用來處理掉word2000轉(zhuǎn)html時(shí)出現(xiàn)的多余代碼。
3.使用這個(gè)Word HTML Cleaner在線工具來處理。只能處理word2000以下版本。
4.有人給出了正則表達(dá)式(其實(shí),上面的各種軟件也都是用正則來解決的)
刪除不需要的標(biāo)簽
<[/]?(fontspanXML[ovwXP]:w+)[^>]*?>
- replace any matches with the empty string
刪除class,style...等不需要的屬性
<([^>]*)(?:classlangstylesizeface[ovwxp]:w+)=(?:'[^']*'""[^""]*""[^>]+)([^>]*)>
- replace any matches with <$1$2>
相關(guān)閱讀
各不相同 Word中幾種文本格式的區(qū)別
Office 2007中關(guān)閉頁面空白的方法
Word中輸入11至20帶圈字符的快捷方法
各不相同 Word中幾種文本格式的區(qū)別
簡(jiǎn)單方法讓你的Office彰顯個(gè)性
制作Word表格的最基本方法:繪制與插入
清除Word文檔頁眉橫線的第N種方法
快速找到Word模板文件Normal.dot的方法
濟(jì)寧運(yùn)河畔網(wǎng)版權(quán)與免責(zé)聲明:
①凡本網(wǎng)來源于注明來“源于:運(yùn)河畔或damoshentu.com”版權(quán)均屬運(yùn)河畔網(wǎng)所有,其他媒體可以轉(zhuǎn)載,且需注明“來源運(yùn)河畔網(wǎng)”
② 凡本網(wǎng)注明“來源:XXX(非濟(jì)寧運(yùn)河畔,濟(jì)寧信息港)”的作品,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
③ 如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行。