要讀取 html 文件中的文字內容,請執(zhí)行以下步驟:加載 html 文件解析 html使用 text 屬性或 get_text() 方法提取文本可選:清理文本(刪除空白、特殊字符和轉換小寫)輸出文本(打印、寫入文件等)
如何讀取 HTML 文件中的文字內容
要從 HTML 文件中提取文字內容,可以使用以下步驟:
1. 加載 HTML 文件
<code class="<a style='color:#f60; text-decoration:underline;' href=" https: target="_blank">python">import requests url = 'https://example.com' response = requests.get(url)</code>
登錄后復制
2. 解析 HTML
<code class="python">from bs4 import BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser')</code>
登錄后復制
3. 提取文字內容
有兩種方法可以提取文字內容:
使用 text
屬性:提取 HTML 標簽內的所有文本,包括標簽本身。
<code class="python">text = soup.text</code>
登錄后復制
使用 get_text()
方法:提取 HTML 標簽內的文本,但會忽略標簽本身。
<code class="python">text = soup.get_text()</code>
登錄后復制
4. 清理文本內容(可選)
如果需要進一步清理文本內容,可以執(zhí)行以下操作:
刪除空白字符:
<code class="python">text = text.replace(' ', '')</code>
登錄后復制
刪除特殊字符:
<code class="python">import string text = text.translate(str.maketrans('', '', string.punctuation))</code>
登錄后復制
轉換為小寫:
<code class="python">text = text.lower()</code>
登錄后復制
5. 輸出文本內容
可以通過多種方式輸出文本內容:
打印到控制臺:
<code class="python">print(text)</code>
登錄后復制
寫入文件:
<code class="python">with open('output.txt', 'w') as f: f.write(text)</code>
登錄后復制