导入数据 - pd.read_html(url) - 解析URL或HTML
-%E8%A7%A3%E6%9E%90URL%E6%88%96HTML.png&w=1920&q=85)
表格总结
例子编号 |
描述 |
代码示例 |
1 |
读取 HTML 文件中的所有表格 |
pd.read_html('path_to_file.html') |
2 |
选择特定表格 |
print(dfs[1]) |
3 |
读取网页中的所有表格 |
pd.read_html('http://example.com') |
4 |
使用正则表达式匹配表格 |
pd.read_html(..., match='table_id') |
5 |
读取 HTML 字符串中的表格 |
pd.read_html(html_string) |
6 |
设置解析器风味 |
pd.read_html(..., flavor='lxml') |
7 |
忽略默认 NA 值 |
pd.read_html(..., keep_default_na=False) |
8 |
指定列为索引 |
pd.read_html(..., index_col=0) |
9 |
转换列数据类型 |
dtypes = {'Column2': float}; pd.read_html(..., dtype=dtypes) |
10 |
分块读取大型 HTML |
for chunk in pd.read_html(..., chunksize=chunk_size): |
11 |
指定元素来取得 |
dfs1 = pd.read_html(url, attrs={'id': 'table'}) |
1: 读取 HTML 文件中的所有表格
2: 通过索引选择特定的表格
- 描述:在提取的所有表格中选择特定的表格。
- 代码:
print(dfs[1]) # 打印第二个表格
3: 读取网页中的所有表格
4: 使用正则表达式匹配表格
5: 读取 HTML 字符串中的表格
6: 设置表格解析的风味(Flavor)
7: 忽略表格中的默认 NA 值
8: 指定列作为 DataFrame 的索引
9: 转换表格数据的类型
10: 使用 chunksize 分块读取大型 HTML
11: 指定元素来取得
import numpy as np
import pandas as pd
dfs = pd.read_html('https://www.gairuo.com/p/pandas-io')
dfs[0] # 查看第一个 df
dfs = pd.read_html('data.html', header=0) # 读取网页文件,第一行为表头
dfs = pd.read_html(url, index_col=0) # 第一列为索引
## 如果一个网页表格很多,可以指定元素来取得:
dfs1 = pd.read_html(url, attrs={'id': 'table'}) # id='table' 的表格,注意这儿仍然可能返回多个
## dfs1[0]
dfs2 = pd.read_html(url, attrs={'class': 'sortable'}) # class='sortable'