hand
_1_21_45
4
python3.X - 数据分析 - Pandas
共95篇
python3.X - 数据分析 - Pandas
返回栏目
1k
0k
5k
0k
0.1k
0k
2k
3k
1k
1k
0.2k
3k
0k
4k
3k
3k
3k
3k
0.5k
5k
1k
0.3k
3k
4k
7k
2k
7k
0.8k
0.9k
1k
1k
2k
0.4k
0.6k
0.6k
0.5k
0.9k
0.9k
1k
0.9k
1k
0.8k
1k
0.4k
0.4k
0.3k
0.6k
1k
0.9k
1k
1k
1k
0.8k
1k
0.8k
1k
0.7k
0.6k
4k
0.4k
3k
0.7k
0.8k
0.8k
0.2k
2k
1k
0.7k
0.7k
0.4k
0.5k
3k
0.1k
0.7k
0.9k
0.3k
1k
0.4k
0.4k
1k
0.5k
0.1k
0.7k
1k
0k
0.2k
0.7k
0.3k
0k
0k
0.1k
0k
0k
0k
3k
返回python3.X - 数据分析 - Pandas栏目
作者:
贺及楼
成为作者
更新日期:2024-08-06 07:35:21
例子编号 | 描述 | 代码示例 |
---|---|---|
1 | 读取 HTML 文件中的所有表格 | pd.read_html('path_to_file.html') |
2 | 选择特定表格 | print(dfs[1]) |
3 | 读取网页中的所有表格 | pd.read_html('http://example.com') |
4 | 使用正则表达式匹配表格 | pd.read_html(..., match='table_id') |
5 | 读取 HTML 字符串中的表格 | pd.read_html(html_string) |
6 | 设置解析器风味 | pd.read_html(..., flavor='lxml') |
7 | 忽略默认 NA 值 | pd.read_html(..., keep_default_na=False) |
8 | 指定列为索引 | pd.read_html(..., index_col=0) |
9 | 转换列数据类型 | dtypes = {'Column2': float}; pd.read_html(..., dtype=dtypes) |
10 | 分块读取大型 HTML | for chunk in pd.read_html(..., chunksize=chunk_size): |
11 | 指定元素来取得 | dfs1 = pd.read_html(url, attrs={'id': 'table'}) |
import pandas as pd
dfs = pd.read_html('path_to_file.html')
print(dfs[0]) # 打印第一个表格
print(dfs[1]) # 打印第二个表格
dfs = pd.read_html('http://example.com')
print(dfs[0]) # 打印第一个表格
dfs = pd.read_html('path_to_file.html', match='table_id')
print(dfs[0]) # 打印匹配的表格
html_string = "<html><body><table>...</table></body></html>"
dfs = pd.read_html(html_string)
print(dfs[0]) # 打印第一个表格
dfs = pd.read_html('path_to_file.html', flavor='lxml')
print(dfs[0]) # 打印第一个表格
dfs = pd.read_html('path_to_file.html', keep_default_na=False)
print(dfs[0]) # 打印第一个表格
dfs = pd.read_html('path_to_file.html', index_col=0)
print(dfs[0]) # 打印第一个表格,第一列作为索引
dtypes = {'Column2': float}
dfs = pd.read_html('path_to_file.html', dtype=dtypes)
print(dfs[0]) # 打印第一个表格,'Column2' 转换为 float 类型
chunk_size = 3 # 每块包含 3 个表格
for chunk in pd.read_html('path_to_file.html', chunksize=chunk_size):
print(chunk) # 打印每个块中的表格
import numpy as np
import pandas as pd
dfs = pd.read_html('https://www.gairuo.com/p/pandas-io')
dfs[0] # 查看第一个 df
dfs = pd.read_html('data.html', header=0) # 读取网页文件,第一行为表头
dfs = pd.read_html(url, index_col=0) # 第一列为索引
## 如果一个网页表格很多,可以指定元素来取得:
dfs1 = pd.read_html(url, attrs={'id': 'table'}) # id='table' 的表格,注意这儿仍然可能返回多个
## dfs1[0]
dfs2 = pd.read_html(url, attrs={'class': 'sortable'}) # class='sortable'
python3.X - 数据分析 - Pandas
整章节共95节
快分享给你的小伙伴吧 ~