导入数据-pd.read_clipboard()-粘贴板获取内容-python3.X-数据分析-Pandas-书闪BookChips

18 - 导入数据 - pd.read_clipboard() - 粘贴板获取内容

作者：

贺及楼

成为作者

更新日期：2024-08-05 22:43:16

表格总结

例子编号	描述	代码示例
1	读取文本并转换为 DataFrame	`pd.read_clipboard()`
2	读取文本并转换为 DataFrame	`pd.read_csv(pd.compat.StringIO(pyperclip.paste()))`
3	读取表格数据	`pd.DataFrame([row.split() for row in pyperclip.paste().split('\n')])]`
4	读取 Excel 格式数据	`...load_workbook(filename=BytesIO(pyperclip.paste().encode('utf-8')))`
5	读取 JSON 格式数据	`pd.DataFrame(json.loads(pyperclip.paste()))`
6	读取 HTML 表格数据	`pd.read_html(str(BeautifulSoup(pyperclip.paste(), 'html.parser').find('table')))`
7	读取特殊分隔符数据	`pd.read_csv(pd.compat.StringIO(pyperclip.paste().replace('\t', ',')))`
8	处理缺失值	`pd.read_csv(pd.compat.StringIO(data), na_values=['NA', '--'])`
9	转换数据类型	`pd.read_csv(pd.compat.StringIO(data), dtype={'Column1': int, 'Column2': float})`
10	设置索引列	`pd.read_csv(pd.compat.StringIO(data), index_col='ID')`
11	数据清洗	`pd.read_csv(pd.compat.StringIO(data)).applymap(lambda x: x.strip() if isinstance(x, str) else x)`

读取粘贴板

import numpy as np
import pandas as pd
cdf = pd.read_clipboard()

2: 从剪贴板读取文本并转换为 DataFrame

描述：使用 pyperclip 获取剪贴板中的文本，并用 Pandas 转换为 DataFrame。

代码：

import pandas as pd
import pyperclip
# 从剪贴板获取数据
data = pyperclip.paste()
# 假设数据是 CSV 格式
df = pd.read_csv(pd.compat.StringIO(data))
print(df.head())

3: 读取剪贴板中的表格数据

描述：直接读取剪贴板中的表格数据并转换为 DataFrame。

代码：

# 假设表格数据已经以某种方式被格式化为字符串
table_data = pyperclip.paste().split('\n')
df = pd.DataFrame([row.split() for row in table_data])
print(df.head())

4: 读取 Excel 格式的剪贴板数据

描述: 使用 Excel 剪贴板格式读取数据。

代码：

import openpyxl
# 从剪贴板获取 Excel 数据
data = pyperclip.paste()
# 将字符串转换为 Excel 文件
workbook = openpyxl.load_workbook(filename=BytesIO(data.encode('utf-8')))
sheet = workbook.active
df = pd.DataFrame(sheet.values)
print(df.head())

5: 读取剪贴板中的 JSON 数据

描述：读取剪贴板中的 JSON 格式数据并转换为 DataFrame。

代码：

import json
# 从剪贴板获取 JSON 数据
json_data = pyperclip.paste()
data = json.loads(json_data)
df = pd.DataFrame(data)
print(df.head())

6: 读取 HTML 格式的剪贴板数据

描述：将剪贴板中的 HTML 表格数据转换为 DataFrame。

代码：

from bs4 import BeautifulSoup
# 从剪贴板获取 HTML 数据
html_data = pyperclip.paste()
soup = BeautifulSoup(html_data, 'html.parser')
tables = soup.find_all('table')
for table in tables:
    df = pd.read_html(str(table))[0]
    print(df.head())

7: 读取剪贴板中的特殊分隔符数据

描述：读取使用特殊分隔符（如制表符）的数据。

代码：

# 假设数据是以制表符分隔
data = pyperclip.paste().replace('\t', ',')
df = pd.read_csv(pd.compat.StringIO(data))
print(df.head())

8: 读取剪贴板数据并处理缺失值

描述：读取剪贴板数据并处理可能存在的缺失值。

代码：

# 读取数据并处理缺失值
df = pd.read_csv(pd.compat.StringIO(data), na_values=['NA', '--'])
print(df.head())

9: 读取剪贴板数据并转换数据类型

描述：读取剪贴板数据并转换特定列的数据类型。

代码：

# 转换列的数据类型
dtypes = {'Column1': int, 'Column2': float}
df = pd.read_csv(pd.compat.StringIO(data), dtype=dtypes)
print(df.head())

10: 读取剪贴板数据并设置索引

描述：读取剪贴板数据并设置一列作为 DataFrame 的索引。

代码：

# 设置索引列
df = pd.read_csv(pd.compat.StringIO(data), index_col='ID')
print(df.head())

11: 读取剪贴板数据并进行数据清洗

描述：读取剪贴板数据，进行数据清洗，如去除多余的空格。

代码：

# 清洗数据，去除空格
df = pd.read_csv(pd.compat.StringIO(data)).applymap(lambda x: x.strip() if isinstance(x, str) else x)
print(df.head())