011、类型转换的艺术：int、float、str、bytes 的互相转换与边界处理

原创已于 2026-06-22 14:23:07 修改 · 130 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #java #算法 #人工智能 #开发语言

于 2026-06-22 14:17:11 首次发布

Python 从基础到 AI 实战专栏收录该内容

20 篇文章

订阅专栏

011、类型转换的艺术：int、float、str、bytes 的互相转换与边界处理

上周五晚上十一点，我盯着屏幕上的报错日志，头皮发麻。一个生产环境的API突然返回了500，排查后发现是某个用户上传的Excel里，一个看似正常的数字字段在读取时被解析成了科学计数法字符串，然后下游的加密模块直接调用了bytes()去转换——结果炸了。那个字段的值是1.23456789e+10，而加密模块期望的是纯数字字符串。这种类型转换的坑，我踩过不下十次，今天干脆把int、float、str、bytes这四兄弟之间的互相转换和边界情况一次性说清楚。

int ↔ float：你以为的精度，其实都是假象

先看最基础的。int()和float()互相转换，看起来简单，但精度丢失的问题经常被忽略。

# 这里踩过坑：float转int直接截断小数部分，不是四舍五入
price = 19.99
print(int(price))  # 输出19，不是20
# 别这样写，除非你明确知道要截断

如果你需要四舍五入，老老实实用round()。但round()也有自己的脾气——银行家舍入法（四舍六入五成双），不是所有语言都这样，但Python是。

print(round(2.5))   # 输出2，不是3！因为2是偶数
print(round(3.5))   # 输出4，因为4是偶数

另一个坑：大整数转float会丢失精度。Python的int可以无限大，但float只有53位有效数字。

big_int = 2**53 + 1
print(float(big_int))  # 输出9007199254740992.0，不是9007199254740993.0
# 精度丢失了，而且不会报错，这才是最可怕的

str ↔ int/float：用户输入永远是魔鬼

字符串转数字是日常高频操作，但用户输入的数据永远比你想象的脏。

# 别这样写：直接int(input())，用户输入"abc"直接崩
user_input = "  42  "
print(int(user_input))  # 这个可以，int会忽略前后空格

# 但下面这些都会炸
# int("42.0")    # ValueError
# int("0x1A")    # ValueError，除非指定base=16
# int("1,234")   # ValueError，逗号不行

处理用户输入时，我习惯用try-except包裹，或者先做清洗。特别是从CSV、Excel读数据时，数字可能带着千分位逗号、货币符号、甚至不可见字符。

def safe_int(value, default=0):
    """生产环境用的安全转换，踩过太多坑了"""
    if value is None:
        return default
    # 先转字符串，去掉常见干扰字符
    cleaned = str(value).strip().replace(',', '').replace('$', '').replace('¥', '')
    try:
        return int(cleaned)
    except (ValueError, TypeError):
        try:
            return int(float(cleaned))  # 处理"42.0"这种情况
        except (ValueError, TypeError):
            return default

float转字符串也有讲究。str(0.1)输出'0.1'看起来没问题，但str(1/3)输出'0.3333333333333333'，这16位小数是float的极限精度。如果你需要控制小数位数，用格式化字符串。

price = 1234.5678
# 别这样写：str(price) + "元"  # 输出"1234.5678元"，不专业
# 应该这样：
print(f"{price:.2f}元")  # 输出"1234.57元"

bytes ↔ str：编码问题能让你怀疑人生

bytes和str的转换是Python 3里最容易出bug的地方，没有之一。Python 2里str和bytes混用的时代已经过去了，但很多人还是搞不清什么时候该decode，什么时候该encode。

text = "你好，世界"
# str转bytes：encode
byte_data = text.encode('utf-8')  # 推荐，跨平台兼容
print(byte_data)  # b'\xe4\xbd\xa0\xe5\xa5\xbd...'

# bytes转str：decode
decoded = byte_data.decode('utf-8')
print(decoded)  # "你好，世界"

坑在哪里？编码不一致。你从Windows的GBK文件读出来的bytes，用UTF-8去decode，直接报错。

# 这里踩过坑：从旧系统接口拿到的数据是gbk编码
gbk_bytes = b'\xc4\xe3\xba\xc3'  # "你好"的gbk编码
try:
    print(gbk_bytes.decode('utf-8'))  # UnicodeDecodeError
except UnicodeDecodeError:
    print(gbk_bytes.decode('gbk'))  # 正确输出"你好"

更隐蔽的坑：str()和bytes()直接调用时的行为。

# 别这样写：str(b'hello')  # 输出"b'hello'"，不是"hello"
# 应该用 decode()
print(str(b'hello', encoding='utf-8'))  # 输出"hello"

# bytes()的坑更大
print(bytes(10))  # 输出b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00'，10个空字节
# 不是b'10'！如果你想要b'10'，应该用bytes('10', encoding='utf-8')

bytes ↔ int/float：网络协议和二进制文件的必修课

这部分是很多Python开发者忽略的，但如果你做网络编程、文件格式解析、或者加密相关的工作，这是基本功。

# int转bytes：用to_bytes方法
number = 123456
# 别这样写：bytes(number)  # 得到123456个空字节，不是你要的
byte_data = number.to_bytes(4, byteorder='big')  # 4字节，大端序
print(byte_data)  # b'\x00\x01\xe2@'

# bytes转int：用from_bytes
recovered = int.from_bytes(byte_data, byteorder='big')
print(recovered)  # 123456

边界情况：负数怎么办？to_bytes默认不支持负数，需要指定signed=True。

negative = -123456
try:
    negative.to_bytes(4, byteorder='big')  # OverflowError
except OverflowError:
    byte_data = negative.to_bytes(4, byteorder='big', signed=True)
    print(byte_data)  # b'\xff\xfe\x1d\xc0'
    recovered = int.from_bytes(byte_data, byteorder='big', signed=True)
    print(recovered)  # -123456

float转bytes更麻烦，因为float没有直接的to_bytes方法。需要用struct模块。

import struct

# float转bytes
pi = 3.14159
byte_data = struct.pack('!f', pi)  # '!'表示网络字节序（大端），'f'表示float
print(byte_data)  # 4字节的二进制表示

# bytes转float
recovered = struct.unpack('!f', byte_data)[0]
print(recovered)  # 3.14159，但可能有精度损失

注意：struct.pack的'f'是C语言的float（4字节），'d'是double（8字节）。Python的float对应的是double。

混合转换的实战场景

真实项目中，你很少只做一对一的转换。比如从网络接收数据，可能是bytes，里面包含数字，需要先decode成str，再转成int或float。

# 模拟从socket接收的数据
raw_data = b'{"temperature": "25.6", "humidity": "68%"}'
# 别这样写：直接eval(raw_data)  # 安全风险
import json
decoded = raw_data.decode('utf-8')
data = json.loads(decoded)
temp = float(data['temperature'])  # 25.6
humidity = int(data['humidity'].rstrip('%'))  # 68

另一个常见场景：把数字转成固定长度的bytes用于协议通信。

def pack_int32(value):
    """把int转成4字节大端bytes，支持负数"""
    return value.to_bytes(4, byteorder='big', signed=True)

def unpack_int32(data):
    """从4字节bytes恢复int"""
    return int.from_bytes(data, byteorder='big', signed=True)

# 测试边界值
print(pack_int32(2147483647))   # 最大正int32
print(pack_int32(-2147483648))  # 最小负int32

个人经验性建议

永远不要相信输入数据的类型。从文件、网络、用户输入来的数据，先转成你期望的类型，再处理。我见过太多因为CSV里一个数字带空格就崩掉的情况。
编码问题要显式处理。不要依赖默认编码，open()文件时指定encoding='utf-8'，encode()和decode()时明确指定编码。默认编码在不同操作系统上不一样，Windows是gbk，Linux是utf-8，这个坑我踩了三年才养成习惯。
大数转换要警惕精度。如果你的业务涉及超过2^53的整数（比如某些ID、时间戳），不要用float，用int或者decimal.Decimal。float转int时，先确认你真的需要截断而不是四舍五入。
bytes和str的转换要成对出现。每次encode都要有对应的decode，反之亦然。我习惯在函数或类的边界做转换，内部统一用一种类型。比如所有网络层用bytes，业务层用str，在接口处转换。
写测试用例覆盖边界值。0、负数、最大值、最小值、空字符串、None、特殊字符（如emoji），这些都要测。我见过一个线上bug，就是因为用户昵称里有个emoji，导致某个老系统的GBK编码转换失败。