Python 数据处理三剑客：`map`、`filter` 与列表推导式，如何兼顾可读性和性能？

原创于 2026-06-23 14:48:14 发布 · 93 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#python #人工智能 #服务器

话题

#AI编程·六月创作之星博客挑战赛

学习笔记同时被 3 个专栏收录

721 篇文章

订阅专栏

课程教程

701 篇文章

订阅专栏

提升学习

472 篇文章

订阅专栏

Python 数据处理三剑客：`map`、`filter` 与列表推导式，如何兼顾可读性和性能？

在 Python 编程中，我们经常需要对一组数据执行两类操作：

从原始数据中筛选出符合条件的元素；
对筛选后的元素进行转换、计算或格式化。

例如，从订单列表中找出已支付订单并计算实付金额，从日志文件中过滤错误记录，从接口响应中提取用户名称，或者将一组字符串转换为整数。

面对这类需求，Python 开发者通常有三种选择：

map
filter
列表推导式

它们看起来功能相似，但在可读性、执行方式、内存占用、运行性能以及适用场景上存在明显差异。

初学者可能会问：

列表推导式是不是一定比 map 和 filter 更好？

有经验的开发者则会继续追问：

map 的惰性求值是否能节省内存？
使用内置函数时，map 会不会更快？
filter 和条件推导式哪个更符合 Python 风格？
怎样进行公平的性能测试？

本文将从语义、可读性、性能和工程实践四个角度，深入分析这三种写法的取舍，帮助你在真实的 Python 项目中做出更合理的选择。

一、先看一个最常见的例子

假设我们有一组整数，需要找出其中的偶数，并计算它们的平方。

使用 `map` 和 `filter`

numbers = [1, 2, 3, 4, 5, 6]

result = list(
    map(
        lambda number: number ** 2,
        filter(lambda number: number % 2 == 0, numbers),
    )
)

print(result)

输出结果：

[4, 16, 36]

这段代码的处理过程是：

filter 找出偶数；
map 对偶数执行平方运算；
list 将惰性迭代器转换为列表。

使用列表推导式

numbers = [1, 2, 3, 4, 5, 6]

result = [
    number ** 2
    for number in numbers
    if number % 2 == 0
]

print(result)

输出同样是：

[4, 16, 36]

从代码量来看，两种方案差别不算特别大。但从阅读顺序上看，列表推导式更接近自然语言：

对于 numbers 中的每个 number，如果它是偶数，就计算它的平方。

而 map 与 filter 的嵌套写法需要从内向外阅读。读者必须先找到 filter，再理解 map，最后注意外层的 list。

这就是三者取舍中的第一个关键点：

对大多数业务代码而言，可读性往往比几微秒的性能差异更重要。

二、三种工具分别解决什么问题？

在讨论性能之前，应先理解它们的语义。

1. `map`：将函数应用到每个元素

map 的基本形式如下：

map(function, iterable)

它会从可迭代对象中依次取出元素，并将每个元素传给指定函数。

names = ["alice", "bob", "charlie"]

result = map(str.upper, names)

print(list(result))

输出：

['ALICE', 'BOB', 'CHARLIE']

这里的语义非常明确：

将 str.upper 映射到每个字符串。

map 还支持多个可迭代对象：

prices = [100, 200, 300]
discounts = [0.9, 0.8, 0.7]

final_prices = map(
    lambda price, discount: price * discount,
    prices,
    discounts,
)

print(list(final_prices))

输出：

[90.0, 160.0, 210.0]

对应的列表推导式一般需要配合 zip：

final_prices = [
    price * discount
    for price, discount in zip(prices, discounts)
]

两种写法都合理。前者突出“函数映射”，后者突出“逐项计算”。

2. `filter`：保留满足条件的元素

filter 的基本形式如下：

filter(function, iterable)

判断函数返回真值时，对应元素会被保留。

numbers = [1, 2, 3, 4, 5, 6]

even_numbers = filter(
    lambda number: number % 2 == 0,
    numbers,
)

print(list(even_numbers))

输出：

[2, 4, 6]

对应的列表推导式是：

even_numbers = [
    number
    for number in numbers
    if number % 2 == 0
]

在多数情况下，后者更直观，因为判断条件直接出现在代码中。

3. 列表推导式：筛选和转换的统一表达

列表推导式的基本形式是：

[表达式 for 元素 in 可迭代对象 if 条件]

它可以同时完成转换和筛选：

result = [
    number ** 2
    for number in numbers
    if number % 2 == 0
]

它相当于下面的普通循环：

result = []

for number in numbers:
    if number % 2 == 0:
        result.append(number ** 2)

列表推导式并不是某种神秘的高级语法。它只是把“创建列表、循环、判断和追加元素”压缩成了一种更紧凑的表达方式。

三、Python 3 中最容易忽略的区别：惰性与立即计算

在 Python 3 中，map 和 filter 返回的不是列表，而是迭代器。

numbers = [1, 2, 3]

mapped = map(str, numbers)
filtered = filter(lambda number: number > 1, numbers)

print(mapped)
print(filtered)

输出形式类似：

<map object at 0x...>
<filter object at 0x...>

只有真正遍历它们时，计算才会发生：

for value in mapped:
    print(value)

这种机制称为惰性求值。

列表推导式则会立即计算全部结果，并创建完整列表：

result = [str(number) for number in numbers]

因此，二者并非只是语法不同，它们在内存模型上也不同。

处理百万级数据时的差异

numbers = range(1_000_000)

mapped = map(lambda number: number * 2, numbers)

执行到这里时，并不会创建一个包含一百万个计算结果的列表。mapped 只是保存了迭代状态和转换规则。

而下面的代码会立即生成一百万个元素：

result = [
    number * 2
    for number in range(1_000_000)
]

因此，如果结果只需要被遍历一次，或者需要逐条流式处理，map、filter 或生成器表达式通常更节省内存。

四、别忘了第四种方案：生成器表达式

在讨论列表推导式、map 和 filter 时，生成器表达式不能被忽略。

它的语法与列表推导式非常相似，只是把方括号改为圆括号：

result = (
    number ** 2
    for number in numbers
    if number % 2 == 0
)

生成器表达式同样采用惰性求值，不会立即创建完整列表。

numbers = range(10_000_000)

result = (
    number ** 2
    for number in numbers
    if number % 2 == 0
)

for value in result:
    process(value)

在很多项目中，真正需要比较的并不是：

map / filter 与列表推导式

而是：

map / filter 与生成器表达式

因为前两者都可以惰性处理数据。

一般来说：

需要完整列表：使用列表推导式；
只遍历一次：优先考虑生成器表达式；
已有清晰的命名函数或内置函数：可以使用 map、filter。

五、可读性应该如何判断？

“列表推导式更易读”并不是绝对规则。真正的判断标准是：

代码能否让读者快速理解数据经历了什么变化？

场景一：简单转换，列表推导式清晰

prices = [10, 20, 30]

result = [price * 1.13 for price in prices]

对应的 map 写法：

result = list(map(lambda price: price * 1.13, prices))

这里使用 lambda 并没有提供新的语义，反而增加了视觉噪声。列表推导式通常更自然。

场景二：直接调用已有函数，`map` 很简洁

raw_values = ["10", "20", "30"]

numbers = list(map(int, raw_values))

它比下面的写法更集中：

numbers = [int(value) for value in raw_values]

两者都很清楚，但 map(int, raw_values) 精准表达了“把 int 应用到所有元素”。

类似的例子还有：

normalized_names = list(map(str.strip, raw_names))
uppercase_names = list(map(str.upper, names))
absolute_values = list(map(abs, values))

当转换函数本身具有明确名称时，map 往往具有不错的可读性。

场景三：筛选与转换同时出现，推导式更有优势

result = [
    user["email"].lower()
    for user in users
    if user["active"] and user.get("email")
]

如果改成 map 和 filter：

result = list(
    map(
        lambda user: user["email"].lower(),
        filter(
            lambda user: user["active"] and user.get("email"),
            users,
        ),
    )
)

后者并非错误，但嵌套结构增加了阅读负担。读者需要在多个函数之间跳转，才能理解完整逻辑。

当筛选条件和转换表达式都比较短时，列表推导式通常是最佳选择。

场景四：逻辑复杂时，三者都不该强行使用

下面的推导式已经开始失去可读性：

result = [
    normalize(user["name"])
    if user.get("name")
    else generate_default_name(user["id"])
    for user in users
    if user.get("active")
    and user.get("role") in allowed_roles
    and not user.get("deleted")
]

这时最好的方案不是争论 map 还是推导式，而是提取命名函数：

def is_available_user(user):
    return (
        user.get("active")
        and user.get("role") in allowed_roles
        and not user.get("deleted")
    )


def get_display_name(user):
    if user.get("name"):
        return normalize(user["name"])

    return generate_default_name(user["id"])


result = [
    get_display_name(user)
    for user in users
    if is_available_user(user)
]

命名函数把“怎么判断”提升为“判断什么”，让业务意图更加明显。

六、性能上到底谁更快？

这是最容易产生误解的部分。

有人认为列表推导式一定更快，也有人认为 map 由底层实现，因此一定更快。实际上，性能取决于多个因素：

Python 版本；
Python 解释器实现；
使用内置函数还是 lambda；
是否需要创建列表；
转换函数本身的复杂度；
数据量；
是否真正消费了迭代器。

在常见的 CPython 环境中，可以观察到一些规律，但不能把它们当成永久不变的定律。

1. `map` 配合内置函数时可能更有优势

values = ["1", "2", "3", "4"]

result = list(map(int, values))

这里不需要为每个元素执行一个额外的 Python 层 lambda。map 可以直接调用 int。

而下面的列表推导式同样很快：

result = [int(value) for value in values]

两者的差距通常很小。除非代码处于高频热点路径，否则可读性比这点差距更重要。

2. `map` 配合 `lambda` 未必更快

result = list(map(lambda number: number * 2, numbers))

每处理一个元素，都需要调用一次 Python 函数对象。

列表推导式则直接执行表达式：

result = [number * 2 for number in numbers]

在这类简单表达式中，列表推导式通常具有竞争力，并且往往更容易阅读。

3. 不要进行不公平的性能测试

下面的测试是错误的：

import timeit

map_time = timeit.timeit(
    "map(lambda x: x * 2, data)",
    setup="data = range(1000)",
    number=10000,
)

list_time = timeit.timeit(
    "[x * 2 for x in data]",
    setup="data = range(1000)",
    number=10000,
)

原因是：

map(lambda x: x * 2, data)

只创建了一个惰性迭代器，并没有真正执行一千次乘法。

而列表推导式已经完成了全部计算并创建列表。二者测试的工作量完全不同。

公平的测试应该真正消费 map：

import timeit

setup_code = """
data = range(1000)
"""

map_time = timeit.timeit(
    "list(map(lambda x: x * 2, data))",
    setup=setup_code,
    number=10000,
)

comprehension_time = timeit.timeit(
    "[x * 2 for x in data]",
    setup=setup_code,
    number=10000,
)

print(f"map: {map_time:.4f} 秒")
print(f"列表推导式: {comprehension_time:.4f} 秒")

测试内置函数时，可以再增加一组：

import timeit

setup_code = """
data = [str(number) for number in range(1000)]
"""

map_time = timeit.timeit(
    "list(map(int, data))",
    setup=setup_code,
    number=10000,
)

comprehension_time = timeit.timeit(
    "[int(value) for value in data]",
    setup=setup_code,
    number=10000,
)

print(f"map + int: {map_time:.4f} 秒")
print(f"列表推导式 + int: {comprehension_time:.4f} 秒")

请在自己的 Python 版本、操作系统和真实数据上运行测试。不要直接照搬他人的测试结果，因为解释器优化策略会持续变化。

七、内存占用如何比较？

可以使用 tracemalloc 粗略观察峰值内存。

import tracemalloc


def consume(iterable):
    total = 0

    for value in iterable:
        total += value

    return total


def measure_memory(factory):
    tracemalloc.start()

    result = consume(factory())

    current, peak = tracemalloc.get_traced_memory()
    tracemalloc.stop()

    return result, peak


map_result, map_peak = measure_memory(
    lambda: map(lambda number: number * 2, range(1_000_000))
)

generator_result, generator_peak = measure_memory(
    lambda: (
        number * 2
        for number in range(1_000_000)
    )
)

list_result, list_peak = measure_memory(
    lambda: [
        number * 2
        for number in range(1_000_000)
    ]
)

print(f"map 峰值内存: {map_peak / 1024 / 1024:.2f} MB")
print(f"生成器峰值内存: {generator_peak / 1024 / 1024:.2f} MB")
print(f"列表推导式峰值内存: {list_peak / 1024 / 1024:.2f} MB")

通常可以观察到：

map 不会一次性保存全部结果；
生成器表达式同样适合流式处理；
列表推导式需要为完整结果分配内存。

不过需要注意，tracemalloc 主要跟踪 Python 层内存分配，不能完整代表整个进程的实际内存消耗。对于大型生产系统，还应结合系统监控工具和真实负载测试。

八、`filter(None, iterable)`：简洁但暗藏陷阱

filter 有一种特殊用法：

values = ["Python", "", None, "Django", 0, False]

result = list(filter(None, values))

print(result)

输出：

['Python', 'Django']

当第一个参数为 None 时，filter 会移除所有假值，包括：

None
False
数字 0
空字符串
空列表
空字典
空集合

因此，它不等于“只移除 None”。

如果业务要求保留 0 和 False，应明确表达条件：

result = [
    value
    for value in values
    if value is not None
]

或者：

result = filter(
    lambda value: value is not None,
    values,
)

在业务代码中，显式条件通常比利用真值规则更加安全。

九、真实案例：处理订单数据

假设接口返回如下订单：

orders = [
    {
        "id": 1001,
        "status": "paid",
        "price": 200,
        "discount": 0.9,
    },
    {
        "id": 1002,
        "status": "cancelled",
        "price": 150,
        "discount": 1.0,
    },
    {
        "id": 1003,
        "status": "paid",
        "price": 300,
        "discount": 0.8,
    },
]

需求是：

只处理已支付订单；
计算折后金额；
返回订单编号和实付金额。

使用 `map` 和 `filter`

paid_orders = filter(
    lambda order: order["status"] == "paid",
    orders,
)

result = list(
    map(
        lambda order: {
            "id": order["id"],
            "amount": order["price"] * order["discount"],
        },
        paid_orders,
    )
)

使用列表推导式

result = [
    {
        "id": order["id"],
        "amount": order["price"] * order["discount"],
    }
    for order in orders
    if order["status"] == "paid"
]

对于这种“筛选后转换”的业务逻辑，列表推导式通常更容易维护。

当规则复杂时使用命名函数

def is_payable_order(order):
    return (
        order.get("status") == "paid"
        and order.get("price") is not None
        and order.get("discount") is not None
    )


def build_payment_record(order):
    return {
        "id": order["id"],
        "amount": round(
            order["price"] * order["discount"],
            2,
        ),
    }


result = [
    build_payment_record(order)
    for order in orders
    if is_payable_order(order)
]

这种写法兼顾了简洁性、可测试性和业务语义。

对应的单元测试也很容易编写：

def test_is_payable_order():
    order = {
        "status": "paid",
        "price": 100,
        "discount": 0.8,
    }

    assert is_payable_order(order) is True


def test_build_payment_record():
    order = {
        "id": 1001,
        "status": "paid",
        "price": 100,
        "discount": 0.8,
    }

    assert build_payment_record(order) == {
        "id": 1001,
        "amount": 80.0,
    }

十、流式数据场景：不要急着创建列表

假设需要处理一个很大的日志文件：

def is_error_log(line):
    return "ERROR" in line


def normalize_log(line):
    return line.strip()

使用惰性流水线：

with open(
    "application.log",
    "r",
    encoding="utf-8",
) as file:
    error_lines = filter(is_error_log, file)
    normalized_lines = map(normalize_log, error_lines)

    for line in normalized_lines:
        print(line)

这段代码逐行读取和处理日志，不会把整个文件加载到内存。

使用生成器表达式也很清晰：

with open(
    "application.log",
    "r",
    encoding="utf-8",
) as file:
    error_lines = (
        line.strip()
        for line in file
        if "ERROR" in line
    )

    for line in error_lines:
        print(line)

在大型文件、消息队列、数据库游标和网络数据流中，惰性处理往往比创建完整列表更重要。

十一、不要使用 `map` 执行副作用

下面的代码不值得推荐：

map(print, values)

在 Python 3 中，如果没有消费这个迭代器，print 根本不会执行：

values = [1, 2, 3]

result = map(print, values)

即使写成下面这样：

list(map(print, values))

也会得到一个毫无意义的列表：

[None, None, None]

当目的是发送消息、写入数据库、修改对象或打印内容时，应使用普通循环：

for value in values:
    print(value)

map 的核心语义是“转换数据”，而不是“批量触发副作用”。

十二、列表推导式也不能无限嵌套

列表推导式虽然简洁，但过度使用会形成难以维护的“一行式代码”。

例如：

result = [
    value
    for group in groups
    for item in group
    if item.is_active
    for value in item.values
    if value > 0
]

这段代码可能是正确的，但读者很难迅速理解循环层级。

可以改为普通循环：

result = []

for group in groups:
    for item in group:
        if not item.is_active:
            continue

        for value in item.values:
            if value > 0:
                result.append(value)

代码行数增加了，但控制流程更加清楚，也更方便插入日志、断点和异常处理。

判断推导式是否过于复杂，可以参考三个信号：

包含多个 for；
包含多个条件；
表达式中出现复杂的三元运算、函数调用或嵌套结构。

当读者需要反复阅读才能理解时，就应该重构。

十三、项目中的实用选型规则

在真实 Python 项目中，可以使用下面这套判断方法。

需要生成完整列表

简单转换：

result = [transform(item) for item in items]

筛选数据：

result = [item for item in items if predicate(item)]

筛选并转换：

result = [
    transform(item)
    for item in items
    if predicate(item)
]

此时通常优先考虑列表推导式。

只需要遍历一次

result = (
    transform(item)
    for item in items
    if predicate(item)
)

优先考虑生成器表达式，避免不必要的列表分配。

已经存在清晰的转换函数

result = map(str.strip, lines)

result = map(int, raw_numbers)

result = map(normalize_user, users)

map 可以直接表达函数映射关系。

已经存在清晰的判断函数

active_users = filter(is_active_user, users)

这类代码也具有良好的语义，尤其是在函数名称足够明确时。

逻辑包含状态变化、异常处理或多个步骤

result = []

for item in items:
    try:
        normalized = normalize(item)
    except ValueError:
        logger.warning("Invalid item: %r", item)
        continue

    if not validate(normalized):
        continue

    result.append(transform(normalized))

此时应使用普通循环，不要为了追求“Pythonic”而压缩代码。

十四、性能优化的正确顺序

在工程实践中，不建议一开始就纠结 map 和列表推导式之间的微小性能差异。

更合理的优化顺序是：

第一步：选择最容易理解的实现

让代码准确表达业务意图，避免重复计算和隐藏副作用。

第二步：确认是否真的存在性能问题

使用 cProfile、py-spy、scalene 或项目中的监控系统寻找真正的瓶颈。

第三步：判断问题属于哪一类

常见性能瓶颈可能来自：

数据库查询次数过多；
网络请求串行执行；
磁盘读写；
算法复杂度过高；
重复解析数据；
创建了不必要的大型中间列表。

这些问题带来的影响，通常远大于 map 和列表推导式之间的差异。

第四步：针对热点路径进行基准测试

使用真实数据规模、真实函数和真实运行环境测试，而不是只测试过度简化的表达式。

第五步：记录优化原因

如果为了性能采用了不太直观的写法，应该通过注释、测试或文档说明原因，防止后续维护者误以为这是无意义的复杂化。

十五、常见误区总结

误区一：列表推导式一定最快

不一定。调用内置函数时，map 可能表现很好；不同 Python 版本也可能产生不同结果。

误区二：`map` 一定节省内存

只有保持迭代器形式时才节省内存。

result = map(transform, items)

如果立即转换为列表：

result = list(map(transform, items))

最终仍然要保存全部结果。

误区三：函数式写法一定更高级

复杂的 map、filter 和 lambda 嵌套并不代表更专业。让团队成员快速理解代码，才是更成熟的工程选择。

误区四：代码越短越 Pythonic

Pythonic 不等于字符最少，而是清晰、自然、符合语言习惯。

误区五：生成器可以重复使用

生成器和 map、filter 迭代器通常是一次性的：

result = map(int, ["1", "2", "3"])

print(list(result))
print(list(result))

输出：

[1, 2, 3]
[]

第一次遍历已经耗尽了迭代器。需要重复使用结果时，应转换为列表或重新创建迭代器。

十六、一张表看懂如何选择

场景	推荐方案	原因
简单转换并需要列表	列表推导式	直观、紧凑
简单筛选并需要列表	列表推导式	条件清晰
同时筛选和转换	列表推导式	避免嵌套
使用 `int`、`str.strip` 等现成函数	`map`	映射语义明确
使用命名判断函数	`filter` 或推导式	根据团队风格选择
大数据流，只遍历一次	生成器、`map`、`filter`	惰性求值、节省内存
复杂控制流程	普通 `for` 循环	易调试、易扩展
执行打印、写入等副作用	普通 `for` 循环	语义正确
性能敏感路径	实际基准测试	不依赖主观判断