http缓存机制是怎么样的？

Edited on 2025-01-06 Waline:

HTTP 的缓存机制旨在提高 Web 性能，通过减少不必要的网络请求、降低延迟和节省带宽。它利用缓存来存储服务器响应的副本，供后续请求使用。以下是 HTTP 缓存机制的基本工作原理和关键组件：

缓存的基本概念:
- 缓存 (Cache) 是存储在客户端（如浏览器）、代理服务器或其他中间设备上的一份资源的副本。缓存机制可以避免重复请求相同的资源，减少服务器负载和网络流量。
缓存位置:
- 浏览器缓存 (Client-Side Cache): 由浏览器存储的缓存，用于快速加载用户先前访问过的网页和资源。
- 代理缓存 (Proxy Cache): 位于网络中间层的缓存服务器，可能会为多个用户存储常见资源。
- 服务器缓存 (Server-Side Cache): 服务器端缓存，可能在多个请求间重复利用资源。
缓存控制:
- HTTP 头 (HTTP Headers): HTTP 协议通过头部字段来控制缓存行为，常见的字段有 Cache-Control、Expires、ETag、Last-Modified 等。
缓存相关的 HTTP 头字段:
- Cache-Control:
  - 控制缓存的主要指令。它可以指定资源是否可以缓存、缓存的最大时长、缓存的公共性等。
  - 常见指令：
    - no-cache: 每次使用资源前必须向服务器进行重新验证。
    - no-store: 不允许缓存，不存储响应数据。
    - max-age=: 指定资源可以被缓存的最长时间（以秒为单位）。
    - public: 允许任何缓存保存响应（如浏览器、代理服务器）。
    - private: 只允许特定用户的缓存保存响应（通常是浏览器）。
- Expires:
  用于指定资源的过期时间（绝对时间）。一旦超过该时间，缓存将被视为过期，必须重新从服务器获取资源。通常不推荐使用，因为它依赖于客户端时间设置，容易出错。Cache-Control: max-age 更常用。
- ETag (Entity Tag):
  由服务器生成的资源唯一标识符，用于验证资源是否发生改变。客户端请求时会携带这个标识符，服务器比较后确定资源是否需要重新发送。如果资源未变动，服务器会返回 304 Not Modified，指示客户端可以使用缓存版本。
- Last-Modified:
  指示资源最后一次修改的时间。客户端请求时可以使用 If-Modified-Since 头部来询问服务器资源是否自该时间后被修改，如果没有修改，服务器返回 304 Not Modified。
- Vary:
  指定缓存服务器如何判断不同的请求是否应该使用同一缓存响应。比如 Vary: User-Agent 意味着服务器会基于用户代理来区分缓存的响应。
缓存流程:
1. 首次请求:
  - 当用户首次请求某个资源时，浏览器将请求发送给服务器，服务器响应并将资源存储在缓存中，供未来请求使用。
2. 后续请求:
  - 在后续请求中，浏览器首先检查缓存中是否有已存储的资源副本。
  - 如果缓存副本未过期（根据 Cache-Control 或 Expires），直接使用缓存资源。
  - 如果缓存副本过期或标识需要重新验证（no-cache），浏览器会向服务器发送条件性请求（携带 ETag 或 Last-Modified 信息）。如果资源未改变，服务器返回 304 Not Modified，浏览器使用缓存资源；否则服务器发送新的资源内容。
3. 条件请求:
  - 条件请求是指客户端通过 If-None-Match（携带 ETag）或 If-Modified-Since（携带最后修改时间）请求资源，服务器会根据这些条件判断资源是否需要重新传输。
缓存的优缺点:
- 优点:
  - 提高网站加载速度，减少带宽消耗。
  - 减轻服务器负载。
- 缺点:
  - 缓存失效控制复杂，可能导致用户看到旧版本内容。
  - 不适用于动态变化频繁的内容。

总结

HTTP 缓存机制通过 Cache-Control、ETag、Last-Modified 等 HTTP 头字段，灵活地管理资源的缓存行为。它可以显著提升 Web 性能，减少网络请求量，但需要精细的配置以确保缓存的正确性和有效性。