在2024年Clojure调查中分享您的想法！

Question

持久性集合可以更高效地实现equiv()

提问 Sep 30, 2021 在集合由 Ben Sless
重新标记 Jul 5, 2023 由 alexmiller

我发现持久性集合之间的结构相等性很少做出假设，从而导致实现效率低下，特别是对于数组和映射。

实现的要点是通过方法直接遍历底层数组进行调度。

这些实现可能不是最漂亮的或最符合预期的，但它们是高效的。如果这样实现，在Java中看起来会不同。

我尝试了这些替代实现，并发现速度有显著提升

向量

(let [die (clojure.lang.Reduced. false)]
  (defn vec-eq
    [^PersistentVector v ^Iterable y]
    (let [iy (.iterator y)]
      (.reduce v (fn [_ x] (if (= x (.next iy)) true die)) true))))

当比较向量时，这可以用作向量x列表的算法
当前实现从0到count进行循环，并对每个元素调用nth。每次nth调用都调用arrayFor()，而reduce和迭代器只需每次数组一次。

映射

(let [o (Object.)
      die (clojure.lang.Reduced. false)
      eq (fn [m2] (fn [b k v]
                   (let [v' (.valAt ^IPersistentMap m2 k o)]
                     (if (.equals o v')
                       die
                       (if (= v v') true die)))))]
  (defn map-eq
    [m1 m2]
    (.kvreduce ^IKVReduce m1 (eq m2) true)))

在这里，实现直接遍历底层的数组结构。
当前实现将数组强制转换为seq然后遍历它，同时通过Map接口从其他映射中获取条目。
此实现避免了将映射转换为序列，并且不会分配条目。

序列

当接收者是列表时，与之比较的对象和接收者都将被转换为序列。

使用迭代器将其他集合与它进行比较可能更有效

(defn iter-eq
  [^Iterable x ^Iterable y]
  (let [ix (.iterator x)
        iy (.iterator y)]
    (loop []
      (if (.hasNext ix)
        (if (= (.next ix) (.next iy))
          (recur)
          false)
        true))))

基准测试

使用criterium，vec-eq赢得两种情况。随着大小的增加，收益递减，但n=64时，vec-eq的速度是=的两倍。
map-eq在较大的映射中也更快，速度提高2-3倍，在较小的映射中提高高达10倍。

(doseq [n [1 2 4 8 16 32 64]
        :let [v1 (vec (range n))
              v2 (vec (range n))]]
  (println 'iter-eq n (iter-eq v1 v2))
  (cc/quick-bench (iter-eq v1 v2))
  (println 'vec-eq n (vec-eq v1 v2))
  (cc/quick-bench (vec-eq v1 v2))
  (println '= n (= v1 v2))
  (cc/quick-bench (= v1 v2)))


(doseq [n [1 2 4 8 16 32 64]
        :let [v1 (vec (range n))
              v2 (list* (range n))]]
  (println 'iter-eq n (iter-eq v1 v2))
  (cc/quick-bench (iter-eq v1 v2))
  (println 'vec-eq n (vec-eq v1 v2))
  (cc/quick-bench (vec-eq v1 v2))
  (println '= n (= v1 v2))
  (cc/quick-bench (= v1 v2)))

(doseq [n [1 2 4 8 16 32 64]
        :let [m1 (zipmap (range n) (range n))
              m2 (zipmap (range n) (range n))]]
  (cc/quick-bench (map-eq m1 m2))
  (cc/quick-bench (= m1 m2)))

补充说明
还检查了以下情况

(doseq [n [10000 100000]
        :let [v1 (vec (range n))
              v2 (assoc v1 (dec (count v1)) 7)]]
  (cc/quick-bench (vec-eq v1 v2))
  (cc/quick-bench (iter-eq v1 v2))
  (cc/quick-bench (= v1 v2)))

(doseq [n [100000]
        :let [m1 (zipmap (range n) (range n))
              m2 (assoc m1 (key (last m1)) 7)]]
  (cc/quick-bench (map-eq m1 m2))
  (cc/quick-bench (= m1 m2)))

优化后的实现仍以巨大的优势获胜

评论 Jul 5, 2023 由 alexmiller

3 个回答

Ben Sless · Answer 1 · 2022-01-31T13:35:46+0000

小更新 - 撰写了一些Java代码，使用test.check生成映射，以下是一些结果

 | size | seed |   time before (us) |     time after (us) | improvement |
 |------+------+--------------------+---------------------+-------------|
 |   10 |    0 | 0.7821998686829845 | 0.36678822554200413 |   2.1325654 |
 |   44 |    1 |  4.330622612178792 |   2.103437417654809 |   2.0588312 |
 |   31 |    2 | 3.0628944543188688 |  1.3886572837898974 |   2.2056518 |
 |   21 |    3 |  2.028679128233322 |  0.9572009284455004 |   2.1193869 |
 |   39 |    4 | 3.9265516612189715 |  1.8362321591272501 |   2.1383743 |
 |   18 |    5 | 1.6854334183962798 |  0.8202897942521229 |   2.0546805 |
 |   55 |    6 |  4.908545983501916 |   2.279236807427374 |   2.1535919 |
 |   45 |    7 |  4.464427896621236 |  2.1081167721518987 |   2.1177327 |
 |    6 |    8 | 0.3864066521455632 |  0.1928088585042629 |   2.0040918 |
 |   26 |    9 | 2.7114264338699283 |  1.3179156998000194 |   2.0573595 |
 |   86 |   10 |  8.879776767221973 |   4.380430951657479 |   2.0271468 |
 |   16 |   11 |  1.448846888824073 |  0.6990313285286198 |   2.0726494 |
 |   86 |   12 |  8.340080118652248 |   3.922289043010332 |   2.1263298 |
 |   82 |   13 |  8.249968350056667 |   4.000736723253899 |   2.0621123 |
 |   90 |   14 |  9.004991020408164 |   4.293898687932677 |   2.0971596 |
 |   18 |   15 | 1.8062551014332244 |  0.8815394179030271 |   2.0489783 |
 |   65 |   16 |  6.491169509571479 |   3.130686928716269 |   2.0734010 |
 |    1 |   17 | 0.1196704726877019 | 0.07041214138259107 |   1.6995716 |
 |   12 |   18 | 1.1530046459080272 |  0.6082699042686944 |   1.8955477 |
 |   79 |   19 |  7.466010735312539 |  3.3860477035184937 |   2.2049337 |

实现是equiv的特化

private boolean associativeEquiv(Associative m) {
    for(int i=0;i < array.length;i+=2)
        {
            Object k = array[i];
            IMapEntry e = m.entryAt(k);
            if (e == null)
                return false;
            if(!Util.equiv(array[i+1], e.val()))
                return false;
        }
    return true;
}

private static Object SENTINEL = new Object();

private boolean mapEquiv(Map m) {
    for(int i=0;i < array.length;i+=2)
        {
            Object k = array[i];
            Object v = m.getOrDefault(k, SENTINEL);
            if (SENTINEL == v)
                return false;
            if(!Util.equiv(array[i+1], v))
                return false;
        }

    return true;
}

@Override
public boolean equiv(Object obj){
    if(!(obj instanceof Map))
        return false;
    if(obj instanceof IPersistentMap && !(obj instanceof MapEquivalence))
        return false;

    Map m = (Map) obj;

    if(m.size() != size())
        return false;

    if (m instanceof Associative)
        return associativeEquiv((Associative) m);
    return mapEquiv(m);
}

Thomas Heller · Answer 2 · 2021-10-01T06:16:25+0000

我没有验证你的结果，但你的基准测试范围相当有限，仅测试了基本上的小集合大小。如果你扩大到1,000，10,000，100,000等项呢？

我怀疑，如果你比较真正利用“结构共享”的实现，情况将截然不同。例如，创建一个向量并更新最后一个元素，然后进行比较？这应该是你的实现的最坏情况，但当前的实现却是相当好的。对于映射也是如此。

话虽如此，优化的“reduce”实现相当新颖，在某些地方可能比旧的东西更高效。只是确保在得出结论之前验证更多的场景。

Ghadi Shayban · Answer 3 · 2021-10-01T16:09:24+0000

回答 2021年10月1日由 Ghadi Shayban

在没有连接或不是由应用程序需求驱动的动机下，微优化 PR 很难考虑。这种增强的考虑阈值很高。

顺便说一下，那些实现显然是错误的

user=> (vec-eq [1 2 3] [1 2 3 4])
true
user=> (map-eq {1 2} {1 2 3 4})
true

评论 2021年10月1日由 Ben Sless

评论 2021年10月1日由 Ghadi Shayban

我说以下话时好像有人在欢迎优化

在以前，从应用程序需求或问题陈述的方面来激励优化更有成效，而不是从实现方面。也许我们找到了两倍的性能改进，但这对实际应用总运行时间的0.1%产生影响了。在这种情况下，即使是10倍的改进也不值得投资。（审查是一个巨大的承诺；Fogus、Alex和Rich花了大量时间来严格审查票据）

使用集合作为键或集合成员会使得应用程序变慢，这是真的吗？在这种现实情况下，优化确实很有吸引力，但我怀疑这并不是事实。大约在1.6版本左右，由于在实际应用中遇到了性能问题，哈希实现发生了变化。作为多年来致力于提高Clojure性能的开发者，我的建议是：密切关注问题和应用程序，并从这里开始着手。

不要忽略了正确性——基准测试将无效。使用生成测试来引导兼容性和正确性检查。

话虽如此，我并不是说没有一些潜在的改进。从基于reduce或迭代器的路径转换在历史上非常有帮助。但对可能对应用没有影响的可能性持开放态度。

评论 Oct 3, 2021 by Ben Sless

这很有道理。
至于可能从这次改进中受益的应用程序，我认为规则引擎和core.logic位列首位。
示例
odoyle https://github.com/oakes/odoyle-rules/blob/master/src/odoyle/rules.cljc#L377
Clara
- activation-group-fn: https://github.com/cerner/clara-rules/blob/main/src/main/clojure/clara/rules/engine.cljc#L2113
这里曾用作键的激活组： https://github.com/cerner/clara-rules/blob/main/src/main/clojure/clara/rules/memory.cljc
core.logic: 索引可包含集合的lvars关系 https://github.com/clojure/core.logic/blob/master/src/main/clojure/clojure/core/logic/pldb.clj

在这些示例中，我只分析了odoyle。尽管它仍有优化的空间，但它在pcequiv()中花费的时间约为~10%。

我没有提供“完整”解决方案的原因主要是时间问题。我认为这已经足够说明有巨大的改进空间。然后我会将这个方案展示给核心团队，并期待他们可能给出的以下三种回应之一
1. 良好的发现，但目前不必着急。
2. 继续前进，发送一份包含完整基准测试的完整补丁。
3. 我们自己来解决这个问题。

我不介意任何这些回应，但正如你所说，审查是一个巨大的承诺，对我而言，着手这项工作也将是一项艰巨的任务。我不希望在自己的补丁上投入大量的努力，而这些补丁可能会因为核心团队的工作量过大和问题的优先级较低而在很久之后才被处理。

如果有兴趣，我愿意提供一个完整的补丁和性能测试矩阵。

评论 Oct 4, 2021 by alexmiller

我认为对等优化可能会引起兴趣。我也认为在保持当前泛型性的同时具有挑战性（“泛型性”是一个“几乎没有假设”的同义词），同时还考虑到我们在受控的类型上实现这个特性，例如受控的闭包类型（Java相关内容），以及我们不控制的开型类型（外部Clojure集合）。泛型性与具体的优化（如这种方式）有冲突是很常见的，“具有挑战性”并不意味着不做。:)当然，我认为没有深入了解实际的实现就无法真正参与这个问题，因为你可以看到策略选择如何影响性能，尤其是在小集合中。

正如Ghadi所说，了解这种变化可能对实际内容产生的影响，有助于判断其优先级。当我研究这类内容时，我通常会修改Clojure以收集调用点的分布，然后运行一些东西来查看等号函数被调用的频率及其分布中的类型/大小。看起来你已经做了一小部分，更多的研究将是有用的。

你已经提出了一些实现重写的建议，如果你了解某些内容，这乍一看似乎是合理的选项，但我怀疑根据你可以做出的假设（特定的具体类型、可还原性、可迭代性、可序列性等）有多种选择。我们通常会尝试列举这些内容。

评论 Nov 29, 2021 by alexmiller

在2024年Clojure调查中分享您的想法！

持久性集合可以更高效地实现equiv()

向量

映射

序列

基准测试

请登录或注册后添加评论。

请登录或注册以回答此问题。

3 个回答

请登录或注册后添加评论。

请登录或注册后添加评论。

请登录或注册后添加评论。

类别

在2024年Clojure调查中分享您的想法！

持久性集合可以更高效地实现equiv()

向量

映射

序列

基准测试

请 登录 或 注册后添加评论。

请 登录 或 注册以回答此问题。

3 个回答

请 登录 或 注册后添加评论。

请 登录 或 注册后添加评论。

请 登录 或 注册后添加评论。

相关问题

类别

请登录或注册后添加评论。

请登录或注册以回答此问题。

请登录或注册后添加评论。

请登录或注册后添加评论。

请登录或注册后添加评论。