PinnedPinnedPrivate
pashpashpash.substack.com根据我在 vault.pash.city 工作的经验,超过 40%的用户查询都是针对文档的。” 这个用例的受欢迎程度促使我开发了一个新的迷你应用:summarize.wtf Summarize.wtf 允许您上传任何文档——无论是 PDF、txt、ePub 还是 Docx——并生成不同长度的短(推文长度)、中(一个段落)或长(详细和全面)。对于足够短的文档,可以适应LLM(大型语言模型)长上下文窗口——范围从 16,000 到 32,000 个标记,或大约 32-64 页——任务是简单的。在基本层面上,Map-Reduce 是一个两步过程: 首先,文档的各个部分被归纳(地图), 然后,这些小被组合成最终(Reduce)。因此,Map-Reduce 迄今为止是 AI 中最昂贵的方法之一。然后,您可以使用像 K-means 这样的聚类算法来识别这些簇,并从每个簇中提取中心点(或点的集合),以提取代表该主题簇的“平均意义”的代表性块。