类库 - Online Tools

sagniklp/doc3D-renderer

该仓库提供基于Blender的渲染代码，用于生成doc3D数据集风格的文档图像。支持自定义网格、HDR光照和纹理，可批量渲染图像、UV坐标、法线及深度图，适用于文档去扭曲等计算机视觉任务的3D数据合成。

Python

129

28

5天前

keepfoolisher/My-DocTr-Plus

这是一个基于DocTr+模型的文档图像几何校正工具。主要用于矫正扭曲的文档图片，支持通过Python脚本运行推理。用户只需放置预训练模型和失真图像，即可生成校正后的结果，适用于文档数字化预处理场景。

Python

44

4

MIT License

5天前

princeton-vl/RAFT

RAFT是用于光流估计的深度学习模型，基于循环全对字段变换。支持在Sintel、KITTI等数据集上训练和评估，提供预训练模型及演示脚本，适用于计算机视觉任务中的运动场计算。

Python

4,071

678

BSD 3-Clause "New" or "Revised" License

5天前

GreatV/DocTrPP

DocTrPP是PaddlePaddle实现的DocTr++模型，用于文档图像矫正（去扭曲）。支持数据准备、模型训练、推理测试及ONNX导出。需安装PaddlePaddle，通过Python脚本运行训练和预测，适用于需要高精度文档图像处理的场景。

Python

57

8

5天前

hoainho/img2threejs

img2threejs将参考图像重建为纯代码生成的程序化Three.js模型。它无需网格文件或下载，通过代码实现高质量、动画就绪且Token高效的重建，直接在浏览器中运行展示3D效果。

Python

1,481

120

MIT License

5天前

KorroAi/mue-x

MUE-X是首个自我进化的AI代理，能实时重写自身源代码。它通过6种AST变异策略持续优化代码，自动吸收GitHub仓库，并具备7种自主驱动力。作为独立CLI工具，支持跨平台运行，实现永不间断的自我迭代与进化。

Python

184

21

MIT License

5天前

googlefonts/picosvg

picosvg是一个Python工具，用于简化SVG文件以辅助字体构建。它将SVG转换为精简格式：仅含一个defs、绝对坐标及完整路径命令，并将裁剪和描边渲染为路径。该库通过命令行或代码调用，依赖Skia处理复杂图形，旨在提升SVG在字体工程中的兼容性与效率。

Python

218

17

Apache License 2.0

1周前

zjunlp/LightMem-Ego

LightMem-Ego是一个面向日常生活的端到端自我中心记忆系统。它支持智能眼镜、网页捕获和在线后端服务，通过流式处理第一人称视觉与音频数据，构建结构化记忆，帮助用户对当前或过往生活场景进行问答交互。

Python

50

7

MIT License

6天前

davep/rogallo

Rogallo 是一款基于终端的 Gemini 协议客户端。支持书签、历史记录、导航及证书管理等功能，兼容 macOS、Linux 和 Windows 系统，旨在提供跨平台的终端浏览体验。

Python

9

0

GNU General Public License v3.0

5天前

bradautomates/claude-video

该工具赋予Claude观看视频的能力。通过下载、提取帧并转录音频，将视觉和听觉信息传递给AI进行分析。支持YouTube链接或本地文件，可回答关于视频内容、结构或特定时间点的详细问题，适用于内容分析和故障诊断。

Python

9,551

1,023

MIT License

5天前

yokel1121/muyang-handdrawn-video

沐阳手绘视频是一个Python工具，输入主题即可自动生成手绘风格动画讲解视频。它整合了文案、分镜、AI绘图、自然配音（Fish/ElevenLabs）、字幕及Remotion动效渲染，支持十种视觉风格和多种排版布局，最终输出MP4成片，提供从一句话指令到完整工程的一站式解决方案。

Python

33

9

MIT License

5天前

perplexityai/wandr

WANDR是一个面向广泛深度研究的基准测试框架，支持结构化、高容量信息的发现、提取与证据合成。项目采用分层架构，包含数据源、适配器、任务包及代理模块，旨在评估模型在复杂信息处理任务中的表现，适用于AI研究场景。

Python

242

26

Apache License 2.0

5天前

fqscfqj/Y2A-Auto

Y2A-Auto是一款Python编写的自动化工具，将YouTube视频搬运至AcFun和bilibili。支持全流程自动化处理，包括下载、AI字幕生成与翻译、内容审核及上传。内置Web管理后台，提供智能监控、多渠道通知及安全特性，支持Docker部署。

Python

2,218

332

GNU General Public License v3.0

5天前

RyjoxTechnologies/Octopoda-OS

Octopoda-OS 是专为 AI 智能体设计的开源记忆与可观测性层。它提供持久化记忆、循环检测、哈希链审计轨迹及实时仪表盘，通过 pip install 即可自动部署，帮助开发者监控和管理 AI 智能体的运行状态与历史数据。

Python

536

80

Other

5天前

facebookresearch/ShapeR

ShapeR是一个基于Python的3D形状生成工具，通过图像序列生成带度量的3D网格模型。它利用多模态输入（SLAM点、图像、姿态）和整流流Transformer，实现从普通拍摄到高精度3D重建的转换，适用于单对象或场景级三维重建任务。

Python

849

61

Other

6天前

类库

文库