mtcrawlee
v0.0.36
Published
爬虫程序,需要一个后台独立运行程序 之前的想法是 nextjs 的 api ,来提供 crawler worker 的数据和控制。但是,发现,nextjs 通常适合前端界面的数据渲染,而要做到对 worker 的实时控制之前的做法是: 使用消息队列。 但是发现,这个设计让整个系统之间的衔接变得复杂。
Downloads
9
Readme
用途
爬虫程序,需要一个后台独立运行程序 之前的想法是 nextjs 的 api ,来提供 crawler worker 的数据和控制。但是,发现,nextjs 通常适合前端界面的数据渲染,而要做到对 worker 的实时控制之前的做法是: 使用消息队列。 但是发现,这个设计让整个系统之间的衔接变得复杂。
现在考虑,使用点对点的方式(其中有一个中心服务点) 要点 1:搭配像 fly.io(256m 内存足够免费持续 运行一个 signal 服务)。 2: 后台可以基于 redis 等作为消息队列,不过,都隐藏在后台内部。而 worker 跟 server 之间的通信,使用 p2p 的方式。 3:前端可以做成纯静态页面(页面可以使用 p2p 的方式直接调用 server 服务,从而控制网内的 worker)
练习使用 libp2p