V2EX › URL2io 的所有回复 › 第 2 页 / 共 3 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3

❮

❯

2016-10-05 18:18:57 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@dphdjy 这一版的接口是不会变了，有空可以先折腾着 ^_^

2016-10-04 22:16:53 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@xiaoz 感谢使用！会一直做下去的。即使是多台服务器屏蔽 ip 的情况还是会出现，接下去会针对这个可能出现的情况做相应的处理。

2016-10-03 18:28:11 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@20015jjw Pageless 就是个教学示例而已啊 -_-|| ，不过用我们提供的正文提取 API 开发个 send to kindle 的应用也不难。

2016-10-03 14:51:07 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@xiubin 请放心会一直维护的。对于免不免费还没考虑过，还早呢，现阶段只想把产品打磨得更好。

2016-10-02 20:45:08 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@beidouxun 用我们的产品呗，把精力放在你要实现的功能上 ^_^

2016-10-02 15:27:52 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@qianddream 仅从问答上来说，知乎有两类页面：

1. [https://www.zhihu.com/question/49658687]( https://www.zhihu.com/question/49658687) 用来展示提问者的问题，不过同时可包含了许多回答者的解答。形式上可以理解为一篇每个回复都比较长的帖子，正文的概念很弱。结果就是效果不一，无法评判。
2. [https://www.zhihu.com/question/49658687/answer/117123835]( https://www.zhihu.com/question/49658687/answer/117123835) 用来展示回答者对一个问题的解答。形式上可以理解为一篇博客文章，提取这种还是 URL2Article 比较擅长的。

所以，还是看使用者的策略吧，比如：从提问页提取出所有回答的链接，再用 URL2Article 提取出每个回答。

2016-10-02 14:59:16 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@iannil 目前还不支持网页中惰性加载的图片，不过这部分和 URL2Images (开发中) 用到的技术有交叉，所以之后会加上对这个的支持。感谢反馈！

2016-10-01 23:22:03 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@15015613 贴吧、论坛之类的帖子其实可以理解为一篇文章的评论部分，所以从我们的角度来说这些帖子其实是没有正文的 -_-!
不过这种应该算是更广义的正文了，目前我们还没这个精力去做这方面的研究……

2016-10-01 23:10:53 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@livc 我记得以前 V 站有个帖子讨论过，好像是和 desc 有关的

2016-10-01 13:00:51 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@blueset 原来还有这样的技巧，我去试验一下，感谢感谢！

2016-10-01 09:29:55 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@alexapollo @pandachow

我大 V 站的水太深了，以后还请多多指教

2016-10-01 09:23:14 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@missdeer 还在改进中…… 果然我们的样本还是很有限的，感谢反馈！

2016-10-01 09:05:09 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@designer 对，不同的是，把类似于 pocket 的提取功能作为接口提供给开发者了，这样自己都可以做一个 pocket 了。感谢支持！

2016-09-30 22:18:14 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@techmoe 思路点抓得很好，不过页面占比只是众多特征中的一个。如果有相关需求还是推荐使用我们的产品，肯定比自己写的好用 ^_^

2016-09-30 21:11:35 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@Aether 确实是个苦力活儿。你这个建议很不错 ^_^

2016-09-30 17:51:18 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@gujiaxi Pageless 的吗？

将书签的地址改为:

<pre>javascript:location.href = 'http://blog.url2io.com/url2io-app-samples/pageless/?url='+encodeURIComponent(location.href);</pre>

不过 Pageless 用的是演示用的 API 是有频率限制的，可以根据 Pageless 的源码再结合正式的 API 搭建一个。

2016-09-30 17:50:47 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@xvx 这个我在开发时也搜到过，也一直作为比较的对象。效果上来说他这个倾向于于获取更少的正文，所以看上去会简洁一点，不过对于一些奇怪的页面效果就不太好。我这个倾向于获取更多的正文，所以在头部偶尔会将多余的内容卷进来，不过普适性更好，遇到很奇怪的页面都可以提取。其实不同的人对一个页面正文的部分的定义是不同的，要在简洁与普适这两者之间进行权衡。

2016-09-30 17:50:22 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@Aether 习惯性向上卷，哈哈

@pandachow 不是在 readability 的基础上做的，不过 readability 可以说是所有正文提取算法的始祖，所以说和 readability 还是有关系的。

2016-09-30 14:14:10 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@doubleflower 感谢感谢

2016-09-30 13:45:02 +08:00

回复了 URL2io 创建的主题 › 分享创造 › URL2io — 提供简单、强大的网页正文提取服务

@doubleflower 用浏览器方式是指加上 User-Agent 吗？也不行啊。它的内容是靠 js 加载的，也就是说如果浏览器禁用了 js ，那直接用浏览器访问都没有内容。

Google 的爬虫可以收录 JS 和 CSS 内容，用的方法好像也不是全部渲染，不知道怎么实现的......

1 2 3

❮

❯