V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  URL2io  ›  全部回复第 2 页 / 共 3 页
回复总数  45
1  2  3  
2016-10-05 18:18:57 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@dphdjy 这一版的接口是不会变了,有空可以先折腾着 ^_^
2016-10-04 22:16:53 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@xiaoz 感谢使用!会一直做下去的。即使是多台服务器屏蔽 ip 的情况还是会出现,接下去会针对这个可能出现的情况做相应的处理。
2016-10-03 18:28:11 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@20015jjw Pageless 就是个教学示例而已啊 -_-|| ,不过用我们提供的正文提取 API 开发个 send to kindle 的应用也不难。
2016-10-03 14:51:07 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@xiubin 请放心会一直维护的。对于免不免费还没考虑过,还早呢,现阶段只想把产品打磨得更好。
2016-10-02 20:45:08 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@beidouxun 用我们的产品呗,把精力放在你要实现的功能上 ^_^
2016-10-02 15:27:52 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@qianddream 仅从问答上来说,知乎有两类页面:

1. [https://www.zhihu.com/question/49658687]( https://www.zhihu.com/question/49658687) 用来展示提问者的问题,不过同时可包含了许多回答者的解答。形式上可以理解为一篇每个回复都比较长的帖子,正文的概念很弱。结果就是效果不一,无法评判。
2. [https://www.zhihu.com/question/49658687/answer/117123835]( https://www.zhihu.com/question/49658687/answer/117123835) 用来展示回答者对一个问题的解答。形式上可以理解为一篇博客文章,提取这种还是 URL2Article 比较擅长的。

所以,还是看使用者的策略吧,比如:从提问页提取出所有回答的链接,再用 URL2Article 提取出每个回答。
2016-10-02 14:59:16 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@iannil 目前还不支持网页中惰性加载的图片,不过这部分和 URL2Images (开发中) 用到的技术有交叉,所以之后会加上对这个的支持。感谢反馈!
2016-10-01 23:22:03 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@15015613 贴吧、论坛之类的帖子其实可以理解为一篇文章的评论部分,所以从我们的角度来说这些帖子其实是没有正文的 -_-!
不过这种应该算是更广义的正文了,目前我们还没这个精力去做这方面的研究……
2016-10-01 23:10:53 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@livc 我记得以前 V 站有个帖子讨论过,好像是和 desc 有关的
2016-10-01 13:00:51 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@blueset 原来还有这样的技巧,我去试验一下,感谢感谢!
2016-10-01 09:29:55 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@alexapollo @pandachow

我大 V 站的水太深了,以后还请多多指教
2016-10-01 09:23:14 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@missdeer 还在改进中…… 果然我们的样本还是很有限的,感谢反馈!
2016-10-01 09:05:09 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@designer 对,不同的是,把类似于 pocket 的提取功能作为接口提供给开发者了,这样自己都可以做一个 pocket 了。感谢支持!
2016-09-30 22:18:14 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@techmoe 思路点抓得很好,不过页面占比只是众多特征中的一个。如果有相关需求还是推荐使用我们的产品,肯定比自己写的好用 ^_^
2016-09-30 21:11:35 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@Aether 确实是个苦力活儿。你这个建议很不错 ^_^
2016-09-30 17:51:18 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@gujiaxi Pageless 的吗?

将书签的地址改为:

<pre>javascript:location.href = 'http://blog.url2io.com/url2io-app-samples/pageless/?url='+encodeURIComponent(location.href);</pre>

不过 Pageless 用的是演示用的 API 是有频率限制的,可以根据 Pageless 的源码再结合正式的 API 搭建一个。
2016-09-30 17:50:47 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@xvx 这个我在开发时也搜到过,也一直作为比较的对象。效果上来说他这个倾向于于获取更少的正文,所以看上去会简洁一点,不过对于一些奇怪的页面效果就不太好。我这个倾向于获取更多的正文,所以在头部偶尔会将多余的内容卷进来,不过普适性更好,遇到很奇怪的页面都可以提取。其实不同的人对一个页面正文的部分的定义是不同的,要在简洁与普适这两者之间进行权衡。
2016-09-30 17:50:22 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@Aether 习惯性向上卷,哈哈

@pandachow 不是在 readability 的基础上做的,不过 readability 可以说是所有正文提取算法的始祖,所以说和 readability 还是有关系的。
2016-09-30 14:14:10 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@doubleflower 感谢感谢
2016-09-30 13:45:02 +08:00
回复了 URL2io 创建的主题 分享创造 URL2io — 提供简单、强大的网页正文提取服务
@doubleflower 用浏览器方式是指加上 User-Agent 吗?也不行啊。它的内容是靠 js 加载的,也就是说如果浏览器禁用了 js ,那直接用浏览器访问都没有内容。

Google 的爬虫可以收录 JS 和 CSS 内容,用的方法好像也不是全部渲染,不知道怎么实现的......
1  2  3  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1791 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 16:35 · PVG 00:35 · LAX 08:35 · JFK 11:35
Developed with CodeLauncher
♥ Do have faith in what you're doing.