设为首页收藏本站

八达网

 找回密码
 注册
查看: 452|回复: 8
打印 上一主题 下一主题

有人懂编程吗?网络爬虫(采集器)怎么写?

[复制链接]

228

主题

0

好友

4929

积分

飞龙

跳转到指定楼层
1
发表于 2012-5-22 06:47 |只看该作者 |正序浏览
本帖最后由 emucxg 于 2012-5-22 06:47 编辑

最近想做个网站,一开始想赚点pr


大概思路是,先采集文章,然后分别把标题和内容添加到sql数据库里

每隔一段时间更新一次

以前没弄过采集器,不太懂啊
1

查看全部评分

1656

主题

0

好友

17万

积分

黑暗执政官

2013年夜饭

9
发表于 2012-5-22 17:26 |只看该作者
本帖最后由 新建文件夹 于 2012-5-23 11:00 编辑

我本科的时候就做过这个玩意。
网页先下载到本地,然后分析里面的链接,放入数据库列表中。
继续按列表中的链接下载。
p1555554121.jpg
待会把她带到我房间
回复

使用道具 举报

210

主题

0

好友

4万

积分

光明执政官

8
发表于 2012-5-22 15:22 |只看该作者
wiki 列大把啊
Open-source crawlers
Aspseek is a crawler, indexer and a search engine written in C++ and licensed under the GPL
DataparkSearch is a crawler and search engine released under the GNU General Public License.
GNU Wget is a command-line-operated crawler written in C and released under the GPL. It is typically used to mirror Web and FTP sites.
GRUB is an open source distributed search crawler that Wikia Search used to crawl the web.
Heritrix is the Internet Archive's archival-quality crawler, designed for archiving periodic snapshots of a large portion of the Web. It was written in Java.
ht://Dig includes a Web crawler in its indexing engine.
HTTrack uses a Web crawler to create a mirror of a web site for off-line viewing. It is written in C and released under the GPL.
ICDL Crawler is a cross-platform web crawler written in C++ and intended to crawl Web sites based on Web-site Parse Templates using computer's free CPU resources only.
mnoGoSearch is a crawler, indexer and a search engine written in C and licensed under the GPL (Linux machines only)
Nutch is a crawler written in Java and released under an Apache License. It can be used in conjunction with the Lucene text-indexing package.
Open Search Server is a search engine and web crawler software release under the GPL.
Pavuk is a command-line Web mirror tool with optional X11 GUI crawler and released under the GPL. It has bunch of advanced features compared to wget and httrack, e.g., regular expression based filtering and file creation rules.
PHP-Crawler is a simple PHP and MySQL based crawler released under the BSD. Easy to install it became popular for small MySQL-driven websites on shared hosting.
the tkWWW Robot, a crawler based on the tkWWW web browser (licensed under GPL).
YaCy, a free distributed search engine, built on principles of peer-to-peer networks (licensed under GPL).
Seeks, a free distributed search engine (licensed under Affero General Public License).

不过这个年代还用 sql 处理 crawler 数据是不是太落伍了点
I went to the woods because I wished to live deliberately, to front only the essential facts of life, and see if I could not learn what it had to teach, and not, when I came to die, discover that I had not lived.
回复

使用道具 举报

228

主题

0

好友

4929

积分

飞龙

7
发表于 2012-5-22 15:08 |只看该作者
解晓东 发表于 2012-5-22 09:30
呵呵,php可是做不了爬虫啊。要从dns上面下载网站地址列表,然后从各个网站下载html,然后迭代提取网站的链 ...

嗯,我有时间研究研究。谢谢
回复

使用道具 举报

204

主题

0

好友

3万

积分

大和

6
发表于 2012-5-22 09:30 |只看该作者
本帖最后由 解晓东 于 2012-5-22 09:31 编辑

呵呵,php可是做不了爬虫啊。要从dns上面下载网站地址列表,然后从各个网站下载html,然后迭代提取网站的链接。自己下载基本搜索引擎的书看看吧。
回复

使用道具 举报

447

主题

3

好友

4140

积分

飞龙

5
发表于 2012-5-22 09:18 来自手机 |只看该作者
用php很简单,两个函数搞定
回复

使用道具 举报

10

主题

0

好友

2万

积分

大和

4
发表于 2012-5-22 08:20 |只看该作者
我一个朋友做了个类似的电影网站,也没啥意思
国建身价大于5毛
回复

使用道具 举报

237

主题

1

好友

5万

积分

光明执政官

浪是一种天赋    2是一种美德

3
发表于 2012-5-22 07:44 |只看该作者
IT码农真屌丝
面似银盆,吃相惨烈
回复

使用道具 举报

25

主题

0

好友

6万

积分

仲裁者

好的,文西

2
发表于 2012-5-22 07:42 |只看该作者
本帖最后由 PnZ.Billy_Cren 于 2012-5-22 07:42 编辑

试试火车采集器
我发克,我的气怎么是负的??
我发克,我的气怎么是负的??
我发克,我的气怎么是负的??
我槽,最近有点跳啊,要低调,低调。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

手机版|Archiver|八达网    

GMT+8, 2026-2-2 12:40

Powered by Discuz! X2.5

© 2001-2012 Comsenz Inc.

回顶部