本论坛系统只供浏览,已不能发帖,欲发帖请通过bbs.xdnice.com登录,给您带来的不便,敬请谅解!
好学习 天天上 —— 好网xdnice.com
xdnice
切换浏览模式
好网[好好学习·天天上网]『活动专区』好网事 → 智•火花-Z•Spark搜索引擎开源项目,欢迎你的加入!

关闭 帖子评论
选取类型: 中立 支持 反对
观点标题:
验证码: 验证码,看不清楚?请点击刷新验证码
观点内容:
(不支持HTML)
  1. 请以客观、真实地作出评论,并注意语言文明;
  2. 观点发表后不能作出更改;
您是本帖的第 20689 个阅读者
树形 打印
标题:

智•火花-Z•Spark搜索引擎开源项目,欢迎你的加入!

ZessonZhang
帅哥哟,离线,有人找我吗?
等级:管理员
文章:6
精华:0
经验:71
金钱:74
金币:10
注册:2007年8月25日
楼主
 
发贴心情
智•火花-Z•Spark搜索引擎开源项目,欢迎你的加入!       


点击可在新窗口打开查看此主题相关图片如下:zspark.gif
点击可在新窗口打开查看

智•火花  Z•Spark

好网搜索与数据挖掘开源工程 – 智•火花 (Z•Spark)

工程介绍:
智•火花 (Z•Spark) 是好网搜索与数据挖掘开源工程的名称。“智•火花”是其中文名称。“Z•Spark” 是其英文名称。这个工程是一个开源工程,是可扩展的中文Web网页的搜索与数据挖掘工程。是一个中文垂直搜索与数据挖掘的开源工程。

工程目标:
最终希望通过Z•Spark完成下面的目标:
1.Z•Spark可以轻松的在单服务器上,在中小型数据域上建立智能索引和垂直搜索引擎。
2.Z•Spark支持可扩展性,支持分布式数据处理,可以轻松的把一台服务器加入到Z•Spark的集群中,Z•Spark可以在大型海量数据上一样高速高效的工作,建立智能索引和垂直搜索引擎。

工程背景信息:
Z•Spark 完全基于开源项目。其实是对现在这个领域中开源项目的一次中文支持的整合。Z•Spark依托于下面的开源工程:
1. Lucene
http://lucene.apache.org/ 索引与搜索开源工程。
2. Nutch
http://lucene.apache.org/nutch/ 基于Lucene的垂直搜索引擎开源工程。
3. Hadoop
http://hadoop.apache.org/core/ 类似与Google File System的分布式文件与数据处理开源工程。
4. Heritrix
http://crawler.archive.org/ 网页抓取开源工程。
5. NutchWAX
http://archive-access.sourceforge.net/ 使Nutch可以在ARC文件上建立索引。
6. Paoding
http://code.google.com/p/paoding/ 中文分词器。
7. Compass
http://www.compass-project.org/ 一个搜索引擎框架。

Z•Spark 希望基于上面的这些开源工程,搭建一个支持中文的垂直搜索引擎。

Z•Spark 成员如何沟通
Z•Spark 现在主要通过成员的邮件地址进行沟通,当Z•Spark基本上可推出0.1版本的时候会,会去sourceforge.net申请开源工程,现在只在Google申请了Z•Spark的讨论区
http://groups.google.com/group/zspark

Z•Spark “Hello World”
你可以在下面的地址Download到Z•Spark所需要的所有背景工程,同时其中大部分工程中都加入了一个build.bat Windows下的build批处理。你可以在Windows平台下进行对应你JRE的Build。运行一下这些背景工程。

http://zhangsichu.com/zspark/

加入Z•Spark
如果你热爱编程。每天早上当手指触摸到键盘的时候,当屏幕进入编程IDE环境的时候,如果你感觉你在告诉你说 Yeah. It’s my world, it’s my show time. 那么Z•Spark 将会是 It’s our world, we build our platform to show ourselves.

    >> 如果你对搜索引擎技术感兴趣,想要对搜索引擎进行更加深入的学习和研究,平时花费很多的时间在网上学习知识和获取经验。Z•Spark 很适合你。

    >> 如果你熟悉 OOP 面向对象程序设计,熟悉 Java 语言 ,Eclipse 等IDE开发环境,Z•Spark 很适合你。

    >> 如果你符合上面的条件,Z•Spark 欢迎你的加入。请下载并填写下面的表格发送到 zspark@xdnice.com
  

点击可在新窗口打开查看点击浏览该文件








  • 温馨提示:若无好网管理员特别声明,帖子内容仅为网友观点,不代表好网立场,请网友自辨其内容真实与否!
好评帖
帖子排行
ip地址已设置保密
2008-7-7 15:19:00
引用 | 回复 回到顶部
████←刮开有奖
帅哥哟,离线,有人找我吗?
头衔:我爱一条柴
等级:从五品御史
文章:770
精华:0
经验:810
金钱:1607
金币:0
注册:2008年5月30日
2
 
发贴心情
    

sf

点击可在新窗口打开查看



×××我爱你!!!!
ip地址已设置保密
2008-7-9 19:09:00
引用 | 回复 回到顶部
niceren
帅哥哟,离线,有人找我吗?
头衔:饿了就吃
等级:南院大王
文章:20899
精华:10
经验:38403
金钱:76746
金币:317
博客:☞好人博客☜
最新:不停息……
注册:2005年8月22日
3
 QQ | | 主页
发贴心情
    

我  就是  搞 J2EE的 

 

 

对 JAVA已经不感兴趣了 编程  太累人  低级程序员  没有好日子

点击可在新窗口打开查看


QQ    512101861
Email  niceren@126.com
MSN   niceren@msn.com
Space niceren.spaces.live.com
ip地址已设置保密
2008-7-15 13:18:00
引用 | 回复 回到顶部
cissy6688
美女呀,离线,留言给我吧!
等级:从九品巡检
文章:131
精华:0
经验:158
金钱:451
金币:0
注册:2008年7月2日
4
 
发贴心情
    
有时间限制?

ip地址已设置保密
2008-7-15 13:48:00
引用 | 回复 回到顶部
浪子余杰
帅哥哟,离线,有人找我吗?
等级:从五品御史
文章:704
精华:0
经验:782
金钱:814
金币:31
注册:2007年1月12日
5
 
发贴心情
    
up

ip地址已设置保密
2008-7-16 15:55:00
引用 | 回复 回到顶部
nicexplorer
帅哥哟,离线,有人找我吗?
头衔:头衔
等级:管理员
威望:10
文章:2404
精华:1
经验:109011
金钱:377527
金币:133
博客:eXplorer
注册:2004年6月6日
6
 
发贴心情
    
以下是引用cissy6688在2008-7-15 13:48:00的发言:
有时间限制?

目前暂未定时间限制



桃李不言,下自成蹊
ip地址已设置保密
2008-7-21 16:09:00
引用 | 回复 回到顶部
客人(219.145.*.*)
7
 
发贴心情
    
vfdgs 

ip地址已设置保密
2008-7-22 16:04:00
引用 | 回复 回到顶部
鸵鸟笨行
美女呀,离线,留言给我吧!
等级:从九品巡检
文章:116
精华:0
经验:402
金钱:164
金币:8
注册:2005年2月3日
8
 
发贴心情
    
程序这东西.好多年前,还搞的懂.现在直接看不懂.哎.白白浪费我那么多年的青春了

ip地址已设置保密
2008-7-22 23:10:00
引用 | 回复 回到顶部
doudouL
帅哥哟,离线,有人找我吗?
等级:布衣
文章:21
精华:0
经验:136
金钱:101
金币:8
注册:2005年6月12日
9
 
发贴心情
    

晕,使用hadoop,你觉得需要这么重型的武器吗?这个是一个分布式计算平台,一般是用来做巨型数据处理的,尽管搭建这样的环境很容易,但是在我们能够轻松获得多核多路机器的情况下,请楼主考虑是否必要。点击可在新窗口打开查看

其实整个搜索引擎最难的地方有两个,第一个是蜘蛛,第二个是切词,其次才是那些索引什么的。所以我建议还是集中在蜘蛛以及切词上。还有,你是打算使用java吗?请考虑一下效率问题吧,同时你们准备使用什么平台呢?linux还是windows?至于你说的希望能够很容易的加入新的服务器,我想这个问题连google,baidu这样的公司都还是没有解决好的吧,除非你的搜索引擎可以完全部署在一台机器上,否则一旦出现了分层,呵呵,增加服务器就意味着索引的切分,还可能意味着数据的切分。如果只是希望做成小型的搜索引擎,这个问题我建议最好回避。点击可在新窗口打开查看

对了,那么多参考,我想,就算只是读完那些代码甚至只是文档,都不是一件容易的事情吧?点击可在新窗口打开查看

另外,你把这个定义为开源,并且号召大家加入,是想大家免费给你们工作?点击可在新窗口打开查看

若观点有误,请斧正。


ip地址已设置保密
2008-7-24 10:26:00
引用 | 回复 回到顶部
ZessonZhang
帅哥哟,离线,有人找我吗?
等级:管理员
文章:6
精华:0
经验:71
金钱:74
金币:10
注册:2007年8月25日
10
 
发贴心情
    

>>使用hadoop,你觉得需要这么重型的武器吗?
这是根据应用场景的需要来决定的。如果确实需要在大型数据上进行快速的索引操作确实需要。

>>搜索引擎最难的地方有两个,第一个是蜘蛛,第二个是切词,所以我建议还是集中在蜘蛛以及切词上。还有,你是打算使用java吗?请考虑一下效率问题吧。

蜘蛛 方面是基于Heritrix 和 Nutch 这两个工程来。 其中已经有很多垂直搜索引擎是基于Nutch来搭建的。
Public search engines using Nutch http://wiki.apache.org/nutch/PublicServers 在这个页面你可以看到使用Nutch技术搭建的搜索引擎。Heritrix 和 Nutch 在网页抓取方面已经非常领先了。

分词 方面是基于Paoding,JE分词也不错可是没有开源。中文分词技术上,可以提供源代码开源使用的可能也就Paoding比较好了。

为何使用Java?首先这些背景工程都是使用Java写的,在开源领域很多资源都是使用Java来编写的。 google的很多东西也是使用Java来写的。使用Java可以复用更多的资源,站在巨人的肩膀上可以让我们省很多力气,看的更远一些。其次Java虚拟机的特性可以方便的支持跨平台,解决平台兼容性的问题。效率上Java毕竟是字节码,但Java现成资源多优势是无法抗拒的。

>>增加服务器就意味着索引的切分,还可能意味着数据的切分。
增加服务器上, hadoop 工程在做这方面的工作了。并且已经支持了 2000个节点的部署 http://hadoop.apache.org/core/docs/r0.17.1/quickstart.html 不过hadoop 只通过了 GNU/Linux 下的测试。 在windows下没有测试。在是否多服务器上,还是看应用场景的需要,如果需要,可以使用Linux下的服务器集群。如果不需要,只在小数据上应用,完全可以使用单台服务器。单台服务器上Linux和Windows都可以胜任。 具体的服务器集群,分布式数据处理的工作 hadoop已经做的非常好了。

>>我想,就算只是读完那些代码甚至只是文档,都不是一件容易的事情吧?
确实每个工程都需要学习代码和文档。 但是当你看到报名的表格的时候就会明白了,不是每个人都需要学习和了解所有的东西。是根据自己的兴趣自己选择安排的。在自己学习掌握自己部分的基础上大家进行交流沟通,共同搭建一个支持中文的搜索引擎。 并不是让一个人搞定所有事情。

>>你把这个定义为开源,并且号召大家加入,是想大家免费给你们工作?
开源的定义:
http://en.wikipedia.org/wiki/Open_source

Open source is a development methodology,which offers practical accessibility to a product's source (goods and knowledge). Some consider open source as one of various possible design approaches, while others consider it a critical strategic element of their operations. Before open source became widely adopted, developers and producers used a variety of phrases to describe the concept; the term open source gained popularity with the rise of the Internet, which provided access to diverse production models, communication paths, and interactive communities.

The open source model of operation and decision making allows concurrent input of different agendas, approaches and priorities, and differs from the more closed, centralized models of development.The principles and practices are commonly applied to the development of source code for software that is made available for public collaboration, and it is usually released as open-source software.
更加具体的定义 可以继续在 维基百科上找到。
开源 open source 是沟通和运作的一种方式。从Internet得到知识,同时把自己的成果也贡献给Internet.
每个做ZSpark的人都是想做一个好的中文搜索引擎。所得成果也会贡献给Internet贡献给所有人。 这个才是ZSpark开源的意义。


ip地址已设置保密
2008-7-25 15:42:00
引用 | 回复 回到顶部

  
智•火花-Z•Spark搜索引擎开源项目,欢迎你的加入!
发贴表情
字体颜色 字体背景颜色 粗体 斜体 下划线 超级连接 插入图片 Flash图片 realplay视频文件 Media Player视频文件 引用 清理代码 生成一个财付通交易信息
显示:
预览
回复标题
上传表单
字节.




关于我们 Copyright © 2003-2008 XdNice.Com All rights reserved.
陕ICP备05005642号
Powered By Dvbbs Version 7.1.0 Sp1
声明1:作者发表文章则认同与好网达成
《总版规协议》,一切违反协议内容的行为将由作者负责。
声明2:好网仅为文章内容的托管者,与文章的作者无关,不对其内容负责,不代表作者发表的任何观点。
声明3:本页面绝不会投放任何形式的病毒或木马,如果您遇到类似现象,请往意见建议版反映。

感谢 中广传媒、西安朗讯、中国教育和科研计算机网络信息中心 为本站提供公网和教育网带宽