你需要的大部份数据都隐藏起来了------ 但是在哪里呢?它们藏在无组织的数据中,和深深的网络中。
随机搜索技术,在用于从网络中取回基本数据的时候是很好用的,或者在确定你硬盘上某个需要文件的位置也很管用。但只有商业智慧(BI:business intelligence) 工具才能对储存在庞大的公司数据库中的信息进行条分缕析。因而,对于知识工作者来说,对于搜索引擎和BI工具的需求同样都在增长。对他们来说,需要被发现并且进行分析的数据触目皆是。
它可能存在于公司的结构化数据库中, 或者,可能在无组织的文件和电子邮件中,也可能存在于普通的网络上,或者存在于不能被普通网络搜索引擎追踪到的众多网络站点上。它存在并隐藏于深深的网络中。
搜索引擎和BI工具的结合
将搜索引擎和BI工具结合,会使事情变得简单起来。无论有组织的或无组织的数据、在普通的网络上或深度网络上的数据,都可经由通用的网络搜索引擎界面接入。让我们假设一下,假如说你想要理解某一特定产品为什么销量下降。你可以从一个客户关系管理数据库(CRM)搜索请求开始, 去测定谁停止了订货。但是你可能还想要发现,那些客户是否发过电子邮件或打过电话,倾诉对产品的抱怨?
这些可能也存在于CRM(客户关系管理)文件中,也可能它被你专门负责与不痛快客户打交道的电话中心的代表们记在了笔记中。
但关键是,你不能通过查看某一种数据资源而得到全面的图景。好消息是你有许多数据来源、有许多工具和许多方法,可以改良得到所需数据的能力。
这篇文章探究搜索引擎和BI工具的结合,这是一个新兴的市场,一些厂商和行业分析家用其他的名字称呼它: 联合搜索,企业搜索,习惯搜索,知识管理和信息接入。无论什么术语,都说明,结合是一个正在成长的趋势。
数据越多,所需要挖掘的数据也越多
举例来说,Endeca ,Fast Search(快速搜索)和其他一些企业正在为自己的,搜索引擎和BI工具的结合能力鼓吹。还有一些企业, 包括Bright Planet(明亮的行星)和Deep Web Technologies(深度网络技术)在内,则提供搜索多样数据库的通用界面。
华盛顿咨询公司“Barquín国际”的首脑及数据仓库学会的第一任会长Ramon C. Barquín说:“"第一个步骤是认识分析家们的现状, 他们是 BI 的传统消费者,他们必须超越他们现有的工具。"
Barquín坚持认为BI 分析家们,知识工作者们和随机的网络搜索者们错过了 "90%甚至更多的本应为他们找到的数据------或者是因为他们不能搜索无组织的公司资源,例如文件和电子邮件,或者是因为他们没有超越普通网络界面的工具。
深度网络(有时被叫做隐藏的网络,或不可见的网络)上的资源,包括这样一些英特网站点,如果你知道网址,你就能拜访它,而且在里面搜索,但是如果不知道网址,这些站点的内容不会被商业网络搜索引擎发现。
一些通常的深度网络站点,包括那些专攻天气数据的站点、航空公司飞行行程安排和价格的站点、股票的站点、专利权的站点,电话号码的站点和更多其它站点。科学研究者和网络开发者要比随机使用者们更清楚,在深度网络中隐藏了多少资源。对于能提升网络搜索宽度和深度的工具,例如Sitemap Protocol, mod oai 和 OAIster等,他们也知道的更多
深度网络搜索公司Bright Planet(明亮的行星)的共同创办人Jerry Tardiff说:“在 2000 年,我们做了一些分析并且发现,来自那些深度网络数据库的文件量远比每个人所说的那个英特网要大的多-------比已知的英特网大200到500倍。"
因此我们需要考虑,这些努力会给我们带来什么,在今天可以利用它做什么?并且,我们在不久的将来内能期望得到什么?
横跨两个领域的共同梦想
任何人都想从每次搜索中得到尽可能多的数据,这貌似合乎逻辑,真实不是那么简单的。个人事物、商业策略和技术使这个场景变得复杂起来。举例来说, BI 和搜索,传统上分属于二种不同类型的使用者,他们各操作各的工具。
"对于一个正在进行广告搜索的随机使用者来说,他想在搜索中,将无组织的数据和有组织的数据联合起来。而应用有组织的BI界面是完全错的。" Forrester 研究机构的分析家 Boris Evelson说: "对于这些使用者,搜索引擎提供了更好的应用。"
在这种情况下,最好是应用一个,能在后端对有组织和无组织的数据均进行梳理、而且可将结果显示在单一窗口的搜索引擎。这样的产品可从 Endeca 和FAST那里获得。同时 , 一些网络搜索引擎,例如 Alacra , CloserLookSearch 和Northern Light,也正致力于为企业开发这项技术。
另一方面, Evelson 继续说道, 简单搜索的样本例子是“不需要为责任沉重的分析家工作, 分析家需要对数据切片、整理、将数据整合 (依照某领域或种类做数据概述),从摘要深化到细节,从一个维度跳跃到另一个维度。"
Evelson又补充说,这些使用者需要一个传统的 BI界面,就象Business Objects或 Cognos的产品那样,特别是假如他们想要 "跨越时间分析出一个模式, 接着再跳跃一步,跨越地域分析出一个模式, 然后将二者联合,看看其中一个是如何影响另一个的。"
BI 工具能产生文本搜索所不可能达到的理解深度,但是由于潜在数据库的坚硬结构,它们的洞察力也被限制了。相反地,文本搜索不受BI"规则"的强制,也不受BI所运行的数据结构的限制。二者结合的目标是:让人们能对无组织数据进行信息挖掘和BI分析,让人们对有组织数据做随机搜索。
BI 和搜索结合所取得的进展
一些公司藉由让一般的职员(不仅仅是分析家)放手使用 BI 工具而获得新的洞察力。举例来说,Labarge,一个电子元器件制造商, 将 IBM的Websphere 和数据建设工具这样的BI 前端,放置在公司的企业资源计划(ERP) 系统上的主框架内,使得数以百计的职员可以直接使用这款工具。而先前职员们不得不仰赖IT人员为他们做报告。
依照信息运营长官George Hayward 的话,既然职员们自己正在直接与数据打教导,他们对数据关系的理解会更好。并且学会了把数据当整体看待,而不是把数据当作一系列的报告。
"他们能够采用过去根本想不到的方法,来对多种数据源进行多层次的搜索请求"他说. "他们能够提出更好的问题,而且能够自己得到答案。"
有组织数据和无组织数据的差别显而易见。商业机构们正采取多种方法,力图从结构化数据和无组织数据中,找到信息并且联合信息。一种方法是给使用者一个单一的搜索界面, 然后将搜索请求,分离为数据库请求和另外要调用其它资源的搜索请求。这些要调用的资源可能包括自己的硬盘,公司储存网络,或互联网。接着,搜索结果被整合后,将对使用者做单一显示。
另外一种方法是无组织的文本文件、或者有关的数据,加入到数据存储仓库中。然后,只对存储仓库做单一搜索查询。第三种方法, 对于那些拥有成百上千报告的商业机构们,是有用的。这种方法就是,对通过公司搜索引擎能够发现的报告进行描述,以便让使用者在必要的时候能够接触到完整的报告。举例来说,去年秋天,Hyperion公司(现在属于甲骨文公司)宣布的为它的系统搜索工具增加一个插件,允许对Google OneBox 所储藏的Hyperion公司数据进行综合搜索。
尽管BI 和搜索的整合正在进行,搜索功能的一些优点不能被忽略。这些优点,任何使用最弱搜索引擎的人都能告诉你。在从数据库中找出所有"黑" 或 "白" 单词,与只找黑色或白色的widget,或者找出姓"黑" 或 "白"的人,这中间是有很大不同的。公司分析家,研究员和知识工作着想要找的是与“他们有关的所有事情”,而不是“所有事情”。
全企业搜索
根据英特网资料中心(IDC)分析家Sue Feldman的说法:“有调查显示,完全的企业搜索已经屡次成为受调者心中最具优先权的考虑事项。她说,"在过去的两年中(当企业发现他们的决策系统一直在忽略内容层面的时候),它已经变得更加重要了。 "
所谓 "内容," Feldman 指的是存储在内容管理系统(而非数据管理系统)中的资料,如文本数据,HTML 文件和其他的材料。 "很多时候,最重要的商业数据是无组织的或半结构化的。"她继续说.
对于无组织的或半结构化的数据的挖掘方法之一,就是应用联合搜索引擎。联合搜索引擎能同时运行针对好几个数据库的搜索请求。使用者输入一个单一搜索术语, 并且选择搜索哪一个数据库。搜索引擎包含必需的API (应用程序界面),方便在适当的数据库上运行这些搜索请求。
举例来说,Bright Planet (DQM) 搜索引擎,能对 70,000个公众数据库,以及商业机构内部数据库运行搜索请求。Lawrence Livermore 国家实验室的一位计算机科学家,David Fuess说,他们集团应用DQM搜索引擎,能为美国厂商寻找到军民两用出口限制品的非美国使用者。但是,他说:“尝试在自己的身上建立联合搜索可能是令人畏缩的.
"你必须首先了解你愿意运行的搜索请求类型,并且要了解,如何在每一个你想要使用的资源上引导他们,"他说. "最大的问题在于,发现可用的深度网络资源,并且了解每一个界面。"
Bright Planet帮助Fuess省去了麻烦.。因为它已经装配好了许多可用来源了,而且作为DQM 的一部份,建立了必需的链接。除了使在不同数据库上进行的搜索变得更容易以外,DQM 也允许使用者在设定的时间间隔内,进行相同的搜索询问,而搜索引擎只会呈现最新的、或最近更新过的数据------这样用户就不必每次都阅读相同的材料。
"Google 使搜索看起来简单,"Fuess 说,"但是事实上当对完整性做要求的时候,搜索就不那么简单了。使用类似 DQM的服务有助于认清这一点。如果某处有相关的数据可用,我们能够创造最大的机会去发现它。"
商业应用
依照 Forrester'机构的Evelson的说法,混合了BI 与搜索引擎的商业应用,仍然是很敏感的话题。很少有企业是乐意完全地讨论他们在这个领域中的所作所为。然而,毕竟还是有一些企业愿意谈谈的。
举例来说,一个总部在圣路易斯化学公司Sigma-Aldrich, 使用 Endeca的搜索技术,为客户提供关于他们产品的最新资讯。用户搜索或点击一种化学药品的目录,就可得到关于它的描述、分子式、图表和价格、是否有存货中和存储在哪个仓库中、它的物质安全数据说明 (MSDS) 和其他的相关数据.
"如果某人从 Sigma Aldrich 搜索一种药学产品, 他们也将需要了解真实性证明和原产地证明。"信息总监 Carl Turza说, "如果他们要针对这两项进行分开搜索,那么我们就是在浪费用户的时间。."
除在站点上发布和运营,他还计划在企业内部全面扩张 Endeca的使用,包括客户服务和商业智慧部门。
"因为我不需要预测这些搜索请求,我只要能够指出针对现有内容可用的工具,让我的内部产品经理搜索它,并且了解它,而且让缺陷暴露出来就可以了。"他说. "当人们开减弱网络基础的搜索应用时,真正的价值就显现了。"
同时,还有一个例子。国家教育协会 (NEA) 有四个甲骨文数据库。其数据库包含14000个联盟站点和32万参与者的会员记录、财政和法律信息。它应用FAST的雷达“搜索/BI”产品,在数据仓中挖掘信息。
NEA的财政的和会员服务经理Bill Thompson说:"我们有许多数据,非常希望能找到正确的数据,并且以一种可以理解的方式展现出来。它可能是一张记分卡,一个曲线图,一个速度计。为了使数据能以最好的方法呈现给使用者,无论什么形式都可能。"
这样的应用正在发展并且初露峥嵘, 今年晚些时候,“搜索/BI”功能就可能比较完备了。
挖掘无组织的数据
这些工具仍然很新,但是有可能,只是“数据获得和分析”进化过程中的一个中间步骤。例如FAST,刚于去年购买了Radar产品,并与信息组建公司Cognos和其它一些公司建立了合作伙伴关系。BI厂商Cognos, Hyperion, Information Builders, and SAS则支持Google为企业提供的OneBox服务。利用OneBox,可对数据库进行搜索。
最终结果可能是,这些BI/搜索解决方案最终与数据库本身融合在一起。据传,微软 (那斯达克: MSFT)想购买雅虎。Forrester的 Evelson 预计,数据库厂商最终将会远离他们现在的关系结构,而向以搜索为基础的关系结构靠拢, 这样才能比较好的解决无组织数据的问题。
"最新版的关系数据库能处理XML(可扩展标示语言),但是那只是另一种结构化数据,"他说. "他们不能处理那些真正地无组织数据,如字处理文件中随意的文本和电子邮件。然而,数据库搜索引擎对于类似的东西将有完美的表现,而且在这些搜索引擎中嵌入结构化数据搜索功能。"