作者
Annie Badman
Staff Writer
IBM Think
Matthew Kosinski
Staff Editor
IBM Think
数据集概述
数据集是通常以表格、数组或特定格式(例如 CSV 或 JSON)组织的数据集合,以便于检索和分析。数据集对于数据分析、机器学习 (ML)、人工智能 (AI) 和其他需要可靠、可访问数据的应用程序至关重要。
当今,组织从各种来源收集大量数据,包括客户互动、金融交易、IoT 设备和社交媒体平台。
为了释放所有这些数据的商业价值,通常必须将其组织成数据集,即经过组织的集合,使信息可供分析和应用。
不同类型的数据集以不同的方式存储数据。例如,结构化数据集通常会将数据点排列在具有已定义行和列的表中。非结构化数据集可以包含多种格式,例如文本文件、图像和音频。
虽然并非所有数据集都涉及结构化数据,但它们总是具有一些通用结构,无论是确定的模式还是半结构化数据格式(如 JSON 或 XML)中松散组织的语法。
数据集的示例包括:
客户服务数据集跟踪支持互动和解决方案。制造数据集监控设备性能指标。用于分析交易模式和消费者行为的销售数据集。衡量营销活动有效性和参与度的营销数据集。
组织经常会使用并维护多个数据集,以支持各种业务计划,其中包括数据分析和商业智能 (BI)。
其中,大数据尤其依赖于海量、复杂的数据集来提供价值。如果使用大数据分析进行适当的收集、管理和分析,这些数据集则可帮助揭示新的洞察信息并实现数据驱动式决策。
近年来,人工智能 (AI) 和机器学习的兴起进一步增加了对数据集的关注。组织需要大量且组织良好的训练数据,来开发准确的机器学习模型并完善预测算法。
根据 Gartner 的数据,61% 的组织表示由于 AI 技术的影响,它们必须更新或重新思考其数据与分析运营模式。1
最新的 AI 新闻 + 洞察分析
在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。
立即订阅
数据集是什么,以及不是什么
“数据集”一词虽常被广泛使用,但某些特性却决定了数据集合是否会形成数据集。通常,数据集具有 3 个基本特征:变量、架构和元数据。
变量表示数据集中正在研究的特定属性或特征。例如,在销售数据集中,变量可能包括产品 ID、价格和购买日期。变量通常用作机器学习算法和统计分析的输入。
模式定义数据集的结构,包括变量之间的关系和语法。例如,表格数据集的模式可能概述数据集的格式和列标题,例如“日期”、“金额”和“类别”。JSON 架构可以描述嵌套的数据结构,例如具有“名称”、“电子邮件”等属性和“订单历史记录”对象数组的客户配置文件。
元数据或有关数据的数据,提供有关数据集的基本上下文,包括有关其来源、用途和使用准则的详细信息。这些信息有助于确保数据集保持可解释性,并与其他系统有效集成。
并非所有数据集合都是数据集。不相关的数据点的随机积累通常不会构成数据集,除非存在适当的组织和结构以进行有意义的分析。
同样,尽管应用程序编程接口 (API)、数据库和电子表格可以与数据集交互或包含数据集,但它们本身不一定是数据集。
API 允许应用程序相互通信,这有时涉及访问和交换数据集。数据库和电子表格是信息的容器,其中可以包括数据集。
数据集类型
组织通常处理 3 种主要类型的数据集,通常根据其处理的数据类型进行分类:
结构化数据集非结构化数据集半结构化数据集
组织通常结合使用多种类型的数据集来支持全面的数据分析策略。例如,零售企业可能会分析结构化销售数据以及非结构化客户评论和半结构化 Web 分析,以更好地了解客户行为和偏好。
结构化数据集
结构化数据集以预定义格式组织信息,通常是具有明确定义的行和列的表格。这些数据集是许多关键业务流程的基础,例如客户关系管理 (CRM) 和库存管理。
由于结构化数据集遵循一致的模式,因此它们可以实现快速查询和可靠的分析。这使得结构化数据集成为需要精确、可量化数据的商业智能工具和报告系统的理想选择。
结构化数据集的常见示例包括:
在 Excel 电子表格中整理的财务记录,具有已定义的日期、金额和类别字段。采用面向联系信息和购买历史记录的标准化格式的客户数据库。库存系统跟踪产品数量、位置和移动。传感器数据流为设备监控和预测性维护提供统一的指标。
非结构化数据集
非结构化数据集包含不符合传统数据模型或僵化架构的信息。虽然这些数据集需要更复杂的处理工具,但它们通常包含结构化数据格式无法捕获的丰富洞察分析。
组织依靠非结构化数据集来支持人工智能和机器学习模型。这些数据集提供了培训 AI 模型和开发更先进的分析功能所需的多样化的真实数据。
非结构化数据集的常见示例包括:
文本文档,例如电子邮件、报告和网页。用于培训机器学习模型的图像和视频。实际应用程序中的录音。聊天记录和客户服务记录。
半结构化数据集
半结构化数据集弥合了结构化数据与非结构化数据之间的差距。虽然它们不遵循严格的架构,但却包含既定的语法或标记来帮助以灵活、但可解析的格式对信息进行组织。
这种混合方法使得半结构化数据集对于需要处理不同数据类型同时维护某种组织结构的现代数据整合项目和应用程序很有价值。
半结构化数据集的常见示例包括:
Web 应用程序和 API 中使用的 JSON、HTML 与 XML 文件。包含格式化字段和自由格式文本的日志文件。结合多种数据格式以实现更广泛可访问性的公共数据集。
Mixture of Experts | 12 月 12 日,第 85 集
解码 AI:每周新闻摘要
加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。
观看 Mixture of Experts 所有剧集
数据集来源
组织从多个来源收集数据来构建支持各种业务计划的数据集。数据源可以直接决定数据集的质量和效用。
部分常见的数据源包括:
数据存储库数据库应用程序编程接口 (API)公共数据平台
数据存储库
数据存储库是数据的集中存储区域。专有数据存储库通常存储敏感数据或业务关键数据,如客户记录、财务交易或提供竞争优势的运营指标。
其他数据存储库也是公开可用的。例如,GitHub 等平台在托管代码的同时还托管开源数据集。研究人员和组织可以使用这些公共数据集在机器学习模型和数据科学项目上进行公开合作。
数据库
数据库是经过优化的数字数据存储库,可根据需要安全存储和轻松检索数据。
数据库可以包含单个数据集或多个数据集。用户可以通过运行使用结构化查询语言 (SQL) 等专门语言的数据库查询来快速提取相关数据点。
应用程序编程接口 (API)
API 可连接不同的软件应用程序,以便它们能进行通信。数据消费者可使用 API 从已连接的来源(例如 Web 服务和数字平台)实时捕获数据,并将其传输到其他应用程序和存储库以供使用。
数据科学家经常使用 Python 等语言来构建自动数据收集管道,Python 为 API 集成和数据处理提供了强大的库。例如,零售分析系统可能会使用这些自动化管道从电子商务店铺和库存管理系统持续收集客户购买数据和库存水平。
公共数据平台
Data.gov 等网站和城市级别的开放数据计划(如 New York City Open Data)提供对数据集的免费访问,其中包括医疗保健、交通和环境指标。研究人员可以使用这些数据集来研究从交通模式到公共健康趋势的一切事物。
数据集用例
从推动人工智能到实现数据驱动的洞察分析,数据集是多项关键业务和技术计划的基础。
数据集的一些最常见的应用包括:
人工智能 (AI) 和机器学习 (ML)数据分析和洞察分析商业智能 (BI)
人工智能 (AI) 和机器学习 (ML)
人工智能 (AI) 有可能成为许多组织的关键差异化因素。
据 IBM 商业价值研究院的调查,72% 的绩效优异 CEO 认为,他们的竞争优势依赖拥有最先进的生成式 AI。这些尖端的 AI 系统依靠大量的数据集(包括已标记和未标记的数据集)来有效地训练模型。
利用全面的训练数据,组织可以开发执行复杂任务的 AI 系统,例如:
自然语言处理 (NLP):NLP 模型依靠英语与多语言数据集来掌握人类语言,并为大型语言模型 (LLM)、聊天机器人、翻译服务和文本分析工具等应用提供支持。例如,客服聊天机器人可使用 NLP 来分析先前支持对话的数据集,以学习如何解答常见问题。
计算机视觉:利用已标记的图像数据集,AI 可以学习识别物体、面部和视觉模式。计算机视觉有助于推动自动驾驶汽车、医学成像分析等领域的创新。例如,医疗保健领域的 AI 系统可以分析医学扫描数据集,从而高精度地检测疾病的早期迹象。
预测性分析:预测性分析依靠结构化数据集来训练模型,以预测现实世界的结果,例如住房价格和消费者需求。这些回归模型通过分析历史数据模式来做出准确的预测,例如,分析多年的销售数据来预测季节性需求并优化库存水平。
研究:AI 系统可以处理大量数据集,以发现新的洞察分析并加速创新。例如,制药公司可以使用 AI 来分析分子数据集,比传统方法更快地识别有前景的候选新药。
数据分析和洞察分析
数据科学家和分析师利用数据集来提取有价值的洞察分析,并推动跨学科的发现。随着各组织收集比以往任何时候都多的数据,数据分析对于检验假设、识别趋势和揭示为战略决策提供依据的关系变得至关重要。
数据集辅助数据分析的一些常见方式包括:
模式识别:对大量数据集进行高级分析,可揭示隐藏的趋势、相关性和异常,组织可以用来识别机会和降低风险。例如,零售公司可以通过分析交易数据来发现假日季的购买趋势。
数据可视化:可视化工具通过使用图表、图形和仪表板使数据更易于访问,从而将复杂的数据集转化为清晰且可操作的洞察。例如,公司可以利用交互式仪表板来显示销售和收入趋势,帮助管理人员快速掌握性能指标并做出明智决策。
统计分析:使用严格的统计方法,数据科学家可以将原始数据集转化为可量化的洞察分析,从而帮助衡量显著性并验证研究结果。例如,金融分析师可能会根据数据集计算指标来评估市场表现。
假设检验:数据科学家可以使用实验数据集来验证理论并评估潜在解决方案,为业务和研究决策提供循证支持。例如,制药公司可能会分析临床试验数据集以确定新药的疗效。
商业智能 (BI)
组织使用商业智能 (BI) 来发现数据集中的洞察分析并推动实时决策。
BI 工具可以帮助分析各种类型的数据,以识别趋势、监控性能并发现新的机会。部分应用场景包括:
实时监控:借助指标数据集和关键绩效指标 (KPI),组织可持续了解运营效率和系统性能。例如,物流公司在假日旺季使用实时监控来跟踪交付时间并快速解决延误问题。
客户行为分析: 交易和参与数据集有助于揭示购买模式和客户偏好。然后,组织可以利用这些洞察分析来制定有针对性的营销战略并改善各个接触点的客户体验。
时间序列分析:借助顺序数据集和历史数据集,组织可以更好地跟踪随时间推移的性能趋势和模式。例如,能源提供商分析时间序列数据以预测电力需求峰值并做好准备,从而提高电网可靠性,改善客户服务。
供应链优化:集成数据集可帮助组织简化物流与供应商管理。例如,零售商可以分析库存水平、运输数据和供应商性能指标,以优化补货时间表并降低运输成本。
数据集注意事项
为任何计划处理庞大而复杂的数据集都会带来一些挑战和需要考虑的问题。其中最明显的一些包括:
数据质量:维护数据集中的数据完整性和质量至关重要。否则,不完整或不准确的数据可能会导致误导性的结果。例如,一个各列格式不一致的数据集可能会破坏工作流并使分析产生偏差。随着数据集规模的扩大,标准化格式和删除重复数据等验证技术有助于确保数据的准确性和一致性。
互操作性和数据集成:集成不同来源或格式的数据集可能会带来挑战,例如将 CSV 文件与 JSON 数据合并。创建统一的模式或标准化数据格式有助于应对这些挑战并调整数据结构,以帮助确保系统兼容性。
道德与偏见:数据集包含个人身份信息 (PII) 或有偏见的数据会引发道德和隐私问题。例如,在有偏见的数据集上训练的 AI 模型可能会导致歧视性的结果,如不公平的招聘行为。评估训练数据是否存在偏差并实施数据匿名化等隐私保护措施,有助于减少潜在问题。
数据集管理:不断增长的数据量和用例范围不断扩大,使数据集管理变得越来越复杂。优先考虑数据集创建、维护和治理的稳妥流程,有助于确保数据质量和可访问性,同时遵守数据隐私法律法规,如《通用数据保护条例》(GDPR) 和《加州消费者隐私法案》(CCPA)。
脚注
1 由于 AI 技术,组织正在更新其 D&A 运营模式,Gartner,2024 年 4 月 29 日。