▼
AI之火的燎原之势延续至2024年,甚至任何不运用AI的人都开始被贴上了“时代落后者”的标签。
2月20日,汇丰发布了一份题为《AI能代替我工作吗?》的实验分析报告,在报告中,汇丰数据科学与分析主管Mark McDonald比较了ChatGPT的“高级数据分析”模块与人类分析师的表现,得出结论:
此次试验中,AI的表现非常好且仍在不断进步,但还未到能取代数据分析师的水平,AI的运用更倾向于实现特定任务的自动化,而不是完全替代人类的全部职责和工作。数据分析师在借助AI工具后,生产力的水平已经得到了显著提升。
汇丰称,在实验过程中,他们采用了一个公开的数据集——各州Zillow房屋价值指数,让人类数据科学家和 ChatGPT分别对该数据集进行探索性数据分析 (EDA)。
汇丰认为,上述任务对于AI工具(如ChatGPT)来说是一个挑战,原因如下:
AI分析师与人类分析师工作对比
首先在数据处理过程中,人类分析师采取的方法是进行数据行列转置(dataframe),运用这种方法,原来作为列名的日期变为索引值,原来的RegionName列的值变成了新的列名。这样做的结果是丢失了其他元数据列(如RegionID, SizeRank, RegionType和StateName),这些信息被放到了一个单独的元数据对象中。
AI采取的方法是在pandas中使用melt函数,来将宽格式的数据框转换为长格式,melt方法的好处是所有元数据都保留在同一个数据框对象中。
在这个例子中,元数据并不是特别有用,所以两种方法都可行。但在其他元数据更为重要的数据集中,人类分析师的方法可能需要后续在分析中执行大量的联接或合并操作,会比较麻烦。
与此同时,AI在写代码的过程中会有大量的注释,这有助于理解代码的目的和功能。相比之下,人类在进行数据分析的过程中往往不愿意花时间写注释,因为这会占用较多时间。
但AI生成的代码中存在较多的注释对于提高代码质量和促进团队间的协作是有益的,虽然人类不喜欢写注释,但他们很喜欢看别人的代码时能看到这些注释。
这也是AI如何和人类分析师有效合作的案例,下图所示的案例中,AI使用了一个名为folium的Python包来创建可视化地图,这是人类分析师未曾使用过的工具,但通过查看AI生成的代码和完整的工作示例,人类分析师能够迅速学习如何创建类似的可视化效果。
同时,在AI生成可视化交互图中存在一个问题,即缺失数据的颜色编码与表示低增长率的颜色编码相同,这会引起混淆。人类分析师通过修改AI的代码,很好的解决了这个问题,改进后的可视化图例如下,其中用蓝色标出了缺失数据的州,这样使得可视化信息更加清晰易懂。
尽管AI熟悉计量经济学的文献,能够建议对数据应用ARIMA模型,但它仍然犯了一个在非平稳数据上计算相关性的错误。这一点也表明了AI与人类在处理知识方面的不同。
人类一旦在计量经济学方面受到良好的训练,通常不会再犯这样的错误,而AI尽管知道相关理论,但在实际应用中仍然可能犯错。在使用AI进行数据分析时,仍然需要人类专家的监督来避免得出错误或危险的结论。
我们再次要求AI使用价格环比百分比变化而不是价格本身进行分析。这次分析的结果可以看到非平稳数据的重要性。
当使用非平稳数据(即价格水平)进行相关性评估时,AI错误评估德克萨斯州和夏威夷州之间的相关系数(高达94%)。而当分析方法被修正后,这两个州之间的相关系数降至58%。
1. 数据概览:
显示数据集的前几行和后几行。检查每列的数据类型和非空值计数。获取数值列的基本数据摘要。2. 处理缺失值:
识别有缺失值的列。采用适当的策略来处理这些问题,如删除空值数据或给空值赋值。3. 时间分析:
绘制房价总体变化趋势。识别周期性或循环趋势。高亮异常点或异常事件。4. 地区分析:
识别平均房价最高和最低的州。分析各州的增长率,找到增长最快和下降最快的市场。如果可能,在地图上可视化数据,发现区域分布图。5. 分布分析:
绘制直方图或核密度分布估算图,以了解房价的分布情况。
使用箱形图识别异常值并比较不同州之间的分布。6. 相关性分析:
计算不同州之间房价的成对相关性,识别关系。使用热图可视化相关性。7. 分解:
如果数据集显示明显的趋势或周期性,进行时间序列分解,分离趋势、周期性和残差。8. 频率分析:
分析房价大幅上涨或下跌的频率。识别出现峰值或低谷的特定月份或季节。9. 统计测试:
根据问题或假设,进行适当的统计检验。例如,如果要知道两个州之间的价格差异是否具有统计学显著性意义,可以使用t检验。10. 特征工程(如果计划建模):
创建滞后特征、移动均值和其他衍生特征,这些特征对预测建模可能有用。11. 洞察和记录:
在探索性数据分析的过程中,记录所有重要的发现和见解。这对后续决策或结果展示很有用。12. 可视化:
使用各种可视化工具和技术,以直观和深刻的方式表示数据,包括线图、条形图、散点图、热图等。13. 最终报告:
总结关键的分析结果,提供基于分析的可操作性建议或推荐。
END