skip navigation
skip mega-menu
Posts

Imperfect Intelligence, Part II – A biased system

机器学习和人工智能的巨大潜力和前景正在金融服务行业开花结果, with 截至2017年,80%的企业已经在投资人工智能技术. This industry is expected to grow to US$57.6 billion by 2021, 承诺提供更准确、客观的判断,帮助预测, predict and make decisions.

正如我们所看到的,数据不是客观的,而是人类设计的产物. My previous article 讨论了无意识的偏见如何在数据被输入机器学习程序之前就渗透到数据中. 下一个合乎逻辑的步骤是调查一些被人工智能算法本身放大的隐藏偏见.

1. Extrapolation

Say one system is fed income data and determines, based on that specific sample, that males generally make more than females. 如果另一个项目使用这一决定来对小企业贷款进行资格评估, 该算法可能错误地推断,男性是小企业成功的主要特征,并可能使女性贷款申请人处于不利地位.

Extrapolation from data happens all the time. According to one ridiculous article, robots will replace 950,美国100万地面和维修工人中有000人 ——尽管目前这个领域几乎没有自动化,当然也没有“机器人”可以取代繁重的体力劳动. 在这个案例中,结论是根据牛津大学就业报告中错误的外推数据得出的, 而且它也没有考虑到新技术创造就业机会的速度,而这些就业机会可能并不存在. 如果人类分析师即使提供了背景也会犯外推错误, 这些问题将不可避免地存在于人工智能程序中.

2. Butterfly effect

Also known as “chaotic systems”, 在这种情况下,数据中的一个小调整可能会导致输出的重大变化. The best example here is weather forecasting, which has too many inextricable factors to consider, 这使得在未来几天内做出准确预测几乎是不可能的.

Imagine a system used to create economic forecasts. Even with a mass of holistic data, 机器总是很难准确地预测未来会发生什么,因为不相关的、往往是微妙的事件会对经济产生巨大的、意想不到的影响. 根据一个看似无所不能的机器的预测采取行动是很容易的, but we should certainly be hesitant when doing so. 银行需要能够在一定程度的不确定性下运营, for one little incident could unleash a huge ripple effect. Like Brexit.

虽然有些人可能会建议更大的初始训练数据集可以缓解这种情况, 内特·西尔弗认为,如果“可用信息的数量呈指数增长, there is likewise an 要研究的假设数量呈指数增长.“一个微小的数据元素就有可能改变整个大数据系统, 它阻碍了机器学习系统正确定位它们所寻求的答案的能力,也阻碍了人类正确解释输出的能力.

3. Correlations vs causation

相关性仅仅是两组变量之间的关系, and this relationship can be caused by three potential factors; pure coincidence, the influence of a mutual third external factor, or the effect of one variable on the other. 当机器错误地将相关性解释为真正的因果关系时,就会出现大问题, creating biased feedback loops.

以一家银行为例,该银行利用其历史数据创建了一个人工智能程序,以识别哪些客户可能会实施信贷欺诈. Using the results, 该行将更多资金用于调查这些客户, and in doing so, finds more crime. If this data is fed back into the deep learning program, 这将强化其发现,即这些顾客最有可能引发犯罪, 尽管很有可能查明的较高犯罪率是由于加强审查造成的. 机器将在恶性循环中从这些反馈中学习,从而损害其未来准确检测欺诈的能力.

Successful Uses of Machine Learning

大家都在关注人工智能的惊人能力, 培养更好的习惯和理解数据以及深度学习的工作原理是至关重要的, so that the algorithms are prepared and trained properly. 利用客户洞察力对机器学习输出进行三角测量, 常识和历史数据可以帮助减少人工智能的错误. Data should be used to inform decisions, 但我们需要意识到,实施制衡是为了监督自动化计划的成功.

在信息革命时代,工业各个方面的数字化程度都在不断提高. Whether you are working in agriculture, medicine, banking, transportation, construction or social media, AI and ML are being implemented everywhere. 抓住这些数字机遇是加速进步的关键, 但重要的是要理解并尽量减少可能影响深度学习程序的数据偏差.

Subscribe to our newsletter

Sign up here