返回首页
最新
新西兰国会议员需要每年披露他们的财务利益(如股份、董事职务、顾问等),但这些信息每年以超过80页的庞大PDF文件发布,难以有效搜索。我从PDF中处理了结构化数据,并建立了一个可搜索的界面:<a href="https://open-register-of-pecuniary-interests.joshmcarthur.com/" rel="nofollow">https://open-register-of-pecuniary-interests.joshmcarthur.com/</a>。
您可以通过姓名、公司或利益类型搜索所有议员披露的利益。例如,您可以快速找到哪些议员在特定行业或公司有利益,并按类别或政党进行筛选。
数据提取过程很有趣——我发现采用双重处理的方法与Gemini 2.5 Flash配合得很好——第一次提取议员姓名和引用的页码,然后提取每位议员出现的具体页面,并仅从这些页面中提取结构化数据。
这种方法也可以适用于其他国家的类似透明度登记册——大多数似乎以PDF格式发布开放数据,虽然在技术上符合要求,但并不是最便于使用的格式。即使在新西兰,我也计划扩展我处理的数据,涵盖前几年的数据,以及处理地方和区域议会的数据(这些议会同样有法律要求披露议员的财务利益)。
该项目已开源,地址为<a href="https://github.com/joshmcarthur/open-register-of-pecuniary-interests" rel="nofollow">https://github.com/joshmcarthur/open-register-of-pecuniary-interests</a>。
技术栈:Ruby on Rails,SQLite(FTS5),Tailwind/DaisyUI——保持轻量化,因为这只是一个使公共数据更易获取的副项目。
我想了解一下在Hacker News社区中,这个产品的受欢迎程度,以及分享我们制作的产品是否值得。
当我大学毕业并且二十多岁的时候,我总是忙于各种副业,创办初创公司,并尽可能多地获取关于新技术的知识。我记得当iPhone发布时,我会利用通勤的每一分钟学习如何开发应用程序。
现在我有了家庭,年纪也大了一些,感觉自己的雄心大减。我不再渴望创业或从事副项目。确实,这在很大程度上是因为我时间变少了,但即使在工作中,我也完全没有学习新事物或晋升的欲望。
有没有办法让我重新找回那份雄心呢?