Descriptive Stats
by akira82-ai
对CSV/Excel数据进行描述性统计分析。当用户需要"统计分析"、"数据分布"、"描述统计"、"查看数据特征"、"异常值检测"、"数据探索"或请求分析数值数据时使用此skill。
Skill Details
Repository Files
22 files in this skill directory
name: descriptive-stats description: 对CSV/Excel数据进行描述性统计分析。当用户需要"统计分析"、"数据分布"、"描述统计"、"查看数据特征"、"异常值检测"、"数据探索"或请求分析数值数据时使用此skill。 version: 1.0.0 allowed-tools: Read, Bash, Skill model: claude-sonnet-4-20250514
描述性统计分析 Skill
提供产品级的描述性统计分析功能,支持CSV和Excel数据文件的交互式数据分析。自动计算基础统计量、分析数据分布、检测异常值、进行分组对比分析,并以终端表格或HTML交互报告的形式展示结果。
核心功能
1. 基础描述统计
自动计算数值列的完整描述性统计量:
- 中心趋势: 均值、中位数、众数
- 离散程度: 标准差、方差、极差、四分位距(IQR)
- 位置量数: 最小值、最大值、四分位数(Q1, Q2, Q3)、指定百分位数
- 分布形状: 偏度(Skewness)、峰度(Kurtosis)
- 变异系数: 用于比较不同数据集的相对变异性
2. 分布分析
评估数据分布特征:
- 正态性检验: Shapiro-Wilk检验、Kolmogorov-Smirnov检验、D'Agostino检验
- 可视化分析: 直方图、核密度估计图、Q-Q图
- 分布参数: 偏度和峰度的解释和判断
3. 异常值检测
使用多种方法识别异常值:
- IQR方法: 基于1.5倍IQR规则识别异常值
- Z-score方法: 基于标准差倍数识别异常值
- 一致性检测: 结合多种方法的共识结果
- 异常值标注: 在可视化中突出显示异常值
4. 分组对比分析
按类别变量分组进行统计分析:
- 分组统计量: 各组的描述性统计量对比
- 差异检验: ANOVA、Kruskal-Wallis检验
- 可视化对比: 箱线图、小提琴图、分组条形图
- 效应量: Cohen's d、Eta-squared等效应量指标
使用方式
交互式分析模式
直接调用skill进入交互式分析流程:
请分析这个CSV文件的统计特征
对数据进行描述性统计分析
交互式模式会引导完成:
- 选择或指定数据文件(支持CSV、Excel格式)
- 预览数据并选择要分析的列
- 选择分析类型(基础统计、分布分析、异常值检测、分组对比)
- 选择输出方式(终端表格、HTML报告)
- 查看和解释分析结果
直接指定文件分析
指定文件路径进行快速分析:
分析 /path/to/data.csv 的统计特征
对 /path/to/data.xlsx 进行描述性统计
批量分析
对多个列进行完整分析:
对数据文件进行完整的统计分析,包括所有数值列
分组分析
指定分组变量进行对比分析:
按部门分组分析薪资数据
比较不同类别的产品评分分布
数据要求
支持的数据格式
- CSV文件: 逗号分隔值文件,支持UTF-8编码
- Excel文件: .xlsx、.xls格式,支持多sheet工作簿
数据列类型自动识别
- 数值列: 自动识别整数和浮点数列进行分析
- 分类列: 自动识别文本和类别列用于分组分析
- 日期列: 自动识别日期时间列(可用于时间序列分析)
数据质量检查
自动检查并报告:
- 缺失值数量和比例
- 数据类型一致性
- 潜在的数据质量问题
- 建议的处理策略
输出格式
终端表格输出
在终端直接显示分析结果:
- Rich表格: 彩色、格式化的统计量表格
- 进度指示: 长时间操作的进度条
- 分页显示: 大表格支持分页浏览
- 交互式菜单: 支持进一步探索分析
HTML交互报告
生成包含交互式图表的HTML报告:
- 响应式布局: 适配不同屏幕尺寸
- 交互式图表: Plotly图表支持缩放、悬停提示
- 完整分析报告: 包含统计量、图表、数据表
- 导出功能: 支持导出为PDF或图片格式
分析深度选择
快速概览
- 基础统计量
- 简要可视化
- 适合快速数据探索
标准分析
- 完整描述统计
- 分布分析和可视化
- 异常值检测
- 适合常规数据分析
深度分析
- 所有标准分析内容
- 正态性检验
- 分组对比和差异检验
- 效应量计算
- 适合研究报告和数据论文
统计方法说明
中心趋势量数选择
- 均值: 适用于正态分布数据,受极端值影响
- 中位数: 适用于偏态分布,对异常值不敏感
- 众数: 适用于分类数据或离散值
离散程度量数选择
- 标准差: 与均值配合使用,受极端值影响
- IQR: 与中位数配合使用,稳健的离散量数
- 变异系数: 用于比较不同量纲数据的变异程度
分布形状解释
- 偏度: 描述分布的对称性
- 偏度 > 0: 右偏(正偏),长尾在右侧
- 偏度 < 0: 左偏(负偏),长尾在左侧
- 偏度 ≈ 0: 对称分布
- 峰度: 描述分布的尖锐程度
- 峰度 > 3: 尖峰分布(Leptokurtic)
- 峰度 < 3: 平峰分布(Platykurtic)
- 峰度 ≈ 3: 正态分布峰度
异常值判断标准
- IQR方法: Q1 - 1.5×IQR 或 Q3 + 1.5×IQR 之外的值
- Z-score方法: |Z-score| > 3 的值(约99.7%置信度)
- 共识方法: 同时被多种方法识别为异常值的值
分组检验方法选择
- ANOVA: 组间方差齐性、正态分布
- Kruskal-Wallis: 非参数方法,不依赖分布假设
结果解释
统计显著性
- p < 0.001: 极显著差异(***)
- p < 0.01: 很显著差异(**)
- p < 0.05: 显著差异(*)
- p >= 0.05: 无显著差异
效应量大小
- Cohen's d:
- 小效应: d ≈ 0.2
- 中等效应: d ≈ 0.5
- 大效应: d ≈ 0.8
- Eta-squared (η²):
- 小效应: η² ≈ 0.01
- 中等效应: η² ≈ 0.06
- 大效应: η² ≈ 0.14
使用场景示例
场景1: 快速数据探索
用户需求:"我刚拿到一个销售数据文件,想快速了解数据分布"
执行流程:
- 加载数据并显示基本信息
- 自动选择数值列进行基础统计
- 生成关键变量的分布图
- 指出潜在的数据质量问题
场景2: 完整统计报告
用户需求:"生成一份完整的员工薪资分析报告"
执行流程:
- 计算所有薪资相关的统计量
- 进行正态性检验
- 检测异常高/低薪资
- 按部门分组对比分析
- 生成包含图表的HTML报告
场景3: 异常值深入分析
用户需求:"找出这批数据中的异常值并分析原因"
执行流程:
- 使用多种方法检测异常值
- 可视化显示异常值位置
- 提供异常值的详细信息
- 建议异常值处理策略
场景4: 分组对比研究
用户需求:"比较不同产品类别的用户评分分布"
执行流程:
- 按类别计算描述统计量
- 进行差异显著性检验
- 创建箱线图和小提琴图对比
- 计算效应量
- 生成分组对比报告
最佳实践
分析流程建议
- 数据加载和预览: 首先了解数据的基本结构
- 数据质量检查: 识别缺失值、异常值、数据类型问题
- 基础统计分析: 计算描述性统计量,了解数据特征
- 可视化探索: 通过图表发现数据模式
- 深入分析: 根据研究目的选择适当的深入分析方法
- 结果解释: 结合实际背景解释统计结果
统计报告规范
遵循SAMPL(Statistical Analyses and Methods in the Published Literature)指南:
- 报告完整的描述性统计量(中心趋势和离散程度)
- 明确说明使用的统计方法和检验类型
- 报告精确的p值,而非仅p < 0.05
- 提供效应量和置信区间
- 可视化应清晰标注
常见陷阱避免
- 不要只报告均值而不报告离散程度
- 不要在偏态分布中使用均值作为代表性值
- 不要忽视异常值的影响
- 不要对小样本进行正态性检验
- 不要过度解读统计显著性而忽视实际意义
扩展资源
参考文档
详细统计方法说明和可视化指南参见:
references/statistical-methods.md- 统计方法详解references/visualizations.md- 可视化指南references/best-practices.md- 最佳实践
使用示例
完整的使用示例和工作流程参见:
examples/basic-analysis.md- 基础分析示例examples/advanced-analysis.md- 高级分析示例
技术实现
分析脚本位于 scripts/ 目录:
cli.py- 主命令行入口和交互式界面core/- 核心分析模块visualization/- 可视化模块reporting/- 报告生成模块
常见问题
Q: 支持哪些数据格式? A: 目前支持CSV和Excel(.xlsx、.xls)格式。确保数值列使用正确的数据类型。
Q: 如何处理缺失值? A: Skill会自动检测缺失值并报告数量。计算时会自动排除缺失值。建议在分析前决定缺失值处理策略。
Q: 大数据集分析会慢吗? A: Skill使用pandas进行高效数据处理。对于非常大的数据集,会自动采样或使用增量计算。
Q: 可以同时分析多个文件吗? A: 可以指定多个文件或使用通配符,skill会依次分析并生成汇总报告。
Q: 如何引用分析结果? A: HTML报告包含所有统计量和方法说明,可直接用于学术或商业报告。注意说明使用的工具版本。
Q: 分析结果可以导出吗? A: 终端输出可以复制。HTML报告可以导出为PDF,图表可以保存为PNG/SVG格式。统计量可以导出为CSV。
Q: 支持中文列名和数据吗? A: 完全支持中文列名、中文数据和中文报告。确保数据文件使用UTF-8编码。
Q: 如何选择合适的统计方法?
A: Skill会根据数据特征自动推荐方法。也可以参考references/statistical-methods.md了解各方法的适用场景。
Related Skills
Attack Tree Construction
Build comprehensive attack trees to visualize threat paths. Use when mapping attack scenarios, identifying defense gaps, or communicating security risks to stakeholders.
Grafana Dashboards
Create and manage production Grafana dashboards for real-time visualization of system and application metrics. Use when building monitoring dashboards, visualizing metrics, or creating operational observability interfaces.
Matplotlib
Foundational plotting library. Create line plots, scatter, bar, histograms, heatmaps, 3D, subplots, export PNG/PDF/SVG, for scientific visualization and publication figures.
Scientific Visualization
Create publication figures with matplotlib/seaborn/plotly. Multi-panel layouts, error bars, significance markers, colorblind-safe, export PDF/EPS/TIFF, for journal-ready scientific plots.
Seaborn
Statistical visualization. Scatter, box, violin, heatmaps, pair plots, regression, correlation matrices, KDE, faceted plots, for exploratory analysis and publication figures.
Shap
Model interpretability and explainability using SHAP (SHapley Additive exPlanations). Use this skill when explaining machine learning model predictions, computing feature importance, generating SHAP plots (waterfall, beeswarm, bar, scatter, force, heatmap), debugging models, analyzing model bias or fairness, comparing models, or implementing explainable AI. Works with tree-based models (XGBoost, LightGBM, Random Forest), deep learning (TensorFlow, PyTorch), linear models, and any black-box model
Pydeseq2
Differential gene expression analysis (Python DESeq2). Identify DE genes from bulk RNA-seq counts, Wald tests, FDR correction, volcano/MA plots, for RNA-seq analysis.
Query Writing
For writing and executing SQL queries - from simple single-table queries to complex multi-table JOINs and aggregations
Pydeseq2
Differential gene expression analysis (Python DESeq2). Identify DE genes from bulk RNA-seq counts, Wald tests, FDR correction, volcano/MA plots, for RNA-seq analysis.
Scientific Visualization
Meta-skill for publication-ready figures. Use when creating journal submission figures requiring multi-panel layouts, significance annotations, error bars, colorblind-safe palettes, and specific journal formatting (Nature, Science, Cell). Orchestrates matplotlib/seaborn/plotly with publication styles. For quick exploration use seaborn or plotly directly.
